2815| 0
|
[教程] 从零开始学习Python爬虫 |
1 创造力 | 回复本帖可获得 1 创造力奖励! 每人限 1 次 |
闪亮登场 全民制作人们大家好! 今天我们要一起学习Python中非常重要的一个模块——`requests`。它是Python爬虫中缺一不可的模块! 什么是爬虫?通俗点讲,就是在网络上获取文件、代码等数据,由于作者能力有限,在教学的也是较为简单的类型,如果大家感兴趣,也可以在网上搜索更多资料 首先,我们需要导入`requests`模块。 在命令框中输入指令 ''' pip install requests ''' 等待安装完成,在代码的开头加上以下语句就可以完成导入: ''' import requests ''' 好了,现在我们已经准备好使用`requests`模块了。接下来,我们需要选择一个URL(网址)来获取网页内容。 在这个示例中,我们选择了Mind+论坛的首页。你也可以选择你感兴趣的其他网址。 然后,我们使用`requests.get()`函数发送一个HTTP请求,获取网页的内容。将结果保存到一个变量中,我们命名为`response`: ''' url = 'https://mc.dfrobot.com.cn/forum-165-1.html' response = requests.get(url) ''' 这里,我们把URL传递给`requests.get()`函数,并把返回的结果赋值给`response`变量。 接下来,我们可以通过获取到的响应对象 `response` 来取得网页的内容。我们把它存在一个名为 `t` 的变量里: ''' t = response.text ''' 现在,我们已经成功获取到了网页的内容,是不是很简单? 最后,我们可以使用 `print()` 函数将内容打印出来,完整代码为: url = 'https://mc.dfrobot.com.cn/forum-165-1.html' response = requests.get(url) t = response.text start_index = 0 end_index = 0 print(t) 运行程序,网页的代码就会在输出区显示出来了! 之后我们会继续优化这个程序,如果有建议欢迎留言~ |
© 2013-2024 Comsenz Inc. Powered by Discuz! X3.4 Licensed