3091浏览
查看: 3091|回复: 0

[教程] 从零开始学习Python爬虫

[复制链接]
回帖奖励 1 创造力 回复本帖可获得 1 创造力奖励! 每人限 1 次(中奖概率 20%)

                 闪亮登场



                                                            全民制作人们大家好!
今天我们要一起学习Python中非常重要的一个模块——`requests`。它是Python爬虫中缺一不可的模块!

什么是爬虫?通俗点讲,就是在网络上获取文件、代码等数据,由于作者能力有限,在教学的也是较为简单的类型,如果大家感兴趣,也可以在网上搜索更多资料

首先,我们需要导入`requests`模块。

在命令框中输入指令

'''
pip install requests

'''

等待安装完成,在代码的开头加上以下语句就可以完成导入:

'''
import requests

'''

好了,现在我们已经准备好使用`requests`模块了。接下来,我们需要选择一个URL(网址)来获取网页内容。

在这个示例中,我们选择了Mind+论坛的首页。你也可以选择你感兴趣的其他网址。

然后,我们使用`requests.get()`函数发送一个HTTP请求,获取网页的内容。将结果保存到一个变量中,我们命名为`response`:
'''
url = 'https://mc.dfrobot.com.cn/forum-165-1.html'
response = requests.get(url)

'''
这里,我们把URL传递给`requests.get()`函数,并把返回的结果赋值给`response`变量。

接下来,我们可以通过获取到的响应对象 `response` 来取得网页的内容。我们把它存在一个名为 `t` 的变量里:

'''
t = response.text

'''

现在,我们已经成功获取到了网页的内容,是不是很简单?

最后,我们可以使用 `print()` 函数将内容打印出来,完整代码为:


import requests


url = 'https://mc.dfrobot.com.cn/forum-165-1.html'


response = requests.get(url)


t = response.text
start_index = 0
end_index = 0






print(t)




运行程序,网页的代码就会在输出区显示出来了!


之后我们会继续优化这个程序,如果有建议欢迎留言~





您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

为本项目制作心愿单
购买心愿单
心愿单 编辑
[[wsData.name]]

硬件清单

  • [[d.name]]
btnicon
我也要做!
点击进入购买页面
上海智位机器人股份有限公司 沪ICP备09038501号-4

© 2013-2024 Comsenz Inc. Powered by Discuz! X3.4 Licensed

mail