查看: 12928|回复: 0

[教程] 从零开始学习Python爬虫


1 创造力	回复本帖可获得 1 创造力奖励! 每人限 1 次(中奖概率 20%)

闪亮

登场

全民制作人们大家好!

今天我们要一起学习Python中非常重要的一个模块——`requests`。它是Python爬虫中缺一不可的模块！

什么是爬虫？通俗点讲，就是在网络上获取文件、代码等数据，由于作者能力有限，在教学的也是较为简单的类型，如果大家感兴趣，也可以在网上搜索更多资料

首先，我们需要导入`requests`模块。

在命令框中输入指令

'''

pip install requests

'''

等待安装完成，在代码的开头加上以下语句就可以完成导入：

'''

import requests

'''

好了，现在我们已经准备好使用`requests`模块了。接下来，我们需要选择一个URL（网址）来获取网页内容。

在这个示例中，我们选择了Mind+论坛的首页。你也可以选择你感兴趣的其他网址。

然后，我们使用`requests.get()`函数发送一个HTTP请求，获取网页的内容。将结果保存到一个变量中，我们命名为`response`：

'''

url = 'https://mc.dfrobot.com.cn/forum-165-1.html'

response = requests.get(url)

'''

这里，我们把URL传递给`requests.get()`函数，并把返回的结果赋值给`response`变量。

接下来，我们可以通过获取到的响应对象 `response` 来取得网页的内容。我们把它存在一个名为 `t` 的变量里：

'''

t = response.text

'''

现在，我们已经成功获取到了网页的内容，是不是很简单？

最后，我们可以使用 `print()` 函数将内容打印出来，完整代码为：

import requests

url = 'https://mc.dfrobot.com.cn/forum-165-1.html'

response = requests.get(url)

t = response.text
start_index = 0
end_index = 0

print(t)

运行程序，网页的代码就会在输出区显示出来了！

之后我们会继续优化这个程序，如果有建议欢迎留言~

使用道具举报

为本项目制作心愿单

购买心愿单

心愿单 编辑

[[wsData.name]]

硬件清单

[[d.name]]

我也要做!

点击进入购买页面

撰写新帖

关于楼主

楼主的其它帖子

创造力兑换

心愿单

创客导航

热门版块