详解Python爬虫爬取博客园问题列表所有的问题
一.准备工作
- 首先,本文使用的技术为 python+requests+bs4,没有了解过可以先去了解一下。
- 我们的需求是将博客园问题列表中的所有问题的题目爬取下来。
二.分析:
- 首先博客园问题列表页面右键点击检查
- 通过Element查找问题所对应的属性或标签
可以发现在div class ="one_entity"中存在页面中分别对应每一个问题
接着div class ="news_item"中h2标签下是我们想要拿到的数据
三.代码实现
首先导入requests和BeautifulSoup
import requests from bs4 import BeautifulSoup
由于很多网站定义了反爬策略,所以进行伪装一下
headers = { 'User-Agent': 'Mozilla / 5.0(WindowsNT10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 87.0.4280.141Safari / 537.36' }
在这里User-Agent只是其中的一种方式,而且大家的User-Agent可能不同。
爬取数据main代码
url = 'https://q.cnblogs.com/list/unsolved?' fp = open('blog', 'w', encoding='utf-8') for page in range(1,26): page = str(page) param = { 'page':page } page_text = requests.get(url=url,params=param,headers=headers).text page_soup = BeautifulSoup(page_text,'lxml') text_list = page_soup.select('.one_entity > .news_item > h2') for h2 in text_list: text = h2.a.string fp.write(text+'\n') print('第'+page+'页爬取成功!')
注意一下这里,由于我们需要的是多张页面的数据,所以在发送请求的url中我们就要针对不同的页面发送请求,https://q.cnblogs.com/list/unsolved?page=
我们要做的是在发送请求的url时候,根据参数来填充页数page,
代码实现:
url = 'https://q.cnblogs.com/list/unsolved?' for page in range(1,26): page = str(page) param = { 'page':page } page_text = requests.get(url=url,params=param,headers=headers).text
将所有的h2数组拿到,进行遍历,通过取出h2中a标签中的文本,并将每取出来的文本写入到文件中,由于要遍历多次,所以保存文件在上面的代码中。
text_list = page_soup.select('.one_entity > .news_item > h2') for h2 in text_list: text = h2.a.string fp.write(text+'\n')
完整代码如下:
import requests from bs4 import BeautifulSoup if __name__ == '__main__': headers = { 'User-Agent': 'Mozilla / 5.0(WindowsNT10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 87.0.4280.141Safari / 537.36' } url = 'https://q.cnblogs.com/list/unsolved?' fp = open('blog', 'w', encoding='utf-8') for page in range(1,26): page = str(page) param = { 'page':page } page_text = requests.get(url=url,params=param,headers=headers).text page_soup = BeautifulSoup(page_text,'lxml') text_list = page_soup.select('.one_entity > .news_item > h2') for h2 in text_list: text = h2.a.string fp.write(text+'\n') print('第'+page+'页爬取成功!')
四.运行结果
运行代码:
到此这篇关于详解Python爬虫爬取博客园问题列表所有的问题的文章就介绍到这了,更多相关Python爬虫爬取列表内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
相关文章
python 实现将小图片放到另一个较大的白色或黑色背景图片中
今天小编就为大家分享一篇python 实现将小图片放到另一个较大的白色或黑色背景图片中,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧2019-12-12关于Python Selenium自动化导出新版WOS(web of science)检索结果的问题
这篇文章主要介绍了Python Selenium自动化导出新版WOS(web of science)检索结果,本代码属于半自动化导出,考虑到开发效率等因素,有两处在首次导出时需要手动操作,具体实现过程跟随小编一起看看吧2022-01-01Python字符串通过''+''和join函数拼接新字符串的性能测试比较
今天小编就为大家分享一篇关于Python字符串通过'+'和join函数拼接新字符串的性能测试比较,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧2019-03-03python matplotlib 在指定的两个点之间连线方法
今天小编就为大家分享一篇python matplotlib 在指定的两个点之间连线方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧2018-05-05
最新评论