python数据抓取3种方法总结

 更新时间:2021年02月07日 12:16:01   作者:呵呵样  
这篇文章主要给大家介绍了关于python数据抓取的3种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

三种数据抓取的方法

  • 正则表达式(re库)
  • BeautifulSoup(bs4)
  • lxml

*利用之前构建的下载网页函数,获取目标网页的html,我们以https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/为例,获取html。

from get_html import download

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)

*假设我们需要爬取该网页中的国家名称和概况,我们依次使用这三种数据抓取的方法实现数据抓取。

1.正则表达式

from get_html import download
import re

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)
country = re.findall('class="h2dabiaoti">(.*?)</h2>', page_content) #注意返回的是list
survey_data = re.findall('<tr><td bgcolor="#FFFFFF" id="wzneirong">(.*?)</td></tr>', page_content)
survey_info_list = re.findall('<p>  (.*?)</p>', survey_data[0])
survey_info = ''.join(survey_info_list)
print(country[0],survey_info)

2.BeautifulSoup(bs4)

from get_html import download
from bs4 import BeautifulSoup

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
html = download(url)
#创建 beautifulsoup 对象
soup = BeautifulSoup(html,"html.parser")
#搜索
country = soup.find(attrs={'class':'h2dabiaoti'}).text
survey_info = soup.find(attrs={'id':'wzneirong'}).text
print(country,survey_info)

3.lxml

from get_html import download
from lxml import etree #解析树

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)
selector = etree.HTML(page_content)#可进行xpath解析
country_select = selector.xpath('//*[@id="main_content"]/h2') #返回列表
for country in country_select:
 print(country.text)
survey_select = selector.xpath('//*[@id="wzneirong"]/p')
for survey_content in survey_select:
 print(survey_content.text,end='')

运行结果:

最后,引用《用python写网络爬虫》中对三种方法的性能对比,如下图:

仅供参考。

总结

到此这篇关于python数据抓取3种方法的文章就介绍到这了,更多相关python数据抓取内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python绘图之柱形图绘制详解

    Python绘图之柱形图绘制详解

    这篇文章主要介绍了Python绘图之柱形图绘制详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-07-07
  • 在Pytorch中计算卷积方法的区别详解(conv2d的区别)

    在Pytorch中计算卷积方法的区别详解(conv2d的区别)

    今天小编就为大家分享一篇在Pytorch中计算卷积方法的区别详解(conv2d的区别),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • Python如何实现后端自定义认证并实现多条件登陆

    Python如何实现后端自定义认证并实现多条件登陆

    这篇文章主要介绍了Python如何实现后端自定义认证并实现多条件登陆,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-06-06
  • Python使用arrow库优雅地处理时间数据详解

    Python使用arrow库优雅地处理时间数据详解

    虽然Python提供了多个内置模块用于操作日期时间,但有的时候并不能满足我们的需求,所以下面这篇文章主要给大家介绍了关于Python使用arrow库如何优雅地处理时间数据的相关资料,需要的朋友可以参考借鉴,下面来一起看看吧。
    2017-10-10
  • 无法使用pip命令安装python第三方库的原因及解决方法

    无法使用pip命令安装python第三方库的原因及解决方法

    今天小编就为大家分享一篇无法使用pip命令安装python第三方库的原因及解决方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-06-06
  • 决策树的python实现方法

    决策树的python实现方法

    这篇文章主要介绍了决策树的python实现方法,详细分析了决策树的优缺点及算法思想并以完整实例形式讲述了Python实现决策树的方法,具有一定的借鉴价值,需要的朋友可以参考下
    2014-11-11
  • Python+OpenCV实现六种常用图像特效

    Python+OpenCV实现六种常用图像特效

    这篇文章主要为大家介绍了用Python和OpenCV实现的六种常见图像特效:图像融合、灰度处理、马赛克效果、浮雕效果、毛玻璃效果和颜色反转,需要的可以参考一下
    2022-05-05
  • Python实现图像增强

    Python实现图像增强

    这篇文章主要为大家详细介绍了Python实现图像增强,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-08-08
  • Python超越函数积分运算以及绘图实现代码

    Python超越函数积分运算以及绘图实现代码

    今天小编就为大家分享一篇Python超越函数积分运算以及绘图实现代码,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-11-11
  • Python连接MySQL数据库并查找表信息

    Python连接MySQL数据库并查找表信息

    本文主要介绍了Python连接MySQL数据库并查找表信息,通过使用Python中的MySQL Connector模块,连接到MySQL服务器并执行SQL查询语句,可以获取表的结构、列信息、行数据等,感兴趣的可以了解一下
    2023-08-08

最新评论