python数据抓取3种方法总结

 更新时间:2021年02月07日 12:16:01   作者:呵呵样  
这篇文章主要给大家介绍了关于python数据抓取的3种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

三种数据抓取的方法

  • 正则表达式(re库)
  • BeautifulSoup(bs4)
  • lxml

*利用之前构建的下载网页函数,获取目标网页的html,我们以https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/为例,获取html。

from get_html import download

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)

*假设我们需要爬取该网页中的国家名称和概况,我们依次使用这三种数据抓取的方法实现数据抓取。

1.正则表达式

from get_html import download
import re

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)
country = re.findall('class="h2dabiaoti">(.*?)</h2>', page_content) #注意返回的是list
survey_data = re.findall('<tr><td bgcolor="#FFFFFF" id="wzneirong">(.*?)</td></tr>', page_content)
survey_info_list = re.findall('<p>  (.*?)</p>', survey_data[0])
survey_info = ''.join(survey_info_list)
print(country[0],survey_info)

2.BeautifulSoup(bs4)

from get_html import download
from bs4 import BeautifulSoup

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
html = download(url)
#创建 beautifulsoup 对象
soup = BeautifulSoup(html,"html.parser")
#搜索
country = soup.find(attrs={'class':'h2dabiaoti'}).text
survey_info = soup.find(attrs={'id':'wzneirong'}).text
print(country,survey_info)

3.lxml

from get_html import download
from lxml import etree #解析树

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)
selector = etree.HTML(page_content)#可进行xpath解析
country_select = selector.xpath('//*[@id="main_content"]/h2') #返回列表
for country in country_select:
 print(country.text)
survey_select = selector.xpath('//*[@id="wzneirong"]/p')
for survey_content in survey_select:
 print(survey_content.text,end='')

运行结果:

最后,引用《用python写网络爬虫》中对三种方法的性能对比,如下图:

仅供参考。

总结

到此这篇关于python数据抓取3种方法的文章就介绍到这了,更多相关python数据抓取内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python使用xlrd模块操作Excel数据导入的方法

    Python使用xlrd模块操作Excel数据导入的方法

    这篇文章主要介绍了Python使用xlrd模块操作Excel数据导入的方法,涉及Python操作xlrd模块的技巧,需要的朋友可以参考下
    2015-05-05
  • 使用gunicorn部署django项目的问题

    使用gunicorn部署django项目的问题

    这篇文章主要介绍了使用gunicorn部署django项目,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-12-12
  • 关于python返回值return用法详解

    关于python返回值return用法详解

    这篇文章主要介绍了python中的return关键字,包括其含义、作用、默认返回值、不同整数值的含义、返回值的类型、函数作为参数传递以及在类方法中的特殊情况,需要的朋友可以参考下
    2024-12-12
  • Python把png转成jpg的项目实践

    Python把png转成jpg的项目实践

    本文主要介绍了Python把png转成jpg的项目实践,可以使用PIL库来将PNG图片转换为JPG格式,具有一定的参考价值,感兴趣的可以了解一下
    2024-02-02
  • Python轻松查找文本文件最热门单词技巧

    Python轻松查找文本文件最热门单词技巧

    本文将从文件读取、文本预处理到单词频率统计,以及性能优化和数据可视化等方面逐步展开,为你呈现一场深入学习的旅程,让我们一同探索如何用代码揭示文字中的故事,发现其中隐藏的信息,从而更好地理解和利用这个数字化时代的宝藏
    2024-01-01
  • python Django的显示个人信息详解

    python Django的显示个人信息详解

    这篇文章主要介绍了在Python的Django的显示个人信息方法,需要的朋友可以参考下,希望能够给你带来帮助
    2021-09-09
  • Python struct模块解析

    Python struct模块解析

    我们知道python只定义了6种数据类型,字符串,整数,浮点数,列表,元组,字典。但是C语言中有些字节型的变量,在python中该如何实现呢?这点颇为重要,特别是要在网络上进行数据传输的话。
    2014-06-06
  • Django Highcharts制作图表

    Django Highcharts制作图表

    Highcharts图表控件是目前使用最为广泛的图表控件 ,是纯JS图表库。这篇文章主要介绍了Django Highcharts制作图表的相关资料,非常的详细,有需要的小伙伴可以来参考下
    2016-08-08
  • Python中input和raw_input的一点区别

    Python中input和raw_input的一点区别

    这篇文章主要介绍了Python中input和raw_input的一点区别,它们都是用来读取控制台输入的函数,需要的朋友可以参考下
    2014-10-10
  • Python 一行代码能实现丧心病狂的功能

    Python 一行代码能实现丧心病狂的功能

    这篇文章主要介绍了Python 一行代码能实现丧心病狂的功能,需要的朋友可以参考下
    2020-01-01

最新评论