Python基于pandas爬取网页表格数据

 更新时间:2020年05月11日 11:29:05   作者:HuaBro  
这篇文章主要介绍了Python基于pandas获取网页表格数据,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

以网页表格为例:https://www.kuaidaili.com/free/

该网站数据存在table标签,直接用requests,需要结合bs4解析正则/xpath/lxml等,没有几行代码是搞不定的。

今天介绍的黑科技是pandas自带爬虫功能,pd.read_html(),只需传人url,一行代码搞定。

原网页结构如下:

python代码如下:

import pandas as pd
url='http://www.kuaidaili.com/free/'
df=pd.read_html(url)[0] 
# [0]:表示第一个table,多个table需要指定,如果不指定默认第一个
# 如果没有【0】,输入dataframe格式组成的list
df

输出dataframe格式数据

再次保存到本地,csv格式,注意中文编码:utf_8_sig

print(type(df))df.to_csv('free ip.csv',mode='a', encoding='utf_8_sig', header=1, index=0)print('done!')

查看csv文件

先来了解一下read_html函数的api:

pandas.read_html(io, match='.+', flavor=None, header=None, index_col=None, skiprows=None, attrs=None, parse_dates=False, tupleize_cols=None, thousands=', ', encoding=None, decimal='.', converters=None, na_values=None, keep_default_na=True, displayed_only=True)

常用的参数:

  • io:可以是url、html文本、本地文件等;
  • flavor:解析器;
  • header:标题行;
  • skiprows:跳过的行;
  • attrs:属性,比如 attrs = {'id': 'table'};
  • parse_dates:解析日期

注意:返回的结果是**DataFrame**组成的**list**。

若要dataframe,直接取list【0】

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • Python使用gensim计算文档相似性

    Python使用gensim计算文档相似性

    在文本处理中,比如商品评论挖掘,有时需要了解每个评论分别和商品的描述之间的相似度,以此衡量评论的客观性。那么python 里面有计算文本相似度的程序包吗,恭喜你,不仅有,而且很好很强大。下面我们就来体验下gensim的强大
    2016-04-04
  • python 包中的sched 事件调度器的操作方法

    python 包中的sched 事件调度器的操作方法

    sched模块内容很简单,只定义了一个类。它用来最为一个通用的事件调度模块,接下来通过本文给大家介绍python 包之 sched 事件调度器教程,需要的朋友可以参考下
    2022-04-04
  • Python工程师面试题 与Python基础语法相关

    Python工程师面试题 与Python基础语法相关

    这篇文章主要为大家分享了Python工程师面试题,面试题的内容主要与Python基础语法相关,感兴趣的小伙伴们可以参考一下
    2016-01-01
  • Python内存泄漏和内存溢出的解决方案

    Python内存泄漏和内存溢出的解决方案

    这篇文章主要介绍了Python内存泄漏和内存溢出的解决方案,帮助大家维护后台进程,感兴趣的朋友可以了解下
    2020-09-09
  • python GUI多行输入文本Text的实现

    python GUI多行输入文本Text的实现

    这篇文章主要介绍了python GUI多行输入文本Text的实现方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-06-06
  • python更改已存在excel文件的方法

    python更改已存在excel文件的方法

    今天小编就为大家分享一篇python更改已存在excel文件的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-05-05
  • python存储16bit和32bit图像的实例

    python存储16bit和32bit图像的实例

    今天小编就为大家分享一篇python存储16bit和32bit图像的实例,具有的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12
  • PyTorch 如何自动计算梯度

    PyTorch 如何自动计算梯度

    这篇文章主要介绍了PyTorch 如何自动计算梯度的操作,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-05-05
  • python中f字符串f-string用法详解

    python中f字符串f-string用法详解

    f-string用大括号{}表示被替换字段,其中直接填入替换内容,本文给大家介绍python中f字符串f-string用法详解,感兴趣的朋友一起看看吧
    2023-10-10
  • django 连接数据库 sqlite的例子

    django 连接数据库 sqlite的例子

    今天小编就为大家分享一篇django 连接数据库 sqlite的例子,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-08-08

最新评论