Python基于pandas爬取网页表格数据

 更新时间:2020年05月11日 11:29:05   作者:HuaBro  
这篇文章主要介绍了Python基于pandas获取网页表格数据,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

以网页表格为例:https://www.kuaidaili.com/free/

该网站数据存在table标签,直接用requests,需要结合bs4解析正则/xpath/lxml等,没有几行代码是搞不定的。

今天介绍的黑科技是pandas自带爬虫功能,pd.read_html(),只需传人url,一行代码搞定。

原网页结构如下:

python代码如下:

import pandas as pd
url='http://www.kuaidaili.com/free/'
df=pd.read_html(url)[0] 
# [0]:表示第一个table,多个table需要指定,如果不指定默认第一个
# 如果没有【0】,输入dataframe格式组成的list
df

输出dataframe格式数据

再次保存到本地,csv格式,注意中文编码:utf_8_sig

print(type(df))df.to_csv('free ip.csv',mode='a', encoding='utf_8_sig', header=1, index=0)print('done!')

查看csv文件

先来了解一下read_html函数的api:

pandas.read_html(io, match='.+', flavor=None, header=None, index_col=None, skiprows=None, attrs=None, parse_dates=False, tupleize_cols=None, thousands=', ', encoding=None, decimal='.', converters=None, na_values=None, keep_default_na=True, displayed_only=True)

常用的参数:

  • io:可以是url、html文本、本地文件等;
  • flavor:解析器;
  • header:标题行;
  • skiprows:跳过的行;
  • attrs:属性,比如 attrs = {'id': 'table'};
  • parse_dates:解析日期

注意:返回的结果是**DataFrame**组成的**list**。

若要dataframe,直接取list【0】

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • Python中的 Numpy 数组形状改变及索引切片

    Python中的 Numpy 数组形状改变及索引切片

    这篇文章主要介绍了Python中的 Numpy 数组形状改变及索引切片,Numpy提供了一个reshape()方法,它可以改变数组的形状,返回一个新的数组,更多相关内容需要的小伙伴可以参考下面文章
    2022-05-05
  • python中的整除向下取整的操作方法

    python中的整除向下取整的操作方法

    Python中的//是整数除法运算符,用于执行向下取整的除法,返回商的整数部分,不会四舍五入,它在分治法、索引计算和整数运算中非常有用,本文给大家介绍python中的整除向下取整的操作方法,感兴趣的朋友一起看看吧
    2025-03-03
  • 使用Python批量移除Word文档水印的代码示例

    使用Python批量移除Word文档水印的代码示例

    移除Word文档中的水印可以减少不必要的麻烦,通过使用Python这样的编程语言,我们可以轻松实现自动化操作,高效地移除Word文档中的水印,确保文档的专业性和准确性,本文将介绍如何使用Python批量移除Word文档中的水印
    2024-07-07
  • Python读取含url图片链接的txt文档方法小结

    Python读取含url图片链接的txt文档方法小结

    这篇文章主要为大家详细介绍了三种Python读取含url图片链接的txt文档方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下
    2024-04-04
  • Python爬虫获取全网招聘数据实现可视化分析示例详解

    Python爬虫获取全网招聘数据实现可视化分析示例详解

    这篇文章主要介绍了Python爬虫获取全网招聘数据实现可视化分析示例详解,实现采集一下最新的qcwu招聘数据,本文列举了部分代码以及实现思路,需要的朋友可以参考下
    2023-07-07
  • Python实现自动化处理Word文档的方法详解

    Python实现自动化处理Word文档的方法详解

    本文主要介绍了如何使用Python实现Word文档的自动化处理,包括批量生成Word文档、在Word文档中批量进行查找和替换、将Word文档批量转换成PDF等,希望对你有所帮助
    2022-08-08
  • Python实现曲线的肘部点检测详解

    Python实现曲线的肘部点检测详解

    肘部法则是经常使用的法则。很多时候,可以凭人工经验去找最优拐点,但有时需要自动寻找拐点。本文为大家介绍了Python实现曲线的肘部点检测的方法,希望对大家有所帮助
    2023-02-02
  • pycharm 安装JPype的教程

    pycharm 安装JPype的教程

    这篇文章主要介绍了pycharm 安装JPype的步骤,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-08-08
  • C语言实现二叉搜索树的完整总结

    C语言实现二叉搜索树的完整总结

    这篇文章主要介绍了C语言实现二叉搜索树的完整总结,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-04-04
  • keras自定义回调函数查看训练的loss和accuracy方式

    keras自定义回调函数查看训练的loss和accuracy方式

    这篇文章主要介绍了keras自定义回调函数查看训练的loss和accuracy方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-05-05

最新评论