Pandas数据如何读取与导出

 更新时间:2025年01月22日 11:06:25   作者:王小工  
Pandas是一个强大的Python库,用于数据处理和分析,它提供了多种文件格式的数据读取和导出方法,包括CSV、Excel、SQL数据库、JSON等,常用的数据读取方法为`pd.read_csv()`、`pd.read_excel()`等,导出方法为`to_csv()`、`to_excel()`等

Pandas数据读取与导出

Pandas 是一个强大的 Python 库,用于数据处理和分析。它提供了许多函数来读取和导入数据,支持多种文件格式,如 CSV、Excel、SQL 数据库、JSON 等。

以下是一些常用的数据读取和导出方法:

常用方法

格式文件格式读取函数写入(导出)函数
binaryExcelread_excelto_excel
textCSVread_csv read_tableto_csv
textJSONread_jsonto_json
text网页表格HTMLread_htmlto_html
text剪切板read_clipboardto_clipboard
SQ!LSQLread_sqlto_sql
XMLread_xmlread_xml
textMarkdownto_markdown

其中:

  • 读取函数一般会赋值给一个变量 df, df = pd.read_()
  • 输出函数是将变量自身进行操作并输出 df.to_()

常用函数方法

Excel 对象

~ pd.ExcelFile 对象
~ pd.ExcelWriter 对象
~ pd.ExcelWriter 对象的属性和方法

读取数据

~ pd.read_csv()
~ pd.read_excel()
~ pd.json_normalize()
~ pd.read_pickle()
~ pd.read_table()
~ pd.DataFrame.from_dict() 从字典创建 DataFrame
~ pd.read_clipboard() 从剪贴板读取数据
~ pd.read_json() 读取 JSON
~ pd.read_sql() 读取数据库数据
~ pd.read_fwf() 读取固定宽度格式文件
~ pd.read_html() 从 HTML 文档提取表格数据
~ pd.read_parquet() 读取 Parquet 文件

导出数据

~ to_csv() 导出为 CSV文件
~ to_excel() 导出为 Excel 文件
~ to_dict() 输出字典
~ to_pickle() 序列化为 pickle 文件
~ to_json() 转换为 JSON 格式字符串
~ to_html() 转换为 HTML 表格格式
~ to_sql() 写入到关系型数据库
~ to_parquet() 保存为 parquet 文件

数据读取

  1. 读取 CSV 文件
import pandas as pd
 
df = pd.read_csv('file.csv')
# 可以使用参数来调整读取行为,如分隔符、缺失值标记、列名等
  1. 读取 Excel 文件
df = pd.read_excel('file.xlsx', sheet_name='Sheet1')
# 可以指定工作表名称或索引,或者使用 sheet_name=None 来读取所有工作表
  1. 从 SQL 数据库读取
import sqlite3  # 或其他数据库连接库
 
conn = sqlite3.connect('database.db')
df = pd.read_sql_query('SELECT * FROM table_name', conn)
conn.close()
# 对于其他数据库,如 MySQL、PostgreSQL,需要使用相应的连接库和驱动
  1. 读取 JSON 文件
df = pd.read_json('file.json')
# 可以使用 orient 参数来指定 JSON 数据的布局
  1. 读取 HTML 表格
df = pd.read_html('http://example.com/page_with_table.html')[0]
# read_html 返回一个 DataFrame 列表,通常使用索引 [0] 来获取第一个表格
  1. 从剪贴板读取
df = pd.read_clipboard()
# 这对于从 Excel 等应用程序中复制数据特别有用

数据导出

  1. 导出到 CSV 文件
df.to_csv('output_file.csv', index=False)
# index=False 表示不导出 DataFrame 的索引
  1. 导出到 Excel 文件
df.to_excel('output_file.xlsx', sheet_name='Sheet1', index=False)
# 可以指定工作表名称和其他选项,如引擎(对于较新的 Pandas 版本,默认引擎为 'openpyxl')
  1. 导出到 SQL 数据库
conn = sqlite3.connect('database.db')
df.to_sql('table_name', conn, if_exists='replace', index=False)
conn.close()
# if_exists 参数可以是 'fail'(如果表存在则引发错误)、'replace'(替换表)、'append'(在表中添加数据)
  1. 导出到 JSON 文件
df.to_json('output_file.json', orient='records', lines=True)
# orient 参数可以指定 JSON 数据的布局,lines=True 表示每行是一个 JSON 对象
  1. 导出到 HTML 文件
with open('output_file.html', 'w') as f:
    f.write(df.to_html())
# 也可以使用 pandas 提供的 to_html() 方法生成 HTML 字符串,然后保存到文件中
  1. 导出到 Excel 的多个工作表
with pd.ExcelWriter('output_file_with_sheets.xlsx') as writer:
    df1.to_excel(writer, sheet_name='Sheet1', index=False)
    df2.to_excel(writer, sheet_name='Sheet2', index=False)
# 使用 ExcelWriter 上下文管理器可以方便地写入多个工作表

注意事项:

  • 文件路径:确保文件路径正确,并且程序有适当的读写权限。
  • 数据类型:在导出时,注意数据类型的兼容性,特别是当数据包含特殊字符或日期时间类型时。
  • 依赖项:某些导出方法(如到 SQL 数据库)可能需要额外的库和数据库驱动。
  • 性能:对于大型数据集,导出到某些格式(如 Excel)可能会很慢,并且可能会受到内存限制。在这种情况下,考虑将数据分批导出或使用更适合大数据集的格式(如 CSV)。

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • 浅谈python的elementtree模块处理中文注意事项

    浅谈python的elementtree模块处理中文注意事项

    这篇文章主要介绍了浅谈python的elementtree模块处理中文注意事项,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-03-03
  • python标准库random模块处理随机数

    python标准库random模块处理随机数

    这篇文章主要介绍了python标准库random模块处理随机数,random模块实现了各种分布的伪随机数生成器,具体介绍感兴趣的小伙伴可以参考一下
    2022-09-09
  • python中print输出有空格如何解决

    python中print输出有空格如何解决

    这篇文章主要介绍了python中print输出有空格的解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-02-02
  • Python读取、写入txt文本内容详解

    Python读取、写入txt文本内容详解

    这篇文章主要介绍了Python读取、写入txt文本内容详解,python常用的读取文件函数有三种read()、readline()、readlines() ,今天来看一下三种函数的用法与三者的区别,需要的朋友可以参考下
    2023-08-08
  • python爬虫实战之爬取京东商城实例教程

    python爬虫实战之爬取京东商城实例教程

    这篇文章主要介绍了python爬取京东商城的相关资料,文中通过爬取一个实例页面进行了讲解,通过示例代码和图文介绍的非常详细,相信对大家具有一定的参考价值,需要的朋友们下面来一起学习学习吧。
    2017-04-04
  • pyqt 实现在Widgets中显示图片和文字的方法

    pyqt 实现在Widgets中显示图片和文字的方法

    今天小编就为大家分享一篇pyqt 实现在Widgets中显示图片和文字的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • flask-restful使用总结

    flask-restful使用总结

    Flask-RESTful是一个用于快速创建RESTful API接口的Flask扩展。,这篇文章主要介绍了flask-restful使用总结,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-12-12
  • Pytorch训练过程出现nan的解决方式

    Pytorch训练过程出现nan的解决方式

    今天小编就为大家分享一篇Pytorch训练过程出现nan的解决方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • Go1.16引入目录遍历优化解析

    Go1.16引入目录遍历优化解析

    Go1.16版本中,对目录遍历进行了显著的优化,新增的接口os.ReadDir、(*os.File).ReadDir和filepath.WalkDir使用fs.DirEntry代替os.FileInfo,减少了系统调用次数,提高了遍历效率,测试显示,优化后的遍历速度比原先快了480%
    2024-10-10
  • python数字图像处理之高级形态学处理

    python数字图像处理之高级形态学处理

    这篇文章主要介绍了python数字图像处理之高级形态学处理,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-04-04

最新评论