Pandas读取外部数据的几种实现方法

 更新时间:2026年04月17日 09:41:49   作者:林深时见鹿1  
本文主要介绍了Pandas读取外部数据的几种实现方法,主要包括文本文件、Excel文件、JSON文件以及数据库文件(MySQL/PostgreSQL)的读取方式,感兴趣的可以了解一下

Pandas 支持读取几乎所有常见的外部数据格式,核心是 pd.read_* 系列函数,以下是最常用的格式及用法:

1. 读取文本文件(CSV/TXT)

这是最常用的场景,核心函数 pd.read_csv(),支持自定义分隔符、编码、列名等。

import pandas as pd
# 读取CSV文件(默认逗号分隔)
df = pd.read_csv(
    "data.csv",          # 文件路径(本地/URL)
    encoding="utf-8",    # 编码(中文常用utf-8/gbk)
    header=0,            # 第0行作为列名(默认)
    index_col=None,      # 不将某列作为索引
    sep=",",             # 分隔符(TXT常用"\t")
    na_values=["NA", "缺失", "-"],  # 哪些值视为NaN
    skiprows=1,          # 跳过前1行(如跳过注释行)
    usecols=["姓名", "分数", "班级"]  # 只读取指定列
)
print("读取的CSV数据:")
print(df.head())  # 查看前5行

关键参数说明

参数作用常用值
encoding文件编码utf-8/gbk(解决中文乱码)
header列名行号None(无列名)/0(第一行)
na_values缺失值映射["", "NA", "无"]
usecols筛选列["列1", "列2"](减少内存占用)
dtype指定列类型{"分数": int, "班级": str}

2. 读取 Excel 文件(XLS/XLSX)

核心函数 pd.read_excel(),需先安装依赖:

pip install openpyxl  # 读取xlsx
pip install xlrd      # 读取xls

基础用法

import pandas as pd
# 读取Excel文件(指定sheet)
df = pd.read_excel(
    "data.xlsx",
    sheet_name="学生成绩",  # 指定sheet名称/索引(0为第一个)
    header=0,
    usecols="A:C",         # 只读取A-C列
    dtype={"分数": float},
    na_values=["未填写"]
)
print("读取的Excel数据:")
print(df.info())  # 查看数据基本信息

3. 读取 JSON 文件

核心函数 pd.read_json(),适合读取结构化的 JSON 数据:

import pandas as pd
# 读取JSON文件
df = pd.read_json(
    "data.json",
    orient="records",  # JSON格式(records:[{"列1":值}, ...])
    encoding="utf-8"
)
print(df.head())

4. 读取数据库数据(MySQL/PostgreSQL)

需安装数据库驱动(以 MySQL 为例):

pip install pymysql 

基础用法

import pandas as pd
import pymysql
# 建立数据库连接
conn = pymysql.connect(
    host="localhost",
    user="root",
    password="123456",
    database="test_db"
)
# 读取数据库表
df = pd.read_sql(
    "SELECT * FROM student_scores",  # SQL语句
    con=conn  # 数据库连接
)
conn.close()  # 关闭连接
print(df.head())

到此这篇关于Pandas读取外部数据的几种实现方法的文章就介绍到这了,更多相关Pandas读取外部数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 详解pytest传递参数的几种方式

    详解pytest传递参数的几种方式

    本文主要介绍了详解pytest传递参数的几种方式,详细的介绍了4种传参方式,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧
    2024-03-03
  • Python实战基础之Pandas统计某个数据列的空值个数

    Python实战基础之Pandas统计某个数据列的空值个数

    我们在处理数据的时候,经常需要检查数据的质量,也需要知道出问题的数据在哪个位置,下面这篇文章主要给大家介绍了关于Python实战基础之利用Pandas统计某个数据列空值个数的相关资料,需要的朋友可以参考下
    2022-08-08
  • Python使用psycopg2操作PostgreSQL数据库的完全指南

    Python使用psycopg2操作PostgreSQL数据库的完全指南

    psycopg2 是 Python 中最流行的 PostgreSQL 数据库适配器,它实现了 Python DB API 2.0 规范,同时提供了许多 PostgreSQL 特有的功能支持,下面我们来看看如何使用psycopg2操作PostgreSQL进行连接和增删改查操作吧
    2025-06-06
  • Django token 生成与验证的实现

    Django token 生成与验证的实现

    本文主要介绍了Django token 生成与验证的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2025-04-04
  • pytorch排查loss值出现nan的情况及解决

    pytorch排查loss值出现nan的情况及解决

    在实验室训练中,损失值出现nan是因条件筛选导致空列表,触发torch.log()错误,通过包裹训练代码快速定位问题,最终解决方案是添加1e-7常量确保数值稳定性,避免计算异常
    2025-09-09
  • 详谈python read readline readlines的区别

    详谈python read readline readlines的区别

    下面小编就为大家带来一篇详谈python read readline readlines的区别。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-09-09
  • 关于python返回值return用法详解

    关于python返回值return用法详解

    这篇文章主要介绍了python中的return关键字,包括其含义、作用、默认返回值、不同整数值的含义、返回值的类型、函数作为参数传递以及在类方法中的特殊情况,需要的朋友可以参考下
    2024-12-12
  • python super函数使用方法详解

    python super函数使用方法详解

    这篇文章主要介绍了python super函数使用方法详解,需要的朋友可以参考下
    2020-02-02
  • python 函数的缺省参数使用注意事项分析

    python 函数的缺省参数使用注意事项分析

    这篇文章主要介绍了python 函数的缺省参数使用注意事项,结合实例形式分析了Python函数缺省参数的使用方法与操作注意事项,需要的朋友可以参考下
    2019-09-09
  • python求numpy中array按列非零元素的平均值案例

    python求numpy中array按列非零元素的平均值案例

    这篇文章主要介绍了python求numpy中array按列非零元素的平均值案例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-06-06

最新评论