Pandas读取外部数据的几种实现方法

 更新时间:2026年04月17日 09:41:49   作者:林深时见鹿1  
本文主要介绍了Pandas读取外部数据的几种实现方法,主要包括文本文件、Excel文件、JSON文件以及数据库文件(MySQL/PostgreSQL)的读取方式,感兴趣的可以了解一下

Pandas 支持读取几乎所有常见的外部数据格式,核心是 pd.read_* 系列函数,以下是最常用的格式及用法:

1. 读取文本文件(CSV/TXT)

这是最常用的场景,核心函数 pd.read_csv(),支持自定义分隔符、编码、列名等。

import pandas as pd
# 读取CSV文件(默认逗号分隔)
df = pd.read_csv(
    "data.csv",          # 文件路径(本地/URL)
    encoding="utf-8",    # 编码(中文常用utf-8/gbk)
    header=0,            # 第0行作为列名(默认)
    index_col=None,      # 不将某列作为索引
    sep=",",             # 分隔符(TXT常用"\t")
    na_values=["NA", "缺失", "-"],  # 哪些值视为NaN
    skiprows=1,          # 跳过前1行(如跳过注释行)
    usecols=["姓名", "分数", "班级"]  # 只读取指定列
)
print("读取的CSV数据:")
print(df.head())  # 查看前5行

关键参数说明

参数作用常用值
encoding文件编码utf-8/gbk(解决中文乱码)
header列名行号None(无列名)/0(第一行)
na_values缺失值映射["", "NA", "无"]
usecols筛选列["列1", "列2"](减少内存占用)
dtype指定列类型{"分数": int, "班级": str}

2. 读取 Excel 文件(XLS/XLSX)

核心函数 pd.read_excel(),需先安装依赖:

pip install openpyxl  # 读取xlsx
pip install xlrd      # 读取xls

基础用法

import pandas as pd
# 读取Excel文件(指定sheet)
df = pd.read_excel(
    "data.xlsx",
    sheet_name="学生成绩",  # 指定sheet名称/索引(0为第一个)
    header=0,
    usecols="A:C",         # 只读取A-C列
    dtype={"分数": float},
    na_values=["未填写"]
)
print("读取的Excel数据:")
print(df.info())  # 查看数据基本信息

3. 读取 JSON 文件

核心函数 pd.read_json(),适合读取结构化的 JSON 数据:

import pandas as pd
# 读取JSON文件
df = pd.read_json(
    "data.json",
    orient="records",  # JSON格式(records:[{"列1":值}, ...])
    encoding="utf-8"
)
print(df.head())

4. 读取数据库数据(MySQL/PostgreSQL)

需安装数据库驱动(以 MySQL 为例):

pip install pymysql 

基础用法

import pandas as pd
import pymysql
# 建立数据库连接
conn = pymysql.connect(
    host="localhost",
    user="root",
    password="123456",
    database="test_db"
)
# 读取数据库表
df = pd.read_sql(
    "SELECT * FROM student_scores",  # SQL语句
    con=conn  # 数据库连接
)
conn.close()  # 关闭连接
print(df.head())

到此这篇关于Pandas读取外部数据的几种实现方法的文章就介绍到这了,更多相关Pandas读取外部数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 答题辅助python代码实现

    答题辅助python代码实现

    这篇文章主要为大家详细介绍了答题辅助python代码实现,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-01-01
  • 详解Python中的魔法函数与量子计算模拟

    详解Python中的魔法函数与量子计算模拟

    这篇文章主要介绍了python的魔法函数和量子计算模拟,我们可以通过一个实际的案例来先审视一下这两个需求是如何被结合起来的,希望对大家有所帮助
    2023-03-03
  • python OpenCV计算图片相似度的5种算法

    python OpenCV计算图片相似度的5种算法

    本文主要介绍了python OpenCV计算图片相似度的5种算法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-08-08
  • Python中输出ASCII大文字、艺术字、字符字小技巧

    Python中输出ASCII大文字、艺术字、字符字小技巧

    这篇文章主要介绍了Python中输出ASCII大文字、艺术字、字符字小技巧,本文首先给出了ASCII大文字、艺术字、字符字的图片效果,然后给出了Python中的实现方法,需要的朋友可以参考下
    2015-04-04
  • django序列化serializers过程解析

    django序列化serializers过程解析

    这篇文章主要介绍了django序列化serializers过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-12-12
  • django 文件上传功能的相关实例代码(简单易懂)

    django 文件上传功能的相关实例代码(简单易懂)

    这篇文章主要介绍了django 文件上传功能的相关实例代码,代码简单易懂,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-01-01
  • Django中创建用户与修改密码方式

    Django中创建用户与修改密码方式

    Django中创建用户有三种方式:命令行创建管理员、代码中创建普通用户和使用Django管理后台,创建用户时要注意密码处理,推荐使用`create_user`方法,如果需要重置密码,可以通过命令行、Django Shell或管理后台操作
    2026-02-02
  • Python伪随机数模块random详解

    Python伪随机数模块random详解

    这篇文章主要为大家详细介绍了Python伪随机数模块random,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2022-03-03
  • Matplotlib绘图基础之3D图形绘制详解

    Matplotlib绘图基础之3D图形绘制详解

    matplotlib 在1.0版本之前其实是不支持3D图形绘制的,后来的版本中,matplotlib加入了3D图形的支持,扩展了其展示数据分布和关系的能力,下面就和大家介绍一下matplotlib中绘制各类3D图形的方法
    2023-08-08
  • 使用 pytorch 创建神经网络拟合sin函数的实现

    使用 pytorch 创建神经网络拟合sin函数的实现

    这篇文章主要介绍了使用 pytorch 创建神经网络拟合sin函数的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-02-02

最新评论