如何使用 Python 读取 Excel 数据

 更新时间:2025年04月25日 14:18:23   作者:码上有潜  
这篇文章主要介绍了使用 Python 读取 Excel 数据的详细教程,通过 pandas 和 openpyxl,你可以轻松读取 Excel 文件,并进行各种数据处理操作,pandas 更适合快速、简单的数据分析,而 openpyxl 则适合需要对 Excel 文件进行更深入控制的场景,需要的朋友可以参考下

使用 Python 读取 Excel 数据的详细教程

Python 提供了多种读取 Excel 文件的方式,最常用的库是 pandasopenpyxl。下面我将详细介绍如何使用这两个库来读取 Excel 文件,并包含一些实用示例,帮助你撰写博客。

1. 安装必要的依赖

首先,需要确保安装了 pandasopenpyxl 库,这两个库可以帮助我们轻松读取 Excel 文件。

你可以使用以下命令安装它们:

pip install pandas openpyxl
  • pandas:用于数据处理和分析,它内置了读取 Excel 文件的功能。
  • openpyxl:一个读写 Excel 2007 及以上版本的 Excel 文件的库。

2. 读取 Excel 文件

假设你有一个 Excel 文件 data.xlsx,包含如下数据:

NameAgeCity
John25New York
Alice30London
Bob22Tokyo

你可以使用 pandas 来读取文件的内容。

import pandas as pd
# 读取Excel文件
df = pd.read_excel('data.xlsx')
# 显示数据
print(df)

输出

    Name  Age      City
0   John   25  New York
1  Alice   30    London
2    Bob   22     Tokyo

3. 读取特定的工作表

Excel 文件通常包含多个工作表。可以通过指定 sheet_name 来读取特定的工作表。例如,假设 data.xlsx 文件中有一个名为 Sheet2 的工作表:

df = pd.read_excel('data.xlsx', sheet_name='Sheet2')
print(df)

你也可以通过索引来指定工作表:

df = pd.read_excel('data.xlsx', sheet_name=0)  # 读取第一个工作表

4. 读取多张工作表

如果你想一次性读取 Excel 文件中的所有工作表,可以使用 sheet_name=None,它会返回一个包含多个 DataFrame 的字典。

dfs = pd.read_excel('data.xlsx', sheet_name=None)
# 遍历所有工作表
for sheet, data in dfs.items():
    print(f"工作表名: {sheet}")
    print(data)

5. 只读取特定列

有时,你只需要读取 Excel 文件中的部分列。可以通过 usecols 参数指定需要读取的列。

df = pd.read_excel('data.xlsx', usecols=['Name', 'City'])
print(df)

输出

    Name      City
0   John  New York
1  Alice    London
2    Bob     Tokyo

你也可以使用列的索引来读取特定列,例如:

df = pd.read_excel('data.xlsx', usecols=[0, 2])  # 读取第一和第三列
print(df)

6. 处理缺失数据

在读取 Excel 数据时,可能会遇到空白单元格。你可以使用 pandas 处理这些缺失数据。例如,可以通过 na_values 参数将特定的值识别为 NaN,或者使用 fillna() 方法填充缺失值。

# 将特定值识别为NaN
df = pd.read_excel('data.xlsx', na_values=['N/A', 'NA'])
# 填充缺失数据
df.fillna(value={'Age': 0, 'City': 'Unknown'}, inplace=True)
print(df)

7. 将 Excel 数据转换为其他格式

有时你可能需要将读取的 Excel 数据保存为其他格式,例如 CSV 文件或 JSON 文件。pandas 允许你轻松实现这一点。

# 保存为CSV文件
df.to_csv('data.csv', index=False)
# 保存为JSON文件
df.to_json('data.json', orient='records')

8. 读取大文件和优化性能

如果 Excel 文件非常大,可能会导致内存不足或读取速度较慢。pandas 提供了一些方法来优化性能,例如使用 chunksize 分块读取数据。

# 分块读取Excel文件,每次读取100行
chunks = pd.read_excel('large_data.xlsx', chunksize=100)
for chunk in chunks:
    print(chunk)

9. 使用 openpyxl 读取 Excel

openpyxl 更适合需要对 Excel 文件进行更底层操作的场景,如读取和修改单元格样式、公式等。以下是一个简单的读取示例:

from openpyxl import load_workbook
# 加载Excel工作簿
wb = load_workbook('data.xlsx')
# 选择工作表
sheet = wb['Sheet1']
# 读取指定单元格的值
for row in sheet.iter_rows(min_row=1, max_row=sheet.max_row, values_only=True):
    print(row)

10. 更多的 Excel 读取功能

你可以使用 pandas 提供的更多选项,例如:

  • skiprows: 跳过特定行数
  • nrows: 读取指定行数
  • header: 设置自定义标题行
# 跳过前两行并读取5行数据
df = pd.read_excel('data.xlsx', skiprows=2, nrows=5)
print(df)

总结

通过 pandasopenpyxl,你可以轻松读取 Excel 文件,并进行各种数据处理操作。pandas 更适合快速、简单的数据分析,而 openpyxl 则适合需要对 Excel 文件进行更深入控制的场景。

到此这篇关于使用 Python 读取 Excel 数据的详细教程的文章就介绍到这了,更多相关 Python 读取 Excel 数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python使用pyglet库完整实现汉诺塔游戏流程详解

    Python使用pyglet库完整实现汉诺塔游戏流程详解

    这篇文章主要介绍了Python使用pyglet库完整实现汉诺塔游戏流程,汉诺塔问题是一个递归问题,也可以使用非递归法来解决,这个问题不仅是一个数学和逻辑问题,也是一个很好的教学工具,可以用来教授递归、算法和逻辑思考等概念,需要的朋友可以参考下
    2007-02-02
  • 一文带你搞懂Python中__init__.py到底是什么

    一文带你搞懂Python中__init__.py到底是什么

    朋友们,今天我们来聊聊 Python 里一个低调却至关重要的文件——__init__.py,有些人可能听说过它是“包的标志”,也有人觉得它“没啥大用,可以忽略”,今天我们就来彻底搞清楚 __init__.py 到底是干啥的
    2025-04-04
  • pandas中字典和dataFrame的相互转换

    pandas中字典和dataFrame的相互转换

    有时候需要把dic转换为DataFrame格式,便于查看和存储,下面这篇文章主要给大家介绍了关于pandas中字典和dataFrame相互转换的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-09-09
  • python实现合并两个排序的链表

    python实现合并两个排序的链表

    这篇文章主要为大家详细介绍了python实现合并两个排序的链表,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-03-03
  • 使用Python实现网页表格转换为markdown

    使用Python实现网页表格转换为markdown

    在日常工作中,我们经常需要从网页上复制表格数据,并将其转换成Markdown格式,本文将使用Python编写一个网页表格转Markdown工具,需要的可以参考下
    2025-05-05
  • python字符串格式化方式解析

    python字符串格式化方式解析

    这篇文章主要介绍了python字符串格式化方式解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-10-10
  • 零基础也能看懂的python内置csv模块教程

    零基础也能看懂的python内置csv模块教程

    这篇博客就为你介绍一个知识点,python 内置模块 csv 。让大家一文就看懂csv csv(Comma-Separated Values)文件是什么?以及python 中的 csv 文件清晰解法读取文件写入文件 csv 文件其它说明
    2021-11-11
  • python中图片文件路径格式如何使用

    python中图片文件路径格式如何使用

    这篇文章主要介绍了python中图片文件路径格式如何使用问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-08-08
  • python批量处理txt文件的实例代码

    python批量处理txt文件的实例代码

    这篇文章主要介绍了python批量处理txt文件的实例代码,代码简单易懂,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-01-01
  • Python中sys模块常用方法与变量实例探究

    Python中sys模块常用方法与变量实例探究

    sys 模块是 Python 标准库中的一个核心模块,提供了与解释器进行交互的功能,了解 sys 模块的方法和变量对于更有效地管理和调试 Python 程序至关重要,本文将深入探讨 sys 模块的常用方法和变量,通过详细的示例代码,帮助大家更全面地了解并灵活运用这一关键模块
    2024-01-01

最新评论