python使用xlsx和pandas处理Excel表格的操作步骤

 更新时间:2023年01月04日 11:23:47   作者:水w  
python的神器pandas库就可以非常方便地处理excel,csv,矩阵,表格 等数据,下面这篇文章主要给大家介绍了关于python使用xlsx和pandas处理Excel表格的操作步骤,文中通过图文介绍的非常详细,需要的朋友可以参考下

一、使用xls和xlsx处理Excel表格

xls是excel2003及以前版本所生成的文件格式;
xlsx是excel2007及以后版本所生成的文件格式;
(excel 2007之后版本可以打开上述两种格式,但是excel2013只能打开xls格式);

1.1 用openpyxl模块打开Excel文档,查看所有sheet表

openpyxl.load_workbook()函数接受文件名,返回一个workbook数据类型的值。这个workbook对象代表这个Excel文件,这个有点类似File对象代表一个打开的文本文件。  

workbook = xlrd2.open_workbook("1.xlsx")  # 返回一个workbook数据类型的值
sheets = workbook.sheet_names()
print(sheets)
# 结果:
# ['Sheet1', 'Sheet2']

或者

workbook = openpyxl.load_workbook("1.xlsx")	    # 返回一个workbook数据类型的值
print(workbook.sheetnames)	    # 打印Excel表中的所有表
 
# 结果:
# ['Sheet1', 'Sheet2']

1.2 通过sheet名称获取表格

workbook = openpyxl.load_workbook("数据源总表(1).xlsx")	    # 返回一个workbook数据类型的值
print(workbook.sheetnames)	    # 打印Excel表中的所有表
sheet = workbook['Sheet1']  # 获取指定sheet表
print(sheet)
 
# 结果:
# ['Sheet1', 'Sheet2']
# <Worksheet "Sheet1">

1.3 获取活动表的获取行数和列数

方法1:自己写一个for循环

方法2:使用

  • sheet.max_row 获取行数
  • sheet.max_column 获取列数
workbook = openpyxl.load_workbook("数据源总表(1).xlsx")	    # 返回一个workbook数据类型的值
print(workbook.sheetnames)	    # 打印Excel表中的所有表
sheet = workbook['1、基本情况']  # 获取指定sheet表
print(sheet)
print('rows', sheet.max_row, 'column', sheet.max_column)    # 获取行数和列数

◼ 读取xlsx文件错误:xlrd.biffh.XLRDError: Excel xlsx file; not supported

运行代码时,会出现以下报错。

xlrd.biffh.XLRDError: Excel xlsx file; not supported

(1)检查第三方库xlrd的版本:

我这里的版本为xlrd2.0.1最新版本,问题就出在这里,我们需要卸载最新版本安装旧版本,卸载安装过程如下。

(2)在File-Settings下的Project-Python Interpreter中重新按照旧版本xlrd2,

按照上述步骤卸载xlrd后再安装xlrd2后,

可以看到错误解决了。

二、使用pandas读取xlsx

pyCharm pip安装pandas库,请移步到python之 pyCharm pip安装pandas库失败_水w的博客-CSDN博客_pandas安装失败

2.1 读取数据

import pandas as pd
#1.读取前n行所有数据
df1=pd.read_excel('d1.xlsx')#读取xlsx中的第一个sheet
 
data1=df1.head(10)    #读取前10行所有数据
data2=df1.values    #list【】  相当于一个矩阵,以行为单位
#data2=df.values()   报错:TypeError: 'numpy.ndarray' object is not callable
print("获取到所有的值:\n{0}".format(data1))#格式化输出
print("获取到所有的值:\n{0}".format(data2))
 
#2.读取特定行特定列
data3=df1.iloc[0].values    #读取第一行所有数据
data4=df1.iloc[1,1]    #读取指定行列位置数据:读取(1,1)位置的数据
data5=df1.iloc[[1,2]].values    #读取指定多行:读取第一行和第二行所有数据
data6=df1.iloc[:,[0]].values    #读取指定列的所有行数据:读取第一列所有数据
 
print("数据:\n{0}".format(data3))
print("数据:\n{0}".format(data4))
print("数据:\n{0}".format(data5))
print("数据:\n{0}".format(data6))
 
#3.获取xlsx文件行号、列号
print("输出行号列表{}".format(df1.index.values))    #获取所有行的编号:0、1、2、3、4
print("输出列标题{}".format(df1.columns.values))    #也就是每列的第一个元素
 
#4.将xlsx数据转换为字典
data=[]
for i in df1.index.values:    #获取行号的索引,并对其遍历
    #根据i来获取每一行指定的数据,并用to_dict转成字典
    row_data=df1.loc[i,['id','name','class','data','score',]].to_dict()
    data.append(row_data)
print("最终获取到的数据是:{0}".format(data))
 
#iloc和loc的区别:iloc根据行号来索引,loc根据index来索引。
#所以1,2,3应该用iloc,4应该有loc

读取特定的某几列的数据:

import pandas as pd
 
file_path = r'int.xlsx'   # r对路径进行转义,windows需要
df = pd.read_excel(file_path, header=0, usecols=[3, 4])  # header=0表示第一行是表头,就自动去除了, 指定读取第3和4列

2.2 使用pandas查找两个列表中相同的元素

解决:查找两个列表中相同的元素,可以把列表转为元祖/集合,进行交运算。

import pandas as pd
 
file_path = r'int.xlsx'   # r对路径进行转义,windows需要
df = pd.read_excel(file_path, header=0, usecols=[3, 4])  # header=0表示第一行是表头,就自动去除了, 指定读取第3和4列
i, o = list(df['i']), list(df['o'])
in_links, out_links = [], []
 
a = set(in_links)   # 转成元祖
b = set(out_links)
c = (a & b)  # 集合c和b中都包含了的元素
print(a, '\n', b)
print('两个列表中相同的元素是:', list(c))

◼ 解决ValueError: Excel file format cannot be determined, you must specify an engine manually.

报错:我在使用python的pandas读取表格的数据,但是报错了,

import pandas as pd
 
file_path = 'intersection.xlsx'   # r对路径进行转义,windows需要
df = pd.read_excel(file_path, header=0, usecols=[0])  # header=0表示第一行是表头,就自动去除了, 指定读取第1列
print(df)

问题:问题在于原表格格式可能有些问题。

解决:最直接的办法就是把表格的内容复制到一个自己新建的表格中,然后改成之前表格的路径,

然后再安装这个openpyxl第三方库。

pip install openpyxl

重新运行代码,

ok,问题解决。

◼ 解决but no encoding declared; see https://python.org/dev/peps/pep-0263/ for details

报错

but no encoding declared; see https://python.org/dev/peps/pep-0263/ for details

问题:xxx文件里有中文字符。

解决:在py文件的代码第一行 加上,

# -*-coding:utf8 -*-

◼ 解决MatplotlibDeprecationWarning: Support for FigureCanvases without a required_interactive_framework attribute was deprecated in Matplotlib 3.6 and will be removed two minor releases later.

报错:在使用pandas读取文件时,显示错误。

MatplotlibDeprecationWarning: Support for FigureCanvases without a required_interactive_framework attribute was deprecated in Matplotlib 3.6 and will be removed two minor releases later.

问题:matplotlib3.2以后就把mpl-data分离出去了 。

解决:卸载原来的版本,安装3.1版本。

pip uninstall matplotlib  # 卸载原来的版本
pip install matplotlib==3.1.1 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com  # 安装3.1版本

总结

到此这篇关于python使用xlsx和pandas处理Excel表格的文章就介绍到这了,更多相关python xlsx和pandas处理Excel表格内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 在Pycharm中对代码进行注释和缩进的方法详解

    在Pycharm中对代码进行注释和缩进的方法详解

    今天小编就为大家分享一篇在Pycharm中对代码进行注释和缩进的方法详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • wxPython:python首选的GUI库实例分享

    wxPython:python首选的GUI库实例分享

    wxPython是Python语言的一套优秀的GUI图形库。允许Python程序员很方便的创建完整的、功能键全的GUI用户界面。 wxPython是作为优秀的跨平台GUI库wxWidgets的Python封装和Python模块的方式提供给用户的
    2019-10-10
  • 两个元祖T1=(''a'', ''b''),T2=(''c'', ''d'')使用匿名函数将其转变成[{''a'': ''c''},{''b'': ''d''}]的几种方法

    两个元祖T1=(''a'', ''b''),T2=(''c'', ''d'')使用匿名函数将其转变成[{''a'': '

    今天小编就为大家分享一篇关于两个元祖T1=('a', 'b'),T2=('c', 'd')使用匿名函数将其转变成[{'a': 'c'},{'b': 'd'}]的几种方法,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2019-03-03
  • Python带动态参数功能的sqlite工具类

    Python带动态参数功能的sqlite工具类

    这篇文章主要介绍了Python带动态参数功能的sqlite工具类,涉及Python针对sqlite数据库的连接、查询、sql语句执行等相关操作封装与使用技巧,需要的朋友可以参考下
    2018-05-05
  • 详解python 支持向量机(SVM)算法

    详解python 支持向量机(SVM)算法

    这篇文章主要介绍了python SVM算法的相关资料,帮助大家更好的利用python进行数据分析,感兴趣的朋友可以了解下
    2020-09-09
  • Python包管理工具pip用法详解

    Python包管理工具pip用法详解

    本文详细讲解了Python包管理工具pip的用法,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-05-05
  • Python反向传播实现线性回归步骤详细讲解

    Python反向传播实现线性回归步骤详细讲解

    回归是监督学习的一个重要问题,回归用于预测输入变量和输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值也随之发生变化。回归模型正是表示从输入变量到输出变量之间映射的函数
    2022-10-10
  • PyCharm的设置方法和第一个Python程序的建立

    PyCharm的设置方法和第一个Python程序的建立

    今天小编就为大家分享一篇PyCharm的设置方法和第一个Python程序的建立,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • python3 pillow生成简单验证码图片的示例

    python3 pillow生成简单验证码图片的示例

    本篇文章主要介绍了python3 pillow生成简单验证码图片的示例,非常具有实用价值,需要的朋友可以参考下
    2017-09-09
  • python3.7.2 tkinter entry框限定输入数字的操作

    python3.7.2 tkinter entry框限定输入数字的操作

    这篇文章主要介绍了python3.7.2 tkinter entry框限定输入数字的操作,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-05-05

最新评论