如何用pandas读取一个文件或某个文件夹下所有文件

 更新时间:2024年02月01日 10:25:23   作者:旺仔的算法coding笔记  
这篇文章主要介绍了如何用pandas读取一个文件或某个文件夹下所有文件问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教

pandas读取一个文件或某个文件夹下所有文件

读取一个文件

直接用文件路径。

如果是读取某个文件夹下的所有文件,注意用os.path,逐个读取文件,把新读取到的Dataframe进行concate操作到总的Dataframe中去。

详细请见代码。

 
character_list =['1010011_i_u_prov',  '9010081_i_b_location']
#这是读取一个文件的,
# data=pd.read_csv('../data/10line_of_part-00000',sep='\t',header=None)
# 如果读取所有文件呢?如下
 
file_dir="../data/dt=20200807"
all_file_list=os.listdir(file_dir)
for single_file in all_file_list:
    # 逐个读取 
    single_data_frame=pd.read_csv(
            os.path.join(file_dir,single_file),sep='\t',header=None)
	if single_file ==all_file_list[0]:
		all_data_frame=single_data_frame
	else:  #进行concat操作       
         all_data_frame=pd.concat([all_data_frame,
                    single_data_frame],ignore_index=True)
 
# data.columns=character_list,给dataframe的属性重新命名。
all_data_frame.columns=character_list

备注:

data数据是从sql中select出来的结果。

注意:

分隔符要用\t,不然会报错!

pandas读取多个文件并合并到一起

先把文件位置放到一起,读取文件,再concat。

subdir=‘store'

file_names = []#存文件名
file_names.append(test1.csv')#继续添加文件名

csv_paths = []#存文件位置
for file_name in file_names:
    csv_path = join( '..','csv', subdir, file_name)#文件位置
    csv_paths.append(csv_path)
    break

df_csvs = []
for csv_path in csv_paths:
    df_tmp = pd.read_csv('%s' % csv_path, low_memory=False)
    df_csvs.append(df_tmp)
    
df_total = pd.concat(df_csvs)#合并成一个dataframe

#小技巧 非必须

#如列名为a.uid想改为uid 用以下方法操作

df_total.columns = [s[2:] for s in df_total.columns]
df_total.shape

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python实现以时间换空间的缓存替换算法

    Python实现以时间换空间的缓存替换算法

    缓存是指可以进行高速数据交换的存储器,它先于内存与CPU交换数据,因此速度很快。缓存就是把一些数据暂时存放于某些地方,可能是内存,也有可能硬盘。下面给大家介绍Python实现以时间换空间的缓存替换算法,需要的朋友参考下
    2016-02-02
  • tensorflow实现简单的卷积网络

    tensorflow实现简单的卷积网络

    这篇文章主要为大家详细介绍了tensorflow实现简单的卷积网络,使用的数据集是MNIST,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-05-05
  • 学生如何免费使用Pycharm专业版学生认证教程

    学生如何免费使用Pycharm专业版学生认证教程

    这篇文章主要介绍了学生如何免费使用Pycharm专业版,学生认证教程,有了这个教程在校期间就可以免费使用Pycharm,简直是学生党的福音,快来一起看看吧
    2023-03-03
  • 全面介绍python中很常用的单元测试框架unitest

    全面介绍python中很常用的单元测试框架unitest

    这篇文章主要介绍了python中很常用的单元测试框架unitest的相关资料,帮助大家更好的利用python进行单元测试,感兴趣的朋友可以了解下
    2020-12-12
  • 关于numpy.polyfit()与Stats.linregress()方法最小二乘近似拟合斜率对比

    关于numpy.polyfit()与Stats.linregress()方法最小二乘近似拟合斜率对比

    这篇文章主要介绍了关于numpy.polyfit()与Stats.linregress()方法最小二乘近似拟合斜率对比,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-04-04
  • Tensorflow 实现分批量读取数据

    Tensorflow 实现分批量读取数据

    今天小编就为大家分享一篇Tensorflow 实现分批量读取数据,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • Python使用pdb调试代码的技巧

    Python使用pdb调试代码的技巧

    Pdb就是Python debugger,是python自带的调试器。这篇文章主要介绍了Python使用pdb调试代码的技巧,需要的朋友可以参考下
    2020-05-05
  • Python数据处理之轻松实现颜色与数字的映射

    Python数据处理之轻松实现颜色与数字的映射

    这篇文章主要为大家详细介绍了Python数据处理中如何轻松实现颜色与数字的映射,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下
    2026-05-05
  • 如何用python获取EXCEL文件内容并保存到DBC

    如何用python获取EXCEL文件内容并保存到DBC

    很多时候,使用python进行数据分析的第一步就是读取excel文件,下面这篇文章主要给大家介绍了关于如何用python获取EXCEL文件内容并保存到DBC的相关资料,需要的朋友可以参考
    2023-12-12
  • Python利用folium实现地图可视化

    Python利用folium实现地图可视化

    Folium是建立在Python生态系统的数据整理(Datawrangling)能力和Leaflet.js库的映射能力之上的开源库。这篇文章主要给大家介绍了关于如何Python利用folium实现地图可视化的相关资料,需要的朋友可以参考下
    2021-05-05

最新评论