python文件数据分析治理提取

 更新时间:2022年08月24日 14:53:03   作者:wx6305967491b61​​​​​​​  
这篇文章主要介绍了python文件数据分析治理提取,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下

前提提要

python2.0有无法直接读取中文路径的问题,需要另外写函数。python3.0在2018年的时候也无法直接读取。

现在使用的时候,发现python3.0是可以直接读取中文路径的。

需要自带或者创建几个txt文件,里面最好写几个数据(姓名,手机号,住址)

要求

写代码的时候最好,自己设几个要求,明确下目的:

  • 需要读取对应目录路径的所有对应文件
  • 按行读取出每个对应txt文件的记录
  • 使用正则表达式获取每行的手机号
  • 将手机号码存储到excel中

思路

  • 1)读取文件
  • 2)读取数据
  • 3)数据整理
  • 4)正则表达式匹配
  • 5)数据去重
  • 6)数据导出保存

代码

import glob
import re
import xlwt
filearray=[]
data=[]
phone=[]
filelocation=glob.glob(r'课堂实训/*.txt')
print(filelocation)
for i in range(len(filelocation)):
file =open(filelocation[i])
file_data=file.readlines()
data.append(file_data)
print(data)
combine_data=sum(data,[])

print(combine_data)
for a in combine_data:
data1=re.search(r'[0-9]{11}',a)
phone.append(data1[0])
phone=list(set(phone))
print(phone)
print(len(phone))

#存到excel中
f=xlwt.Workbook('encoding=utf-8')
sheet1=f.add_sheet('sheet1',cell_overwrite_ok=True)
for i in range(len(phone)):
sheet1.write(i,0,phone[i])
f.save('phonenumber.xls')

运行结果

会生成一个excel文件

分析

import glob
import re
import xlwt

globe用来定位文件,re正则表达式,xlwt用于excel

1)读取文件

filelocation=glob.glob(r'课堂实训/*.txt')

指定目录下的所有txt文件

2)读取数据

for i in range(len(filelocation)):
file =open(filelocation[i])
file_data=file.readlines()
data.append(file_data)
print(data)

将路径下的txt文件循环读取,按序号依次读取文件
打开每一次循环对应的文件
将每一次循环的txt文件的数据按行读取出来
使用append()方法将每一行的数据添加到data列表中
输出一下,可以看到将几个txt的文件数据以字列形式存在同一个列表

3)数据整理

combine_data=sum(data,[])

列表合并成一个列表

4)正则表达式匹配外加数据去重

print(combine_data)
for a in combine_data:
data1=re.search(r'[0-9]{11}',a)
phone.append(data1[0])
phone=list(set(phone))
print(phone)
print(len(phone))

set()函数:无序去重,创建一个无序不重复元素集

6)数据导出保存

#存到excel中
f=xlwt.Workbook('encoding=utf-8')
sheet1=f.add_sheet('sheet1',cell_overwrite_ok=True)
for i in range(len(phone)):
sheet1.write(i,0,phone[i])
f.save('phonenumber.xls')
  • Workbook('encoding=utf-8'):设置工作簿的编码
  • add_sheet('sheet1',cell_overwrite_ok=True):创建对应的工作表
  • write(x,y,z):参数对应行、列、值

到此这篇关于python文件数据分析治理提取的文章就介绍到这了,更多相关python文件数据分析内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 删除pycharm鼠标右键快捷键打开项目的操作

    删除pycharm鼠标右键快捷键打开项目的操作

    这篇文章主要介绍了删除pycharm鼠标右键快捷键打开项目的操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-01-01
  • 使用Python实现在Excel工作表中创建、修改及删除表格区域

    使用Python实现在Excel工作表中创建、修改及删除表格区域

    在数据分析和自动化处理的工作中,Excel作为一种强大的工具被广泛应用,而通过Python来操作Excel工作表中的表格,可以极大提高工作效率,下面我们就来学学如何使用Python在Excel工作表中创建,修改及删除表格吧
    2024-12-12
  • Python 测试框架unittest和pytest的优劣

    Python 测试框架unittest和pytest的优劣

    这篇文章主要介绍了Python 测试框架unittest和pytest的优劣,帮助大家更好的进行python程序的测试,感兴趣的朋友可以了解下
    2020-09-09
  • Pygame实战练习之推箱子游戏

    Pygame实战练习之推箱子游戏

    推箱子想必是很多人童年时期的经典游戏,我们依旧能记得抱个老人机娱乐的场景,下面这篇文章主要给大家介绍了关于如何利用python写一个简单的推箱子小游戏的相关资料,需要的朋友可以参考下
    2021-09-09
  • pygame学习笔记(6):完成一个简单的游戏

    pygame学习笔记(6):完成一个简单的游戏

    这篇文章主要介绍了pygame学习笔记(6):完成一个简单的游戏,本文综合了学习过的知识,完成一个简单的游戏开发,是本系列文章的最后一篇,需要的朋友可以参考下
    2015-04-04
  • 对python_discover方法遍历所有执行的用例详解

    对python_discover方法遍历所有执行的用例详解

    今天小编就为大家分享一篇对python_discover方法遍历所有执行的用例详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-02-02
  • Python round函数的基本用法与实例代码

    Python round函数的基本用法与实例代码

    round()函数是Python中用于对浮点数进行四舍五入的内置函数,这篇文章详细介绍了round()函数的基本用法、参数详解、特殊情况处理以及应用场景,并提供了丰富的示例代码,需要的朋友可以参考下
    2024-11-11
  • 简单谈谈Python中的json与pickle

    简单谈谈Python中的json与pickle

    下面小编就为大家带来一篇简单谈谈Python中的json与pickle。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-07-07
  • python抓取需要扫微信登陆页面

    python抓取需要扫微信登陆页面

    这篇文章主要介绍了python抓取需要扫微信登陆页面的相关知识,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-04-04
  • 针对Pandas的总结以及数据读取_pd.read_csv()的使用详解

    针对Pandas的总结以及数据读取_pd.read_csv()的使用详解

    这篇文章主要针对Pandas总结以及数据读取_pd.read_csv()的使用详解做出了实例,讲解非常全面,值得收藏,需要的朋友可以参考下
    2023-03-03

最新评论