如何用python清洗文件中的数据

更新时间：2021年06月17日 17:26:18 作者：临时营地

数据清洗是整个数据分析过程的第一步，就像做一道菜之前需要先择菜洗菜一样。数据分析师经常需要花费大量的时间来清洗数据或者转换格式，这个工作甚至会占整个数据分析流程的80%左右的时间。今天，就来学习一下Python的数据清洗吧！

简单版

直接打开日志文件，往另外一个文件中按照要过滤的要求进行过滤

import io;
with open('a.txt', 'w') as f:    
    for line in open('c:/201509.txt'):    
        if line.find('更改项目')>0 and line.find('500')>0:  
            f.write(line+"\n");
print("输出完成");

注意.find返回的是字符串在目标的第几位，要和0作比较另外使用and而不是&&作为"和"，使用or而不是||作为"或" w是写，r是读，a是追加

使用filter

import io;
def isData(s):
    return s.find('更改项目')>0 and s.find('500')>0;
with open('a.txt', 'w') as f:             
       list1=list(filter(isData,open('c:/201509.txt')));    
       for (offset,item) in enumerate(list1):
            f.write(str(offset)+":"+item);

读取utf-8带bom的文件

微软会在在 UTF-8 文件中放置 BOM头（顺便提一下：把带有 BOM 的小端序 UTF-16 称作「Unicode」而又不详细说明，这也是微软的习惯。不含BOM的UTF-8才是标准形式，UTF-8不需要BOM，带BOM的UTF-8文件的开头会有U+FEFF，所以Windows新建的空文件会有3字节的大小。

import codecs
with codecs.open('c:/20160907205.log', encoding='utf_8_sig') as f:
    for line in f:
        print(line)

注意编码格式是utf_8_sig

多文件清洗

对多个文件进行过滤，可以借助其名称的规律，遍历文件之后

import codecs
with codecs.open('a.txt','a', encoding='utf_8_sig') as f:
    for i in range(205,210):
        f.write(str(i)+"\r\n");   
        print(str(i)); 
        for line in open('c:/20160907'+str(i)+'.log', encoding='utf_8_sig'): 
            if line.find('url为')>=0 :  
                print(line);
                f.write(line+"\r\n");
print("输出完成");

清洗数据同时记录订单号并排序

import codecs
a=0;
List=[];
with codecs.open('a.txt','a', encoding='utf_8_sig') as f:    
    for i in range(205,210): 
        for line in open('c:/20160907'+str(i)+'.log', encoding='utf_8_sig'): 
            if line.find('url为')>=0 :  
                ind=line.find("XFLucky");                
                if ind>=0:
                    nums=line[ind:ind+22];                    
                    print(nums);
                    List.append(nums);                   
                a=a+1;
                print(line);
                f.write(str(i)+line+"\r\n");              
List.sort(); 
for item in List:
    print(item);          
print("输出完成"+str(a));

清洗sql文件，将数据表名放入excel中

安装openpyxl

pip install openpyxl

安装之后就可以进行sql建表语句的过滤了，将所有的表名和注释写入我们的excel文件中。

import re
import openpyxl

data = []
temp = []
wb = openpyxl.load_workbook('data.xlsx')
ws2 = wb.create_sheet(index=2, title='addSheet_test')
for line in open('wlzcool.sql', encoding='utf-8'):
    if line.find('CREATE TABLE') >= 0:
        matchObj1 = re.search('`(.*?)`', line, re.M | re.I)
        if matchObj1:
            # print("matchObj.group(1) : ", matchObj1.group(1))
            print(matchObj1.group(1))
            temp.append(matchObj1.group(1))
    if line.find('ROW_FORMAT = Dynamic') >= 0:
        matchObj2 = re.search('\'(.*?)\'', line, re.M | re.I)
        if matchObj2:
            # print("matchObj.group(1) : ", matchObj2.group(1))
            print(matchObj2.group(1))
            temp.append(matchObj2.group(1))
        else:
            print("no comment")
            temp.append("no comment")
        data.append(temp)
        temp = []
for row in data:
    ws2.append(row)
wb.save('data.xlsx')
print("输出完成")

总结

人生苦短，我用 Python，在强大的第三方库帮助下，我们只需很少的代码就可以实现很大数据量的文件的清洗。

以上就是如何用python清洗文件中的数据的详细内容，更多关于python清洗文件中的数据的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

python使用requests实现发送带文件请求功能
这篇文章主要介绍了python使用requests实现发送带文件请求，本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
2022-12-12
Python数据提取-lxml模块
这篇文章主要介绍了Python数据提取-lxml模块，lxml模块和xpath语法的关系，lxml模块的使用场景、lxml模块的安装、谷歌浏览器xpath helper插件的安装和使用等相关内容介绍,需要的朋友可以参考一下
2022-01-01
Python光学仿真学习处理高斯光束分布图像
这篇文章主要为大家介绍了Python光学仿真学习之如何处理高斯光束的分布图像，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步
2021-10-10
python中asyncio异步编程学习
这篇文章主要介绍了python中asyncio异步编程学习，内部就是基于协程实现的异步编程，如果想研究异步编程的同学，要仔细看哦
2021-04-04
pandas groupby 用法实例详解
在日常数据分析过程中，经常有分组的需求。具体来说，就是根据一个或者多个字段，将数据划分为不同的组，然后进行进一步分析，比如求分组的数量，分组内的最大值最小值平均值等，下面我们就来看看pandas中的groupby怎么使用,需要的朋友可以参考下
2022-11-11
Pytorch使用技巧之Dataloader中的collate_fn参数详析
collate_fn 参数的目的主要是为了随心所欲的转变数据的类型,这个数据是用DataLoader加载的,比如img，target,下面这篇文章主要给大家介绍了关于Pytorch使用技巧之Dataloader中的collate_fn参数的相关资料,需要的朋友可以参考下
2022-03-03
Python decimal模块使用方法详解
这篇文章主要介绍了Python decimal模块使用方法详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-06-06
解决python3 HTMLTestRunner测试报告中文乱码的问题
今天小编就为大家分享一篇解决python3 HTMLTestRunner测试报告中文乱码的问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-12-12
Python全栈之文件函数和函数参数
这篇文章主要为大家介绍了Python的文件函数和函数参数，具有一定的参考价值，感兴趣的小伙伴们可以参考一下，希望能够给你带来帮助
2021-12-12
浅谈pytorch 模型 .pt, .pth, .pkl的区别及模型保存方式
这篇文章主要介绍了浅谈pytorch 模型 .pt, .pth, .pkl的区别及模型保存方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-05-05