python数据处理详情

 更新时间:2022年04月11日 18:42:15   作者:上进小菜猪  
这篇文章主要介绍了python数据处理详情,文章通过json文件的一个数据表展开对主题的详细说明,具有一定的参考价值需要的小伙伴可以参考一下

一,前言

我们现在拿到了一个十分庞大的数据集。是json文件,里面存储了将近十万个数据,现在要对其中的数据进行清洗处理。

二,python模块

import json
import jieba

我们需要用json模块来处理json文件,和使用jieba库来分析词性,这样可以实现我们的需求。

2.1,增加停用词表

停用词表.txt,把停用词表存入stopwords,原因是:我们的目标分析json里有一些标点符号。

stopwords = [line.strip() for line in open("停用词表.txt",encoding="utf-8").readlines()]

基本如图所示:

a+str(b)+c这是文件名称,a+b+c=./json/poet.song.0.json b递增,实现动态取值

with open(a+str(b)+c,'r',encoding='utf8')as fp:

因为有将近500个json文件。每个文件里有好几千组数据,我现在尽力的优化代码,现在提取一次,把需要的数据存入文件里面差不多需要五分钟。

2.2,顺序读取

  • 定义一个空的字符串,将json对象转换为python对象。定义一个空的list存放诗句。
  • 循环json_data i为里面的每一个元素。
  • 新的追加到list_paragraphs列表
  • 循环 j为里面的每一句。

代码如图所示:

使用jieba库,分析str内容的词性【注意是名称,动词。。。。】排行输出都是俩个字是巧合,没有字数限制

words = jieba.lcut(str_s)

现在words为分析完毕的词性列表,遍历。

排除特殊符号

for word in words:
            if word not in stopwords:
                if len(word) == 1:
                    continue
                else:
                    counts[word] = counts.get(word,0) + 1

出现频率加一。

2.3,lambda函数

使用lambda函数,sort快速排序,遍历输出频率前50的词性。

items.sort(key=lambda x:x[1], reverse=True)

之后赋值word, count

word, count = items[i]
    print ("{:<10}{:>7}".format(word, count))

三,运行

3.1,存入文件

f=open('towa.txt',"a",encoding='gb18030')
            f.writelines("题目:"+textxxx)
            f.writelines(word_ping)

到此这篇关于python数据处理详情的文章就介绍到这了,更多相关python数据处理内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python浮点数取整、格式化和NaN处理的操作方法

    Python浮点数取整、格式化和NaN处理的操作方法

    这篇文章主要介绍了Python浮点数取整、格式化和NaN处理的操作方法,本文较详细介绍了取整的三种方法,格式化浮点数输出的示例代码详解,感兴趣的朋友跟随小编一起看看吧
    2022-05-05
  • Python中静态方法,类方法,属性方法使用方法

    Python中静态方法,类方法,属性方法使用方法

    这篇文章主要介绍了Python中静态方法,类方法,属性方法使用方法,文章围绕主题的相关资料展开详细内容,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-05-05
  • Python绘制惊艳的可视化动图的示例代码

    Python绘制惊艳的可视化动图的示例代码

    今天小编给大家介绍一款可视化模块,使用它可以绘制出十分惊艳的动图效果。文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下
    2022-04-04
  • tensorflow没有output结点,存储成pb文件的例子

    tensorflow没有output结点,存储成pb文件的例子

    今天小编就为大家分享一篇tensorflow没有output结点,存储成pb文件的例子,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • python实现的登录与提交表单数据功能示例

    python实现的登录与提交表单数据功能示例

    这篇文章主要介绍了python实现的登录与提交表单数据功能,结合实例形式分析了Python表单登录相关的请求与响应操作实现技巧,需要的朋友可以参考下
    2019-09-09
  • Python3.9又更新了:dict内置新功能

    Python3.9又更新了:dict内置新功能

    这篇文章主要介绍了Python3.9又更新了:dict内置新功能,从文档中,我们可以看到官方透露的对 dict、math 等组件增加的新特性,以及下一步的开发进展
    2020-02-02
  • 在类Unix系统上开始Python3编程入门

    在类Unix系统上开始Python3编程入门

    这篇文章主要介绍了在类Unix系统上开始Python3编程入门,讲解了最基础最直观的利用Print函数进行各种输出的方法,需要的朋友可以参考下
    2015-08-08
  • selenium自动化测试简单准备

    selenium自动化测试简单准备

    本文主要介绍了selenium自动化测试简单准备,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-01-01
  • python如何实现多层级自动赋值字典

    python如何实现多层级自动赋值字典

    这篇文章主要介绍了python如何实现多层级自动赋值字典问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-08-08
  • python实现使用遗传算法进行图片拟合

    python实现使用遗传算法进行图片拟合

    最近做项目需要图像拟合,本文主要介绍了python实现使用遗传算法进行图片拟合,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-03-03

最新评论