python数据处理详情

 更新时间:2022年04月11日 18:42:15   作者:上进小菜猪  
这篇文章主要介绍了python数据处理详情,文章通过json文件的一个数据表展开对主题的详细说明,具有一定的参考价值需要的小伙伴可以参考一下

一,前言

我们现在拿到了一个十分庞大的数据集。是json文件,里面存储了将近十万个数据,现在要对其中的数据进行清洗处理。

二,python模块

import json
import jieba

我们需要用json模块来处理json文件,和使用jieba库来分析词性,这样可以实现我们的需求。

2.1,增加停用词表

停用词表.txt,把停用词表存入stopwords,原因是:我们的目标分析json里有一些标点符号。

stopwords = [line.strip() for line in open("停用词表.txt",encoding="utf-8").readlines()]

基本如图所示:

a+str(b)+c这是文件名称,a+b+c=./json/poet.song.0.json b递增,实现动态取值

with open(a+str(b)+c,'r',encoding='utf8')as fp:

因为有将近500个json文件。每个文件里有好几千组数据,我现在尽力的优化代码,现在提取一次,把需要的数据存入文件里面差不多需要五分钟。

2.2,顺序读取

  • 定义一个空的字符串,将json对象转换为python对象。定义一个空的list存放诗句。
  • 循环json_data i为里面的每一个元素。
  • 新的追加到list_paragraphs列表
  • 循环 j为里面的每一句。

代码如图所示:

使用jieba库,分析str内容的词性【注意是名称,动词。。。。】排行输出都是俩个字是巧合,没有字数限制

words = jieba.lcut(str_s)

现在words为分析完毕的词性列表,遍历。

排除特殊符号

for word in words:
            if word not in stopwords:
                if len(word) == 1:
                    continue
                else:
                    counts[word] = counts.get(word,0) + 1

出现频率加一。

2.3,lambda函数

使用lambda函数,sort快速排序,遍历输出频率前50的词性。

items.sort(key=lambda x:x[1], reverse=True)

之后赋值word, count

word, count = items[i]
    print ("{:<10}{:>7}".format(word, count))

三,运行

3.1,存入文件

f=open('towa.txt',"a",encoding='gb18030')
            f.writelines("题目:"+textxxx)
            f.writelines(word_ping)

到此这篇关于python数据处理详情的文章就介绍到这了,更多相关python数据处理内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 在python3.9下如何安装scrapy的方法

    在python3.9下如何安装scrapy的方法

    这篇文章主要介绍了在python3.9下如何安装scrapy的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-02-02
  • python元类编程的基本使用

    python元类编程的基本使用

    本文主要介绍了python元类编程的基本使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-02-02
  • Python入门基础之import机制

    Python入门基础之import机制

    这篇文章主要给大家介绍了关于Python入门基础之import机制的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-03-03
  • Python实现自动化处理Word文档的方法详解

    Python实现自动化处理Word文档的方法详解

    本文主要介绍了如何使用Python实现Word文档的自动化处理,包括批量生成Word文档、在Word文档中批量进行查找和替换、将Word文档批量转换成PDF等,希望对你有所帮助
    2022-08-08
  • python 获取页面表格数据存放到csv中的方法

    python 获取页面表格数据存放到csv中的方法

    今天小编就为大家分享一篇python 获取页面表格数据存放到csv中的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12
  • 在Python中实现shuffle给列表洗牌

    在Python中实现shuffle给列表洗牌

    今天小编就为大家分享一篇在Python中实现shuffle给列表洗牌,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-11-11
  • NumPy实现结构化数组的示例代码

    NumPy实现结构化数组的示例代码

    结构化数组是 NumPy 中用于处理异质数据的重要工具,通过定义复杂的数据类型,我们可以创建具有不同字段的数组,本文主要介绍了NumPy实现结构化数组的示例代码,具有一定的参考价值,感兴趣的可以了解一下
    2024-01-01
  • 用Python调用win命令行提高工作效率的实例

    用Python调用win命令行提高工作效率的实例

    今天小编就为大家分享一篇用Python调用win命令行提高工作效率的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-08-08
  • 使用selenium模拟登录解决滑块验证问题的实现

    使用selenium模拟登录解决滑块验证问题的实现

    这篇文章主要介绍了使用selenium模拟登录解决滑块验证问题的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-05-05
  • Python将多个图像合并输出的实现方法

    Python将多个图像合并输出的实现方法

    这篇文章主要介绍了Python将多个图像合并输出的实现方法,本文介绍了两种将多个图像合并为一个输出的方法:使用PIL库或使用OpenCV和NumPy,这些库都可以使用Python中的简单语法和少量的代码来完成此任务,需要的朋友可以参考下
    2023-06-06

最新评论