Python sklearn CountVectorizer使用详解

 更新时间:2023年03月23日 11:21:31   作者:math_gao  
这篇文章主要介绍了Python_sklearn_CountVectorizer使用详解,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

简介

CountVectorizer官方文档

将一个文档集合向量化为为一个计数矩阵。

如果不提供一个先验字典,不使用分析器做某种特征选择,那么特征的数量将等于通过分析数据发现的词汇量。

数据预处理

两种方法:1.可以不分词直接投入模型;2.可以先将中文文本进行分词。

两种方法产生的词汇会非常不同。在后面会具体给出示范。

import jieba
import re
from sklearn.feature_extraction.text import CountVectorizer
#原始数据
text = ['很少在公众场合手机外放',
        '大部分人都还是很认真去学习的',
        '他们会用行动来',
        '无论你现在有多颓废,振作起来',
        '只需要一点点地改变',
        '你的外在和内在都能焕然一新']
#提取中文
text = [' '.join(re.findall('[\u4e00-\u9fa5]+',tt,re.S)) for tt in text]
#分词
text = [' '.join(jieba.lcut(tt)) for tt in text]
text

pic1

构建模型

训练模型

#构建模型
vectorizer = CountVectorizer()
#训练模型
X = vectorizer.fit_transform(text)

所有词汇:model.get_feature_names()

#所有文档汇集后生成的词汇
feature_names = vectorizer.get_feature_names()
print(feature_names)

不分词生成的词汇

pic2

分词后生成的词汇

pic3

计数矩阵:X.toarray()

#每个文档相对词汇量出现次数形成的矩阵
matrix = X.toarray()
print(matrix)

pic4

#计数矩阵转化为DataFrame
df = pd.DataFrame(matrix, columns=feature_names)
df

pic5

词汇索引:model.vocabulary_

print(vectorizer.vocabulary_)

pic6

到此这篇关于Python_sklearn_CountVectorizer使用详解的文章就介绍到这了,更多相关Python_sklearn_CountVectorizer使用内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 利用Python如何画一颗心、小人发射爱心

    利用Python如何画一颗心、小人发射爱心

    这篇文章主要给大家介绍了关于利用Python如何画一颗心、小人发射爱心的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-02-02
  • python自动生成证件号的方法示例

    python自动生成证件号的方法示例

    这篇文章主要给大家介绍了关于python自动生成证件号的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-01-01
  • 利用python实现全屏爱心雨向喜欢的人表白

    利用python实现全屏爱心雨向喜欢的人表白

    马上520了,教大家用Python做一个下爱心雨的特效,这篇文章主要给大家介绍了关于利用python实现全屏爱心雨向喜欢的人表白的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2023-05-05
  • Python optparse模块及简单使用

    Python optparse模块及简单使用

    optparse,是一个更够让程序设计人员轻松设计出简单明了、易于使用、符合标准的Unix命令例程式的Python模块,生成使用和帮助信息,这篇文章主要介绍了Python optparse模块简单使用,需要的朋友可以参考下
    2022-12-12
  • pygame实现时钟效果

    pygame实现时钟效果

    这篇文章主要为大家详细介绍了pygame实现时钟效果,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-06-06
  • OpenCV 图像梯度的实现方法

    OpenCV 图像梯度的实现方法

    梯度简单来说就是求导。本文主要介绍了OpenCV 图像梯度的实现方法,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-07-07
  • Pycharm使用Conda激活环境失败的问题解决

    Pycharm使用Conda激活环境失败的问题解决

    本文主要介绍了Pycharm使用Conda激活环境失败的问题解决,文中主要介绍了两种问题的解决,具有一定的参考价值,感兴趣的可以了解一下
    2023-09-09
  • Python Asyncio中Coroutines,Tasks,Future可等待对象的关系及作用

    Python Asyncio中Coroutines,Tasks,Future可等待对象的关系及作用

    这篇文章主要介绍了Python Asyncio中Coroutines,Tasks,Future可等待对象的关系及作用,文章围绕主题展开详细的内容介绍,需要的小伙伴可以参考一下
    2022-06-06
  • tensorflow 利用expand_dims和squeeze扩展和压缩tensor维度方式

    tensorflow 利用expand_dims和squeeze扩展和压缩tensor维度方式

    今天小编就为大家分享一篇tensorflow 利用expand_dims和squeeze扩展和压缩tensor维度方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02
  • Python运算符的应用超全面详细教程

    Python运算符的应用超全面详细教程

    Python运算符是为了实现数值或字符运算的特殊符号。Python运算符可以分为算术运算符、逻辑运算符、赋值运算符、成员运算符、身份运算符、比较运算符、三目运算符等。接下来,我们就开始来学习这一堆符号吧
    2022-07-07

最新评论