Python sklearn CountVectorizer使用详解

更新时间：2023年03月23日 11:21:31 作者：math_gao

这篇文章主要介绍了Python_sklearn_CountVectorizer使用详解,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下

简介

CountVectorizer官方文档。

将一个文档集合向量化为为一个计数矩阵。

如果不提供一个先验字典，不使用分析器做某种特征选择，那么特征的数量将等于通过分析数据发现的词汇量。

数据预处理

两种方法：1.可以不分词直接投入模型；2.可以先将中文文本进行分词。

两种方法产生的词汇会非常不同。在后面会具体给出示范。

import jieba
import re
from sklearn.feature_extraction.text import CountVectorizer
#原始数据
text = ['很少在公众场合手机外放',
        '大部分人都还是很认真去学习的',
        '他们会用行动来',
        '无论你现在有多颓废，振作起来',
        '只需要一点点地改变',
        '你的外在和内在都能焕然一新']
#提取中文
text = [' '.join(re.findall('[\u4e00-\u9fa5]+',tt,re.S)) for tt in text]
#分词
text = [' '.join(jieba.lcut(tt)) for tt in text]
text

构建模型

训练模型

#构建模型
vectorizer = CountVectorizer()
#训练模型
X = vectorizer.fit_transform(text)

所有词汇：model.get_feature_names()

#所有文档汇集后生成的词汇
feature_names = vectorizer.get_feature_names()
print(feature_names)

不分词生成的词汇

分词后生成的词汇

计数矩阵：X.toarray()

#每个文档相对词汇量出现次数形成的矩阵
matrix = X.toarray()
print(matrix)

#计数矩阵转化为DataFrame
df = pd.DataFrame(matrix, columns=feature_names)
df

词汇索引：model.vocabulary_

print(vectorizer.vocabulary_)

到此这篇关于Python_sklearn_CountVectorizer使用详解的文章就介绍到这了,更多相关Python_sklearn_CountVectorizer使用内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python中相见恨晚的技巧(记得收藏)
这篇文章主要介绍了一些Python中相见恨晚的使用技巧，帮助大家更好的理解和学习使用python，感兴趣的朋友可以了解下
2021-04-04
Python如何把多个PDF文件合并代码实例
这篇文章主要介绍了Python如何把多个PDF文件合并,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-02-02
卸载所有通过pip安装的Python包的方法总结(Windows系统)
这篇文章主要介绍了卸载所有通过pip安装的Python包的方法总结(Windows系统),文中通过代码示例和图文讲解的非常详细,并具有一定的参考价值,需要的朋友可以参考下
2024-08-08
python实现合并两个排序的链表
这篇文章主要为大家详细介绍了python实现合并两个排序的链表，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2019-03-03
Python元组拆包和具名元组解析实例详解
这篇文章主要介绍了Python元组拆包和具名元组解析,下面的内容就围绕元组作为数据记录属性展开，并介绍带字段名的具名元组函数namedtuple，列表属性不再本文中叙述。
2018-03-03
Python OpenCV Hough直线检测算法的原理实现
这篇文章主要介绍了Python OpenCV Hough直线检测算法的原理实现，文章围绕主题展开详细的内容介绍，具有一定的参考价值，需要的朋友可以参考一下
2022-07-07
Python补齐字符串长度的实例
今天小编就为大家分享一篇Python补齐字符串长度的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-11-11
Linux(Redhat)安装python3.6虚拟环境(推荐)
这篇文章主要介绍了Linux(Redhat)安装python3.6虚拟环境，非常不错，具有参考借鉴价值 ,需要的朋友可以参考下
2018-05-05
python logging 重复写日志问题解决办法详解
这篇文章主要介绍了python logging 重复写日志问题解决办法详解，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-08-08
用Python实现web端用户登录和注册功能的教程
这篇文章主要介绍了用Python实现web端用户登录和注册功能的教程,需要的朋友可以参考下
2015-04-04