Python机器学习NLP自然语言处理基本操作词袋模型

 更新时间:2021年09月21日 14:11:50   作者:我是小白呀  
本文是Python机器学习NLP自然语言处理系列文章,带大家开启一段学习自然语言处理 (NLP) 的旅程。本篇文章主要学习NLP自然语言处理基本操作之词袋模型

概述

从今天开始我们将开启一段自然语言处理 (NLP) 的旅程. 自然语言处理可以让来处理, 理解, 以及运用人类的语言, 实现机器语言和人类语言之间的沟通桥梁.

在这里插入图片描述

词袋模型

词袋模型 (Bag of Words Model) 能帮助我们把一个句子转换为向量表示. 词袋模型把文本看作是无序的词汇集合, 把每一单词都进行统计.

在这里插入图片描述

向量化

词袋模型首先会进行分词, 在分词之后. 通过通过统计在每个词在文本中出现的次数. 我们就可以得到该文本基于词语的特征, 如果将各个文本样本的这些词与对应的词频放在一起, 就是我们常说的向量化.

在这里插入图片描述

例子:

import jieba
from gensim import corpora
# 定义标点符号
punctuation = [",", "。", ":", ";", "?", "!"]
# 定义语料
content = [
    "今天天气真不错!",
    "明天要下雨?",
    "后天要打雷。"
]
# 分词
seg = [jieba.lcut(con) for con in content]
print("语料:", seg)

# 去除标点符号
tokenized = seg.copy()
for s in tokenized:
    for p in punctuation:
        if p in s:
            s.remove(p)
print("去除标点:", tokenized)
# tokenized是去标点之后的
dictionary = corpora.Dictionary(seg)
print("词袋模型:", dictionary)

# 保存词典
dictionary.save('deerwester.dict')
# 查看字典和下标id的映射
print("编号:", dictionary.token2id)

输出结果:

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Windows\AppData\Local\Temp\jieba.cache
Loading model cost 1.140 seconds.
Prefix dict has been built successfully.
语料: [['今天天气', '真不错', '!'], ['明天', '要', '下雨', '?'], ['后天', '要', '打雷', '。']]
去除标点: [['今天天气', '真不错'], ['明天', '要', '下雨'], ['后天', '要', '打雷']]
词袋模型: Dictionary(7 unique tokens: ['今天天气', '真不错', '下雨', '明天', '要']...)
编号: {'今天天气': 0, '真不错': 1, '下雨': 2, '明天': 3, '要': 4, '后天': 5, '打雷': 6}

以上就是Python机器学习NLP自然语言处理基本操作词袋模型的详细内容,更多关于Python机器学习NLP自然语言处理的资料请关注脚本之家其它相关文章!

相关文章

  • python sorted方法和列表使用解析

    python sorted方法和列表使用解析

    这篇文章主要介绍了python sorted方法和列表使用解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-11-11
  • 使用Python将Mysql的查询数据导出到文件的方法

    使用Python将Mysql的查询数据导出到文件的方法

    今天小编就为大家分享一篇关于使用Python将Mysql的查询数据导出到文件的方法,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2019-02-02
  • python最长回文串算法

    python最长回文串算法

    这篇文章主要为大家详细介绍了python最长回文串算法的实践,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-06-06
  • Python 转换RGB颜色值的示例代码

    Python 转换RGB颜色值的示例代码

    这篇文章主要介绍了Python 转换RGB颜色值的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-10-10
  • Django细致讲解多对多使用through自定义中间表方法

    Django细致讲解多对多使用through自定义中间表方法

    我们在开发网站的时候,无可避免的需要设计实现网站的用户系统,我们需要实现包括用户注册、用户登录、用户认证、注销等功能,Django作为完美主义终极框架,它默认使用auth_user表来存储用户数据,下面我们来看看Django多对多使用through自定义中间表
    2022-06-06
  • pytorch 实现查看网络中的参数

    pytorch 实现查看网络中的参数

    今天小编就为大家分享一篇pytorch 实现查看网络中的参数,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • python实现将Excel文件转换为JSON文件

    python实现将Excel文件转换为JSON文件

    在数据处理和分析中,Excel和JSON是两种常见的数据格式,本文将详细介绍如何使用Python将Excel文件转换为JSON文件,我们将使用pandas库,这是一个强大的数据分析工具,能够方便地读取和处理各种数据格式,需要的朋友可以参考下
    2024-07-07
  • python机器学习理论与实战(一)K近邻法

    python机器学习理论与实战(一)K近邻法

    这篇文章主要为大家详细介绍了python机器学习理论与实战第一篇,K近邻法的相关资料,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-01-01
  • opencv实现图像旋转效果

    opencv实现图像旋转效果

    这篇文章主要为大家详细介绍了opencv实现图像旋转效果,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-03-03
  • Python打印九九乘法表的5种方式代码示例

    Python打印九九乘法表的5种方式代码示例

    在Python中打印99乘法表的方法有很多种,比如for-for、while-while、while-for等,这篇文章主要给大家介绍了关于Python打印九九乘法表的5种方式,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2024-04-04

最新评论