Python深度学习之FastText实现文本分类详解

 更新时间:2022年09月21日 10:45:25   作者:小鱼干儿♛  
FastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作

FastText是一个三层的神经网络,输入层、隐含层和输出层。

FastText的优点:

使用浅层的神经网络实现了word2vec以及文本分类功能,效果与深层网络差不多,节约资源,且有百倍的速度提升

深度学习和机器学习的区别:

与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。机器学习需要再根据提取到的特征再进行分类。

安装FastText

使用pip安装

pip install fasttext

因为FastText依赖C++的环境,安装的时候可能会报错,有的是C++ 11

有的是C++14看报错里面缺少那个版本的C++环境就安装那个版本的环境就可以了

使用FastText进行文本分类的一般步骤

数据格式的要求:

__label__标签 文本内容  或  文本内容 __label__标签
__label__标签\t文本内容  或  文本内容\t__label__标签
文本内容和标签之间用\t或空格都可以
目前这几种形式都支持

数据预处理:

将原数据处理为数据要求的格式,分词以后词于词之间用空格连接

这个根据自己数据的情况自己进行处理

训练模型

import fasttext
model = fasttext.train_supervised('train.csv', lr=1.0, wordNgrams=2, verbose=2, minCount=1, epoch=25, loss="hs")     # 训练模型
# train.csv 文件路径,也可以是txt文件,里面的参数根据需要调
"""
  训练一个监督模型, 返回一个模型对象
  input:           训练数据文件路径
  lr:              学习率
  dim:             向量维度
  ws:              cbow模型时使用
  epoch:           次数
  minCount:        词频阈值, 小于该值在初始化时会过滤掉
  minCountLabel:   类别阈值,类别小于该值初始化时会过滤掉
  minn:            构造subword时最小char个数
  maxn:            构造subword时最大char个数
  neg:             负采样
  wordNgrams:      n-gram个数
  loss:            损失函数类型, softmax, ns: 负采样, hs: 分层softmax
  bucket:          词扩充大小, [A, B]: A语料中包含的词向量, B不在语料中的词向量
  thread:          线程个数, 每个线程处理输入数据的一段, 0号线程负责loss输出
  lrUpdateRate:    学习率更新
  t:               负采样阈值
  label:           类别前缀
  verbose:         ??
  pretrainedVectors: 预训练的词向量文件路径, 如果word出现在文件夹中初始化不再随机
  model object
  """

预测数据

使用predict预测数据,预测一段文本属于的类别

model.predict(x)  # x文本内容 返回的数据格式(('__label__4',), array([0.99441689]))
# 可能性最大的标签和准确率

使用test验证模型的准确率,传入的是一个文件,文件的格式和训练集一样

返回一个元组(样本数,精确率,找回率)

模型的保存

model.save_model("model_cooking.bin") # 文件路径

模型读取

fasttext.load_model("model_cooking.bin") # 读取模型

模型的优化

直接使用默认参数去训练模型一般都得不到特别好的结果,可以通过一些手段来优化模型。第一种可以采取的手段是去掉语料库当中的停止词,对于英文的语料库来说,还可以把所有的大写字母都转化成小写字母。另一种可以采取的手段是调整超参数,比如说修改学习速率、修改epoch等,大家可以参照着fastTest的文档去进行相应的调整,fastText的文档中介绍了一种更加方便的自动调参方法,只要我们同时提供训练集和测试集就可以了,带来的精确度提升还是非常显著的:

model = fasttext.train_supervised(input='train.csv', autotuneValidationFile='test.csv', autotuneDuration=600) 
"""
autotuneValidationFile='test.csv',   测试集数据集
autotuneDuration=600                 时间限制,单位为秒,默认为5分钟
"""
# 如果想查看对应的参数,可以使用
对象.属性的方式进行查看

举例:

使用FastText进行文本分类的基本操作就是这些内容,关于深层次的学习大家可以参考

传送门

到此这篇关于Python深度学习之FastText实现文本分类详解的文章就介绍到这了,更多相关Python FastText内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python通过调用mysql存储过程实现更新数据功能示例

    Python通过调用mysql存储过程实现更新数据功能示例

    这篇文章主要介绍了Python通过调用mysql存储过程实现更新数据功能,结合实例形式分析了Python调用mysql存储过程实现更新数据的具体步骤与相关操作技巧,需要的朋友可以参考下
    2018-04-04
  • python深度总结线性回归

    python深度总结线性回归

    这篇文章主要介绍了python的深度总结之线性回归,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-09-09
  • 数据清洗之如何用一行Python代码去掉文本中的各种符号

    数据清洗之如何用一行Python代码去掉文本中的各种符号

    我们在处理文本的时候往往需要对标点符号进行处理,下面这篇文章主要给大家介绍了关于数据清洗之如何用一行Python代码去掉文本中的各种符号的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-11-11
  • Python urllib.request对象案例解析

    Python urllib.request对象案例解析

    这篇文章主要介绍了Python urllib.request对象案例解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-05-05
  • Python pyecharts模块安装与入门教程

    Python pyecharts模块安装与入门教程

    Echarts 是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多开发者的认可,这篇文章主要介绍了Python pyecharts数据可视化模块安装与入门教程,需要的朋友可以参考下
    2022-09-09
  • python读取Excel表格文件的方法

    python读取Excel表格文件的方法

    这篇文章主要介绍了python读取Excel表格文件的方法,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-09-09
  • python实现双向链表原理

    python实现双向链表原理

    这篇文章主要为大家详细介绍了python实现双向链表原理,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-05-05
  • python ftp 按目录结构上传下载的实现代码

    python ftp 按目录结构上传下载的实现代码

    这篇文章主要介绍了python ftp 按目录结构上传下载的实现代码,需要的朋友可以参考下
    2018-09-09
  • 提高Matplotlib绘图清晰度的几种方法

    提高Matplotlib绘图清晰度的几种方法

    使用python中的matplotlib.pyplot绘图的时候,如果将图片显示出来,或者另存为图片,常常会出现清晰度不够的问题,当然这种问题是对于png或者jpg这种格式的图片而言的,所以本文给大家介绍了提高Matplotlib绘图清晰度的几种方法,需要的朋友可以参考下
    2024-01-01
  • pandas条件组合筛选和按范围筛选的示例代码

    pandas条件组合筛选和按范围筛选的示例代码

    这篇文章主要介绍了pandas条件组合筛选和按范围筛选的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-08-08

最新评论