能让你轻松的实现自然语言处理的5个Python库

 更新时间:2021年05月19日 12:00:19   作者:deephub  
今天教大家如何你轻松的实现自然语言预处理,仅仅需要5个python库,文中介绍的非常详细,对正在学习python的小伙伴们有很好的帮助,需要的朋友可以参考下

一、前言

自然语言是指人类相互交流的语言,而自然语言处理是将数据以可理解的形式进行预处理,使计算机能够理解的一种方法。简单地说,自然语言处理(NLP)是帮助计算机用自己的语言与人类交流的过程。

自然语言处理是最广泛的研究领域之一。许多大公司在这个领域投资很大。NLP为公司提供了机会,让他们能够根据消费者的情绪和文本很好地了解他们。NLP的一些最佳用例是检测假电子邮件、对假新闻进行分类、情感分析、预测你的下一个单词、自动更正、聊天机器人、个人助理等等。

解决任何NLP任务前要知道的7个术语

标记:它是将整个文本分割成小标记的过程。占卜是根据句子和单词两个基础来完成的。

text = "Hello there, how are you doing today? The weather is great today. python is awsome"

##sentece tokenize (Separated by sentence)
['Hello there, how are you doing today?', 'The weather is great today.', 'python is awsome']
##word tokenizer (Separated by words)
['Hello', 'there', ',', 'how', 'are', 'you', 'doing', 'today', '?', 'The', 'weather', 'is', 'great', 'today', '.','python', 'is', 'awsome']

停止词:一般来说,这些词不会给句子增加太多的意义。在NLP中,我们删除了所有的停止词,因为它们对分析数据不重要。英语中总共有179个停止词。

词干提取:它是通过去掉后缀和前缀将一个单词还原为词根的过程。

词形还原:它的工作原理与词干法相同,但关键的区别是它返回一个有意义的单词。主要是开发聊天机器人、问答机器人、文本预测等。

WordNet:它是英语语言名词、动词、形容词和副词的词汇数据库或词典,这些词被分组为专门为自然语言处理设计的集合。

词性标注:它是将一个句子转换为一个元组列表的过程。每个元组都有一个形式(单词、标记)。这里的标签表示该单词是名词、形容词还是动词等等。

text = 'An sincerity so extremity he additions.'
--------------------------------
('An', 'DT'), ('sincerity', 'NN'), ('so', 'RB'), ('extremity', 'NN'), ('he', 'PRP'), ('additions', 'VBZ')]

词袋:它是一个将文本转换成某种数字表示的过程。比如独热编码等。

sent1 = he is a good boy
sent2 = she is a good girl
            |
            |
        girl good boy   
sent1    0    1    1     
sent2    1    0    1

现在,让我们回到我们的主题,看看可以帮助您轻松预处理数据的库。

二、NLTK

毫无疑问,它是自然语言处理最好和使用最多的库之一。NLTK是自然语言工具包的缩写。由Steven Bird 和Edward Loper开发的。它带有许多内置的模块,用于标记化、词元化、词干化、解析、分块和词性标记。它提供超过50个语料库和词汇资源。

安装:pip install nltk

让我们使用NLTK对给定的文本执行预处理

import nltk
#nltk.download('punkt')
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
import re
ps = PorterStemmer()
text = 'Hello there,how are you doing today? I am Learning Python.'
text = re.sub("[^a-zA-Z0-9]"," ",text)
text = word_tokenize(text)
text_with_no_stopwords = [ps.stem(word) for word in text if word not in stopwords.words('english')]
text = " ".join(text_with_no_stopwords) 
text
-----------------------------------------------OUTPUT------------------------------------
'hello today I learn python'

三、TextBlob

Textblob是一个简化的文本处理库。它提供了一个简单的API,用于执行常见的NLP任务,如词性标记、情感分析、分类、翻译等。

安装:pip install textblob

四、spacy

这是python中最好用的自然语言处理库之一,它是用cpython编写的。它提供了一些预训练的统计模型,并支持多达49种以上的语言进行标记化。它以卷积神经网络为特征,用于标记、解析和命名实体识别。

安装:pip install spacy

import spacy
nlp = spacy.load('en_core_web_sm')
text = "I am Learning Python Nowdays"
text2 = nlp(text)
for token in text2:
  print(token,token.idx)
------------------------------OUTPUT-----------------------
I 0
am 2
Learning 5
Python 14
Nowdays 21

五、Gensim

它是一个Python库,专门用于识别两个文档之间的语义相似性。它使用向量空间建模和主题建模工具包来寻找文档之间的相似之处。它是设计用来处理大型文本语料库的算法。

安装:pip install gensim

六、CoreNLP

Stanford CoreNLP的目标是简化对一段文本应用不同语言工具的过程。这个库运行速度非常快,并且在开发中工作得很好。

安装:pip install stanford-corenlp

到此这篇关于5个Python库就能让你轻松的实现自然语言预处理的文章就介绍到这了,更多相关Python库自然语言预处理内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python爬虫beautifulsoup解析html方法

    python爬虫beautifulsoup解析html方法

    这篇文章主要介绍了python爬虫beautifulsoup解析html方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-12-12
  • Python低层多线程接口_thread模块的用法和特性

    Python低层多线程接口_thread模块的用法和特性

    这篇文章主要介绍了Python低层多线程接口_thread模块的用法和特性,_thread是python标准库中的一个低层多线程API,可以在进程中启动线程来处理任务,并且提供了简单的锁机制来控制共享资源的同步访问,本文就_thread模块的用法和特性做个简单的演示,需要的朋友可以参考下
    2024-10-10
  • python命令行参数用法实例分析

    python命令行参数用法实例分析

    这篇文章主要介绍了python命令行参数用法,结合实例形式分析了Python基于optparse模块处理命令行参数相关使用技巧,需要的朋友可以参考下
    2019-06-06
  • Python3中的re.findall()方法及re.compile()

    Python3中的re.findall()方法及re.compile()

    这篇文章主要介绍了Python3中的re.findall()方法及re.compile(),具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-05-05
  • python开发任意表达式求值全功能示例

    python开发任意表达式求值全功能示例

    这篇文章主要为大家介绍了python开发任意表达式求值全功能示例,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-07-07
  • Python还能这么玩之用Python做个小游戏的外挂

    Python还能这么玩之用Python做个小游戏的外挂

    玩过电脑游戏的同学对于外挂肯定不陌生,但是你在用外挂的时候有没有想过外挂怎么制作出来的呢?现在来看一下怎么制作一个外挂,首先说下,这里的游戏外挂的概念,和那些大型网游里的外挂可不同,不能自动打怪,主要为了提高一下编程技术,需要的朋友可以参考下
    2021-06-06
  • Pyhton多线程采集图片方式

    Pyhton多线程采集图片方式

    这篇文章主要介绍了Pyhton多线程采集图片方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-12-12
  • Python使用Keras库中的LSTM模型生成新文本内容教程

    Python使用Keras库中的LSTM模型生成新文本内容教程

    Python语言使用金庸小说文本库,对文本进行预处理,然后使用Keras库中的LSTM模型创建和训练了模型,根据这个模型,我们可以生成新的文本,并探索小说的不同应用
    2024-01-01
  • Flask框架使用DBUtils模块连接数据库操作示例

    Flask框架使用DBUtils模块连接数据库操作示例

    这篇文章主要介绍了Flask框架使用DBUtils模块连接数据库操作,结合实例形式较为详细的分析了flask框架使用DBUtils模块连接数据库的常见操作技巧与相关注意事项,需要的朋友可以参考下
    2018-07-07
  • 如何测试Python网站的访问速度,并且优化Python网站的性能

    如何测试Python网站的访问速度,并且优化Python网站的性能

    本文使用网络工具和Python测速库进行测试Python网站的访问速度,通过优化代码性能和优化服务器性能以及优化数据库性能等有针对性地优化Python网站的性能
    2024-01-01

最新评论