Python英文文本分词(无空格)模块wordninja的使用实例

 更新时间:2019年02月20日 08:29:27   作者:Together_CZ  
今天小编就为大家分享一篇关于Python英文文本分词(无空格)模块wordninja的使用实例,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧

在NLP中,数据清洗与分词往往是很多工作开始的第一步,大多数工作中只有中文语料数据需要进行分词,现有的分词工具也已经有了很多了,这里就不再多介绍了。英文语料由于其本身存在空格符所以无需跟中文语料同样处理,如果英文数据中没有了空格,那么应该怎么处理呢?

今天介绍一个工具就是专门针对上述这种情况进行处理的,这个工具叫做:wordninja,地址在这里

下面简单以实例看一下它的功能:

def wordinjaFunc():
  '''
  https://github.com/yishuihanhan/wordninja
  '''
  import wordninja
  print wordninja.split('derekanderson')
  print wordninja.split('imateapot')
  print wordninja.split('wethepeopleoftheunitedstatesinordertoformamoreperfectunionestablishjusticeinsuredomestictranquilityprovideforthecommondefencepromotethegeneralwelfareandsecuretheblessingsoflibertytoourselvesandourposteritydoordainandestablishthisconstitutionfortheunitedstatesofamerica')
  print wordninja.split('littlelittlestar')

结果如下:

['derek', 'anderson']
['im', 'a', 'teapot']
['we', 'the', 'people', 'of', 'the', 'united', 'states', 'in', 'order', 'to', 'form', 'a', 'more', 'perfect', 'union', 'establish', 'justice', 'in', 'sure', 'domestic', 'tranquility', 'provide', 'for', 'the', 'common', 'defence', 'promote', 'the', 'general', 'welfare', 'and', 'secure', 'the', 'blessings', 'of', 'liberty', 'to', 'ourselves', 'and', 'our', 'posterity', 'do', 'ordain', 'and', 'establish', 'this', 'constitution', 'for', 'the', 'united', 'states', 'of', 'america']
['little', 'little', 'star']

从简单的结果上来看,效果还是不错的,之后在实际的使用中会继续评估。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对脚本之家的支持。如果你想了解更多相关内容请查看下面相关链接

相关文章

  • 对python pandas中 inplace 参数的理解

    对python pandas中 inplace 参数的理解

    这篇文章主要介绍了对python pandas中 inplace 参数的理解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-06-06
  • Python3实现的判断环形链表算法示例

    Python3实现的判断环形链表算法示例

    这篇文章主要介绍了Python3实现的判断环形链表算法,涉及Python针对环形链表的遍历、判断相关操作技巧,需要的朋友可以参考下
    2019-03-03
  • Python实现脚本转换为命令行程序

    Python实现脚本转换为命令行程序

    使用Python中的scaffold和click库,你可以将一个简单的实用程序升级为一个成熟的命令行界面工具,本文就来带你看看具体实现方法,感兴趣的可以了解下
    2022-09-09
  • 完美解决安装完tensorflow后pip无法使用的问题

    完美解决安装完tensorflow后pip无法使用的问题

    今天小编就为大家分享一篇完美解决安装完tensorflow后pip无法使用的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-06-06
  • python实现TCPclient的使用示例

    python实现TCPclient的使用示例

    python实现TCPclient是一件简单的事情,只要通过socket这个模块就可以实现,本文主要介绍了python实现TCPclient的使用示例,具有一定的参考价值,感兴趣的可以了解一下
    2023-10-10
  • Python 获取div标签中的文字实例

    Python 获取div标签中的文字实例

    今天小编就为大家分享一篇Python 获取div标签中的文字实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12
  • 对python中list的五种查找方法说明

    对python中list的五种查找方法说明

    这篇文章主要介绍了对python中list的五种查找方法说明,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-07-07
  • Python中用函数作为返回值和实现闭包的教程

    Python中用函数作为返回值和实现闭包的教程

    这篇文章主要介绍了Python中用函数作为返回值和实现闭包的教程,代码基于Python2.x版本,需要的朋友可以参考下
    2015-04-04
  • Python Pygame实现兔子猎人守护城堡游戏

    Python Pygame实现兔子猎人守护城堡游戏

    这篇文章主要介绍了用python来制作的一个守护类小游戏兔子猎人守护城堡,文中的示例代码介绍得很详细,感兴趣的小伙伴快来跟随小编一起学习学习吧
    2021-12-12
  • Python编程应用设计原则详解

    Python编程应用设计原则详解

    什么是好用的代码呢?其实就是代码质量比较高,如何评价代码质量的高低呢?最常用的、最重要的评价标准,就是代码的可维护性、可读性、可扩展性、灵活性、简洁性、可复用性、可测试性
    2021-09-09

最新评论