浅析常用分词算法的比较与设想

 更新时间:2013年10月26日 17:00:35   投稿:shangke  
这篇文章介绍了常用分词算法的比较与设想,有需要的朋友可以参考一下

与基于理解的分词算法和基于统计的分词算法相比,基于文本匹配的算法更加通用。基于文本匹配的算法又称之为“机械分词算法”,他是它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功,可识别出一个词。按照扫描方向的不同,文本匹配分词方法可以分为正向匹配和逆向匹配两种;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。

  常用的几种机械分词方法如下:

  1) 正向最大匹配法(由左到右的方向)

  2) 逆向最大匹配法(由右到左的方向)

  3) 最少切分(使每一句中切出的词数最小)。

  其他的还有将上述各种方法相互组合形成的分词算法,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。本文中着重讨论正向最大匹配法和逆向最大匹配法。

  由于机械分词算法的准确性取决于算法的准确性与词库完备性两个方面。在本文中设想词库充分大,包含需要的词语。

  一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。

相关文章

  • 在.NET 6中使用日志组件log4net的方法

    在.NET 6中使用日志组件log4net的方法

    本文详细讲解了Asp.Net Core中使用日志组件log4net的方法,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-11-11
  • .NET+Sqlite支持加密的操作方法

    .NET+Sqlite支持加密的操作方法

    这篇文章主要介绍了.NET+Sqlite如何支持加密,如果想支持登录加密,需要另外的扩展SQLite 加密扩展(SQLite Encryption Extension,),具有读取/写入 AES 加密数据库的附加功能,需要的朋友可以参考下
    2021-12-12
  • .NET 开源配置组件 AgileConfig的使用简介

    .NET 开源配置组件 AgileConfig的使用简介

    这篇文章主要介绍了.NET 开源配置组件 AgileConfig的使用简介,帮助大家更好的理解和学习使用.net技术,感兴趣的朋友可以了解下
    2021-05-05
  • C#处理Json的另外一种方式成功实践

    C#处理Json的另外一种方式成功实践

    通过C#调用js,用Js解析Json,并将返回值转换为C#数组,这种思路相信你没有用过吧,试试也无妨啊,感兴趣的你可千万不要走开啊
    2013-01-01
  • ASP.NET MVC5网站开发之用户资料的修改和删除3(七)

    ASP.NET MVC5网站开发之用户资料的修改和删除3(七)

    这篇文章主要为大家详细介绍了ASP.NET MVC5网站开发之用户资料的修改和删除,感兴趣的小伙伴们可以参考一下
    2016-08-08
  • ASP.NET MVC+EF实现异步增删改查

    ASP.NET MVC+EF实现异步增删改查

    这篇文章介绍了ASP.NET MVC+EF实现异步增删改查的方法,文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-03-03
  • 详解ASP.NET Core 2.0 视图引擎(译)

    详解ASP.NET Core 2.0 视图引擎(译)

    本篇文章主要介绍了详解ASP.NET Core 2.0 视图引擎(译),小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-11-11
  • asp.net读取excel文件的三种方法示例

    asp.net读取excel文件的三种方法示例

    这篇文章主要介绍了asp.net读取excel文件的三种方法示例,包括采用OleDB读取Excel文件、引用的com组件读取Excel文件、用文件流读取,需要的朋友可以参考下
    2014-02-02
  • this connector is disabled错误的解决方法

    this connector is disabled错误的解决方法

    打开editor/filemanager/connectors/aspx/config.ascx修改CheckAuthentication()方法,返回true
    2008-11-11
  • ASP.NET动态添加控件一例

    ASP.NET动态添加控件一例

    本例需求来自CSDN论坛,有人问:3个DropDownList和1个按钮,每次单击按钮动态创建3个Label控件并从DropDownList获得值,然后添加到页面
    2012-01-01

最新评论