java中文分词之正向最大匹配法实例代码

 更新时间:2017年11月02日 10:57:26   作者:xiaoyeyopulei  
中文分词应用很广泛,网上也有很多开源项目,下面这篇文章主要给大家介绍了关于java中文分词之正向最大匹配法的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考借鉴,下面随着小编来一起学习学习吧。

前言

基于词典的正向最大匹配算法(最长词优先匹配),算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典。

所谓词典正向最大匹配就是将一段字符串进行分隔,其中分隔 的长度有限制,然后将分隔的子字符串与字典中的词进行匹配,如果匹配成功则进行下一轮匹配,直到所有字符串处理完毕,否则将子字符串从末尾去除一个字,再进行匹配,如此反复。

算法流程图如下:

下面给大家主要讲一下中文分词里面算法的简单实现,废话不多说了,现在先上代码

示例代码

package com; 
 
 
import java.util.ArrayList; 
import java.util.List; 
 
 
public class Segmentation1 { 
 private List<String> dictionary = new ArrayList<String>(); 
 private String request = "北京大学生前来应聘"; 
 
 public void setDictionary() { 
 dictionary.add("北京"); 
 dictionary.add("北京大学"); 
 dictionary.add("大学"); 
 dictionary.add("大学生"); 
 dictionary.add("生前"); 
 dictionary.add("前来"); 
 dictionary.add("应聘"); 
 } 
 
 public String leftMax() { 
 String response = ""; 
 String s = ""; 
 for(int i=0; i<request.length(); i++) { 
  s += request.charAt(i); 
  if(isIn(s, dictionary) && aheadCount(s, dictionary)==1) { 
  response += (s + "/"); 
  s = ""; 
  } else if(aheadCount(s, dictionary) > 0) { 
   
  } else { 
  response += (s + "/"); 
  s = ""; 
  } 
 } 
 return response; 
 } 
 
 private boolean isIn(String s, List<String> list) { 
 for(int i=0; i<list.size(); i++) { 
  if(s.equals(list.get(i))) return true; 
 } 
 return false; 
 } 
 
 private int aheadCount(String s, List<String> list) { 
 int count = 0; 
 for(int i=0; i<list.size(); i++) { 
  if((s.length()<=list.get(i).length()) && (s.equals(list.get(i).substring(0, s.length())))) count ++; 
 } 
 return count; 
 } 
 
 public static void main(String[] args) { 
 Segmentation1 seg = new Segmentation1(); 
 seg.setDictionary(); 
 String response1 = seg.leftMax(); 
 System.out.println(response1); 
 } 
} 

可以看到运行结果是:北京大学/生前/来/应聘/

算法的核心就是从前往后搜索,然后找到最长的字典分词。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对脚本之家的支持。

相关文章

  • Java均摊复杂度和防止复杂度的震荡原理分析

    Java均摊复杂度和防止复杂度的震荡原理分析

    这篇文章主要介绍了Java均摊复杂度和防止复杂度的震荡,结合实例形式分析了Java均摊复杂度和防止复杂度的震荡相关概念、原理、实现方法与注意事项,需要的朋友可以参考下
    2020-03-03
  • 让JPA的Query查询接口返回Map对象的方法

    让JPA的Query查询接口返回Map对象的方法

    下面小编就为大家分享一篇让JPA的Query查询接口返回Map对象的方法,具有很的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2017-12-12
  • java.lang.NoClassDefFoundError错误的原因及解决方法

    java.lang.NoClassDefFoundError错误的原因及解决方法

    这篇文章主要给大家介绍了关于java.lang.NoClassDefFoundError错误的原因及解决的相关资料,java.lang.NoClassDefFoundError是Java虚拟机在运行时无法找到特定类的错误,需要的朋友可以参考下
    2023-10-10
  • Java设计模式之外观模式的实现方式

    Java设计模式之外观模式的实现方式

    这篇文章主要介绍了Java设计模式之外观模式的实现方式,外观模式隐藏系统的复杂性,并向客户端提供了一个客户端可以访问系统的接口,这种类型的设计模式属于结构型模式,它向现有的系统添加一个接口,来隐藏系统的复杂性,需要的朋友可以参考下
    2023-11-11
  • Springboot的ThreadPoolTaskScheduler线程池轻松搞定15分钟不操作自动取消订单

    Springboot的ThreadPoolTaskScheduler线程池轻松搞定15分钟不操作自动取消订单

    这篇文章主要介绍了Springboot的ThreadPoolTaskScheduler线程池轻松搞定15分钟不操作自动取消订单,本文给大家介绍的非常详细,需要的朋友可以参考下
    2025-01-01
  • 深入理解Netty核心类及其作用

    深入理解Netty核心类及其作用

    本文介绍了Netty框架中的核心类及其作用,包括Channel、EventLoop、ChannelPipeline、ByteBuf等,通过对这些类的深入理解,可以更好地使用Netty进行网络编程开发
    2023-04-04
  • 一文带你剖析Redisson分布式锁的原理

    一文带你剖析Redisson分布式锁的原理

    相信使用过redis的,或者正在做分布式开发的童鞋都知道redisson组件,它的功能很多,但我们使用最频繁的应该还是它的分布式锁功能,少量的代码,却实现了加锁、锁续命(看门狗)、锁订阅、解锁、锁等待(自旋)等功能,我们来看看都是如何实现的
    2022-11-11
  • 自己动手写的mybatis分页插件(极其简单好用)

    自己动手写的mybatis分页插件(极其简单好用)

    最近做了个项目,需要用到mybatis分页功能,网上找了很多插件,都不太合适,于是就自己动手写了个mybatis分页插件功能,非常不错,代码简单易懂,需要的朋友参考下吧
    2016-11-11
  • SpringBoot登录用户权限拦截器

    SpringBoot登录用户权限拦截器

    这篇文章主要介绍了SpringBoot登录用户权限拦截器,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-03-03
  • Java中Scanner的常用方法总结(一次学懂)

    Java中Scanner的常用方法总结(一次学懂)

    这篇文章主要给大家介绍了关于Java中Scanner常用方法的相关资料,Java中的Scanner是一个用于读取用户输入的类,它可以读取各种类型的数据,包括整数、浮点数、字符串等等,需要的朋友可以参考下
    2023-11-11

最新评论