Solr通过特殊字符分词实现自定义分词器详解

更新时间：2017年09月01日 09:53:48 作者：随-忆

最近因为工作的需要，要做一个分词器，通过查找相关的资料最终用solr实现了，下面这篇文章主要给大家介绍了关于Solr通过特殊字符分词实现自定义分词器的相关资料，需要的朋友可以参考借鉴，下面随着小编来一起看看吧。

前言

我们在对英文句子分词的时候，一般采用采用的分词器是WhiteSpaceTokenizerFactory，有一次因业务要求，需要根据某一个特殊字符（以逗号分词，以竖线分词）分词。感觉这种需求可能与WhiteSpaceTokenizerFactory相像，于是自己根据Solr源码自定义了分词策略。

业务场景

有一次，我拿到的数据都是以竖线“|”分隔，分词的时候，需要以竖线为分词单元。比如下面的这一堆数据：

有可能你拿到的是这样的数据，典型的例子就是来自csv文件的数据，格式和下面这种类似：

分词思路

在Solr的schema.xml文件中，有这样的配置

<fieldType name="text_ws" class="solr.TextField" positionIncrementGap="100">
 <analyzer>
  <tokenizer class="solr.WhitespaceTokenizerFactory"/>
 </analyzer>
</fieldType>

对于字段类型text_ws，指定了一个分词器工厂WhitespaceTokenizerFactory，根据这个类，可以实现通过空格来分词，那么我通过竖线分词的代码应该与之类似。

修改源码

在Java工程中引入如下jar包：

<dependency>
  <groupId>org.apache.solr</groupId>
  <artifactId>solr-core</artifactId>
  <version>6.0.0</version>
</dependency>

参照WhitespaceTokenizerFactory的源码，写一个自己的MyVerticalLineTokenizerFactory，内容基本不变：

package com.trainning.project.custom;

import java.util.Arrays;
import java.util.Collection;
import java.util.Map;

import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.core.UnicodeWhitespaceTokenizer;
import org.apache.lucene.analysis.util.TokenizerFactory;
import org.apache.lucene.util.AttributeFactory;

/**
* @author JiangChao
* @date 2017年4月2日下午3:41:13
*/
public class MyVerticalLineTokenizerFactory extends TokenizerFactory{
 public static final String RULE_JAVA = "java";
 public static final String RULE_UNICODE = "unicode";
 private static final Collection<String> RULE_NAMES = Arrays.asList(RULE_JAVA, RULE_UNICODE);

 private final String rule;

 /** Creates a new MyVerticalLineTokenizerFactory */
 public MyVerticalLineTokenizerFactory(Map<String,String> args) {
  super(args);

  rule = get(args, "rule", RULE_NAMES, RULE_JAVA);

  if (!args.isEmpty()) {
  throw new IllegalArgumentException("Unknown parameters: " + args);
  }
 }

 @Override
 public Tokenizer create(AttributeFactory factory) {
  switch (rule) {
  case RULE_JAVA:
   return new MyVerticalLineTokenizer(factory);
  case RULE_UNICODE:
   return new UnicodeWhitespaceTokenizer(factory);
  default:
   throw new AssertionError();
  }
 }
}

具体做分词的MyVerticalLineTokenizer代码如下

package com.trainning.project.custom;

import org.apache.lucene.analysis.util.CharTokenizer;
import org.apache.lucene.util.AttributeFactory;

/**
* @author JiangChao
* @date 2017年4月2日下午9:46:18
*/
public class MyVerticalLineTokenizer extends CharTokenizer {

 public MyVerticalLineTokenizer() {

 }
 public MyVerticalLineTokenizer(AttributeFactory factory) {
  super(factory);
  }

  /** Collects only characters which do not satisfy
  * 参数c指的是term的ASCII值，竖线的值为 124
  */
  @Override
  protected boolean isTokenChar(int c) {
  return !(c == 124);
  }
}

这里最主要的方法就是isTokenChar，它控制了分词的字符，如果需要使用逗号分词的话，字需要将这个方法修改成下面这样：

 /** Collects only characters which do not satisfy
  * 参数c指的是term的ASCII值，逗号的值为 44
  */
  @Override
  protected boolean isTokenChar(int c) {
  return !(c == 44);
  }

整合

代码写好了，怎么使用呢？首先，需要把刚才的java文件打成jar包。我使用的是Eclipse，直接选中两个类文件，右键 -> Export -> JAR File -> Select the export destination: ->选择输出路径，填一个jar名字：MyVerticalLineTokenizerFactory -> Finish

得到的MyVerticalLineTokenizerFactory.jar文件大约3KB，将改文件放置到.\solr_home\lib下，在shcema.xml中定义自己的field

<fieldType name="vertical_text" class="solr.TextField">
 <analyzer>
  <tokenizer class="com.trainning.project.custom.MyVerticalLineTokenizerFactory"/>
 </analyzer>
 </fieldType>
 <field name="custom" type="vertical_text" indexed="true" stored="false"/>

注意这里的class是刚才自己写的分词器的完整类名。

打开Solr主页，在Analysis页面测试一下，是否实现了预期？

源码下载：

GitHub：下载地址

本地下载：链接地址

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流，谢谢大家对脚本之家的支持。

您可能感兴趣的文章:

基于Java实现的Dijkstra算法示例
这篇文章主要介绍了基于Java实现的Dijkstra算法示例,一个比较典型的算法示例,需要的朋友可以参考下
2014-07-07
在Java项目中实现日志输出的技巧分享
日志是开发过程中不可或缺的一部分,它可以帮助我们追踪代码的执行过程、排查问题以及监控系统运行状况,然而,大多数开发人员在编写日志时往往只关注于输出必要的信息,而忽略了日志的可读性和美观性,本文将介绍如何在Java项目中实现漂亮的日志输出
2023-10-10
Spring解读@Component和@Configuration的区别以及源码分析
通过实例分析@Component和@Configuration注解的区别,核心在于@Configuration会通过CGLIB代理确保Bean的单例,而@Component不会,在Spring容器中,使用@Configuration注解的类会被CGLIB增强,保证了即使在同一个类中多次调用@Bean方法
2024-10-10
MyBatis Mapper映射器的具体用法
映射器是MyBatis中最重要的文件,映射器由Java接口和XML文件共同组成,具有一定的参考价值,感兴趣的可以了解一下
2023-10-10
springboot集成redis启动报错问题的解决方式
这篇文章主要介绍了springboot集成redis启动报错问题的解决方式,从错误信息上看缺少pool2相关包,查询资料发现当redis客户端选择Lettuce时候需要增加：commons-pool2
添加引用,重启服务,需要的朋友可以参考下
2023-11-11
Java中的锁ReentrantLock详解
这篇文章主要介绍了Java中的锁ReentrantLock详解,ReentantLock是java中重入锁的实现,一次只能有一个线程来持有锁,包含三个内部类,Sync、NonFairSync、FairSync,需要的朋友可以参考下
2023-09-09
23种设计模式（15）java解释器模式
这篇文章主要为大家详细介绍了23种设计模式之java解释器模式，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2017-12-12
图解Java排序算法之归并排序
这篇文章主要为大家详细介绍了Java经典排序算法之归并排序，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2021-11-11
Java新手环境搭建 Tomcat安装配置教程
这篇文章主要为大家详细介绍了Java新手环境搭建的相关资料，Tomcat安装配置教程，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-03-03
Spring的refresh()方法相关异常解析
这篇文章主要介绍了Spring的refresh()方法相关异常解析，具有一定参考价值，需要的朋友可以了解下。
2017-11-11

Solr通过特殊字符分词实现自定义分词器详解

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具