Java利用DFA算法实现敏感词管理

 更新时间:2024年11月08日 11:52:36   作者:xn_xy19  
我们在完成一些文章发布的功能是,可以使用第三方工具如阿里云的内容安全来进行文章的审核,但是这个第三方接口并不能过滤一些敏感词,所以本文就来讲讲如何通过DFA算法就行敏感词管理吧

我们在完成一些文章发布的功能是,可以使用第三方工具如阿里云的内容安全来进行文章的审核,但是这个第三方接口并不能过滤一些敏感词

因此这时候我们需要自己维护一套敏感词。

1.敏感词-过滤

技术选型

方案说明
数据库模糊查询效率太低
String.indexOf("")查找数据库量大的话也是比较慢
全文检索分词再匹配
DFA算法确定有穷自动机(一种数据结构)

2.DFA实现原理

DFA全称为:Deterministic Finite Automaton,即确定有穷自动机。

存储:一次性的把所有的敏感词存储到了多个map中,就是下图表示这种结构

检索的过程

3.实现步骤

3.1初始化敏感词库

private static int checkWord(String text, int beginIndex) {
        if (dictionaryMap == null) {
            throw new RuntimeException("字典不能为空");
        }
        boolean isEnd = false;
        int wordLength = 0;
        Map<String, Object> curMap = dictionaryMap;
        int len = text.length();
        // 从文本的第beginIndex开始匹配
        for (int i = beginIndex; i < len; i++) {
            String key = String.valueOf(text.charAt(i));
            // 获取当前key的下一个节点
            curMap = (Map<String, Object>) curMap.get(key);
            if (curMap == null) {
                break;
            } else {
                wordLength ++;
                if ("1".equals(curMap.get("isEnd"))) {
                    isEnd = true;
                }
            }
        }
        if (!isEnd) {
            wordLength = 0;
        }
        return wordLength;
    }

3.3获取匹配的关键词和命中的次数

 public static Map<String, Integer> matchWords(String text) {
        Map<String, Integer> wordMap = new HashMap<>();
        int len = text.length();
        for (int i = 0; i < len; i++) {
            int wordLength = checkWord(text, i);
            if (wordLength > 0) {
                String word = text.substring(i, i + wordLength);
                // 添加关键词匹配次数
                if (wordMap.containsKey(word)) {
                    wordMap.put(word, wordMap.get(word) + 1);
                } else {
                    wordMap.put(word, 1);
                }
 
                i += wordLength - 1;
            }
        }
        return wordMap;
    }

3.4测试

public static void main(String[] args) {
        List<String> list = new ArrayList<>();
        list.add("星期天");
        list.add("放假");
        list.add("加班");
        initMap(list);
        String content="我是一个好人,但是我星期天又要加班";
        Map<String, Integer> map = matchWords(content);
        System.out.println(map);
    }

到此这篇关于Java利用DFA算法实现敏感词管理的文章就介绍到这了,更多相关Java敏感词管理内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Java使用dom4j解析XML

    Java使用dom4j解析XML

    dom4j是一个开源的、基于Java的XML解析库,而在Java中使用dom4j库解析XML是一种常见的方法,下面就跟随小编一起来学习一下Java如何使用dom4j解析XML吧
    2024-12-12
  • @valid 无法触发BindingResult的解决

    @valid 无法触发BindingResult的解决

    这篇文章主要介绍了@valid 无法触发BindingResult的解决方案,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-12-12
  • Java实现上传和下载功能(支持多个文件同时上传)

    Java实现上传和下载功能(支持多个文件同时上传)

    这篇文章主要介绍了Java实现上传和下载功能,支持多个文件同时上传,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-12-12
  • Java Swing实现记事本页面

    Java Swing实现记事本页面

    这篇文章主要为大家详细介绍了Java Swing实现记事本页面,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-02-02
  • Spring中的八大模式简单介绍

    Spring中的八大模式简单介绍

    这篇文章主要介绍了Spring中的八大模式简单介绍,结合实例代码给大家讲解的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-06-06
  • java抛出异常后,后续代码是否继续执行详解

    java抛出异常后,后续代码是否继续执行详解

    这篇文章主要给大家介绍了关于java抛出异常后,后续代码是否继续执行详的相关资料,在Java编程中,异常是当程序执行时遇到问题时抛出的一种特殊情况,需要的朋友可以参考下
    2023-07-07
  • java Nio使用NioSocket客户端与服务端交互实现方式

    java Nio使用NioSocket客户端与服务端交互实现方式

    这篇文章主要介绍了java Nio使用 NioSocket 客户端与服务端交互实现方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-06-06
  • MyBatis延迟加载的处理方案

    MyBatis延迟加载的处理方案

    MyBatis 支持 延迟加载(Lazy Loading),允许在需要数据时才从数据库加载,而不是在查询结果第一次返回时就立即加载所有数据,延迟加载的核心思想是,将关联对象或集合的加载推迟到真正需要时才进行加载,本文给大家介绍了MyBatis延迟加载的处理方案
    2024-12-12
  • Mybatis打印SQL语句的几种常用方式

    Mybatis打印SQL语句的几种常用方式

    当我们动态sql拼接的块很多的时候,我们要想从*mapper.xml中直接找出完整的sql就会非常的难,这个时候经常会需要把组合之后的完整SQL语句打印出来,对调试非常有帮助的,所以本文小编给大家介绍了几种Mybatis打印SQL语句的常用方式,需要的朋友可以参考下
    2023-11-11
  • Java关于IO流的全面介绍

    Java关于IO流的全面介绍

    下面小编就为大家带来一篇Java关于IO流的全面介绍。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2016-08-08

最新评论