Python容错的前缀树实现中文纠错

 更新时间:2021年07月07日 15:31:27   作者:王大呀呀  
本文使用 Python 实现了前缀树,并且支持编辑距离容错的查询。文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

介绍

本文使用 Python 实现了前缀树,并且支持编辑距离容错的查询。文中的前缀树只存储了三个分词,格式为 (分词字符串,频率) ,如:('中海晋西园', 2)、('中海西园', 24)、('中南海', 4),可以换成自己的文件进行数据的替换。在查询的时候要指定一个字符串和最大的容错编辑距离。

实现

class Word:
    def __init__(self, word, freq):
        self.word = word
        self.freq = freq

class Trie:
    def __init__(self):
        self.root = LetterNode('')
        self.START = 3

    def insert(self, word, freq):
        self.root.insert(word, freq, 0)

    def findAll(self, query, maxDistance):
        suggestions = self.root.recommend(query, maxDistance, self.START)
        return sorted(set(suggestions), key=lambda x: x.freq)


class LetterNode:
    def __init__(self, char):
        self.REMOVE = -1
        self.ADD = 1
        self.SAME = 0
        self.CHANGE = 2
        self.START = 3
        self.pointers = []
        self.char = char
        self.word = None

    def charIs(self, c):
        return self.char == c

    def insert(self, word, freq, depth):
        if ' ' in word:
            word = [i for i in word.split(' ')]
        if depth < len(word):
            c = word[depth].lower()
            for next in self.pointers:
                if next.charIs(c):
                    return next.insert(word, freq, depth + 1)
            nextNode = LetterNode(c)
            self.pointers.append(nextNode)
            return nextNode.insert(word, freq, depth + 1)
        else:
            self.word = Word(word, freq)

    def recommend(self, query, movesLeft, lastAction):
        suggestions = []
        length = len(query)

        if length >= 0 and movesLeft - length >= 0 and self.word:
            suggestions.append(self.word)

        if movesLeft == 0 and length > 0:
            for next in self.pointers:
                if next.charIs(query[0]):
                    suggestions += next.recommend(query[1:], movesLeft, self.SAME)
                    break

        elif movesLeft > 0:
            for next in self.pointers:
                if length > 0:
                    if next.charIs(query[0]):
                        suggestions += next.recommend(query[1:], movesLeft, self.SAME)
                    else:
                        suggestions += next.recommend(query[1:], movesLeft - 1, self.CHANGE)
                        if lastAction != self.CHANGE and lastAction != self.REMOVE:
                            suggestions += next.recommend(query, movesLeft - 1, self.ADD)
                        if lastAction != self.ADD and lastAction != self.CHANGE:
                            if length > 1 and next.charIs(query[1]):
                                suggestions += next.recommend(query[2:], movesLeft - 1, self.REMOVE)
                            elif length > 2 and next.charIs(query[2]) and movesLeft == 2:
                                suggestions += next.recommend(query[3:], movesLeft - 2, self.REMOVE)
                else:
                    if lastAction != self.CHANGE and lastAction != self.REMOVE:
                        suggestions += next.recommend(query, movesLeft - 1, self.ADD)
        return suggestions



def buildTrieFromFile():
    trie = Trie()
    rows = [('中海晋西园', 2),('中海西园', 24),('中南海', 4)]
    for row in rows:
        trie.insert(row[0], int(row[1]))
    return trie


def suggestor(trie, s, maxDistance):
    if ' ' in s:
        s = [x for x in s.split(' ')]
    suggestions = trie.findAll(s, maxDistance)
    return [str(x.word) for x in suggestions]


if __name__ == "__main__":
    trie = buildTrieFromFile()
    r = suggestor(trie, '中海晋西园', 1)
    print(r)

分析

结果打印:
['中海晋西园', '中海西园']

可以看出“中海晋西园”是和输入完全相同的字符串,编辑距离为 0 ,所以符合最大编辑距离为 1 的要求,直接返回。

“中海西园”是“中海晋西园”去掉“晋”字之后的结果,编辑距离为 1, 所以符合最大编辑距离为 1 的要求,直接返回。

另外,“中南海”和“中海晋西园”的编辑距离为 4 ,不符合最大编辑距离为 1 的要求,所以结果中没有出现。

参考

https://github.com/leoRoss/AutoCorrectTrie

到此这篇关于Python容错的前缀树实现中文纠错的文章就介绍到这了,更多相关Python 中文纠错内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

您可能感兴趣的文章:

相关文章

  • 使用Pygame制作中秋嫦娥奔月小游戏

    使用Pygame制作中秋嫦娥奔月小游戏

    中秋节是中国传统的重要节日之一,起源于嫦娥奔月的神话故事,在中秋节这个特殊的日子里,人们不仅会欣赏明亮的月亮和嫦娥奔月的美丽故事,还会举行一些庆祝活动,接下来,我们使用Pygame制作“嫦娥奔月”小游戏,感兴趣的朋友可以自己动手试一试
    2023-09-09
  • 序列化Python对象的方法

    序列化Python对象的方法

    这篇文章主要介绍了序列化Python对象的方法,文中讲解非常细致,代码帮助大家更好的理解和学习,感兴趣的朋友可以了解下
    2020-08-08
  • Python实现绘制双柱状图并显示数值功能示例

    Python实现绘制双柱状图并显示数值功能示例

    这篇文章主要介绍了Python实现绘制双柱状图并显示数值功能,涉及Python数值运算及基于matplotlib的图形绘制相关操作技巧,需要的朋友可以参考下
    2018-06-06
  • python用10行代码实现对黄色图片的检测功能

    python用10行代码实现对黄色图片的检测功能

    这篇文章主要介绍了python用10行代码实现对黄色图片的检测功能,涉及Python基于图片库PIL对图片的检测技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-08-08
  • 详解OpenCV中直方图,掩膜和直方图均衡化的实现

    详解OpenCV中直方图,掩膜和直方图均衡化的实现

    这篇文章主要为大家详细介绍了OpenCV中直方图、掩膜、直方图均衡化详细介绍及代码的实现,文中的示例代码讲解详细,需要的可以参考一下
    2022-11-11
  • 一种Python工具的License授权机制详解

    一种Python工具的License授权机制详解

    这篇文章主要介绍了一种Python工具的License授权机制,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-06-06
  • Python Pygame实战之愤怒的小鸟游戏实现

    Python Pygame实战之愤怒的小鸟游戏实现

    《愤怒的小鸟》其实活得还不错,尽管我们一直在嘲笑它的IP帝国梦做得太大。但要知道,把休闲益智游戏的生意做到这个份上的,恐怕也就独此一家了。本文将利用Pygame实现这一游戏,需要的可以参考一下
    2022-04-04
  • python实现文件的备份流程详解

    python实现文件的备份流程详解

    在本篇文章中我们给大家整理了关于python实现文件的备份的详细流程步骤,有兴趣的朋友们学习下。
    2019-06-06
  • python生成指定尺寸缩略图的示例

    python生成指定尺寸缩略图的示例

    这篇文章主要介绍了python生成指定尺寸缩略图的示例,需要的朋友可以参考下
    2014-05-05
  • python实现电子词典

    python实现电子词典

    这篇文章主要为大家详细介绍了python实现电子词典,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2014-01-01

最新评论