KMP算法精解及其Python版的代码示例

 更新时间:2016年06月01日 18:51:33   作者:WhiteFish  
KMP算法基本上被人们用作字符串的匹配操作,这里我们就来介绍KMP算法精解及其Python版的代码示例,需要的朋友可以参考下

KMP算法是经典的字符串匹配算法,解决从字符串S,查找模式字符串M的问题。算法名称来源于发明者Knuth,Morris,Pratt。
假定从字符串S中查找M,S的长度ls,M的长度lm,且(ls > lm)。

朴素的字符串查找方法
从字符串S的第一个字符开始与M进行比较,如果匹配失败。从下一字符开始,重新比较。指导第 (ls - lm) 个字符。
这种方法容易想到并且容易理解,效率不高。
问题在于每次匹配失败后,移动的步伐固定为 1,其实步子可以迈得再大一些。

KMP的字符串查找方法
假定在模式串的连续字串M[0, i] 且 i < lm,已经成功匹配字符串S。但是不巧第 i+1 个字符失败了,怎么办?移动一个字符,重头再来?当然不好,那就是朴素路线了。我们能否从跌倒的地方继续走呢?
既然字串M[0 - i]已经匹配成功,那就从这个子串上做文章。举个栗子     

S序号
j
j + 1
 j + 2
j + 3
j + 4
j + 5
 j+6
j + 7
。。。
S串
a
b
c
a
b
c
d
e
。。。
M串
a
b
c
a
b
d



M序号

0
1
2
3
4
5




此时匹配失败在M串的第5个字符,前4个字符已经匹配成功。
如果从跌倒的地方出发,则需要存在M[0, 4]的子串M[0, k] == S[j+4-k , j+4]。
由于M[0, 4] == S[j ,  j+4] 则有 字串S[j+4-k, j+4] == M[4-k, 4]。综上有M[0, k] == M[4-k, 4]
如果这样的k不存在,那就老老实实的朴素了。
从上面的表格可以直观的看出,下一次匹配只要把M串移动到 j + 3 位置,从 j+5 开始匹配就可以。很容易看出来 在已经匹配成功的字串M[0 , 4]中有最长的子串 (M[0 , 1] == M[3 , 4]),这个就是问题的关键。
因此KMP的核心部分就是计算模式串的各个子串的 k。

实例
首先我们来看一下字符串的朴素匹配.
可以想象成把文本串s固定住,模式串p从s最左边开始对齐,如果对齐的部分完全一样,则匹配成功,失败则将模式串p整体往右移1位,继续检查对齐部分,如此反复.

#朴素匹配 
def naive_match(s, p): 
 m = len(s); n = len(p) 
 for i in range(m-n+1):#起始指针i 
  if s[i:i+n] == p: 
   return True 
 return False 

关于kmp算法,讲的最好的当属阮一峰的<字符串匹配的KMP算法>.一路读下来,豁然开朗.
其实就是,对模式串p进行预处理,得到前后缀的部分匹配表,使得我们可以借助已知信息,算出可以右移多少位.即 kmp = 朴素匹配 + 移动多位.
更多细节请看阮一峰的文章,这里就不展开了.
下面给出python的代码实现.

#KMP 
def kmp_match(s, p): 
 m = len(s); n = len(p) 
 cur = 0#起始指针cur 
 table = partial_table(p) 
 while cur<=m-n: 
  for i in range(n): 
   if s[i+cur]!=p[i]: 
    cur += max(i - table[i-1], 1)#有了部分匹配表,我们不只是单纯的1位1位往右移,可以一次移动多位 
    break 
  else: 
   return True 
 return False 
 
#部分匹配表 
def partial_table(p): 
 '''''partial_table("ABCDABD") -> [0, 0, 0, 0, 1, 2, 0]''' 
 prefix = set() 
 postfix = set() 
 ret = [0] 
 for i in range(1,len(p)): 
  prefix.add(p[:i]) 
  postfix = {p[j:i+1] for j in range(1,i+1)} 
  ret.append(len((prefix&postfix or {''}).pop())) 
 return ret 
 
print naive_match("BBC ABCDAB ABCDABCDABDE", "ABCDABD") 
print partial_table("ABCDABD") 
print kmp_match("BBC ABCDAB ABCDABCDABDE", "ABCDABD") 

相关文章

  • python程序运行进程、使用时间、剩余时间显示功能的实现代码

    python程序运行进程、使用时间、剩余时间显示功能的实现代码

    这篇文章主要介绍了python程序运行进程、使用时间、剩余时间显示功能,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友参考下吧
    2019-07-07
  • python groupby函数实现分组后选取最值

    python groupby函数实现分组后选取最值

    这篇文章主要介绍了python groupby函数实现分组后选取最值,文章围绕主题相关资料展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-06-06
  • Pycharm IDE安装环境配置的2025最新完整版教程

    Pycharm IDE安装环境配置的2025最新完整版教程

    PyCharm是目前最流行、使用最广泛的Python IDE,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,下面我们来看看Pycharm IDE安装环境配置的最新教程吧
    2025-03-03
  • Python字符串中的单词反转的实现示例

    Python字符串中的单词反转的实现示例

    在Python中,要将字符串中的单词进行反转,本文主要介绍了Python字符串中的单词反转的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2024-04-04
  • 全CPU并行处理Pandas操作Pandarallel更快处理数据

    全CPU并行处理Pandas操作Pandarallel更快处理数据

    我们在处理数据时,通常小的数据对处理速度不敏感,但数据量一大,顿时会感觉数据处理效率不尽如人意,今天介绍的pandarallel就是一个简单高效的Pandas并行工具,几行代码就可以提高数据处理效率,
    2024-01-01
  • python之value_counts()的具体使用

    python之value_counts()的具体使用

    value_counts() 是一个用于统计某列中各个值的出现次数的函数,本文主要介绍了python之value_counts()的具体使用,具有一定的参考价值,感兴趣的可以了解一下
    2023-10-10
  • Python字典对象实现原理详解

    Python字典对象实现原理详解

    这篇文章主要介绍了Python字典对象实现原理详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-07-07
  • Python数据类型-序列sequence

    Python数据类型-序列sequence

    这篇文章主要介绍了Python数据类型-序列sequence,在前面,我们已经对Python学习做了系统的知识梳理(Python思维导图),我们接下来把知识点分节进行细讲。这一节,我们讲解序列,需要的朋友可以参考下
    2022-01-01
  • Django连接数据库并实现读写分离过程解析

    Django连接数据库并实现读写分离过程解析

    这篇文章主要介绍了Django连接数据库并实现读写分离过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-11-11
  • python爬虫请求头设置代码

    python爬虫请求头设置代码

    在本篇文章里小编给大家整理的是一篇关于python爬虫请求头如何设置内容,需要的朋友们可以学习下。
    2020-07-07

最新评论