js 正则学习小记之匹配字符串字面量优化篇

更新时间：2020年04月08日 22:20:39 作者：楼教主

昨天在《js 正则学习小记之匹配字符串字面量》谈到 /"(?:\\.|[^"])*"/ 是个不错的表达式，因为可以满足我们的要求，所以这个表达式可用，但不一定是最好的

昨天在《js 正则学习小记之匹配字符串字面量》谈到 /"(?:\\.|[^"])*"/ 是个不错的表达式，因为可以满足我们的要求，所以这个表达式可用，但不一定是最好的。
从性能上来说，他非常糟糕，为什么这么说呢，因为传统型NFA引擎遇到分支是从左往右匹配的，
所以它会用 \\. 去匹配每一个字符，发现不对后才用 [^"] 去匹配。
比如这样一个字符串: "123456\'78\"90"
共 16 个字符，除了第一个 " 直接匹配成功，还剩余 15 个，只有 2 个转义(4 个字符)，所以 \\. 会失败 10 次，只有 2 次成功。
这 10 次匹配失败，需要回溯后用 [^"] 才能匹配成功，当然最后一个 " 会直接匹配成功。

很明显，正常的字符串不可能全是转义，正常的字符串才是主流，当然不排除有人故意全转义的情况。
所以这个正则需要10次回溯后才能匹配完成，如果字符串增长到 1K 1M 肿么破呢？
所以我们要修改下这个正则，前后换下位置么？
难道是 /"(?:[^"]|\\.)*"/ ？呵呵，好像不太对，这样的话转义就不能被匹配了。

所以还要修改下 /"(?:[^"\\]|\\.)*"/ 这样就OK了，遇到 \ 转义就会用 \\. 去尝试匹配。

可是还是有问题，因为我们在 [^"\\] 过滤掉了 \n 所以没法匹配多行字符的情况。

js 中字符串用 \ 折行是允许的，但是修改后的正则没法匹配这样的字符串了，所以我们还得继续修复。

因为 . 没法匹配换行，所以我们要用其他方式表达。
. 是用于匹配除换行符之外的所有字符，难道我们要 [.\n] 来表示么？
这样是不对的，因为 [] 字符集中的 . 不再表示除换行符之外的所有字符，而是字符 . 也就是他本身一个字符而已。
那怎么办呢？
其实换个思路，
\d 表示 0-9
\D 表示 [^0-9]
那么 [\d\D] 就表示所有了，不是么。（新人朋友不知道能不能消化这个知识点。）
同理 [\s\S] [\w\W] 同样可以。
所以 /"(?:[^"\\]|\\[\d\D])*"/ 这样就满足我们的要求了。

效果不错。
回头过来分分析下他现在的性能吧。
还是这个字符串: "123456\'78\"90" ，正则 /"(?:[^"\\]|\\[\d\D])*"/

共 16 个字符，除了第一个 " 直接匹配成功，还剩余 15 个，有 2 个转义(4 个字符)，[^"\\] 能匹配成功 10 个字符，只有 2 次失败。
为什么不是 4 次失败呢，明明有4个字符啊。\\ 虽然是2个字符，但是读到第一个 \ 就匹配失败，然后用 \\[\d\D] 匹配成功，
占用掉了两个字符 \\ 下次用下一个o开始匹配，所以只有2次回溯。
只有 2 次需要回溯，然后用 \\[\d\D] 匹配成功。当然最后一个 " 还是会直接匹配成功。
所以从 10 次回溯，减少到了 2 次，虽然正则比昨天臃肿了很多，但至少性能提升了不止一个等级。

OK，今天的分享完毕，明天见。

您可能感兴趣的文章:

python 正则表达式 re.sub & re.subn
正则表达式一个比较常见的用途是找到所有模式匹配的字符串并用不同的字符串来替换它们。sub方法提供一个替换值，可以是字符串或函数，和一个要被处理的字符串。这篇文章主要介绍了python 正则表达式 re.sub & re.subn,需要的朋友可以参考下
2017-12-12
比较常用的几个正则表达式匹配数字(收藏)
正则表达式用于字符串处理、表单验证等场合，实用高效。今天小编给大家分享比较常用的几个正则表达式匹配数字，需要的朋友参考下
2017-03-03
2019手机号码JS正则表达式验证实例代码
这篇文章主要介绍了2019手机号码JS正则表达式验证实例代码，代码简单易懂，非常不错，具有一定的参考借鉴价值 ,需要的朋友可以参考下
2019-05-05
Python 中文正则表达式笔记
总结在 python 语言里使用正则表达式匹配中文的经验。
2010-07-07
Python正则表达式匹配字符串中的数字
这篇文章主要介绍了Python正则表达式匹配字符串中的数字，本文通过实例代码给大家介绍的非常详细，具有一定的参考借鉴价值,需要的朋友可以参考下
2020-01-01
正则表达式中的特殊字符
正则表达式中的特殊字符...
2006-06-06
获取网址路径的正则
获取网址路径的正则，大家可以自己测试下。
2009-08-08
JS中的正则表达式及pattern的注意事项
本文给大家介绍js中的正则表达式的注意事项以及pattern的注意事项，需要的小伙伴可以参考下本篇文章
2015-10-10
VS里的正则表达式的替换技巧
这篇文章主要介绍了VS里的正则表达式的替换技巧,需要的朋友可以参考下
2016-05-05
正则表达式(括号)、[中括号]、{大括号}的区别小结
这篇文章主要介绍了正则表达式(括号)、[中括号]、{大括号}的区别小结,本文用(\s*)[\s*]{\s*}做例子,需要的朋友可以参考下
2014-07-07

js 正则学习小记之匹配字符串字面量优化篇

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具