python正则过滤字母、中文、数字及特殊字符方法详解
更新时间:2020年02月11日 16:26:15 作者:jlulxg
这篇文章主要介绍了python正则过滤字母、数字及特殊字符方法详解,需要的朋友可以参考下
去除数字,特殊字符,只保留汉字
import re s = '1123*#$ 中abc国' str = re.sub('[a-zA-Z0-9'!"#$%&\'()*+,-./:;<=>?@,。?★、…【】《》?“”‘'![\\]^_`{|}~\s]+', "", s) # 去除不可见字符 str = re.sub('[\001\002\003\004\005\006\007\x08\x09\x0a\x0b\x0c\x0d\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a]+', '', x) print(str) # 结果为:中国
去除特殊字符,只保留汉子,字母、数字
import re string = "123我123456abcdefgABCVDFF?/ ,。,.:;:''';'''[]{}()()《》" print(string) 123我123456abcdefgABCVDFF?/ ,。,.:;:''';'''[]{}()()《》 sub_str = re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a])","",string) print(sub_str) 123我123456abcdefgABCVDFF
正则表达式说明
函数 | 说明 |
sub(pattern,repl,string) | 把字符串中的所有匹配表达式pattern中的地方替换成repl |
[^**] | 表示不匹配此字符集中的任何一个字符 |
\u4e00-\u9fa5 | 汉字的unicode范围 |
\u0030-\u0039 | 数字的unicode范围 |
\u0041-\u005a | 大写字母unicode范围 |
\u0061-\u007a | 小写字母unicode范围 |
\uAC00-\uD7AF | 韩文的unicode范围 |
\u3040-\u31FF | 日文的unicode范围 |
更多关于python正则过滤字母、数字及特殊字符方法请查看下面相关链接
相关文章
python程序运行进程、使用时间、剩余时间显示功能的实现代码
这篇文章主要介绍了python程序运行进程、使用时间、剩余时间显示功能,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友参考下吧2019-07-07通过Python实现对SQL Server 数据文件大小的监控告警功能
这篇文章主要介绍了通过Python实现对SQL Server 数据文件大小的监控告警,本文给大家分享问题报错信息及解决方案,需要的朋友可以参考下2021-04-04Python Pandas实现将嵌套JSON数据转换DataFrame
对于复杂的JSON数据进行分析时,通常的做法是将JSON数据结构转换为Pandas DataFrame,所以本文就来看看将嵌套JSON数据转换为Pandas DataFrame的具体方法吧2024-01-01pycharm 2019 最新激活方式(pycharm破解、激活)
这篇文章主要介绍了最新2019pycharm激活方式(pycharm破解、激活),本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下2020-01-01
最新评论