python使用正则表达式匹配反斜杠\遇到的问题

 更新时间:2022年09月02日 14:26:32   作者:weixin_42576837  
在学习Python正则式的过程中,有一个问题一直困扰我,如何去匹配一个反斜杠(即“\”),下面这篇文章主要给大家介绍了关于python使用正则表达式匹配反斜杠\的相关资料,需要的朋友可以参考下

遇到的问题:

在做爬虫的时候,爬取的url链接内还有转义字符,反斜杠 \,打算用正则的re.sub()替换掉的时候遇到了问题,这是要做替换的字符串

最开始直接写

re.sub("\\","",item)

编译器漏红了

然后就是找解决办法,最后发现要用四个反斜杠才可以,也就是使用

re.sub("\\\\","",item)

查了查资料,简单说说我自己的理解。

正则表达式

首先就是正则表达式,对于正则表达式来说,他的语法是独立的,有自己的语法,在正则表达式中,由于反斜杠 \ 是一个特殊字符,可以和其他字母形成转义字符,所以要想表示一个反斜杠 \ 就必须写成 \\ 这种形式。所以对于正则表达式来说,如果要匹配一个\ 就要写成\\,像这样:

匹配反斜杠\

python字符串

在python中,如果想要输出一个反斜杠\字符,同样要使用转义:

>>> print("\\")
\

同样是因为在python中反斜杠也是一个特殊字符。

综上

当写成

    item = "https:\/\/jobs.51job.com/guangzhou-thq\/137115906.html?s=sou_sou_soulb&t=0_0"
    item = re.sub("\\\\","",item)

首先传入的一个参数是一个字符串,所以python中的字符串解析器会把"\\\\"解析成
\\,解析之后会再传递给正则表达式的解析器。由于正则表达式也有自己的语法结构,所以当它看到\\时,会把它解析为一个\,所以这时候正则匹配就会只匹配一个\

贴一个Stackoverflow上的回答:

If you’re putting this in a string within a program, you may actually
need to use four backslashes (because the string parser will remove
two of them when “de-escaping” it for the string, and then the regex
needs two for an escaped regex backslash).
For instance:

regex("\\\\") is interpreted as…

regex("\\" [escaped backslash] followed by "\\" [escaped backslash])
is interpreted as…

regex(\\) is interpreted as a regex that matches a single backslash.

原文地址:Can’t escape the backslash with regex?

当然还可以使用 raw string来写,也就是写成

re.sub(r'\\','',item)

由于使用了r'\\',python的字符串解析器看到r'\\'之后,就直接将外层的r''去掉然后传递给re解析器,re解析器会再次解析\\\,匹配内容是一个反斜杠\

字符串方法replace()

除了使用正则替换之外,还可以使用字符串的replace()

str.replace(old, new[, max])
old – 将被替换的子字符串。
new – 新字符串,用于替换old子字符串。
max – 可选字符串, 替换不超过 max 次

>>> item
'https:\\/\\/jobs.51job.com/guangzhou-thq\\/137115906.html?s=sou_sou_soulb&t=0_0'
>>> item.replace('\\','')
'https://jobs.51job.com/guangzhou-thq/137115906.html?s=sou_sou_soulb&t=0_0'
>>>

需要注意的是不论是正则的re.sub()还是str.replace(),使用之后都不会对原始字符串改变:

import re

urL ='https:\/\/jobs.51job.com\/guangzhou-thq\/137735415.html?s=sou_sou_soulb&t=0_0'
print(urL.replace('\\',''))
print(urL)

print(re.sub(r'\\','',urL))
print(urL)

结果

总结 

到此这篇关于python使用正则表达式匹配反斜杠\遇到问题的文章就介绍到这了,更多相关python正则表达式匹配反斜杠\内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python自动化测试中装饰器@ddt与@data源码深入解析

    python自动化测试中装饰器@ddt与@data源码深入解析

    最近工作中接触了python自动化测试,所以下面这篇文章主要给大家介绍了关于python自动化测试中装饰器@ddt与@data源码解析的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-12-12
  • 利用Python实现刘谦春晚魔术

    利用Python实现刘谦春晚魔术

    刘谦在2024年春晚上的撕牌魔术的数学原理非常简单,可以用Python完美复现,文中通过代码示例给大家介绍的非常详细,感兴趣的同学可以自己动手尝试一下
    2024-02-02
  • python操作CouchDB的方法

    python操作CouchDB的方法

    这篇文章主要介绍了python操作CouchDB的方法,包括了couchDb库安装、连接服务器、创建数据库、查询数据库、遍历数据库等常用的操作,非常具有实用价值,需要的朋友可以参考下
    2014-10-10
  • python基础教程之python消息摘要算法使用示例

    python基础教程之python消息摘要算法使用示例

    这篇文章主要介绍了python中的消息摘要算法使用示例,需要的朋友可以参考下
    2014-02-02
  • Python中getattr函数和hasattr函数作用详解

    Python中getattr函数和hasattr函数作用详解

    这篇文章主要介绍了Python中getattr函数和hasattr函数作用的相关知识,非常不错具有参考借鉴价值,需要的朋友可以参考下
    2016-06-06
  • python使用Matplotlib画饼图

    python使用Matplotlib画饼图

    这篇文章主要介绍了python使用Matplotlib画饼图,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-09-09
  • 离线安装python的requests库方法

    离线安装python的requests库方法

    大家好,本篇文章主要讲的是离线安装python的requests库方法,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下
    2022-02-02
  • python去除空格和换行符的实现方法(推荐)

    python去除空格和换行符的实现方法(推荐)

    下面小编就为大家带来一篇python去除空格和换行符的实现方法(推荐)。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-01-01
  • Python自动化办公之邮件发送全过程详解

    Python自动化办公之邮件发送全过程详解

    这篇文章主要介绍了Python自动化办公之邮件发送全过程详解,使用Python实现自动化邮件发送,可以让你摆脱繁琐的重复性业务,可以节省非常多的时,下面我们就来看看具体的操作配置吧
    2022-01-01
  • Pandas提取含有指定字符串的行(完全匹配,部分匹配)

    Pandas提取含有指定字符串的行(完全匹配,部分匹配)

    本文主要介绍了Pandas提取含有指定字符串的行(完全匹配,部分匹配),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-02-02

最新评论