python用match()函数爬数据方法详解

 更新时间:2019年07月23日 15:36:29   作者:Ma_Qiao2020  
在本篇文章里小编给大家整理了关于python用match()函数爬数据方法以及相关知识点,需要的朋友们学习下。

match()函数的使用。以及从文本中提取数据的方法。在学习re模块的相关函数前应了解正则表达式的特殊字符

准备一个要爬取的文本文档:

直接从某个网页拷贝一份代码,粘贴在 一个txt文件里,以供学习。

方法很简单,比如打开百度视频的热门电影网页,右键点击查看源代码,然后复制,粘贴到一个txt文件里,保存到工作目录下。

有4000多行。

re.match(pattern, string, flags=0)

①pattern,是正则表达式。string,被检验的字符串。

②flags是可选参数,此标记是用来对patten的补充。例如:re.S,可以让正则表达式中的点匹配换行符\n。(如图片中,可以看帮助文档,查看有哪些标记)

③ match()函数由左向右检验string,若匹配到正则表达式,返回一个匹配对象,否则就返回None.

④re.match() 匹配字符串的开始位置,而不匹配每行开始。

----所以才将网页的每行放入列表,以供match函数对每行操作。

比如要在文档中,提取电影的网址,和电影名。

①复制那行文本作为表达式,

②将要提取的网址和和电影名替换为(.*),这只是暂时的,可以在接下来的代码中调整。

读取文本:

①用with open()语句读取;

②用readlines,一次性读完,返回一个列表,元素是文本的每一行。

with open('aa.txt','r',encoding='utf-8') as f:
  lines=f.readlines()

①判断每行是否返回了匹配的对象,

②接收匹配对象,并用groups()提取表达式内括号的内容;

for line in lines:
  if re.match(pat,line):   #判断过滤掉返回None的行,
    ret=re.match(pat,line) #接收匹配对象
    print(ret.groups())

发现有不符合的行,稍加修改,过滤掉不符合的行:

因为,不合的行都有空格(或其他字符)。可以给第二子组的点 . 换成非[^ ];非空格的任意字符,意思就是不要有空格的。

用f-string格式化对输出的文本稍加修饰,使用group(1),group(2);

可以将这段代码封装为一个函数。爬取百度视频的其他栏目。

测试: 百度视频的电影,电视剧,和动漫等栏目,网页上的格式基本相同,所以用上面的函数直接套用。

打开百度视频的动漫,复制源代码,存为bb.txt。

同样可以爬取网址和视频名称。

以上仅是练习match()函数的例子。

以上就是关于python如何用match()函数爬数据的全部内容,感谢大家的阅读和对脚本之家的支持。

相关文章

  • pyqt qlistwidget改变item颜色的操作

    pyqt qlistwidget改变item颜色的操作

    这篇文章主要介绍了pyqt qlistwidget改变item颜色的操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03
  • PyTorch模型保存与加载实例详解

    PyTorch模型保存与加载实例详解

    大家都知道pytorch的模型和参数是分开的,可以分别保存或加载模型和参数,这篇文章主要给大家介绍了关于PyTorch模型保存与加载的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-04-04
  • python的pytest框架之命令行参数详解(下)

    python的pytest框架之命令行参数详解(下)

    这篇文章主要介绍了python的pytest框架之命令行参数详解,今天将继续更新其他一些命令选项的使用,和pytest收集测试用例的规则,需要的朋友可以参考下
    2019-06-06
  • 对python添加模块路径的三种方法总结

    对python添加模块路径的三种方法总结

    今天小编就为大家分享一篇对python添加模块路径的三种方法总结,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-10-10
  • Django使用channels + websocket打造在线聊天室

    Django使用channels + websocket打造在线聊天室

    本文将教你如何使用channels + websocket打造个在线聊天室。一共只有四步,你可以轻松上手并学会。项目中大部分代码是基于channels的官方文档的,加入了些自己的理解,以便新手学习使用。
    2021-05-05
  • Python面向对象编程之类的继承

    Python面向对象编程之类的继承

    这篇文章主要介绍了Python面向对象编程之类的继承,继承Inheritance是指代码复用的高级抽象,继承是面向对象设计的精髓之一,实现了以类为单位的高级抽象级别代码复用,下面进入文章看该内容的下详情
    2021-11-11
  • Python实现Matplotlib,Seaborn动态数据图的示例代码

    Python实现Matplotlib,Seaborn动态数据图的示例代码

    这篇文章主要为大家详细介绍了如何让Matplotlib、Seaborn的静态数据图动起来,变得栩栩如生。文中的示例代码讲解详细,感兴趣的小伙伴可以学习一下
    2022-05-05
  • Python eval函数原理及用法解析

    Python eval函数原理及用法解析

    这篇文章主要介绍了Python eval函数原理及用法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-11-11
  • Python实现的微信支付方式总结【三种方式】

    Python实现的微信支付方式总结【三种方式】

    这篇文章主要介绍了Python实现的微信支付方式,结合实例形式总结分析了Python实现的三种微信支付方式及相关操作步骤、原理、注意事项,需要的朋友可以参考下
    2019-04-04
  • 一文详解Python中subprocess模块的用法

    一文详解Python中subprocess模块的用法

    Python的subprocess模块是一个非常强大的工具,用于启动和与外部进程进行交互,本文将为大家详细介绍 subprocess模块的各个方面,希望对大家有所帮助
    2023-11-11

最新评论