Python爬虫运用正则表达式的方法和优缺点

更新时间：2019年08月25日 10:22:08 作者：Charzueus

这篇文章主要给大家介绍了关于Python爬虫运用正则表达式的相关资料，文中通过示例代码介绍的非常详细，对大家学习或者使用Python具有一定的参考学习价值，需要的朋友们下面来一起学习学习吧

前言

我看到最近几部电影很火，查了一下猫眼电影上的数据，发现还有个榜单，里面有各种经典和热映电影的排行榜，然后我觉得电影封面图还挺好看的，想着一张一张下载真是费时费力，于是突发奇想，好像可以用一下最近学的东西实现我的需求，学习了正则表达式之后，想着要感受一下它在爬虫里面的效果和优缺点。

目标：爬取Top100榜单上电影的封面图

Top100榜单规则：将猫眼电影库中的经典影片，按照评分和评分人数从高到低综合排序取前100名，每天上午10点更新。相关数据来源于“猫眼电影库”。

下面是我做的步骤：

（1）查看页面元素，找到包含图片的路径的代码段落

（2）分析图片在web上面的唯一属性，便于之后获取正确图片位置信息

（3）因为需要翻页，观察多个页面的URL变化

（4）综合以上几个点，编写合适的正则表达式

1、python 标准库中re模块提供了正则表达式的全部功能，直接引入；requests模块是http库，爬虫常用库，而urllib.requests 则是最后用到写入文件的函数

import re
import requests
import urllib.request

2、先接收URL地址的HTML页面，然后转化为str形式（正则表达式是匹配字符串），第一个pattern1缩小范围，抓取目标部分，result1接收匹配的结果，这时候所有封面图地址就在里面了

response = requests.get(url)
response = str(response.content)
patttern1 = '<dl class="board-wrapper">.+?<div class="pager-main">'
result1 = re.compile(pat).findall(response)

3、第二个正则，匹配图片的地址信息

pat2 = '<img data-src="https://(.+?\.jpg)'
photos = re.compile(pat1).findall(re1[0])

这时候爬取到100张图的信息，如下图：

4、继续下一步，把每张图片命名好，需要正确的图片地址，避免重复

x = 1
for imgurl in name:
 imgname = 'D:/Top 100/'+str(i/10)+str(x)+'.jpg'
 imgurl = 'https://'+imgurl
 urllib.request.urlretrieve(imgurl,filename=imgname)
 x += 1

5、最后一步了，因为需要翻页爬取，所以加了一个循环，10页内容爬取下来

for i in range(0, 100, 10):
  url = 'http://maoyan.com/board/4?offset='+str(i)
  get_one_page(url, i)
  #定义函数，多次调用

相对来说，这是一个很简单的应用，也是自己学习之后的实践，在这个例子中，我是用到正则表达式来实现的，还有其他方法，而且可能简单，比如BeautifulSoup，XPath等方法，用在更加复杂的爬虫项目里面，需要的知识更多，方法更严谨，还需学习学习！

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对脚本之家的支持。

您可能感兴趣的文章:

python pytest进阶之fixture详解
这篇文章主要介绍了python pytest进阶之fixture详解,学pytest就不得不说fixture，fixture是pytest的精髓所在，就像unittest中的setup和teardown一样，如果不学fixture那么使用pytest和使用unittest是没什么区别的,需要的朋友可以参考下
2019-06-06
自定义PyCharm快捷键的设置方式
这篇文章主要介绍了自定义PyCharm快捷键的设置方式，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-05-05
Python基于lxml模块解析html获取页面内所有叶子节点xpath路径功能示例
这篇文章主要介绍了Python基于lxml模块解析html获取页面内所有叶子节点xpath路径功能,结合实例形式较为详细的分析了Python使用lxml模块进行xml节点数据解析的相关操作技巧与注意事项,需要的朋友可以参考下
2018-05-05
通过python封装SQLite3的示例代码
这篇文章主要介绍了使用 Python 封装 SQLite3 的相关内容,包括创建数据库实例、创建表、各种插入（单个、批量、字典等）、删除（按条件、按 ID 等）、修改（多种方式）、查询（单条、多条、分页等）的示例及对应的实现代码,需要的朋友可以参考下
2024-11-11
Python实现滑块验证码详解
验证码作为一种自然人的机器人的判别工具，被广泛的用于各种防止程序做自动化的场景中。传统的字符型验证安全性已经名存实亡的情况下，各种新型的验证码如雨后春笋般涌现，今天给大家分享一篇Python实现滑块验证码
2022-05-05
python检测主机的连通性并记录到文件的实例
今天小编就为大家分享一篇python检测主机的连通性并记录到文件的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-06-06
使用Python爬虫库BeautifulSoup遍历文档树并对标签进行操作详解
今天为大家介绍下Python爬虫库BeautifulSoup遍历文档树并对标签进行操作的详细方法与函数
2020-01-01
教你用python将数据写入Excel文件中
Python作为一种脚本语言相较于shell具有更强大的文件处理能力,下面这篇文章主要给大家介绍了关于如何用python将数据写入Excel文件中的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
2022-02-02
python 实现存储数据到txt和pdf文档及乱码问题的解决
这篇文章主要介绍了python 实现存储数据到txt和pdf文档及乱码问题的解决，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2021-03-03
Python实现京东秒杀功能代码
这篇文章主要介绍了Python实现京东秒杀功能，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-05-05

Python爬虫运用正则表达式的方法和优缺点

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具