python爬虫 正则表达式解析

 更新时间:2019年09月28日 09:05:51   作者:陪伴is最长情的告白  
这篇文章主要介绍了python爬虫 正则表达式解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

这篇文章主要介绍了python爬虫 正则表达式解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

- re.I # 忽略大小写
- re.M # 多行匹配,将正则作用到源数据的每一行
- re.S # 单行匹配,将正则作用到整个源数据,输出一个整体字符串(包括换行符也打印)

string = '''fall in love with you
i love you very much
i love she
i love her'''
# 去除以i开头的每一行数据
re.findall('^i.*',string,re.M)

['i love you very much', 'i love she', 'i love her']

#匹配全部行
string1 = """细思极恐
你的队友在看书
你的敌人在磨刀
你的闺蜜在减肥
隔壁老王在练腰
"""
re.findall('.*',string1,re.S)

['细思极恐\n你的队友在看书\n你的敌人在磨刀\n你的闺蜜在减肥\n隔壁老王在练腰\n', '']

爬取糗事百科中所有的图片进行保存

import requests
import re
import urllib
import os

url = 'https://www.qiushibaike.com/pic/page/%d/?s=5170552'
# 自定义请求头信息
headers = {
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
}
# 判断是否存在名为qiutu的文件夹,如果不存在则创建文件夹
if not os.path.exists('./qiutu'):
  os.mkdir('./qiutu')
# 手动输入开始页,结束页
start_page = int(input('start>>>'))
end_page = int(input('end>>>'))

for page in range(start_page,end_page+1):
  # 按照每页url形式拼接指定url
  new_url = format(url%page)
  # 发起请求
  page_text = requests.get(url=new_url,headers=headers).text
  # 使用正则找出page_text页面中所有图片url
  img_url_list = re.findall('<div class="thumb">.*?<img src="(.*?)" alt=.*?</div>',page_text,re.S)
  # 给每一个图片url添加https协议头
  for img_url in img_url_list:
    img_url = 'https:' + img_url
     # 将图片url切割去除图片名称,作为存储时图片的名称
    img_name = img_url.split('/')[-1]
    img_path = 'qiutu/' + img_name、
     # 对图片做持久化存储
    urllib.request.urlretrieve(url=img_url,filename=img_path)
    print(img_path,'下载成功')
print('over')

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • 利用Python求解阿基米德分牛问题

    利用Python求解阿基米德分牛问题

    这篇文章主要为大家详细介绍了如何利用Python优雅地求解阿基米德分牛问题,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起了解一下
    2023-03-03
  • Python实现获取域名所用服务器的真实IP

    Python实现获取域名所用服务器的真实IP

    本文是给大家分享的使用python获取到域名所在服务器的真实IP,原因是现在很多的网站都使用了CDN,大家很难直接查到域名的服务器的IP,本文是使用了一个巧妙的方法,详情请仔细看看下文吧
    2015-10-10
  • 在Python中实现函数重载的示例代码

    在Python中实现函数重载的示例代码

    这篇文章主要介绍了在Python中实现函数重载的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-12-12
  • python发送byte数据组到tcp的server问题

    python发送byte数据组到tcp的server问题

    这篇文章主要介绍了python发送byte数据组到tcp的server问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-09-09
  • Python中Dataframe元素为不定长list时的拆分分组

    Python中Dataframe元素为不定长list时的拆分分组

    本文主要介绍了Python中Dataframe元素为不定长list时的拆分分组,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-03-03
  • PyQt5每天必学之工具提示功能

    PyQt5每天必学之工具提示功能

    这篇文章主要为大家详细介绍了PyQt5每天必学之工具提示功能,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-04-04
  • Python中的Numpy矩阵操作

    Python中的Numpy矩阵操作

    这篇文章主要介绍了Python中的Numpy矩阵操作,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-08-08
  • django 通过ajax完成邮箱用户注册、激活账号的方法

    django 通过ajax完成邮箱用户注册、激活账号的方法

    本篇文章主要介绍了django 通过ajax完成邮箱用户注册、激活账号的方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-04-04
  • 解决pycharm每次新建项目都要重新安装一些第三方库的问题

    解决pycharm每次新建项目都要重新安装一些第三方库的问题

    今天小编就为大家分享一篇解决pycharm每次新建项目都要重新安装一些第三方库的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • Python实现批量修改文件名实例

    Python实现批量修改文件名实例

    这篇文章主要介绍了Python实现批量修改文件名的方法,实例分析了两种实现批量修改文件名的技巧,涉及os.rename重命名方法、正则替换及字符串操作的相关技巧,需要的朋友可以参考下
    2015-07-07

最新评论