编写Python爬虫抓取暴走漫画上gif图片的实例分享

 更新时间:2016年04月20日 17:38:32   投稿:goldensun  
这篇文章主要介绍了编写Python爬虫抓取暴走漫画上gif图片的实例分享,示例代码为Python3,利用到了urllib模块、request模块和BeautifulSoup模块,需要的朋友可以参考下

本文要介绍的爬虫是抓取暴走漫画上的GIF趣图,方便离线观看。爬虫用的是python3.3开发的,主要用到了urllib、request和BeautifulSoup模块。

urllib模块提供了从万维网中获取数据的高层接口,当我们用urlopen()打开一个URL时,就相当于我们用Python内建的open()打开一个文件。但不同的是,前者接收一个URL作为参数,并且没有办法对打开的文件流进行seek操作(从底层的角度看,因为实际上操作的是socket,所以理所当然地没办法进行seek操作),而后者接收的是一个本地文件名。

Python的BeautifulSoup模块,可以帮助你实现HTML和XML的解析
先说一下,一般写网页爬虫,即抓取网页的html源码等内容,然后分析,提取相应的内容。
这种分析html内容的工作,如果只是用普通的正则表达式re模块去一点点匹配的话,对于内容简单点的网页分析,还是基本够用。
但是对于工作量很大,要解析内容很繁杂的html,那么用re模块,就会发现无法实现,或很难实现。
而使用beautifulsoup模块去帮你实现分析html源码的工作的话,你就会发现,事情变得如此简单,极大地提高了分析html源码的效率。
注:BeautifulSoup是第三方库,我使用的是bs4。urllib2在python3中被分配到了urllib.request中,文档中的原文如下。
Note:The urllib2 module has been split across several modules in Python 3 named urllib.requestand urllib.error.
爬虫源代码如下

# -*- coding: utf-8 -*-

import urllib.request
import bs4,os

page_sum = 1 #设置下载页数

path = os.getcwd()
path = os.path.join(path,'暴走GIF')
if not os.path.exists(path):
  os.mkdir(path)                 #创建文件夹

url = "http://baozoumanhua.com/gif/year"   #url地址
headers = {                     #伪装浏览器
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'
         ' Chrome/32.0.1700.76 Safari/537.36'
}

for count in range(page_sum):
  req = urllib.request.Request(
    url = url+str(count+1),
    headers = headers
  )
  print(req.full_url)
  content = urllib.request.urlopen(req).read()

  soup = bs4.BeautifulSoup(content)          # BeautifulSoup
  img_content = soup.findAll('img',attrs={'style':'width:460px'})

  url_list = [img['src'] for img in img_content]   #列表推导 url
  title_list = [img['alt'] for img in img_content]  #图片名称

  for i in range(url_list.__len__()) :
    imgurl = url_list[i]
    filename = path + os.sep +title_list[i] + ".gif"
    print(filename+":"+imgurl)             #打印下载信息
    urllib.request.urlretrieve(imgurl,filename)    #下载图片

在第15行可以修改下载页数,将此文件保存为baozougif.py,使用命令python baozougif.py运行后在同目录下会生成「暴走GIF」的文件夹,所有的图片会自动下载到该目录中。

相关文章

  • Pycharm创建项目时如何自动添加头部信息

    Pycharm创建项目时如何自动添加头部信息

    这篇文章主要介绍了Pycharm创建项目时 自动添加头部信息,需要的朋友可以参考下
    2019-11-11
  • 基于Python创建可定制的HTTP服务器

    基于Python创建可定制的HTTP服务器

    这篇文章主要为大家演示一下如何使用 http.server 模块来实现一个能够发布网页的应用服务器,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一下
    2023-05-05
  • 基于python plotly交互式图表大全

    基于python plotly交互式图表大全

    今天小编就为大家分享一篇基于python plotly交互式图表大全,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • Anaconda安装OpenCV的方法图文教程

    Anaconda安装OpenCV的方法图文教程

    在Anaconda里安装OpenCV的方法有很多,下面这篇文章主要给大家介绍了关于Anaconda安装OpenCV的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-09-09
  • PyQt中使用QProcess运行一个进程的示例代码

    PyQt中使用QProcess运行一个进程的示例代码

    这篇文章主要介绍了在PyQt中使用QProcess运行一个进程,本例中通过按下按钮,启动了windows系统自带的记事本程序,即notepad.exe, 因为它在windows的系统目录下,该目录已经加在了系统的PATH环境变量中,所以不需要特别指定路径,需要的朋友可以参考下
    2022-12-12
  • python3实现的zip格式压缩文件夹操作示例

    python3实现的zip格式压缩文件夹操作示例

    这篇文章主要介绍了python3实现的zip格式压缩文件夹操作,结合实例形式分析了Python3基于zipfile模块实现zip格式文件压缩的相关操作技巧,需要的朋友可以参考下
    2019-08-08
  • Python 遗传算法处理TSP问题详解

    Python 遗传算法处理TSP问题详解

    遗传算法(Genetic Algorithm, GA)是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法
    2022-11-11
  • Django中日期处理注意事项与自定义时间格式转换详解

    Django中日期处理注意事项与自定义时间格式转换详解

    这篇文章主要给大家介绍了关于Django中日期处理注意事项与自定义时间格式转换的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2018-08-08
  • Python使用pytest-playwright的原因分析

    Python使用pytest-playwright的原因分析

    pytest-playwright 是一个 Python 包,它允许您使用 Microsoft 的 Playwright 库在 Python 项目中进行端到端测试,这篇文章主要介绍了Python为什么使用pytest-playwright,需要的朋友可以参考下
    2023-03-03
  • python中使用matplotlib绘制热力图

    python中使用matplotlib绘制热力图

    热力图,是一种通过对色块着色来显示数据的统计图表,它通过使用颜色编码来表示数据的值,并在二维平面上呈现出来,本文就给大家介绍一下python使用matplotlib绘制热力图的方法,需要的朋友可以参考下
    2023-08-08

最新评论