Python制作豆瓣图片的爬虫

 更新时间:2017年12月28日 08:56:42   作者:是与非  
本文给大家分享的是作者制作的爬取豆瓣首页图片的爬虫代码,代码很简单,大家可以参考下思路,希望可以帮到大家

  前段时间自学了一段时间的Python,想着浓一点项目来练练手。看着大佬们一说就是爬了100W+的数据就非常的羡慕,不过对于我这种初学者来说,也就爬一爬图片。

  我相信很多人的第一个爬虫程序都是爬去贴吧的图片,嗯,我平时不玩贴吧,加上我觉得豆瓣挺良心的,我就爬了豆瓣首页上面的图片。其实最刚开始是想爬全站,后来一想我这简直是脑子犯抽,全站的图片爬下来得有多少,再说这个只是练一下手,所以就只爬取了首页上的图片。废话不多说 开始代码。

  首先是主文件的代码:

import re
from html_downloder import HtmlDownloader
from html_downloder import Image

"'起始URL'"
url = "https://www.douban.com"
"'保存目录'"
image_path = "F:\source\Python\爬虫\ImageGet\Image%s.jpg"
"'定义实体类'"
downloader = HtmlDownloader()
html = downloader.download(url)
"'SaveFile(html, html_path)'"
html = html.decode('utf-8')
"'正则表达式'"
reg1 = r'="(https://img[\S]*?[jpg|png])"'
"'提取图片的URL'"
dbdata = re.findall(reg1, html)
imgsave = Image()

"'下载保存图片'"
imgsave.ImageGet(dbdata, image_path)

我们打开豆瓣首页然后看一下里面图片的url会发现

都是以“=”等号开头,后面接双引号,中间都是https://img,末尾以双引号结束。

因此我们的正则表达式可以写成 reg1 = r'="(https://img[\S]*?[jpg|png])"'

在这个表达式中"[]"中括号里面的东西会作为一个整体,其中[\S]表示大小写字母和数字,[jpg|png]表示以png结尾或者jpg结尾(在这次爬虫中并没有包括gif,因为打开gif的url发现是空白)。

然后是html_downloder.py的代码:

 # file: html_downloader.py
 
 import urllib.request
 import urllib.error
 import time

 class HtmlDownloader(object):
  def download(self, url):
   if url is None:
    return None
   try:
    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)'}
    "'发出请求'"
    request = urllib.request.Request(url=url, headers=header)
    "'获取结果'"
    response = urllib.request.urlopen(url)
   except urllib.error.URLError as e:
    if hasattr(e, "code"):
     print(e.code)
    if hasattr(e, "reason"):
     print(e.reason)
   if response.getcode() != 200:
    return None
   html = response.read()
   response.close()
   return html

 class Image (object):
  def ImageGet(self, imageurl, image_path):
   x = 0
   for li in imageurl:
    urllib.request.urlretrieve(li, image_path % x)
    x = x + 1
    "'休眠5s以免给服务器造成严重负担'"
    time.sleep(5)
这个文件的代码主要是负责下载html网页和下载具体的图片。

接下来就可以在保存路径对应的文件夹中中看到下载的图片了

至此,爬虫告一段落,离大佬的路还远得很,继续加油!!

相关文章

  • 对python中Librosa的mfcc步骤详解

    对python中Librosa的mfcc步骤详解

    今天小编就为大家分享一篇对python中Librosa的mfcc步骤详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • Win10操作系统中PyTorch虚拟环境配置+PyCharm配置

    Win10操作系统中PyTorch虚拟环境配置+PyCharm配置

    本文主要介绍了Win10操作系统中PyTorch虚拟环境配置+PyCharm配置,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-09-09
  • 基于Python数据可视化利器Matplotlib,绘图入门篇,Pyplot详解

    基于Python数据可视化利器Matplotlib,绘图入门篇,Pyplot详解

    下面小编就为大家带来一篇基于Python数据可视化利器Matplotlib,绘图入门篇,Pyplot详解。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-10-10
  • Python中jieba库的介绍与使用

    Python中jieba库的介绍与使用

    使用jieba库对一段文本进行词频的统计是一件非常有意思的事,我们只需要使用这第三方库,就可以在不阅读文本的情况下,得到该文本的高频率词汇,这篇文章主要介绍了Python中jieba库的介绍与使用,需要的朋友可以参考下
    2023-03-03
  • python安装读取grib库总结(推荐)

    python安装读取grib库总结(推荐)

    这篇文章主要介绍了python安装读取grib库总结,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-06-06
  • python循环监控远程端口的方法

    python循环监控远程端口的方法

    这篇文章主要介绍了python循环监控远程端口的方法,涉及Python实现端口监控的技巧,需要的朋友可以参考下
    2015-03-03
  • 详解Python中的函数参数传递方法*args与**kwargs

    详解Python中的函数参数传递方法*args与**kwargs

    本文将讨论Python的函数参数。我们将了解args和kwargs,/和的都是什么,虽然这个问题是一个基本的python问题,但是在我们写代码时会经常遇到,比如timm中就大量使用了这样的参数传递方式
    2023-03-03
  • 解决Tkinter中button按钮未按却主动执行command函数的问题

    解决Tkinter中button按钮未按却主动执行command函数的问题

    这篇文章主要介绍了解决Tkinter中button按钮未按却主动执行command函数的问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-05-05
  • 利用python将图片版PDF转文字版PDF

    利用python将图片版PDF转文字版PDF

    今天为大家介绍一下如何使用利用python将图片版PDF转文字版PDF,这里我们需要用到python3.6,pypdf2,ghostscript,PythonMagick,百度文字识别服务和pdfkit
    2019-05-05
  • Python轻松破解加密压缩包教程详解

    Python轻松破解加密压缩包教程详解

    相信大家都遇到过这种情况,下载文件的时候遇到压缩包又没有密码,或者说自己设置的加密密码,但是忘记了,就很难受。下面就将为大家介绍如何解决这一问题
    2021-12-12

最新评论