Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例

更新时间：2018年04月26日 10:04:24 作者：开心果汁

这篇文章主要介绍了Python实现爬取百度贴吧帖子所有楼层图片的爬虫,涉及基于urllib的网页访问与正则匹配相关操作技巧,需要的朋友可以参考下

本文实例讲述了Python实现爬取百度贴吧帖子所有楼层图片的爬虫。分享给大家供大家参考，具体如下：

下载百度贴吧帖子图片，好好看

python2.7版本：

#coding=utf-8
import re
import requests
import urllib
from bs4 import BeautifulSoup
import time
time1=time.time()
def getHtml(url):
  page = requests.get(url)
  html =page.text
  return html
def getImg(html):
  soup = BeautifulSoup(html, 'html.parser')
  img_info = soup.find_all('img', class_='BDE_Image')
  global index
  for index,img in enumerate(img_info,index+1):
    print ("正在下载第{}张图片".format(index))
    urllib.urlretrieve(img.get("src"),'C:/pic4/%s.jpg' % index)
def getMaxPage(url):
  html = getHtml(url)
  reg = re.compile(r'max-page="(\d+)"')
  page = re.findall(reg,html)
  page = int(page[0])
  return page
if __name__=='__main__':
  url  = "https://tieba.baidu.com/p/5113603072"
  page = getMaxPage(url)
  index = 0
  for i in range(1,page):
    url = "%s%s" % ("https://tieba.baidu.com/p/5113603072?pn=",str(i))
    html = getHtml(url)
    getImg(html)
  print ("OK!All DownLoad!")
  time2=time.time()
  print u'总共耗时：' + str(time2 - time1) + 's'

PS：这里再为大家提供2款非常方便的正则表达式工具供大家参考使用：

JavaScript正则表达式在线测试工具：
http://tools.jb51.net/regex/javascript

正则表达式在线生成工具：
http://tools.jb51.net/regex/create_reg

更多关于Python相关内容可查看本站专题：《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

您可能感兴趣的文章:

Python+OpenCV实现相机标定的方法详解
opencv中内置了张正友的棋盘格标定法，通过一些姿态各异的棋盘格图像，可以标定相机的内外参数，本文为大家介绍OpenCV进行相机标定的具体方法，希望对大家有所帮助
2023-05-05
python反转单链表算法题
这篇文章主要为大家详细介绍了python反转单链表算法题，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2022-05-05
python多进程主进程和子进程间共享和不共享全局变量实例
这篇文章主要介绍了python多进程主进程和子进程间共享和不共享全局变量实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-04-04
Python的SimpleHTTPServer模块用处及使用方法简介
这篇文章主要介绍了Python的SimpleHTTPServer模块用处及使用方法简介，小编觉得还是挺不错的，具有一定借鉴价值，需要的朋友可以参考下
2018-01-01
Python实现HTML转Word的示例代码
这篇文章主要为大家详细介绍了使用Python实现HTML转Word的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下
2023-12-12
Python多线程编程简单介绍
这篇文章主要介绍了Python多线程编程简单介绍,本文讲解了创建线程、Thread对象函数、常用示例等内容,需要的朋友可以参考下
2015-04-04
python线程池的实现实例
这篇文章主要介绍了python线程池的实现方法，代码简单实用，供大家参考使用
2013-11-11
Python 详解爬取并统计CSDN全站热榜标题关键词词频流程
读万卷书不如行万里路，只学书上的理论是远远不够的，只有在实战中才能获得能力的提升，本篇文章手把手带你用Python爬取CSDN全站综合热榜标题，顺便统计关键词词频,大家可以在过程中查缺补漏，提升水平
2021-11-11
Python3中内置类型bytes和str用法及byte和string之间各种编码转换问题
这篇文章主要介绍了Python3中内置类型bytes和str用法及byte和string之间各种编码转换问题,非常不错，具有一定的参考借鉴价值，需要的朋友可以参考下
2018-09-09
Python openpyxl模块实现excel读写操作
这篇文章主要介绍了Python openpyxl模块实现excel读写操作,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-06-06

Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具