Python实现的爬取百度贴吧图片功能完整示例

 更新时间:2019年05月10日 11:57:42   作者:xuezhangjun  
这篇文章主要介绍了Python实现的爬取百度贴吧图片功能,结合完整实例形式分析了Python实现的百度贴吧图片爬虫相关操作技巧,需要的朋友可以参考下

本文实例讲述了Python实现的爬取百度贴吧图片功能。分享给大家供大家参考,具体如下:

#coding:utf-8
import requests
import urllib2
import urllib
```
from lxml import etree
class Tieba:
  def __init__(self):
    self.tiebaName = raw_input("请输入需要爬取的贴吧:")
    self.beginPage = int(raw_input("请输入爬取的起始页:"))
    self.endPage = int(raw_input("请输入爬取的结束页:"))
    self.baseURL = "http://tieba.baidu.com"
    #self.headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.86 Safari/537.36"}
    self.headers = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;"} def startWork(self):
    """
      发送贴吧每一页的url请求
    """
    for page in range(self.beginPage, self.endPage + 1):
      pn = (page - 1) * 50
      keyword = {"kw" : self.tiebaName, "pn" : pn}
      kw = urllib.urlencode(keyword)
      url = self.baseURL + "/f?" + kw
      #print url
      html = self.loadRequest(url)
      self.loadPage(html)
  def loadRequest(self, url):
    """
      发送请求,返回响应
      url: 发送请求的url地址
    """
    request = urllib2.Request(url, headers = self.headers)
    #request = urllib2.Request(url)
    response = urllib2.urlopen(request)
    return response.read()
  def loadPage(self, html):
    """
      提取每个帖子的url,并发送请求,获取响应
      html: 贴吧每一页的html
    """
    content = etree.HTML(html)
    print '------'
    print content
    # xpath 返回的所有匹配成功后的结果的列表
    #pagelink_list = content.xpath("//div[@class='threadlist_lz clearfix']/div/a[@class='j_th_tit']/@href")
    pagelink_list = content.xpath("//div[@class='col2_right j_threadlist_li_right']//div/a/@href")
    pagelink_list = content.xpath("//div[@class='t_con cleafix']//div/a/@href")
    for link in pagelink_list:
      print link
      self.loadImage(self.loadRequest(self.baseURL + link))
  def loadImage(self, html):
    """
      提取帖子里用户发送的图片的url地址
      html: 每个帖子的html
    """
    content = etree.HTML(html)
    imagelink_list = content.xpath("//div[@class='p_content ']//img[@class='BDE_Image']/@src")
    for link in imagelink_list:
      self.writeImage(self.loadRequest(link), link[-10:])
  def writeImage(self, data, filename):
    """
      将图片的响应数据,写入到本地磁盘里
      data: 图片的响应数据
      filename: 文件名(图片url的后10位)
    """
    print "正在保存图片...%s" % filename
    with open(filename, "wb") as f:
      f.write(data)
if __name__ == "__main__":
  tieba = Tieba()
  tieba.startWork()

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总

希望本文所述对大家Python程序设计有所帮助。

相关文章

  • python中使用urllib2获取http请求状态码的代码例子

    python中使用urllib2获取http请求状态码的代码例子

    这篇文章主要介绍了python中使用urllib2获取http请求状态码的代码例子,需要的朋友可以参考下
    2014-07-07
  • 利用Python生成随机验证码详解

    利用Python生成随机验证码详解

    怎么用python绕验证码是个令人头秃的事情,这篇文章将为大家详细 介绍如何利用Python生成随机的验证码,文中的示例代码简洁易懂,感兴趣的小伙伴可以跟随小编一起试试
    2022-01-01
  • 在python中调用C/C++的三种方法

    在python中调用C/C++的三种方法

    这篇文章主要给大家介绍了关于在python中调用C/C++的三种方法,Python可以通过调用C/C++接口来实现与C/C++语言的交互,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2024-02-02
  • Python内建类型list源码学习

    Python内建类型list源码学习

    这篇文章主要为大家介绍了Python内建类型list源码学习,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-05-05
  • django页面跳转问题及注意事项

    django页面跳转问题及注意事项

    这篇文章主要介绍了django页面跳转问题及注意事项,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-07-07
  • python 如何比较字符串是否一样

    python 如何比较字符串是否一样

    这篇文章主要介绍了python 如何比较字符串是否一样的操作,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-06-06
  • 简单介绍Python中的decode()方法的使用

    简单介绍Python中的decode()方法的使用

    这篇文章主要介绍了简单介绍Python中的decode()方法的使用,是Python入门学习当中必须掌握的基础知识,需要的朋友可以参考下
    2015-05-05
  • LyScript获取上一条与下一条汇编指令的方法详解

    LyScript获取上一条与下一条汇编指令的方法详解

    LyScript 插件默认并没有提供上一条与下一条汇编指令的获取功能,当然你可以使用LyScriptTools工具包直接调用内置命令得到,本文就为大家详细讲讲如何实现
    2022-07-07
  • Python查找两个有序列表中位数的方法【基于归并算法】

    Python查找两个有序列表中位数的方法【基于归并算法】

    这篇文章主要介绍了Python查找两个有序列表中位数的方法,结合实例形式分析了Python基于归并算法遍历、计算有序列表相关操作技巧,需要的朋友可以参考下
    2018-04-04
  • OpenCV半小时掌握基本操作之图像轮廓

    OpenCV半小时掌握基本操作之图像轮廓

    这篇文章主要介绍了OpenCV基本操作之图像轮廓,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-09-09

最新评论