Python实现从订阅源下载图片的方法

更新时间：2015年03月11日 09:38:54 作者：saintatgod

这篇文章主要介绍了Python实现从订阅源下载图片的方法,涉及Python采集的技巧,具有一定参考借鉴价值,需要的朋友可以参考下

本文实例讲述了Python实现从订阅源下载图片的方法。分享给大家供大家参考。具体如下：

这段代码是基于python 3.4实现的，和python2.X 比起来有了好多差别啊。
这是一个练习，数据源来自网易订阅。代码如下：

__author__ = 'Saint'

import os

import urllib.request

import json

from html.parser import HTMLParser

# 从获取的网页内容筛选图片的内容

class MyHtmlParser(HTMLParser):

    links = []

    def handle_starttag(self, tag, attrs):

        if tag == "img":

            if len(attrs) == 0:

                pass

            else:

                for name, value in attrs:

                    if name == "src":

                        self.links.append(value)

class Down(object):

    # 总的目录

    img_path = "E:/saint"

    # 下载目录

    dir = ''

    # 采集源地址

    collect_links = ["http://dy.163.com/v2/media/articlelist/T1374483113516-1", "http://dy.163.com/v2/media/articlelist/T1420776257254-1", "http://dy.163.com/v2/media/articlelist/T1376641060407-1"]

    img_links = "http://dy.163.com/v2/article"

    def handleCollect(self):

        for collect_link in self.collect_links:

            notice = "开始从[" + collect_link + "]采集图片"

            print(notice)

            # 建立下载的目录

            dir_name = collect_link.split("/")[-1]

            self.isDirExists(dir_name)

            dict = self.getListFromSubscribe(collect_link)

            if dict == False:

                print("数据采集失败，是否继续(y/n)")

                op = input();

                if op == "y":

                    os.system("cls")

                    pass

                elif op == "n":

                    print("停止采集")

                    break

                else:

                    os.system("cls")

                    print("非法输入")

                    break

            else:

                for page in dict:

                    page_uri = self.img_links + "/" + page["tid"] + "/" + page["docid"]

                    self.getImgFromUri(page_uri)

                    print("是否继续(y/n)")

                    new_op = input();

                    if new_op == "n":

                        os.system("cls")

                        print("采集完毕")

                        break

        print("OK")

    # 从订阅源获取目录

    def getListFromSubscribe(self, uri):

        res = urllib.request.urlopen(uri)

        if res.code < 200 or res.code > 300:

            os.system("clear")

            return False

        else:

            result = res.read().decode("gbk") # 3.4版本的read()返回的是byte类型，需要decode()处理，选项是网页编码

            dict = json.loads(result)

            if dict['code'] != 1:

                print(dict['msg'])

                return False

            else:

                return dict['data']

    # 获取本期订阅的网页，并从网页中提取出来需要的图片

    def getImgFromUri(self, uri):

        html_code = urllib.request.urlopen(uri).read().decode("gbk")

        hp = MyHtmlParser()

        hp.feed(html_code)

        hp.close()

        for link in hp.links: # hp.links 是图片的下载地址的列表

            self.writeToDisk(link)

    # 检查文件目录是否存在，如果不存在，则创建目录

    def isDirExists(self, dir_name):

        self.dir = self.img_path + dir_name

        isExists = os.path.exists(self.dir)

        if not isExists:

            os.makedirs(self.dir)

            return True

        else:

            return True

    # 下载文件，并且写入磁盘

    def writeToDisk(self, url):

        os.chdir(self.dir)

        file = urllib.request.urlopen(url).read()

        file_name = url.split("/")[-1]

        open(file_name, "wb").write(file)

        return True

if __name__ == "__main__":

    down = Down()

    down.handleCollect()

希望本文所述对大家的Python程序设计有所帮助。

您可能感兴趣的文章:

numpy中loadtxt 的用法详解
这篇文章主要介绍了numpy中loadtxt 的用法详解，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-08-08
Flask框架学习笔记之路由和反向路由详解【图文与实例】
这篇文章主要介绍了Flask框架学习笔记之路由和反向路由,结合图文与实例形式详细分析了flask框架中路由与反向路由相关概念、原理、用法与相关操作注意事项,需要的朋友可以参考下
2019-08-08
Python参数传递对象的引用原理解析
这篇文章主要介绍了Python参数传递对象的引用原理解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-05-05
Python的基本语法详解
本文详细讲解了Python的基本语法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2022-05-05
教你漂亮打印Pandas DataFrames和Series
在今天的文章中,我们将探讨如何配置所需的pandas选项,这些选项将使我们能够“漂亮地打印” pandas DataFrames,需要的朋友可以参考下
2021-05-05
解决Python中字符串和数字拼接报错的方法
相信很多的新手朋友都会碰到python连接字符串和数字的问题，因为python是强类型的语言，如果你把一个字符串和数字直接做连接的操作的话，就会直接报错的，今天就给大家说下字符串和数字拼接的问题，有需要的朋友们可以参考借鉴。
2016-10-10
python爬虫请求头设置代码
在本篇文章里小编给大家整理的是一篇关于python爬虫请求头如何设置内容，需要的朋友们可以学习下。
2020-07-07
Python中一个for循环循环多个变量的示例
今天小编就为大家分享一篇Python中一个for循环循环多个变量的示例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-07-07
Python爬虫获取国外大桥排行榜数据清单
这篇文章主要介绍了Python爬虫获取国外大桥排行榜数据清单，文章通过PyQuery 解析框架展开全文详细内容，需要的小伙伴可以参考一下
2022-05-05
python 读取竖线分隔符的文本方法
今天小编就为大家分享一篇python 读取竖线分隔符的文本方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-12-12