Python爬虫框架scrapy实现的文件下载功能示例

更新时间：2018年08月04日 08:56:04 作者：Charles.L

这篇文章主要介绍了Python爬虫框架scrapy实现的文件下载功能,结合实例形式分析了scrapy框架进行文件下载的具体操作步骤与相关实现技巧,需要的朋友可以参考下

本文实例讲述了Python爬虫框架scrapy实现的文件下载功能。分享给大家供大家参考，具体如下：

我们在写普通脚本的时候，从一个网站拿到一个文件的下载url，然后下载，直接将数据写入文件或者保存下来，但是这个需要我们自己一点一点的写出来，而且反复利用率并不高，为了不重复造轮子，scrapy提供很流畅的下载文件方式，只需要随便写写便可用了。

mat.py文件

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractor import LinkExtractor
from weidashang.items import matplotlib
class MatSpider(scrapy.Spider):
  name = "mat"
  allowed_domains = ["matplotlib.org"]
  start_urls = ['https://matplotlib.org/examples']
  def parse(self, response):
　　　　　　　#抓取每个脚本文件的访问页面，拿到后下载
    link = LinkExtractor(restrict_css='div.toctree-wrapper.compound li.toctree-l2')
    for link in link.extract_links(response):
      yield scrapy.Request(url=link.url,callback=self.example)
  def example(self,response):
　　　　　　#进入每个脚本的页面，抓取源码文件按钮，并和base_url结合起来形成一个完整的url
    href = response.css('a.reference.external::attr(href)').extract_first()
    url = response.urljoin(href)
    example = matplotlib()
    example['file_urls'] = [url]
    return example

pipelines.py

class MyFilePlipeline(FilesPipeline):
  def file_path(self, request, response=None, info=None):
    path = urlparse(request.url).path
    return join(basename(dirname(path)),basename(path))

settings.py

ITEM_PIPELINES = {
  'weidashang.pipelines.MyFilePlipeline': 1,
}
FILES_STORE = 'examples_src'

items.py

class matplotlib(Item):
  file_urls = Field()
  files = Field()

run.py

from scrapy.cmdline import execute
execute(['scrapy', 'crawl', 'mat','-o','example.json'])

更多关于Python相关内容可查看本站专题：《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

您可能感兴趣的文章:

pd.DataFrame统计各列数值多少的实例
今天小编就为大家分享一篇pd.DataFrame统计各列数值多少的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-12-12
python爬取微信公众号文章的方法
这篇文章主要为大家详细介绍了python爬取微信公众号文章的方法，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2019-02-02
使用python获取CPU和内存信息的思路与实现(linux系统)
这篇文章主要介绍了python获取CPU和内存信息的思路与实现，有需要的朋友可以参考一下
2014-01-01
Python栈算法的实现与简单应用示例
这篇文章主要介绍了Python栈算法的实现与简单应用,简单讲述了栈的原理并结合实例形式给出了基于栈实现的进制转换与括号匹配等相关使用技巧,需要的朋友可以参考下
2017-11-11
详解Django的model查询操作与查询性能优化
这篇文章主要介绍了详解Django的model查询操作与查询性能优化，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-10-10
使用Python的Twisted框架构建非阻塞下载程序的实例教程
Twisted的异步工作模式使其在非阻塞情况下可以拥有较高的性能,这里我们来看一下使用Python的Twisted框架构建非阻塞下载程序的实例教程,包括服务器端与客户端的实践.
2016-05-05
Python中return函数返回值实例用法
在本篇文章里小编给大家整理的是一篇关于Python中return函数返回值实例用法，有兴趣的朋友们可以学习下。
2020-11-11
如何用Python实现八数码问题
这篇文章主要给大家介绍了关于如何用Python实现八数码问题的相关资料,八数码问题是一种经典的搜索问题,它的目标是将一个乱序的八数码序列变成一个有序的八数码序列,通常使用 A* 算法来解决,需要的朋友可以参考下
2023-10-10
pytorch模型转onnx模型的方法详解
很多时候有pytorch模型转onnx模型的必要,比如用tensorRT加速的时候,下面这篇文章主要给大家介绍了关于pytorch模型转onnx模型的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
2022-08-08
python正则表达式函数match()和search()的区别
match()和search()都是python中的正则匹配函数，那这两个函数有何区别呢？本文详细介绍了这2个函数的区别
2021-10-10

Python爬虫框架scrapy实现的文件下载功能示例

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具