python爬虫用scrapy获取影片的实例分析

 更新时间:2020年11月23日 14:20:37   作者:小妮浅浅  
在本篇内容里小编给大家整理的是一篇关于python爬虫用scrapy获取影片的实例分析内容,有兴趣的朋友们可以参考下。

我们平时生活的娱乐中,看电影是大部分小伙伴都喜欢的事情。周围的人总会有意无意的在谈论,有什么影片上映,好不好看之类的话题,没事的时候谈论电影是非常不错的话题。那么,一些好看的影片如果不去电影院的话,在其他地方看都会有大大小小的限制,今天小编就教大家用python中的scrapy获取影片的办法吧。

1. 创建项目

运行命令:

scrapy startproject myfrist(your_project_name)

文件说明: 名称 | 作用 --|-- scrapy.cfg | 项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中) items.py | 设置数据存储模板,用于结构化数据,如:Django的Model pipelines | 数据处理行为,如:一般结构化的数据持久化 settings.py | 配置文件,如:递归的层数、并发数,延迟下载等 spiders | 爬虫目录,如:创建文件,编写爬虫规则

注意:一般创建爬虫文件时,以网站域名命名

2 编写 spdier

在spiders目录中新建 daidu_spider.py 文件

2.1 注意

爬虫文件需要定义一个类,并继承scrapy.spiders.Spider

必须定义name,即爬虫名,如果没有name,会报错。因为源码中是这样定义的

2.2 编写内容

在这里可以告诉 scrapy 。要如何查找确切数据,这里必须要定义一些属性

name: 它定义了蜘蛛的唯一名称

allowed_domains: 它包含了蜘蛛抓取的基本URL;

start-urls: 蜘蛛开始爬行的URL列表;

parse(): 这是提取并解析刮下数据的方法;

下面的代码演示了蜘蛛代码的样子:

import scrapy
class DoubanSpider(scrapy.Spider):
  name = 'douban'
  allwed_url = 'douban.com'
  start_urls = [
    'https://movie.douban.com/top250/'
  ]
  def parse(self, response):
    movie_name = response.xpath("//div[@class='item']//a/span[1]/text()").extract()
    movie_core = response.xpath("//div[@class='star']/span[2]/text()").extract()
    yield {
      'movie_name':movie_name,
      'movie_core':movie_core
    }

到此这篇关于python爬虫用scrapy获取影片的实例分析的文章就介绍到这了,更多相关python爬虫如何用scrapy获取影片内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 详解Python 切片语法

    详解Python 切片语法

    Python的切片是特别常用的功能,主要用于对列表的元素取值。这篇文章主要介绍了详解Python 切片语法,需要的朋友可以参考下
    2019-06-06
  • python实现图片插入文字

    python实现图片插入文字

    这篇文章主要为大家详细介绍了python实现图片插入文字,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-11-11
  • Python线上环境使用日志的及配置文件

    Python线上环境使用日志的及配置文件

    这篇文章主要介绍了Python线上环境如何优雅地使用日志,本文通过示例给大家分析对比了与 print 相比 logging 有什么优势,需要的朋友可以参考下
    2019-07-07
  • Pytorch中torch.nn.Softmax的dim参数用法说明

    Pytorch中torch.nn.Softmax的dim参数用法说明

    这篇文章主要介绍了Pytorch中torch.nn.Softmax的dim参数用法说明,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-06-06
  • python+opencv图像分割实现分割不规则ROI区域方法汇总

    python+opencv图像分割实现分割不规则ROI区域方法汇总

    这篇文章主要介绍了python+opencv图像分割实现分割不规则ROI区域方法汇总,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-04-04
  • Pyqt5 实现窗口缩放,控件在窗口内自动伸缩的操作

    Pyqt5 实现窗口缩放,控件在窗口内自动伸缩的操作

    这篇文章主要介绍了Pyqt5 实现窗口缩放,控件在窗口内自动伸缩的操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03
  • Python使用PyYAML库读写yaml文件的方法

    Python使用PyYAML库读写yaml文件的方法

    这篇文章主要介绍了Python使用PyYAML库读写yaml文件的方法,包括YAML基本概念介绍及YAML语法知识,结合示例代码给大家介绍的非常详细,需要的朋友可以参考下
    2022-04-04
  • Python自动化测试Eclipse+Pydev 搭建开发环境

    Python自动化测试Eclipse+Pydev 搭建开发环境

    本文主要介绍python自动化测试环境搭建,这里对Eclipse+Pydev 搭建开发环境做了图文详解,有需要的小伙伴可以参考下
    2016-08-08
  • Python引入多个模块及包的概念过程解析

    Python引入多个模块及包的概念过程解析

    这篇文章主要介绍了Python引入多个模块及包的概念过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-09-09
  • Python 二叉树的概念案例详解

    Python 二叉树的概念案例详解

    这篇文章主要介绍了二叉树的概念案例详解,本篇文章通过简要的案例,讲解了该项技术的了解与使用,以下就是详细内容,需要的朋友可以参考下
    2021-09-09

最新评论