python爬虫scrapy框架的梨视频案例解析

 更新时间:2021年02月20日 09:51:57   作者:小王子爱上玫瑰  
这篇文章主要介绍了python爬虫scrapy框架的梨视频案例解析,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

之前我们使用lxml对梨视频网站中的视频进行了下载,感兴趣的朋友点击查看吧。

下面我用scrapy框架对梨视频网站中的视频标题和视频页中对视频的描述进行爬取

在这里插入图片描述
在这里插入图片描述

分析:我们要爬取的内容并不在同一个页面,视频描述内容需要我们点开视频,跳转到新的url中才能获取,我们就不能在一个方法中去解析我们需要的不同内容

1.爬虫文件

  • 这里我们可以仿照爬虫文件中的parse方法,写一个新的parse方法,可以将新的url的响应对象传给这个新的parse方法
  • 如果需要在不同的parse方法中使用同一个item对象,可以使用meta参数字典,将item传给callback回调函数
  • 爬虫文件中的parse需要yield的Request请求,而item则在新的parse方法中使用yield item传给下一个parse方法或管道文件

import scrapy

# 从items.py文件中导入BossprojectItem类
from bossProject.items import BossprojectItem

class BossSpider(scrapy.Spider):
 name = 'boss'
 # allowed_domains = ['www.xxx.com']
 start_urls = ['https://www.pearvideo.com/category_5']

 # 回调函数接受响应对象,并且接受传递过来的meata参数
 def content_parse(self,response):
 # meta参数包含在response响应对象中,调用meta,然后根据键值取出对应的值:item
 item = response.meta['item']

 # 解析视频链接中的对视频的描述
 des = response.xpath('//div[@class="summary"]/text()').extract()
 des = "".join(des)
 item['des'] = des

 yield item 

 # 解析首页视频的标题以及视频的链接
 def parse(self, response):
 li_list = response.xpath('//div[@id="listvideoList"]/ul/li')
 for li in li_list:
  href = li.xpath('./div/a/@href').extract()
  href = "https://www.pearvideo.com/" + "".join(href)

  title = li.xpath('./div[1]/a/div[2]/text()').extract()
  title = "".join(title)

  item = BossprojectItem()
  item["title"] = title

  #手动发送请求,并将响应对象传给回调函数
  #请求传参:meta={},可以将meta字典传递给请求对应的回调函数
  yield scrapy.Request(href,callback=self.content_parse,meta={'item':item})

2.items.py

要将BossprojectItem类导入爬虫文件中才能够创建item对象

import scrapy
class BossprojectItem(scrapy.Item):
 # define the fields for your item here like:
 # name = scrapy.Field()
 # 定义了item属性
 title = scrapy.Field()
 des = scrapy.Field()

3.pipelines.py

open_spider(self,spider)和close_spider(self,spider)重写这两个父类方法,且这两个方法都只执行一次在process_item方法中最好保留return item,因为如果存在多个管道类,return item会自动将item对象传给优先级低于自己的管道类

from itemadapter import ItemAdapter
class BossprojectPipeline:

 def __init__(self):
 self.fp = None

 # 重写父类方法,只调用一次
 def open_spider(self,spider):
 print("爬虫开始")
 self.fp = open('./lishipin.txt','w')

 # 接受爬虫文件中yield传递来的item对象,将item中的内容持久化存储
 def process_item(self, item, spider):
 self.fp.write(item['title'] + '\n\t' + item['des'] + '\n')

 # 如果有多个管道类,会将item传递给下一个管道类
 # 管道类的优先级取决于settings.py中的ITEM_PIPELINES属性中对应的值
  ## ITEM_PIPELINES = {'bossProject.pipelines.BossprojectPipeline': 300,} 键值中的值越小优先级越高
 return item

 # 重写父类方法,只调用一次
 def close_spider(self,spider): 
 self.fp.close()
 print("爬虫结束")

4.进行持久化存储

在这里插入图片描述

到此这篇关于python爬虫scrapy框架的梨视频案例解析的文章就介绍到这了,更多相关python爬虫scrapy框架内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python实现二分查找算法

    python实现二分查找算法

    这篇文章主要介绍了python如何实现二分查找算法,帮助大家更好的理解和使用python,感兴趣的朋友可以了解下。
    2020-09-09
  • python使用pil库实现图片合成实例代码

    python使用pil库实现图片合成实例代码

    这篇文章主要介绍了python PIL实现图片合成实例代码,小编觉得还是挺不错的,具有一定借鉴价值,需要的朋友可以参考下
    2018-01-01
  • python如何将aac转为mp3,保持原有目录结构

    python如何将aac转为mp3,保持原有目录结构

    使用Python脚本实现AAC格式转MP3格式的方法介绍,需要用户输入AAC文件所在目录路径和MP3输出目录路径,通过调用FFmpeg工具实现格式转换,该脚本简单易懂,适合需要批量处理音频文件的用户,使用前需确保已安装FFmpeg环境
    2024-11-11
  • 基于树莓派的语音对话机器人

    基于树莓派的语音对话机器人

    这篇文章主要为大家详细介绍了基于树莓派的语音对话机器人,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-06-06
  • 使用Python生成F分布表并导出为Excel文件的代码实现

    使用Python生成F分布表并导出为Excel文件的代码实现

    在统计分析中,F FF分布是一种非常重要的连续概率分布,广泛应用于方差分析、回归分析的显著性检验等场景,为了方便查阅和使用F分布的临界值,本文给大家介绍了使用Python生成F分布表并导出为Excel文件,需要的朋友可以参考下
    2024-11-11
  • Python实现监控屏幕界面内容变化并发送通知

    Python实现监控屏幕界面内容变化并发送通知

    这篇文章主要为大家详细介绍了如何利用Python实现实时监控屏幕上的信息是否发生变化并发送通知,文中的示例代码讲解详细,感兴趣的可以了解一下
    2023-04-04
  • Python+OCR实现文档解析的示例代码

    Python+OCR实现文档解析的示例代码

    本文是一个简单教程,主要介绍了如何使用OCR进行文档解析以及使用Layoutpars软件包进行了整个检测和提取过程,感兴趣的可以了解一下
    2022-09-09
  • Django学习笔记之为Model添加Action

    Django学习笔记之为Model添加Action

    这篇文章主要介绍了Django给admin添加Action,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2019-04-04
  • 讲解Python3中NumPy数组寻找特定元素下标的两种方法

    讲解Python3中NumPy数组寻找特定元素下标的两种方法

    这篇文章主要介绍了讲解Python3中NumPy数组寻找特定元素下标的两种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-08-08
  • Python实现发送带有pdf附件的电子邮件

    Python实现发送带有pdf附件的电子邮件

    使用Python发邮件,是个简单的话题,可是如何可以优雅的轻松的群发邮件,并附加PDF附件,是很多小伙伴的日常工作。本文就来和大家分享一下实现方法,需要的可以参考一下
    2023-02-02

最新评论