scrapy实践之翻页爬取的实现

更新时间：2021年01月05日 09:38:04 作者：生信修炼手册

这篇文章主要介绍了scrapy实践之翻页爬取的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

安装

Scrapy的安装很简单，官方文档也有详细的说明 http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/install.html 。这里不详细说明了。

在scrapy框架中，spider具有以下几个功能

1. 定义初始爬取的url

2. 定义爬取的行为，是否跟进链接

3. 从网页中提取结构化数据

所谓的跟进链接，其实就是自动爬取该页的所有链接，然后顺着对应的链接延伸开来不断爬取，这样只需要提供一个网站首页，理论上就可以实现网站全部页面的爬取，实现点到面的功能。

如果自己来开发，不仅需要在算法层面，考虑是使用深度优先还是广度优先，还需要处理好提取的url的限制条件等细节工作。在scrapy中，开发过程被大大简化了，我们只需要定义以下几个关键部分的代码，就可以实现翻页效果。

1. Spider

核心思想是在parse方法中，返回新的Requests请求，代码如下

import scrapy
 
from hello_world.items import HelloWorldItem
 
class MirSpider(scrapy.Spider):
  name = "MirSpider"
  start_urls = ["http://mirtarbase.cuhk.edu.cn/php/search.php?opt=species&org=bta&sort=id&order=asc&page=1"]
 
  def parse(self, response):
    domain = 'http://mirtarbase.cuhk.edu.cn'
    for row in response.xpath('//table/tr'):
      item = HelloWorldItem()
      res = []
      for col in (row.xpath('td/text()')):
        res.append(col.extract())
      if res[0] != 'Bos taurus':
        continue
      item['species'] = res[0]
      item['miRNA'] = res[2]
      item['target'] = res[3]
      item['total'] = res[4]
      item['papers'] = res[5]
      yield item
    for url in response.xpath('//a/@href').extract():
      if 'page' in url:
        url = domain + url
        yield scrapy.Request(url, callback = self.parse, dont_filter = False)

关键代码是最后几行的for循环，在start_urls中，我们只提供了一个初识的url，在parse方法中，除了常规的返回结构性数据item外，我们还返回了新的requests请求，首先提取页面上所有的url, 并对url的链接进行了限制，对需要爬取的url链接以Request的方法进行返回，注意dont_filter的设置，当设置为False时，会调用scrapy默认的url去重机制，这样不会重复下载。

2. Item Pipeline

对于下载的item, 有些会出现重复的现象，此时可以在pipelines.py中，对item进行操作，实现item去重的代码如下

from itemadapter import ItemAdapter
 
 
class HelloWorldPipeline:
  def __init__(self):
    self.link_set = set()
 
  def process_item(self, item, spider):
    link = item['miRNA'] + item['target']
    if link in self.link_set:
      raise DropItem(item)
    self.link_set.add(link) 
    return item

在process_item方法中，通过一个set对象来达到去重的效果。需要注意，默认pipelines是没有开启的，编写完代码之后，需要在settings.py中进行配置，开启对应的pipeline, 内容如下

ITEM_PIPELINES = {
  'hello_world.pipelines.HelloWorldPipeline': 300,
}

对于标准的多页表格数据，采用上述的代码可以轻松实现翻页效果，非常的方便。

到此这篇关于scrapy实践之翻页爬取的实现的文章就介绍到这了,更多相关scrapy 翻页爬取内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python使用Selenium+BeautifulSoup爬取淘宝搜索页
这篇文章主要为大家详细介绍了Python使用Selenium+BeautifulSoup爬取淘宝搜索页，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-02-02
Python中转换角度为弧度的radians()方法
这篇文章主要介绍了Python中转换角度为弧度的radians()方法,是Python入门中的基础知识,需要的朋友可以参考下
2015-05-05
python文件名批量重命名脚本实例代码
这篇文章主要给大家介绍了关于python文件名批量重命名脚本的相关资料,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-04-04
PyQt5使用mimeData实现拖拽事件教程示例解析下
这篇文章主要为大家介绍了PyQt5使用mimeData实现拖拽事件的教程示例解析，系列文章详见文中跳转链接，有需要的朋友可以借鉴参考下，希望能够有所帮助
2021-10-10
python实现弹窗祝福效果
这篇文章主要为大家详细介绍了python实现弹窗祝福效果，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2019-04-04
如何使用python爬取知乎热榜Top50数据
主要是爬取知乎热榜的问题及点赞数比较高的答案，通过requests请求库进行爬取，对大家的学习或工作具有一定的价值，需要的朋友可以参考下
2021-09-09
pip安装提示Twisted错误问题（Python3.6.4安装Twisted错误）
这篇文章主要介绍了pip安装提示Twisted错误问题（Python3.6.4安装Twisted错误）,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2020-05-05
浅谈Python数据类型判断及列表脚本操作
下面小编就为大家带来一篇浅谈Python数据类型判断及列表脚本操作。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2016-11-11
python基础之并发编程(一)
这篇文章主要介绍了详解python的并发编程，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-10-10
Python request使用方法及问题总结
这篇文章主要介绍了Python request使用方法及问题总结,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-04-04