python scrapy脚本报错问题及解决

 更新时间:2024年02月08日 17:07:58   作者:郑德帅  
这篇文章主要介绍了python scrapy脚本报错问题及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教

python scrapy脚本报错

原本一个好好的爬虫脚本,最近运行时突然报错:

报错代码

如下:

  File "e:\python3.7.1\lib\site-packages\scrapy\core\downloader\middleware.py", line 43, in process_request
    defer.returnValue((yield download_func(request=request,spider=spider)))
twisted.web._newclient.ResponseNeverReceived: [<twisted.python.failure.Failure twisted.internet.error.ConnectionDone: Connection was closed cleanly.>]

分析报错

发送的请求未被接受,链接已断开

百度最终定位到是请求头的原因:

原本的请求头的HOST被换了,脚本发起请求时就被拒了,因此把请求头修改就好了

解决scrapy需要批量启动多个脚本问题,scrapy批量运行脚本

问题描述

今天遇到在远程服务器上,os 批量启动时存在启动不了的情况

问题解决

批量启动有好多种方式,但是我个人主要用的有两个,

当第一个无法启动时,测试第二种启动方式 ,可以正常启动;

"""
批量启动
"""
# ------------------- 第一种  ----------------------------------------
import os


os.system("scrapy crawl Nj")
os.system("scrapy crawl Yanc")
os.system("scrapy crawl Hzs")

简单做个记录吧。

第二种,是调用scrapy 系统自带的方式

为了让同一个 Scrapy 项目下面的多个爬虫实现真正的同时运行,我们可以使用 Scrapy 的CrawlerProcess。

它的用法如下:

from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings

settings = get_project_settings()

crawler = CrawlerProcess(settings)
crawler.crawl('爬虫名1')
crawler.crawl('爬虫名2')
crawler.crawl('爬虫名3')
crawler.start()

使用这种方法,可以在同一个进程里面跑多个爬虫。

# --------------------  第二种  ------------------------------------

from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings

settings = get_project_settings()

crawler = CrawlerProcess(settings)
crawler.crawl('Nj')
crawler.crawl('Yanc')
crawler.crawl('Hzs')
crawler.start()

两种方式都可以实现,scrapy 多个项目的批量启动

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • python: 判断tuple、list、dict是否为空的方法

    python: 判断tuple、list、dict是否为空的方法

    今天小编就为大家分享一篇python: 判断tuple、list、dict是否为空的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-10-10
  • Python生成各式各样的图像特效实例

    Python生成各式各样的图像特效实例

    这篇文章主要为大家介绍了Python生成图像特效,本文重点介绍如何使用python进行图像处理,生成各式各样的图像特效,有需要的朋友可以借鉴参考下,希望能够有所帮助
    2023-10-10
  • python set()去重的底层原理及实例

    python set()去重的底层原理及实例

    python中集合set是一个无序不重复元素的集,基本功能包括关系测试和消除重复元素,还可以计算交集、差集、并集等,它与列表(list)的行为类似,这篇文章主要介绍了python set()去重的底层原理,需要的朋友可以参考下
    2022-01-01
  • 教你怎么用PyCharm为同一服务器配置多个python解释器

    教你怎么用PyCharm为同一服务器配置多个python解释器

    当我们在服务器上创建了多个虚拟环境时,也可以在 PyCharm 中配置这些虚拟环境,方便不同的项目使用不同的环境,然而按照网上教程添加多个python解释器后,PyCharm会自动帮我们创建多个重复的服务器,本文主要给出该问题的解决方法,同时也对添加解释器做一个详细的讲解
    2021-05-05
  • Python开发围棋游戏的实例代码(实现全部功能)

    Python开发围棋游戏的实例代码(实现全部功能)

    围棋是一种古老而复杂的策略棋类游戏,起源于中国,已有超过2500年的历史,本文介绍了如何用Python开发一个简单的围棋游戏,实例代码涵盖了游戏的基本规则、界面设计、棋盘实现、棋子管理、游戏逻辑等多个方面,通过逐步实现落子、吃子、判断胜负等功能
    2024-12-12
  • python import 引用上上上级包的三种方法

    python import 引用上上上级包的三种方法

    这篇文章主要介绍了python import 引用上上上级包的三种方法包的三种方法,需要的朋友可以参考下
    2023-02-02
  • 在echarts中图例legend和坐标系grid实现左右布局实例

    在echarts中图例legend和坐标系grid实现左右布局实例

    这篇文章主要介绍了在echarts中图例legend和坐标系grid实现左右布局实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-05-05
  • Flask之闪现flash原理及使用

    Flask之闪现flash原理及使用

    Flask中的闪现是一种在请求之间传递消息的机制,本文就来介绍一下Flask之闪现flash原理及使用,具有一定的参考价值,感兴趣的可以了解一下
    2023-12-12
  • python查看列的唯一值方法

    python查看列的唯一值方法

    今天小编就为大家分享一篇python查看列的唯一值方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-07-07
  • Python Metaclass原理与实现过程详细讲解

    Python Metaclass原理与实现过程详细讲解

    MetaClass元类,本质也是一个类,但和普通类的用法不同,它可以对类内部的定义(包括类属性和类方法)进行动态的修改。可以这么说,使用元类的主要目的就是为了实现在创建类时,能够动态地改变类中定义的属性或者方法
    2022-11-11

最新评论