使用py-spy解决scrapy卡死的问题方法

 更新时间:2020年09月29日 12:03:54   作者:云中的鱼  
这篇文章主要介绍了使用py-spy解决scrapy卡死的问题方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

背景

在使用scrapy爬取东西的时候,使用crontab定时的启动爬虫,但是发现机器上经常产生很多卡死的scrapy进程,一段时间不管的话,会导致有10几个进程都卡死在那,并且会导致数据产出延迟。

问题定位

使用py-spy这个非常好用的python性能分析工具来进行排查,py-spy可以查看一个python进程函数调用用时,类似unix下的top命令。所以我们用这个工具看看是什么函数一直在执行。

首先安装这个工具

pip install py-spy

用py-spy看看scrapy哪个函数执行时间长

# 先找到这个卡死的scrapy进程的pid
ps -ef |grep scrapy 
# 启动 py-spy 观察这进程
py-spy top --pid 53424

首先我们按3,按OwnTime进行排序,这个表示函数自身执行的时间,可以看到read这个函数执行的时间最长,那看来是IO导致的,程序中的IO行为就是读写磁盘和网络IO,磁盘读写一般不会有问题,所以初步定位是网络IO导致的。

在这里插入图片描述

接下来进行进一步确认,再按4,按TotalTIme 所有子函数执行时间总和进行排序,可以看到是在process_item和download,upload_image这些主流程函数的执行时间比较长,这一步是先把图片下载到本地,然后上传到静床,看来是下载这步从网络中read数据时出现了问题,进一步追踪代码。

在这里插入图片描述

看下download的函数的代码:

if filename == '':
      filename = os.path.basename(url)
    path = path + '/' + filename
    
    try:
      res = request.urlretrieve(url,filename=path)
      print(url,res)
      return path
    except Exception as e:
      print('download img failed')
      print(e)
      return False

可以看到用了urllib这个库里面request.urlretrieve函数,这个函数是用来下载文件的,去看看python官网文档的函数说明,发现里面没有超时时间这个参数,所以是由于没有超时时间,导致一直在read,进而使得进程卡死。

urllib.request.urlretrieve(url, filename=None,reporthook=None,data=None)

解决方案

使用另一种方式来下载图片,使用支持超时时间的urlopen函数,封装成一个自定义的url_retrieve,这样就不再会出现没有超时导致的卡死问题了。

def url_retrieve(self,url, path):
    r = request.urlopen(url, timeout=5)
    res = False
    with open(path,"wb") as f:
      res = f.write(r.read())
      f.flush()
      f.close()
    return res

到此这篇关于使用py-spy解决scrapy卡死的问题方法的文章就介绍到这了,更多相关scrapy卡死内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python 中使用正则表达式转义

    Python 中使用正则表达式转义

    这篇文章主要介绍了Python 正则表达式转义,在 Python 中,正则表达式转义sub()方法用于替换字符串,替换后的字符串由 re 模块中的 Python 内置方法返回,需要的朋友可以参考下
    2023-06-06
  • Django migrate报错的解决方案

    Django migrate报错的解决方案

    在讲解如何解决migrate报错原因前,我们先要了解migrate做了什么事情,本文就详细的介绍migrate使用以及出现问题的解决,感兴趣的可以了解一下
    2021-05-05
  • python+selenium实现登录账户后自动点击的示例

    python+selenium实现登录账户后自动点击的示例

    本篇文章主要介绍了python+selenium实现登录账户后自动点击的示例,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-12-12
  • python Paramiko使用示例

    python Paramiko使用示例

    这篇文章主要介绍了python Paramiko的使用示例,帮助大家远程控制类 UNIX 系统,感兴趣的朋友可以了解下。
    2020-09-09
  • 基于python介绍pytorch保存和恢复参数

    基于python介绍pytorch保存和恢复参数

    这篇文章主要介绍了基于python介绍pytorch保存和恢复参数,为了恢复模型,我们需要用代码生成框架,然后从磁盘加载参数,下面具体的相关介绍,需要的小伙伴可以参考一下
    2022-03-03
  • 分享4个Python中高效省时的技巧

    分享4个Python中高效省时的技巧

    小伙伴们日常工作中都必不可少地使用Python实现一些简单的功能,但是不同的人所编写的代码执行效率往往是不同的,下面这篇文章主要给大家介绍了4个Python中高效的技巧,需要的朋友可以参考下
    2022-05-05
  • python使用itchat实现手机控制电脑

    python使用itchat实现手机控制电脑

    这篇文章主要为大家详细介绍了python使用itchat实现手机控制电脑,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-02-02
  • python自动化工具日志查询分析脚本代码实现

    python自动化工具日志查询分析脚本代码实现

    这篇文章主要介绍了python日志查询分析脚本代码的实现,分为受控节点和主控节点,大家参考使用吧
    2013-11-11
  • Python爬虫程序中使用生产者与消费者模式时进程过早退出的问题

    Python爬虫程序中使用生产者与消费者模式时进程过早退出的问题

    本文主要介绍了Python爬虫程序中使用生产者与消费者模式时进程过早退出的问题,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-01-01
  • Tensorflow累加的实现案例

    Tensorflow累加的实现案例

    今天小编就为大家分享一篇Tensorflow累加的实现案例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02

最新评论