使用py-spy解决scrapy卡死的问题方法

更新时间：2020年09月29日 12:03:54 作者：云中的鱼

这篇文章主要介绍了使用py-spy解决scrapy卡死的问题方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

背景

在使用scrapy爬取东西的时候，使用crontab定时的启动爬虫，但是发现机器上经常产生很多卡死的scrapy进程，一段时间不管的话，会导致有10几个进程都卡死在那，并且会导致数据产出延迟。

问题定位

使用py-spy这个非常好用的python性能分析工具来进行排查，py-spy可以查看一个python进程函数调用用时，类似unix下的top命令。所以我们用这个工具看看是什么函数一直在执行。

首先安装这个工具

pip install py-spy

用py-spy看看scrapy哪个函数执行时间长

# 先找到这个卡死的scrapy进程的pid
ps -ef |grep scrapy 
# 启动 py-spy 观察这进程
py-spy top --pid 53424

首先我们按3，按OwnTime进行排序，这个表示函数自身执行的时间，可以看到read这个函数执行的时间最长，那看来是IO导致的，程序中的IO行为就是读写磁盘和网络IO，磁盘读写一般不会有问题，所以初步定位是网络IO导致的。

在这里插入图片描述

接下来进行进一步确认，再按4，按TotalTIme 所有子函数执行时间总和进行排序，可以看到是在process_item和download，upload_image这些主流程函数的执行时间比较长，这一步是先把图片下载到本地，然后上传到静床，看来是下载这步从网络中read数据时出现了问题，进一步追踪代码。

在这里插入图片描述

看下download的函数的代码：

if filename == '':
      filename = os.path.basename(url)
    path = path + '/' + filename
    
    try:
      res = request.urlretrieve(url,filename=path)
      print(url,res)
      return path
    except Exception as e:
      print('download img failed')
      print(e)
      return False

可以看到用了urllib这个库里面request.urlretrieve函数，这个函数是用来下载文件的，去看看python官网文档的函数说明，发现里面没有超时时间这个参数，所以是由于没有超时时间，导致一直在read，进而使得进程卡死。

urllib.request.urlretrieve(url, filename=None,reporthook=None,data=None)

解决方案

使用另一种方式来下载图片，使用支持超时时间的urlopen函数，封装成一个自定义的url_retrieve，这样就不再会出现没有超时导致的卡死问题了。

def url_retrieve(self,url, path):
    r = request.urlopen(url, timeout=5)
    res = False
    with open(path,"wb") as f:
      res = f.write(r.read())
      f.flush()
      f.close()
    return res

到此这篇关于使用py-spy解决scrapy卡死的问题方法的文章就介绍到这了,更多相关scrapy卡死内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python udp如何实现同时收发信息
这篇文章主要介绍了python udp如何实现同时收发信息，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-05-05
python计算圆周长、面积、球体体积并画出圆
这篇文章主要介绍了python计算圆周长、面积、球体体积并画出圆(python3+PyObject+Gtk实现界面联动),需要的朋友可以参考下
2014-04-04
Python实现爬取某站视频弹幕并绘制词云图
这篇文章主要介绍了利用Python爬取某站的视频弹幕，并将其绘制成词云图，文中的示例代码讲解详细，对我学习Python爬虫有一定的帮助，需要的朋友可以参考一下
2021-12-12
python实现AES加密解密
这篇文章主要为大家详细介绍了python实现AES加密解密的相关资料，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2019-03-03
Python使用ConfigParser模块操作配置文件的方法
这篇文章主要介绍了Python使用ConfigParser模块操作配置文件的方法,结合实例形式分析了Python基于ConfigParser模块针对配置文件的创建、读取、写入、判断等相关操作技巧,需要的朋友可以参考下
2018-06-06
python中的opencv和PIL(pillow)转化操作
这篇文章主要介绍了python中的opencv和PIL(pillow)转化操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2021-03-03
Python使用Asyncio实现检查网站状态
这篇文章主要为大家详细介绍了Python如何使用Asyncio实现检查网站状态，文中的示例代码讲解详细，感兴趣的小伙伴可以跟随小编一起学习一下
2023-03-03
python展开嵌套列表的多种方法
本文主要介绍了python展开嵌套列表的多种方法,包括for循环、列表推导式和sum函数三种方法,具有一定的参考价值,感兴趣的可以了解一下
2025-03-03
PyTorch-Forecasting一个新的时间序列预测库使用详解
这篇文章主要为大家介绍了PyTorch-Forecasting一个新的时间序列预测库示例详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2023-05-05
python 实现兔子生兔子示例
今天小编就为大家分享一篇python 实现兔子生兔子示例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-11-11

使用py-spy解决scrapy卡死的问题方法

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具