快速部署 Scrapy项目scrapyd的详细流程

 更新时间:2021年09月29日 14:24:35   作者:离开你,我才发现  
这篇文章主要介绍了快速部署 Scrapy项目scrapyd的详细流程,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

快速部署 Scrapy项目 scrapyd

给服务端 install scrapyd

pip install scrapyd  -i https://pypi.tuna.tsinghua.edu.cn/simple

运行

scrapyd

在这里插入图片描述

修改配置项 , 以便远程访问

使用Ctrl +c 停止 上一步的运行的scrapyd

在要运行scrapyd 命令的路径下,新建文件scrapyd.cnf 文件

输入以下内容

[scrapyd]
# 网页和Json服务监听的IP地址,默认为127.0.0.1(只有改成0.0.0.0 才能在别的电脑上能够访问scrapyd运行之后的服务器)
bind_address = 0.0.0.0
# 监听的端口,默认为6800
http_port   = 6800
# 是否打开debug模式,默认为off
debug = off

在这里插入图片描述

在客户端 install scrapyd-client

​ 1. 安装 scrapy-client 命令如下

pip install scrapyd-client  -i https://pypi.tuna.tsinghua.edu.cn/simple

配置Scrapy 项目

​ 修改 scrapy.cfg 文件

在这里插入图片描述

1 检查配置

scrapyd-deploay -l

发布scrapy项目到scrapyd所在的服务器(此时爬虫未运行)

# scrapyd-deploy <target> -p <project> --version <version>
# taget : 就是前面配置文件里的deploy后面的的target名字,例如 ubuntu1
# project: 可以随意定义, 建议与 scrapy 爬虫项目名相同
# version: 自定义版本号 不写的话默认为当前时间戳, 一般不写
scrapyd-deploy ubuntu-1 -p douban

注意

爬虫目录下不要放无关的py文件,放无关的py文件会导致发布失败,但是当爬虫发布成功后,会在当前目录生成一个setup.py文件,可以删除掉。

4.发送运行爬虫命令

curl http://10.211.55.5:6800/schedule.json -d project=douban -d spider=top250

5.停止爬虫

curl http://ip:6800/cancel.json -d project=项目名 -d job=任务的id值

在这里插入图片描述

curl http://10.211.55.5:6800/cancel.json -d project=douban -d job=121cc034388a11ebb1a7001c42d0a249

在这里插入图片描述

注意

  1. 如果scrapy项目代码,修改了,只需要重新发布到scrapyd所在服务器即可
  2. 如果scrapy项目暂停了,可以再次通过curl的方式发送命令让其“断点续爬”

Scrapy项目部署-图形化操作Gerapy

一,说明

Gerapy 是一款国人开发的爬虫管理软件(有中文界面)是一个管理爬虫项目的可视化工具,把项目部署到管理的操作全部变为交互式,实现批量部署,更方便控制、管理、实时查看结果。

gerapy和scrapyd的关系就是,我们可以通过gerapy中配置scrapyd后,不使用命令,直接通过图形化界面开启爬虫。

二,安装

命令 (安装在 爬虫代码 上传端)

pip install gerapy  -i https://pypi.tuna.tsinghua.edu.cn/simple

测试

在这里插入图片描述

三,使用

创建一个gerapy工作目录

gerapy init

生成文件夹,如下

在这里插入图片描述

创建splite 数据库, 存放部署scrapy 项目版本

gerapy migrate

创建成功之后,用tree命令,查看当前的文件列表

创建用户密码

在这里插入图片描述

启动服务

gerapy runserver

到此这篇关于快速部署 Scrapy项目 scrapyd的文章就介绍到这了,更多相关Scrapy项目 scrapyd内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 详解Python中的进程和线程

    详解Python中的进程和线程

    今天带大家学习的是关于Python的相关知识,文章围绕着Python中的进程和线程展开,文中有非常详细的介绍及代码示例,需要的朋友可以参考下
    2021-06-06
  • Python使用wget实现下载网络文件功能示例

    Python使用wget实现下载网络文件功能示例

    这篇文章主要介绍了Python使用wget实现下载网络文件功能,简单介绍了wget安装以及Python使用wget下载tar格式网络文件并进行解压处理相关操作技巧,需要的朋友可以参考下
    2018-05-05
  • Numpy 数据处理 ndarray使用详解

    Numpy 数据处理 ndarray使用详解

    这篇文章主要为大家介绍了Numpy 数据处理 ndarray使用详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-08-08
  • Pandas+Numpy+Sklearn随机取数的实现示例

    Pandas+Numpy+Sklearn随机取数的实现示例

    使用Python、pandas、numpy、scikit-learn来实现随机打乱、抽取和切割数据,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧
    2024-03-03
  • 详解Django 时间与时区设置问题

    详解Django 时间与时区设置问题

    这篇文章主要介绍了Django 时间与时区设置问题,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-07-07
  • Python全栈之推导式和生成器

    Python全栈之推导式和生成器

    这篇文章主要为大家介绍了Python推导式和生成器,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2021-12-12
  • 基于Python开发PPTX压缩工具

    基于Python开发PPTX压缩工具

    在日常办公中,PPT文件往往因为图片过大而导致文件体积过大,不便于传输和存储,所以本文将使用Python开发一个PPTX压缩工具,需要的可以了解下
    2025-02-02
  • Python中operator模块的操作符使用示例总结

    Python中operator模块的操作符使用示例总结

    operator模块中包含了Python的各种内置操作符,诸如逻辑、比较、计算等,这里我们针对一些常用的操作符来作一个Python中operator模块的操作符使用示例总结:
    2016-06-06
  • Python 实现多表和工作簿合并及一表按列拆分

    Python 实现多表和工作簿合并及一表按列拆分

    这篇文章主要介绍了Python 实现多表和工作簿合并及一表按列拆分,文章围绕主题展开详细的资料介绍,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-05-05
  • Python探索之SocketServer详解

    Python探索之SocketServer详解

    这篇文章主要介绍了Python探索之SocketServer详解,小编觉得还是比较不错的,这里分享给大家,供需要的朋友参考。
    2017-10-10

最新评论