详解使用scrapy进行模拟登陆三种方式

 更新时间:2021年02月21日 08:37:45   作者:master_ning  
这篇文章主要介绍了使用scrapy进行模拟登陆三种方式,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

scrapy有三种方法模拟登陆方式:
- 直接携带cookies
- 找url地址,发送post请求存储cookie
- 找到对应的form表单,自动解析input标签,自动解析post请求的url地址,自动带上数据,自动发送请求

1、携带cookies登陆github

import scrapy
import re
 
class Login1Spider(scrapy.Spider):
  name = 'login1'
  allowed_domains = ['github.com']
  start_urls = ['https://github.com/NoobPythoner'] # 这是一个需要登陆以后才能访问的页面
 
  def start_requests(self): # 重构start_requests方法
    # 这个cookies_str是抓包获取的
    cookies_str = '...' # 抓包获取
    # 将cookies_str转换为cookies_dict
    cookies_dict = {i.split('=')[0]:i.split('=')[1] for i in cookies_str.split('; ')}
    yield scrapy.Request(
      self.start_urls[0],
      callback=self.parse,
      cookies=cookies_dict
    )
 
  def parse(self, response): # 通过正则表达式匹配用户名来验证是否登陆成功
    result_list = re.findall(r'noobpythoner|NoobPythoner', response.body.decode())
    print(result_list)
    pass

注意:

scrapy中cookie不能够放在headers中,在构造请求的时候有专门的cookies参数,能够接受字典形式的coookie
在setting中设置ROBOTS协议、USER_AGENT

2、使用scrapy.FormRequest()登录

通过scrapy.FormRequest能够发送post请求,同时需要添加fromdata参数作为请求体,以及callback

 yield scrapy.FormRequest(
       "https://github.com/session",
       formdata={
         "authenticity_token":authenticity_token,
         "utf8":utf8,
         "commit":commit,
         "login":"****",
         "password":"****"
       },
       callback=self.parse_login
     )

3、使用scrapy.Formrequest.from_response登陆github

import scrapy
import re
 
class Login3Spider(scrapy.Spider):
  name = 'login3'
  allowed_domains = ['github.com']
  start_urls = ['https://github.com/login']
 
  def parse(self, response):
    yield scrapy.FormRequest.from_response(
      response, # 传入response对象,自动解析
      # 可以通过xpath来定位form表单,当前页只有一个form表单时,将会自动定位
      formxpath='//*[@id="login"]/form', 
      formdata={'login': '****', 'password': '***'},
      callback=self.parse_login
    )
 
  def parse_login(self,response):
    ret = re.findall(r"noobpythoner|NoobPythoner", response.text)
    print(ret)

到此这篇关于详解使用scrapy进行模拟登陆三种方式的文章就介绍到这了,更多相关scrapy模拟登陆内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 基于Python实现的车牌识别系统

    基于Python实现的车牌识别系统

    本文将以基于Python的车牌识别系统实现为方向,介绍车牌识别技术的基本原理、常用算法和方法,并详细讲解如何利用Python语言实现一个完整的车牌识别系统,需要的朋友可以参考下
    2023-10-10
  • Python中sub()的用法说明

    Python中sub()的用法说明

    这篇文章主要介绍了Python中sub()的用法说明,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-04-04
  • Python学习小技巧之利用字典的默认行为

    Python学习小技巧之利用字典的默认行为

    这篇文章主要给大家介绍了Python学习小技巧之利用字典的默认行为的相关资料,文中介绍的非常详细,对大家具有一定的参考学习价值,需要的朋友们下面来一起看看吧。
    2017-05-05
  • Python的Django中将文件上传至七牛云存储的代码分享

    Python的Django中将文件上传至七牛云存储的代码分享

    七牛云存储可以帮助服务器转存图片等数据,类似于Dropbox等存储服务,这里就带给大家Python的Django中将文件上传至七牛云存储的代码分享,需要的朋友可以参考下
    2016-06-06
  • python中关于日期时间处理的问答集锦

    python中关于日期时间处理的问答集锦

    python中有关日期时间处理的问答集锦,有需要的朋友不妨参考下
    2013-03-03
  • 一文带你重温一下Python的对象模型

    一文带你重温一下Python的对象模型

    在面向对象的理论中,有两个核心的概念:类和实例。在 Python 里面,类和实例都是对象,也就是所谓的类对象和实例对象。本文主要来大家重温一下Python对象模型的相关知识,感兴趣的可以了解一下
    2023-04-04
  • TensorFlow安装及jupyter notebook配置方法

    TensorFlow安装及jupyter notebook配置方法

    下面小编就为大家带来一篇TensorFlow安装及jupyter notebook配置方法。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-09-09
  • Python图像处理之Hough变换检测直线

    Python图像处理之Hough变换检测直线

    霍夫变换是一种特征检测(feature extraction),被广泛应用在图像分析,本文将利用Hough变换实现直线检测,感兴趣的小伙伴可以了解一下
    2023-07-07
  • python3 动态模块导入与全局变量使用实例

    python3 动态模块导入与全局变量使用实例

    今天小编就为大家分享一篇python3 动态模块导入与全局变量使用实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • python基础之文件操作和异常处理

    python基础之文件操作和异常处理

    这篇文章主要介绍了python基础之文件操作和异常处理,文中有非常详细的代码示例,对正在学习python基础的小伙伴们有一定的帮助,需要的朋友可以参考下
    2021-04-04

最新评论