详解使用scrapy进行模拟登陆三种方式

更新时间：2021年02月21日 08:37:45 作者：master_ning

这篇文章主要介绍了使用scrapy进行模拟登陆三种方式，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

scrapy有三种方法模拟登陆方式：
- 直接携带cookies
- 找url地址，发送post请求存储cookie
- 找到对应的form表单，自动解析input标签，自动解析post请求的url地址，自动带上数据，自动发送请求

1、携带cookies登陆github

import scrapy
import re
 
class Login1Spider(scrapy.Spider):
  name = 'login1'
  allowed_domains = ['github.com']
  start_urls = ['https://github.com/NoobPythoner'] # 这是一个需要登陆以后才能访问的页面
 
  def start_requests(self): # 重构start_requests方法
    # 这个cookies_str是抓包获取的
    cookies_str = '...' # 抓包获取
    # 将cookies_str转换为cookies_dict
    cookies_dict = {i.split('=')[0]:i.split('=')[1] for i in cookies_str.split('; ')}
    yield scrapy.Request(
      self.start_urls[0],
      callback=self.parse,
      cookies=cookies_dict
    )
 
  def parse(self, response): # 通过正则表达式匹配用户名来验证是否登陆成功
    result_list = re.findall(r'noobpythoner|NoobPythoner', response.body.decode())
    print(result_list)
    pass

注意：

scrapy中cookie不能够放在headers中，在构造请求的时候有专门的cookies参数，能够接受字典形式的coookie
在setting中设置ROBOTS协议、USER_AGENT

2、使用scrapy.FormRequest()登录

通过scrapy.FormRequest能够发送post请求，同时需要添加fromdata参数作为请求体，以及callback

 yield scrapy.FormRequest(
       "https://github.com/session",
       formdata={
         "authenticity_token":authenticity_token,
         "utf8":utf8,
         "commit":commit,
         "login":"****",
         "password":"****"
       },
       callback=self.parse_login
     )

3、使用scrapy.Formrequest.from_response登陆github

import scrapy
import re
 
class Login3Spider(scrapy.Spider):
  name = 'login3'
  allowed_domains = ['github.com']
  start_urls = ['https://github.com/login']
 
  def parse(self, response):
    yield scrapy.FormRequest.from_response(
      response, # 传入response对象,自动解析
      # 可以通过xpath来定位form表单,当前页只有一个form表单时,将会自动定位
      formxpath='//*[@id="login"]/form', 
      formdata={'login': '****', 'password': '***'},
      callback=self.parse_login
    )
 
  def parse_login(self,response):
    ret = re.findall(r"noobpythoner|NoobPythoner", response.text)
    print(ret)

到此这篇关于详解使用scrapy进行模拟登陆三种方式的文章就介绍到这了,更多相关scrapy模拟登陆内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python-sys.stdout作为默认函数参数的实现
今天小编就为大家分享一篇 python-sys.stdout作为默认函数参数的实现，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-02-02
分享介绍Python的9个实用技巧
本文将介绍15个简洁的Python技巧，向着简洁更高效，学习易懂出发，具说只有经验丰富程序员才知道的9种高级Python小技巧，喜欢的朋友快来看看吧
2021-11-11
Python语言中Tuple的由来分析
Tuple在Python中表示一种“大小固定的有序序列”，这篇文章主要介绍了Python语言中Tuple的由来,需要的朋友可以参考下
2022-09-09
Python爬虫之Selenium设置元素等待的方法
这篇文章主要介绍了Python爬虫之Selenium设置元素等待的方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-12-12
分数霸榜! python助你微信跳一跳拿高分
分数霸榜！这篇文章主要为大家详细介绍了python助你微信跳一跳拿高分的秘籍，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-01-01
python使用Flask框架创建一个简单的动态日历效果
这篇文章主要介绍了python使用Flask框架创建一个简单的动态日历,本文通过实例代码给大家介绍的非常详细,感兴趣的朋友一起看看吧
2024-12-12
python 实现UTC时间加减的方法
今天小编就为大家分享一篇python 实现UTC时间加减的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-12-12
Python实现轻松防止屏幕截图的技巧分享
屏幕截图是一种常见的用于记录信息或者监控用户活动的方法,为了保护隐私和数据安全,可以通过使用Python编写一些防护措施来防止他人截取我们的屏幕,下面我们就来学习一下有哪些具体操作吧
2023-12-12
Pandas Query方法使用深度总结
大多数Pandas用户都熟悉iloc[]和loc[]索引器方法，用于检索行和列。但是随着检索数据的规则变得越来越复杂，这些方法也随之变得更加复杂而臃肿。本文将展示如何使用 query() 方法对数据框执行查询，感兴趣的可以了解一下
2022-07-07
python中lambda与def用法对比实例分析
这篇文章主要介绍了python中lambda与def用法对比,实例分析了lambda与def的区别与使用技巧,具有一定参考借鉴价值,需要的朋友可以参考下
2015-04-04