Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

 更新时间:2021年01月13日 09:46:53   作者:MXuDong  
这篇文章主要介绍了Python爬虫scrapy框架Cookie池(微博Cookie池)的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

下载代码Cookie池(这里主要是微博登录,也可以自己配置置其他的站点网址)

下载代码GitHub:https://github.com/Python3WebSpider/CookiesPool

下载安装过后注意看网页下面的相关基础配置和操作!!!!!!!!!!!!!

自己的设置主要有下面几步:

1、配置其他设置

2、设置使用的浏览器

3、设置模拟登陆

源码cookies.py的修改(以下两处不修改可能会产生bug)

 

4、获取cookie

随机获取Cookies: http://localhost:5000/weibo/random(注意:cookie使用时是需要后期处理的!!)

简单的处理方式,如下代码(偶尔需要对获取的cookie处理):

def get_cookie(self):
    return requests.get('http://127.0.0.1:5000/weibo/random').text
 
  def stringToDict(self,cookie):
    itemDict = {}
    items = cookie.replace(':', '=').split(',')
    for item in items:
      key = item.split('=')[0].replace(' ', '').strip(' "')
      value = item.split('=')[1].strip(' "')
      itemDict[key] = value
    return itemDict

scrapy爬虫的使用示例(爬取微博):

middlewares.py中自定义请求中间件

def start_requests(self):
    ua = UserAgent()
    headers = {
      'User-Agent': ua.random,
      }
    cookies = self.stringToDict(str(self.get_cookie().strip('{|}')))
 
    yield scrapy.Request(url=self.start_urls[0], headers=headers,
               cookies=cookies, callback=self.parse)
cookies = self.stringToDict(str(self.get_cookie().strip('{|}')))

    yield scrapy.Request(url=self.start_urls[0], headers=headers,
               cookies=cookies, callback=self.parse)

settings.py 中的配置:

5、录入账号和密码:

格式规定(账号----密码)

6、验证:(注意:使用cmd)

7、使用时注意保持cmd打开运行!!

使用时一定要打开cmd,并运行如第6步。

得到Cookie是判断是否处理处理Cookie(几乎都需要!!)类比第4步!!!

到此这篇关于Python爬虫scrapy框架Cookie池(微博Cookie池)的使用的文章就介绍到这了,更多相关scrapy Cookie池内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python使用PIL剪切和拼接图片

    python使用PIL剪切和拼接图片

    这篇文章主要为大家详细介绍了python使用PIL剪切和拼接图片,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-03-03
  • 详解selenium + chromedriver 被反爬的解决方法

    详解selenium + chromedriver 被反爬的解决方法

    这篇文章主要介绍了详解selenium + chromedriver 被反爬的解决方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-10-10
  • PyTorch中self.layers的使用小结

    PyTorch中self.layers的使用小结

    self.layers 是一个用于存储网络层的属性,本文主要介绍了PyTorch中self.layers的使用小结,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2024-01-01
  • Python科学计算之Pandas详解

    Python科学计算之Pandas详解

    Pandas 是 python 的一个数据分析包,属于PyData项目的一部分。下面这篇文章主要介绍了Python中科学计算之Pandas,需要的朋友可以参考借鉴,下面来一起学习学习。
    2017-01-01
  • 重温Python基础之列表操作

    重温Python基础之列表操作

    这篇文章主要带大家来复习一下Python基础中的列表操作,不知道各位还记得多少呢?文中的示例代码讲解详细,对我们学习Python有一定帮助,需要的可以参考一下
    2022-11-11
  • Python基于socket模块实现UDP通信功能示例

    Python基于socket模块实现UDP通信功能示例

    这篇文章主要介绍了Python基于socket模块实现UDP通信功能,结合实例形式分析了Python使用socket模块实现IPV4协议下的UDP通信客户端与服务器端相关操作技巧,需要的朋友可以参考下
    2018-04-04
  • Python画图实现同一结点多个柱状图的示例

    Python画图实现同一结点多个柱状图的示例

    今天小编就为大家分享一篇Python画图实现同一结点多个柱状图的示例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-07-07
  • Python 数据科学 Matplotlib图库详解

    Python 数据科学 Matplotlib图库详解

    Matplotlib 是 Python 的二维绘图库,用于生成符合出版质量或跨平台交互环境的各类图形。今天通过本文给大家分享Python 数据科学 Matplotlib的相关知识,感兴趣的朋友一起看看吧
    2021-07-07
  • Tensorflow高性能数据优化增强工具Pipeline使用详解

    Tensorflow高性能数据优化增强工具Pipeline使用详解

    这篇文章主要为大家介绍了Tensorflow高性能数据优化增强工具Pipeline使用详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-11-11
  • Python matplotlib中更换画布背景颜色的3种方法

    Python matplotlib中更换画布背景颜色的3种方法

    这篇文章主要给大家介绍了关于Python matplotlib中更换画布背景颜色的3种方法,在Matplotlib中,我们可以使用set_facecolor()方法来设置背景颜色,文中通过图文以及代码介绍的非常详细,需要的朋友可以参考下
    2023-11-11

最新评论