python实战scrapy操作cookie爬取博客涉及browsercookie

 更新时间:2021年11月13日 16:40:56   作者:梦想橡皮擦  
这篇文章主要为大家介绍了python实战scrapy操作cookie爬取博客涉及browsercookie,下面来学习一下 scrapy 操作 Cookie来爬取博客吧

browsercookie 知识铺垫

第一个要了解的知识点是使用 browsercookie 获取浏览器 cookie ,该库使用命令 pip install browsercookie 安装即可。

接下来获取 firefox 浏览器的 cookie,不使用 chrome 谷歌浏览器的原因是在 80 版本之后,其 cookie 的加密方式进行了修改,所以使用 browsercookie 模块会出现如下错误

win32crypt must be available to decrypt Chrome cookie on Windows

获取 cookie 的代码如下所示:

import browsercookie

firefox_cookiejar = browsercookie.firefox()

for c in firefox_cookiejar:
    print(c)

运行代码,输出如下格式内容。

Python 爬虫 cookie 实战博客,涉及 browsercookie 与 scrapy

获取了 cookies 之后,就可以访问之后登录后才能访问的页面了(前提是在火狐浏览器登录过一次)。

下面拿 某管理中心举例,在火狐浏览器登录过之后,使用 browsercookie 获取 cookie 之后,就可以直接访问后台接口。

import browsercookie
import requests

firefox_cookiejar = browsercookie.firefox()

# for c in firefox_cookiejar:
#     print(c)

res = requests.get("https://img-home.csdnimg.cn/data_json/jsconfig/menu_path.json", cookies=firefox_cookiejar)
print(res.text)

可以直接获取到后台菜单。

Python 爬虫 cookie 实战博客,涉及 browsercookie 与 scrapy

使用 browsercookie 实现 自动化点赞

在 scrapy 框架中,已经内置了一个 CookiesMiddleware 用于处理 cookies,我们这次通过继承 CookiesMiddleware ,然后使用 browsercookie 库完成点赞器的研发(仅做了一个测试案例,没有使用并发哦)

打开 middlewares.py 文件,编写自定义的类:

from scrapy.downloadermiddlewares.cookies import CookiesMiddleware
import browsercookie
class BrowserCookiesDownloaderMiddleware(CookiesMiddleware):
    def __init__(self, debug=False):
        super().__init__(debug)
        self.load_browser_cookies()

    def load_browser_cookies(self):
        # 注意这个地方的名字叫做 firefox
        jar = self.jars['firefox']
        firefox_cookiejar = browsercookie.firefox()
        for cookie in firefox_cookiejar:
            jar.set_cookie(cookie)

上述类的核心内容是使用 browsercookie 对浏览器的 cookie 进行提取,存储到 CookieJar 类型的字典 jars 中,后续请求的时候,在进行调用。

同步在 settings.py 文件中禁用默认的 CookiesMiddleware,启用咱们自定义的新类。

DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': None,
    'csdn.middlewares.BrowserCookiesDownloaderMiddleware': 543,
}

在编写爬虫核心函数,重点修改 Request 请求为 POST 请求,并且携带相关参数,meta={'cookiejar':COOKIEJAR}
代码如下所示:

import scrapy
class ClikeSpider(scrapy.Spider):
    name = 'clike'
    allowed_domains = ['csdn.net']
    like_url = 'https://blog.csdn.net/phoenix/web/v1/article/like'
    def start_requests(self):
        data = {
            "articleId": "120845464",
        }
        yield scrapy.FormRequest(url=self.like_url, formdata=data, meta={'cookiejar': 'firefox'})
    def parse(self, response):
        print(response.json())

运行爬虫之后,在日志中可以发现成功的点赞了。

Python 爬虫 cookie 实战博客,涉及 browsercookie 与 scrapy

以上就是python实战scrapy操作cookie爬取博客涉及browsercookie的详细内容,更多关于scrapy操作cookie爬取博客的资料请关注脚本之家其它相关文章!

相关文章

  • 如何在Win10系统使用Python3连接Hive

    如何在Win10系统使用Python3连接Hive

    这篇文章主要介绍了如何在Win10系统使用Python3连接Hive,帮助大家更好的利用python读取数据,进行探索、分析和挖掘工作。感兴趣的朋友可以了解下
    2020-10-10
  • Python wordcloud库安装方法

    Python wordcloud库安装方法

    Wordcloud库的基本使用非常简单,只需要导入库并调用WordCloud类即可,这篇文章主要介绍了Python wordcloud库,需要的朋友可以参考下
    2024-01-01
  • PyautoGui常用教程(一篇掌握)

    PyautoGui常用教程(一篇掌握)

    这篇文章主要介绍了PyautoGui常用教程(一篇掌握),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-04-04
  • python接口自动化之ConfigParser配置文件的使用详解

    python接口自动化之ConfigParser配置文件的使用详解

    这篇文章主要介绍了python接口自动化之ConfigParser配置文件的使用,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-08-08
  • python制作花瓣网美女图片爬虫

    python制作花瓣网美女图片爬虫

    本文通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地,需要的朋友可以参考下
    2015-10-10
  • Python 虚拟环境venv详解

    Python 虚拟环境venv详解

    Python 虚拟环境主要是为不同 Python 项目创建一个隔离的环境,每个项目都可以拥有独立的依赖包环境,而项目间的依赖包互不影响,对Python 虚拟环境venv相关知识感兴趣的朋友一起看看吧
    2021-09-09
  • Python Mysql自动备份脚本

    Python Mysql自动备份脚本

    测试系统环境 Windows 2003 python 2.5.1 mysql 5.0.1 应该只适用于Win,因为调用了CMD。 增量备份,因为自用,数据库不大。
    2008-07-07
  • centos7中安装python3.6.4的教程

    centos7中安装python3.6.4的教程

    Python3.6.4官方版是一款在适合开发人员使用的windows系统上运行的脚本语言工具,Python3.6.4官方版是目前程序设计从业者必学的语言之一。这篇文章给大家介绍了centos7中安装python3.6.4的教程,感兴趣的朋友一起看看吧
    2019-12-12
  • Python中time库的使用(日期时间)

    Python中time库的使用(日期时间)

    time库是python中处理时间的标准库,这篇文章主要介绍了Python中time库的使用(日期时间),本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-02-02
  • Python调用olmOCR大模型实现提取复杂PDF文件内容

    Python调用olmOCR大模型实现提取复杂PDF文件内容

    olmocr是由Allen人工智能研究所(AI2)开发的一个开源工具包,旨在高效地将PDF和其他文档转换为结构化的纯文本,同时保持自然阅读顺序,下面我们来看看如何使用olmOCR大模型实现提取复杂PDF文件内容吧
    2025-03-03

最新评论