Python百度指数获取脚本下载并保存

更新时间：2022年06月09日 09:14:56 作者：北江爱国

这篇文章主要介绍了Python百度指数获取脚本下载并保存，基于原有的可以对百度指数进行爬虫的脚本做一个可直接返回pd.DataFrame的数据框的类加上可视化代码完成，需要的朋友可以参考一下

前言

有时候大家需要知道一个关键词在互联网上的热度，想知道某个关键词的热度变化趋势。大家可能就是使用百度指数、微信指数之类的。非常好用，但是就是不能把数据下载保存下来，不方便我们后面进行操作。

我无意间看到别人提供的python脚本，可以对百度指数进行爬虫，于是我稍微修改了部分代码，做了一个可以直接返回pd.DataFrame的数据框的类；然后后面又加了一个小的可视化代码。这里和大家分享，只要使用这个脚本，就可以将百度指数数据下载下来，并且保存。

具体步骤

1. 获得cookie值

百度指数是需要登陆，进行用户验证，因此，我们要登陆百度指数，然后随便搜索一个关键词，比如python。然后在网页空白地方，右键打开【检查】，然后进入【网络】

这个时候会发现【网络】里面都是空的，需要重新刷新网页即可看到所有内容。内容太多了，注意选择【Fetch/XHR】.

然后找到index？开头的文件，查看他的【标头】、查看他的【Cookie】.将这个cookie的值复制

2. 使用我的代码

基础代码，只要复制好就行：

import requests
import json
from datetime import date, timedelta
import pandas as pd
class DownloadBaiDuIndex(object):
    def __init__(self, cookie):
        self.cookie = cookie
        self.headers = {
            "Connection": "keep-alive",
            "Accept": "application/json, text/plain, */*",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36",
            "Sec-Fetch-Site": "same-origin",
            "Sec-Fetch-Mode": "cors",
            "Sec-Fetch-Dest": "empty",
            "Referer": "https://index.baidu.com/v2/main/index.html",
            "Accept-Language": "zh-CN,zh;q=0.9",
            'Cookie': self.cookie,
        }

    def decrypt(self, ptbk, index_data):
        n = len(ptbk) // 2
        a = dict(zip(ptbk[:n], ptbk[n:]))
        return "".join([a[s] for s in index_data])

    def get_index_data_json(self, keys, start=None, end=None):
        words = [[{"name": key, "wordType": 1}] for key in keys]
        words = str(words).replace(" ", "").replace("'", """)

        url = f'http://index.baidu.com/api/SearchApi/index?area=0&word={words}&area=0&startDate={start}&endDate={end}'
        print(words, start, end)
        res = requests.get(url, headers=self.headers)
        data = res.json()['data']
        uniqid = data['uniqid']
        url = f'http://index.baidu.com/Interface/ptbk?uniqid={uniqid}'
        res = requests.get(url, headers=self.headers)
        ptbk = res.json()['data']
        result = {}
        result["startDate"] = start
        result["endDate"] = end
        for userIndexe in data['userIndexes']:
            name = userIndexe['word'][0]['name']
            tmp = {}
            index_all = userIndexe['all']['data']
            index_all_data = [int(e) for e in self.decrypt(ptbk, index_all).split(",")]
            tmp["all"] = index_all_data
            index_pc = userIndexe['pc']['data']
            index_pc_data = [int(e) for e in self.decrypt(ptbk, index_pc).split(",")]
            tmp["pc"] = index_pc_data
            index_wise = userIndexe['wise']['data']
            index_wise_data = [int(e)
                               for e in self.decrypt(ptbk, index_wise).split(",")]
            tmp["wise"] = index_wise_data
            result[name] = tmp
        return result

    def GetIndex(self, keys, start=None, end=None):
        today = date.today()
        if start is None:
            start = str(today - timedelta(days=8))
        if end is None:
            end = str(today - timedelta(days=2))

        try:
            raw_data = self.get_index_data_json(keys=keys, start=start, end=end)
            raw_data = pd.DataFrame(raw_data[keys[0]])
            raw_data.index = pd.date_range(start=start, end=end)

        except Exception as e:
            print(e)
            raw_data = pd.DataFrame({'all': [], 'pc': [], 'wise': []})

        finally:
            return raw_data

使用上面的类：

使用上面的类，然后使用下面的代码。先初始化类，然后在使用这个对象的GetIndex函数，里面的参数keys就是传递一个关键词就行，要用列表形式传递。

说更加简单一点的，只要把python替换成别的关键词就行了，然后时间也都是文本形式，样式就是'yyyy-mm-dd'形式就行。

cookie = '你的cookie值，注意使用英文单引号；就是直接复制就行了'
# 初始化一个类
downloadbaiduindex = DownloadBaiDuIndex(cookie=cookie)
data = downloadbaiduindex.GetIndex(keys=['python'], start='2021-01-01', end='2021-11-12')
data

保存数据

如果想保存数据，直接可以这么写：

data.to_csv('data.csv')

可视化

获得数据已经很简单了，接下来可视化，就是非常简单的事情了，你用别的语言处理数据也都可以了。我这里简单的画一个时间序列图：

import plotly.graph_objects as go
import pandas as pd
df = data
fig = go.Figure([go.Scatter(x=df.index, y=df['all'], fill='tozeroy')])
fig.update_layout(template='plotly_white', title='python 百度指数')
fig.show()
fig.write_html('python.html')

结果如下：

总结

上面基本上没有任何难点了，只要没把cookie复制错，只要没有把上面的参数写错就行。

到此这篇关于Python百度指数获取脚本下载并保存的文章就介绍到这了,更多相关Python获取脚本内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python 文件重命名工具代码
Python 文件重命名工具实现代码。
2009-07-07
解读Numpy中的排序(sort,argsort)
这篇文章主要介绍了关于Numpy中的排序(sort,argsort)，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-06-06
Pandas读取行列数据最全方法
本文主要介绍了Pandas读取行列数据最全方法，文中通过示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2021-08-08
python多进程控制学习小结
这篇文章主要介绍了python多进程控制学习小结，想要充分利用多核CPU资源，Python中大部分情况下都需要使用多进程，Python中提供了multiprocessing这个包实现多进程。感兴趣的小伙伴们可以参考一下
2018-10-10
python识别围棋定位棋盘位置
最近需要做一个围棋识别的项目，本文就介绍了棋盘位置定位，文中通过示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2021-07-07
Pandas Groupby之在Python中汇总、聚合和分组数据的示例详解
GroupBy是一个非常简单的概念，我们可以创建一个类别分组，并对这些类别应用一个函数，本文给大家介绍Pandas Groupby之如何在Python中汇总、聚合和分组数据，感兴趣的朋友跟随小编一起看看吧
2023-07-07
Python学习之函数的定义与使用详解
函数是具有某种特定功能的代码块，可以重复使用(在前面数据类型相关章节。它使得我们的程序更加模块化，不需要编写大量重复的代码。本文将详细介绍Python中函数的定义与使用，感兴趣的可以学习一下
2022-03-03
Python 12306抢火车票脚本 Python京东抢手机脚本
这篇文章主要为大家详细介绍了Python 12306抢火车票脚本和Python京东抢手机脚本，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-02-02
Python OpenCV 图像区域轮廓标记(框选各种小纸条)
这篇文章主要介绍了Python OpenCV 图像区域轮廓标记(框选各种小纸条)，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-03-03
PyTorch使用torch.nn.Module模块自定义模型结构方式
这篇文章主要介绍了PyTorch使用torch.nn.Module模块自定义模型结构方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2024-02-02