Python 爬取微博热搜页面

更新时间：2022年01月26日 11:18:38 作者：小叮当的幻想

这篇文章主要介绍了Python 爬取微博热搜页面，关于Python 爬虫，爬取网页等相关内容一般可作为小练习，下面文章Python 爬取微博热搜页面也如此，需要的小伙伴可以参考一下

前期准备：

fiddler 抓包工具
Python3.6
谷歌浏览器

分析：

1.清理浏览器缓存cookie以至于看到整个请求过程，因为Python代码开始请求的时候不带任何缓存。
2.不考虑过多的header参数，先请求一次，看看返回结果

图中第一个链接是无缓存cookie直接访问的，状态码为302进行了重定向，用返回值.url会得到该url后面会用到（headers里的Referer参数值）
2 ，3 链接没有用太大用处为第 4 个链接做铺垫但是都可以用固定参数可以不用访问

访问https://passport.weibo.com/visitor/genvisitor ，cookie为tid=__095,注意tid需要去掉转义字符‘\’,get传的参数有用的只有t也就是tid 其他都是固定值、_rand是浮点随机数没啥具体的意义可以用Python的random.random()函数，需要导入random库，get传参使用params=,post传参用data=,不是随便都能用的

得到返回值含有SUB 和SUBP参数的值
正好是访问最后一个链接也就是热搜榜需要的cookie的值
到此分析结束

代码：

import requests
import random
import re
import urllib3
#警告忽略
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
class Wb():
    def __init__(self):
        #利用session保持回话
        self.session=requests.Session()
        #清理headers字典，不然update好像不会起作用
        self.session.headers.clear()

        self.header={
            "Host": "weibo.com",
            "Connection": "keep-alive",
            "Upgrade-Insecure-Requests": "1",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) "
                          "AppleWebKit/537.36 (KHTML, like Gecko) "
                          "Chrome/86.0.4240.198 Safari/537.36",
            "Accept": "text/html,application/xhtml+xml,application/xml;"
                      "q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,"
                      "application/signed-exchange;v=b3;q=0.9",
            "Sec-Fetch-Site": "cross-site",
            "Sec-Fetch-Mode": "navigate",
            "Sec-Fetch-Dest": "document",
            "Accept-Encoding": "gzip, deflate, br",
            "Accept-Language": "zh-CN,zh;q=0.9",
        }
        #设置代理如果需要fiddler抓包分析代码提交的参数使用下面代理如果不使用选择下面的代码self.fiddler_proxies=None
        self.fiddler_proxies = {'http': 'http://127.0.0.1:8888', 'https': 'http://127.0.0.1:8888'}
        # self.fiddler_proxies=None


    def get_top_summary(self):
        #更新添加header   headers.update只会覆盖相同键值的值不会覆盖全部
        self.session.headers.update(self.header)
        #verify=False 不检查证书
        response=self.session.get(url="https://weibo.com/",proxies=self.fiddler_proxies,verify=False)
        print(response.url)
        response.encoding='gbk'
        data1={
            "cb":"gen_callback",
            "fp":'{"os":"1","browser":"Chrome86,0,4240,198",'
                 '"fonts":"undefined","screenInfo":"1920*1080*24",'
                 '"plugins":"Portable Document Format::internal-pdf-viewer::'
                 'Chromium PDF Plugin|::mhjfbmdgcfjbbpaeojofohoefgiehjai::'
                 'Chromium PDF Viewer|::internal-nacl-plugin::Native Client"}'
        }
        header1={
            "Host": "passport.weibo.com",
            "Cache-Control": "max-age=0",
            "If-Modified-Since": "0",
            "Content-Type": "application/x-www-form-urlencoded",
            "Accept": "*/*",
            "Origin": "https://passport.weibo.com",
            "Sec-Fetch-Site": "same-origin",
            "Sec-Fetch-Mode": "cors",
            "Sec-Fetch-Dest": "empty",
            "Referer": response.url,
        }
        self.session.headers.update(header1)
        response1=self.session.post(url="https://passport.weibo.com/visitor/genvisitor"
                                    ,data=data1,proxies=self.fiddler_proxies,verify=False)
        #利用正则表达式解析tid参数的值
        t=re.search('{"tid":"(.*)","new_tid"',response1.text).groups()[0]
        data2={
            "a":"incarnate",
            "t":t.replace("\\",""),
            "w": "2",
            "c": "095",
            "gc":"",
            "cb":"cross_domain",
            "from":"weibo",
            "_rand":random.random()
        }
        header2={
            "Sec-Fetch-Mode": "no-cors",
            "Sec-Fetch-Dest": "script",
            "Cookie":"tid="+t.replace("\\","")+"__095"
        }
        self.session.headers.update(header2)
        response2 = self.session.get(url="https://passport.weibo.com/visitor/visitor",
                                     params=data2,proxies=self.fiddler_proxies,verify=False)
        #从返回值中获取cookie字典
        cookie = requests.utils.dict_from_cookiejar(response2.cookies)


        header3={
            "Cookie":"SUB="+cookie["SUB"]+";"+"SUBP="+cookie["SUBP"],
            "Host": "s.weibo.com",
            "Upgrade-Insecure-Requests": "1"

        }
        self.session.headers.update(header3)
        response3=self.session.get(url="https://s.weibo.com/top/summary",
                                   proxies=self.fiddler_proxies,verify=False)
        # print(response3.text)


if __name__ == '__main__':
    wb=Wb()
    wb.get_top_summary()

至此只能得到原始的html页面，想要进一步操作需要在HTML里面提取有用的数据。。。。。。
爬虫初期需要更多的是耐心

到此这篇关于Python 爬取微博热搜页面的文章就介绍到这了,更多相关Python 爬取微博热搜页面内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python3实现暴力穷举博客园密码
这篇文章主要介绍了python3实现暴力穷举博客园密码的相关资料,需要的朋友可以参考下
2016-06-06
Python访问本地deepseek示例【含deepseek本地部署】
这篇文章主要介绍了Python访问本地deepseek功能,结合实例形式分析了使用Ollama本地部署deepseek以及python访问本地deepseek的过程,需要的朋友可以参考下
2018-06-06
Pygame如何使用精灵和碰撞检测
本文主要介绍了Pygame如何使用精灵和碰撞检测，它们能够帮助我们跟踪屏幕上移动的大量图像。我们还会了解如何检测两个图像相互重叠或者碰撞的方法。
2021-11-11
python imutils包基本概念及使用
python imutils包可以很简洁的调用opencv接口，轻松实现图像的平移，旋转，缩放，骨架化等操作，对python imutils包基本概念及使用方法感兴趣的朋友一起看看吧
2021-07-07
Python3多线程详解
使用多线程，可以同时进行多项任务，可以使用户界面更友好，还可以后台执行某些用时长的任务，同时具有易于通信的优点。python3中多线程的实现使用了threading模块，它允许同一进程中运行多个线程，本文介绍的非常详细，,需要的朋友可以参考下
2023-05-05
python目录与文件名操作例子
这篇文章主要介绍了python目录与文件名操作例子,需要的朋友可以参考下
2016-08-08
Python生成可执行文件之PyInstaller库的使用方式
PyInstaller是一个十分有用的第三方库,通过对源文件打包,Python程序可以在没有安装Python的环境中运行,也可以作为一个独立文件方便传递和管理,下面这篇文章主要给大家介绍了关于Python生成可执行文件之PyInstaller库的使用方式,需要的朋友可以参考下
2022-04-04
Python类super()及私有属性原理解析
这篇文章主要介绍了Python类super()及私有属性原理解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-06-06
关于阿里云oss获取sts凭证 app直传 python的实例
今天小编就为大家分享一篇关于阿里云oss获取sts凭证 app直传 python的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-08-08
使用matplotlib中scatter方法画散点图
这篇文章主要为大家详细介绍了使用matplotlib中scatter方法画散点图，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2019-03-03

Python 爬取微博热搜页面

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具