用Python爬取指定关键词的微博

 更新时间:2021年11月16日 10:10:57   作者:志斌  
这篇文章主要介绍了用Python爬取指定关键词的微博,下面文章围绕Python爬取指定关键词的微博的相关资料展开详细内容,需要的朋友可以参考一下

前几天学校一个老师在做微博的舆情分析找我帮她搞一个用关键字爬取微博的爬虫,再加上最近很多读者问志斌微博爬虫的问题,今天志斌来跟大家分享一下。

一、分析页面

我们此次选择的是从移动端来对微博进行爬取。移动端的反爬就是信息校验反爬虫的cookie反爬虫,所以我们首先要登陆获取cookie

登陆过后我们就可以获取到自己的cookie了,然后我们来观察用户是如何搜索微博内容的。

平时我们都是在这个地方输入关键字,来进行搜索微博。

我通过在开发者模式下对这个页面观察发现,它每次对关键字发起请求后,就会返回一个XHR响应。

我们现在已经找到数据真实存在的页面了,那就可以进行爬虫的常规操作了。

二、数据采集

在上面我们已经找到了数据存储的真实网页,现在我们只需对该网页发起请求,然后提取数据即可。

1、发起请求

通过对请求头进行观察,我们不难构造出请求代码。

代码如下:

key = input("请输入爬取关键字:")
for page in range(1,10):
   params = (
       ('containerid', f'100103type=1&q={key}'),
       ('page_type', 'searchall'),
       ('page', str(page)),
   )

   response = requests.get('https://m.weibo.cn/api/container/getIndex', headers=headers, params=params)



2、提取数据

从上面我们观察发现这个数据可以转化成字典来进行爬取,但是经过我实际测试发现,用正则来提取是最为简单方便的,所以这里展示的是正则提取的方式,有兴趣的读者可以尝试用字典方式来提取数据。

代码如下:

r = response.text
title = re.findall('"page_title":"(.*?)"',r)
comments_count = re.findall('"comments_count":(.*?),',r)
attitudes_count = re.findall('"attitudes_count":(.*?),',r)
for i in range(len(title)):
   print(eval(f"'{title[i]}'"),comments_count[i],attitudes_count[i])

在这里有一个小问题要注意,微博的标题是用Unicode编码的,如果直接爬取存储,将存储的是Unicode编码,在这里要感谢大佬—小明哥的帮助,志斌在网上搜了好多解决方法都没有成功,最后小明哥一个简单的函数就给解决了,实在是佩服!

解决方案:用eval()来输出标题,就可以将Unicode转换成汉字了。

三、小结

1. 本文详细介绍了如何用Python指定关键字爬取微博,有兴趣的读者可以尝试自己动手练习一下。

2. 本文仅供读者学习使用,不做其他用途!

到此这篇关于用Python爬取指定关键词的微博的文章就介绍到这了,更多相关Python爬取指定关键词的微博内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python基于ImageAI实现图像识别详解

    Python基于ImageAI实现图像识别详解

    ImageAI是一个面向计算机视觉编程的Python库,支持最先进的机器学习算法。本文将利用ImageAI实现图像识别功能,感兴趣的小伙伴可以跟随小编一起学习一下
    2023-02-02
  • python时间time模块处理大全

    python时间time模块处理大全

    这篇文章主要给大家介绍了关于python时间time模块处理的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-10-10
  • python按比例随机切分数据的实现

    python按比例随机切分数据的实现

    这篇文章主要介绍了python按比例随机切分数据的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-07-07
  • Django User 模块之 AbstractUser 扩展详解

    Django User 模块之 AbstractUser 扩展详解

    这篇文章主要介绍了Django User 模块之 AbstractUser 扩展详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-03-03
  • Python实现线性判别分析(LDA)的MATLAB方式

    Python实现线性判别分析(LDA)的MATLAB方式

    今天小编大家分享一篇Python实现线性判别分析(LDA)的MATLAB方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • Python实现时间序列变化点检测功能

    Python实现时间序列变化点检测功能

    平稳性是时间序列分析与预测的核心概念,在平稳条件下,时间序列的统计特性(如均值)在时间维度上保持不变,仅存在随机波动,但是时间序列通常会经历结构性断裂或变化,本文给大家介绍了Python实现时间序列变化点检测功能,需要的朋友可以参考下
    2024-09-09
  • python 实现将txt文件多行合并为一行并将中间的空格去掉方法

    python 实现将txt文件多行合并为一行并将中间的空格去掉方法

    今天小编就为大家分享一篇python 实现将txt文件多行合并为一行并将中间的空格去掉方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12
  • Django接收自定义http header过程详解

    Django接收自定义http header过程详解

    这篇文章主要介绍了Django接收自定义http header过程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-08-08
  • Python3导入自定义模块的三种方法详解

    Python3导入自定义模块的三种方法详解

    这篇文章主要给大家介绍了关于Python3导入自定义模块的三种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧。
    2018-04-04
  • python多进程实现进程间通信实例

    python多进程实现进程间通信实例

    这篇文章主要介绍了python多进程实现进程间通信实例,具有一定参考价值,需要的朋友可以了解下。
    2017-11-11

最新评论