用Python爬取指定关键词的微博

 更新时间:2021年11月16日 10:10:57   作者:志斌  
这篇文章主要介绍了用Python爬取指定关键词的微博,下面文章围绕Python爬取指定关键词的微博的相关资料展开详细内容,需要的朋友可以参考一下

前几天学校一个老师在做微博的舆情分析找我帮她搞一个用关键字爬取微博的爬虫,再加上最近很多读者问志斌微博爬虫的问题,今天志斌来跟大家分享一下。

一、分析页面

我们此次选择的是从移动端来对微博进行爬取。移动端的反爬就是信息校验反爬虫的cookie反爬虫,所以我们首先要登陆获取cookie

登陆过后我们就可以获取到自己的cookie了,然后我们来观察用户是如何搜索微博内容的。

平时我们都是在这个地方输入关键字,来进行搜索微博。

我通过在开发者模式下对这个页面观察发现,它每次对关键字发起请求后,就会返回一个XHR响应。

我们现在已经找到数据真实存在的页面了,那就可以进行爬虫的常规操作了。

二、数据采集

在上面我们已经找到了数据存储的真实网页,现在我们只需对该网页发起请求,然后提取数据即可。

1、发起请求

通过对请求头进行观察,我们不难构造出请求代码。

代码如下:

key = input("请输入爬取关键字:")
for page in range(1,10):
   params = (
       ('containerid', f'100103type=1&q={key}'),
       ('page_type', 'searchall'),
       ('page', str(page)),
   )

   response = requests.get('https://m.weibo.cn/api/container/getIndex', headers=headers, params=params)



2、提取数据

从上面我们观察发现这个数据可以转化成字典来进行爬取,但是经过我实际测试发现,用正则来提取是最为简单方便的,所以这里展示的是正则提取的方式,有兴趣的读者可以尝试用字典方式来提取数据。

代码如下:

r = response.text
title = re.findall('"page_title":"(.*?)"',r)
comments_count = re.findall('"comments_count":(.*?),',r)
attitudes_count = re.findall('"attitudes_count":(.*?),',r)
for i in range(len(title)):
   print(eval(f"'{title[i]}'"),comments_count[i],attitudes_count[i])

在这里有一个小问题要注意,微博的标题是用Unicode编码的,如果直接爬取存储,将存储的是Unicode编码,在这里要感谢大佬—小明哥的帮助,志斌在网上搜了好多解决方法都没有成功,最后小明哥一个简单的函数就给解决了,实在是佩服!

解决方案:用eval()来输出标题,就可以将Unicode转换成汉字了。

三、小结

1. 本文详细介绍了如何用Python指定关键字爬取微博,有兴趣的读者可以尝试自己动手练习一下。

2. 本文仅供读者学习使用,不做其他用途!

到此这篇关于用Python爬取指定关键词的微博的文章就介绍到这了,更多相关Python爬取指定关键词的微博内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Django admin美化插件suit使用示例

    Django admin美化插件suit使用示例

    这篇文章主要介绍了Django admin美化插件suit使用示例,简单介绍了suit的使用界面示例,官方文档,安装语句等相关内容,具有一定借鉴价值,需要的朋友可以参考下。
    2017-12-12
  • 在Django中使用ElasticSearch

    在Django中使用ElasticSearch

    这篇文章主要介绍了在Django中使用ElasticSearch,Elasticsearch是基于Lucene库的搜索引擎。它提供了具有HTTP Web界面和无模式JSON文档的分布式,多租户功能的全文本搜索引擎,下面详细内容,需要的朋友可以参考一下
    2022-01-01
  • Python获取时间戳的多种方法总结

    Python获取时间戳的多种方法总结

    时间戳是一个表示日期和时间的数值,通常以秒为单位,在Python中,获取时间戳是常见的任务,用于记录事件、计时操作、以及在各种应用中跟踪时间,本文将介绍多种获取时间戳的方法,包括标准库和第三方库的方式,并提供示例代码以帮助你更好地理解
    2023-11-11
  • python程序超时处理方式

    python程序超时处理方式

    这篇文章主要介绍了python程序超时处理方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-08-08
  • 人工智能学习pyTorch的ResNet残差模块示例详解

    人工智能学习pyTorch的ResNet残差模块示例详解

    这篇文章主要为大家介绍了人工智能学习pyTorch的ResNet残差模块示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步
    2021-11-11
  • Tensorflow训练MNIST手写数字识别模型

    Tensorflow训练MNIST手写数字识别模型

    这篇文章主要为大家详细介绍了Tensorflow训练MNIST手写数字识别模型,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-02-02
  • 布隆过滤器的概述及Python实现方法

    布隆过滤器的概述及Python实现方法

    布隆过滤器是一种概率空间高效的数据结构。它与hashmap非常相似,用于检索一个元素是否在一个集合中。这篇文章主要介绍了布隆过滤器的概述及Python实现,需要的朋友可以参考下
    2019-12-12
  • Python基于yaml文件配置logging日志过程解析

    Python基于yaml文件配置logging日志过程解析

    这篇文章主要介绍了Python基于yaml文件配置logging日志过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-06-06
  • 一文秒懂Python中的字符串

    一文秒懂Python中的字符串

    这篇文章主要介绍了一文秒懂Python中的字符串,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-03-03
  • Python3的介绍、安装和命令行的认识(推荐)

    Python3的介绍、安装和命令行的认识(推荐)

    Python是著名的“龟叔”Guido van Rossum在1989年圣诞节期间,为了打发无聊的圣诞节而编写的一个编程语言。这篇文章主要介绍了Python3的介绍、安装和命令行的认识,需要的朋友可以参考下
    2018-10-10

最新评论