Python采集电视剧《开端》弹幕做成词云图

 更新时间:2022年01月25日 14:06:33   作者:松鼠爱吃饼干  
大家好,本篇文章主要讲的是Python采集电视剧《开端》弹幕做成词云图,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下

知识点介绍

爬虫基本思路流程

requests模块的使用

pandas保存表格数据

pyecharts做词云图可视化

环境介绍

python 3.8

pycharm

requests >>> pip install requests

pyecharts >>> pip install pyecharts

网站分析

打开X讯视频的网页,点开《开端》,播放视频,弹幕随之出现再屏幕之上。

首先我们需要找到相应的弹幕出自于哪里,打开网页开发者工具,Ctrl+F输入:“那么多座位你俩非要挤一起吗”,找到弹幕所在的页面

观察发现这是一个json,其弹幕内容包含在该json中的comments之中

找到页面之后观察该页面的请求头,请求方式为get,target_id为该电视剧的网页ID,得到该电视剧的链接地址主要由target_id和timestamp时间戳构成,形如 http://mfm.video.qq.com/danmu?timestamp=0&target_id=xxxxx 且该json表明时间戳每30会更新一次弹幕信息,单位为秒,对网站进行分析之后,我们直接看到代码。

完整爬虫代码实现

timestamp每增加30就会更改整个弹幕页面,在循环中每次增加30,并更改target_id即电视剧的每一集来获取每一集的弹幕信息,下面便是编写的获取弹幕的函数。这里以第一集为例子。

import requests
import pandas as pd

# 构建一个列表存储数据
data_set = []

for page in range(15, 600, 30):
    try:
        # 1. 发送请求
        url = f'https://mfm.video.qq.com/danmu?otype=json&target_id=7626117232%26vid%3Dn0041aa087e&session_key=0%2C0%2C0&timestamp={page}&_=1641804763748'
        response = requests.get(url=url)
        # 2. 获取数据
        json_data = response.json()
        # 3. 解析数据
        comments = json_data['comments']
        for comment in comments:
            data_dict = {}
            data_dict['commentid'] = comment['commentid']
            data_dict['content'] = comment['content']
            data_dict['opername'] = comment['opername']
            print(data_dict)
            data_set.append(data_dict)
    except:
        pass

# 4. 保存数据
df = pd.DataFrame(data_set)
df.to_csv('data.csv', index=False)

结果展示

word = dfword3['word'].tolist()
count = dfword3['count'].tolist()
a = [list(z) for z in zip(word, count)]
c = (
    WordCloud()
    .add('', a, word_size_range=[10, 50], shape='circle')
    .set_global_opts(title_opts=opts.TitleOpts(title="词云图"))
)
c.render_notebook()

总结

到此这篇关于Python采集电视剧《开端》弹幕做成词云图的文章就介绍到这了,更多相关Python词云图内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python 获取新浪微博的最新公共微博实例分享

    Python 获取新浪微博的最新公共微博实例分享

    因为工作,需要抓取微博内容。在百度上找到多篇关于用Python实现抓取新浪微博的文章,但似乎都不凑效,还是自己来吧,俗话说自己动手丰衣足食嘛
    2014-07-07
  • python库skimage给灰度图像染色的方法示例

    python库skimage给灰度图像染色的方法示例

    这篇文章主要介绍了python库skimage给灰度图像染色的方法示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-04-04
  • Anaconda安装后Spyder闪退解决办法

    Anaconda安装后Spyder闪退解决办法

    作为研究深度学习的一员,经常会遇到各种突如其来的bug,最近又碰到了一个关于spyder打开后又闪退的问题,下面这篇文章主要给大家介绍了关于Anaconda安装后Spyder闪退的解决办法,需要的朋友可以参考下
    2023-04-04
  • Matlab中的mat数据转成python中使用的npy数据遇到的坑及解决

    Matlab中的mat数据转成python中使用的npy数据遇到的坑及解决

    这篇文章主要介绍了Matlab中的mat数据转成python中使用的npy数据遇到的坑及解决,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-12-12
  • python pandas生成时间列表

    python pandas生成时间列表

    这篇文章主要介绍了python pandas生成时间列表,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-06-06
  • windows系统下Python环境的搭建(Aptana Studio)

    windows系统下Python环境的搭建(Aptana Studio)

    这篇文章主要介绍了windows系统下Python环境的搭建(Aptana Studio),需要的朋友可以参考下
    2017-03-03
  • PyInstaller如何打包依赖文件至目标程序目录

    PyInstaller如何打包依赖文件至目标程序目录

    这篇文章主要介绍了PyInstaller如何打包依赖文件至目标程序目录,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-02-02
  • Python+PyQt5+MySQL实现天气管理系统

    Python+PyQt5+MySQL实现天气管理系统

    这篇文章主要为大家详细介绍了Python+PyQt5+MySQL实现天气管理系统,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-06-06
  • Python中利用ItsDangerous快捷实现数据加密

    Python中利用ItsDangerous快捷实现数据加密

    这篇文章主要介绍了Python中利用ItsDangerous快捷实现数据加密,通过使用Python库ItsDangerous,我们就可以高效快捷地完成数据加密/解密的过程,本文结合实例代码给大家讲解的非常详细,需要的朋友可以参考下
    2022-11-11
  • Python爬取APP下载链接的实现方法

    Python爬取APP下载链接的实现方法

    这篇文章主要实现的是批量下载安卓APP。显然用手点是不科学的。于是尝试用Python写了一个半自动化的脚本。所谓半自动化,就是把下载链接批量抓取下来,然后一起贴到迅雷里进行下载,这样可以快速批量下载。有需要的朋友们可以一起看看吧。
    2016-09-09

最新评论