Python爬虫自动化爬取b站实时弹幕实例方法

 更新时间:2021年01月26日 08:25:04   作者:宋宋大人  
在本篇文章里小编给大家整理的是一篇关于Python爬虫自动化爬取b站实时弹幕实例方法,有兴趣的朋友们可以学习下。

最近央视新闻记者王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱,b站也有很多up主剪辑了关于王冰冰的视频。我们都是知道b站是一个弹幕网站,那你知道如何爬取b站实时弹幕吗?本文以王冰冰视频弹幕为例,向大家介绍Python爬虫实现自动化爬取b站实时弹幕的过程。

1、导入需要的库

import jieba # 分词
from wordcloud import WordCloud # 词云
from PIL import Image # 图片处理
import numpy as np # 图片处理
import matplotlib.pyplot as plt # 画图

2、 jieba分词

所谓的分词就是将一句话分成一个或几个词语的形式,

分词代码

# 读取停用词库,注意编码应为‘utf8'
f = open('小夜斗的停用词表.txt', encoding='utf8')
stopwords = f.read().split('\n')
print(stopwords) # 打印停用词
f.close() # 关闭停用词文件

3、打印出的为一个停用词列表

with open("冰冰vlog2.txt", "r", encoding='utf8') as fp:
text = fp.read()

4、读取冰冰弹幕数据文件的操作,将其保存到text变量中

segs = jieba.cut(text) # 进行jieba分词
mytext_list = [] # 构建一个容纳过滤掉停用词的冰冰弹幕数据文件
# 文本清洗
for seg in segs: # 循环遍历每一个分词文本
  # 如果该词不属于停用词表 并且非空 长度不为1
  if seg not in stopwords and seg != "" and len(seg) != 1:
    # 将该词语添加到mytext_list列表中
    mytext_list.append(seg.replace(" ", ""))
print(mytext_list) # 打印过滤后的冰冰弹幕数据

5、获取过滤停用词后的冰冰弹幕数据

cloud_text = ",".join(mytext_list) # 连接列表里面的词语
print(cloud_text)

到此这篇关于Python爬虫自动化爬取b站实时弹幕实例方法的文章就介绍到这了,更多相关Python爬虫如何实现自动化爬取b站实时弹幕内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Django发送邮件和itsdangerous模块的配合使用解析

    Django发送邮件和itsdangerous模块的配合使用解析

    这篇文章主要介绍了Django发送邮件和itsdangerous模块的配合使用解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-08-08
  • Python缓存利器之cachetools库使用详解

    Python缓存利器之cachetools库使用详解

    cachetools库为Python提供了强大而灵活的缓存解决方案,通过使用不同类型的缓存和缓存装饰器,我们可以轻松地在程序中实现高效的缓存机制,从而提升程序性能,本文将详细介绍cachetools库的基本概念和使用方法,感兴趣的朋友跟随小编一起看看吧
    2024-07-07
  • python实现凯撒密码、凯撒加解密算法

    python实现凯撒密码、凯撒加解密算法

    这篇文章主要介绍了python语言编程实现凯撒密码、凯撒加解密算法,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-06-06
  • Python实现自动识别数字验证码

    Python实现自动识别数字验证码

    这篇文章主要为大家详细介绍了如何使用Python来自动识别数字验证码,以便在需要时自动填写或验证验证码,有需要的小伙伴可以参考一下
    2024-04-04
  • Jupyter Notebook 如何修改字体和大小以及更改字体样式

    Jupyter Notebook 如何修改字体和大小以及更改字体样式

    这篇文章主要介绍了Jupyter Notebook 如何修改字体和大小以及更改字体样式的操作,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-06-06
  • python Django连接MySQL数据库做增删改查

    python Django连接MySQL数据库做增删改查

    本文写的是python Django连接MySQL数据库的步骤,提供增删改查的代码
    2013-11-11
  • 最新2019Pycharm安装教程 亲测

    最新2019Pycharm安装教程 亲测

    这篇文章主要介绍了最新2019Pycharm安装教程,这篇教程亲测试过,本文内容有点长,通过截图的形式给大家介绍的非常详细,需要的朋友可以参考下
    2020-02-02
  • Python基于execjs运行js过程解析

    Python基于execjs运行js过程解析

    这篇文章主要介绍了Python基于execjs运行js过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-11-11
  • Python中GIL全局解释锁的实现

    Python中GIL全局解释锁的实现

    本文主要介绍了Python中GIL全局解释锁的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-03-03
  • python Pillow图像处理方法汇总

    python Pillow图像处理方法汇总

    这篇文章主要介绍了python Pillow图像处理方法汇总,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-10-10

最新评论