Python爬虫爬取Bilibili弹幕过程解析

更新时间：2019年10月10日 10:25:16 作者：一个刚刚大四的弱渣

这篇文章主要介绍了Python爬虫爬取Bilibili弹幕过程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

先来思考一个问题，B站一个视频的弹幕最多会有多少？

比较多的会有2000条吧，这么多数据，B站肯定是不会直接把弹幕和这个视频绑在一起的。

也就是说，有一个视频地址为https://www.bilibili.com/video/av67946325，你如果直接去requests.get这个地址，里面是不会有弹幕的，回想第一篇说到的携程异步加载数据的方式，B站的弹幕也一定是先加载当前视频的界面，然后再异步填充弹幕的。

接下来我们就可以打开火狐浏览器(平常可以火狐谷歌控制台都使用，因为谷歌里面因为插件被拦截下来的包在火狐可以抓到，同理谷歌也是)的控制台来观察网络请求了。

经过仔细排查之后，我找到了一个请求xml的，它后面跟了一个oid，查看它的响应内容之后可以发现它就是弹幕文件。

它的响应时间98毫秒，远超其它几个响应，所以说如果把弹幕直接放在视频页面，用户体验一定会很差。

找到弹幕了，爬取它很容易，但是我们想要是爬取固定av号视频的弹幕，而不是说随意去找一个oid来爬取弹幕，这样我们都不知道爬下来的弹幕是哪个视频的。

接下来我们就可以复制oid的117784982值，去视频页面搜索看看了，通过视频来获得它的oid再来爬xml弹幕就很方便了。

这次用了谷歌浏览器，在里面通过搜索oid果然搜索到相关的数据了。

其中cid是弹幕对应的id，aid对应视频av号。

先把这个页面爬取下来。

# encoding: utf-8

import requests

headers = {
  'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
  'Accept': 'text/html',
  'Cookie': "_uuid=1DBA4F96-2E63-8488-DC25-B8623EFF40E773841infoc; buvid3=FE0D3174-E871-4A3E-877C-A4ED86E20523155831infoc; LIVE_BUVID=AUTO8515670521735348; sid=l765gx48; DedeUserID=33717177; DedeUserID__ckMd5=be4de02fd64f0e56; SESSDATA=cf65a5e0%2C1569644183%2Cc4de7381; bili_jct=1e8cdbb5755b4ecd0346761a121650f5; CURRENT_FNVAL=16; stardustvideo=1; rpdid=|(umY))|ukl~0J'ulY~uJm)kJ; UM_distinctid=16ce0e51cf0abc-02da63c2df0b4b-5373e62-1fa400-16ce0e51cf18d8; stardustpgcv=0606; im_notify_type_33717177=0; finger=b3372c5f; CURRENT_QUALITY=112; bp_t_offset_33717177=300203628285382610"

}
resp = requests.get('https://www.bilibili.com/video/av67946325',headers=headers)
print(resp.text)

拿到了内容我们就要从中解析弹幕id了，对于这种规则紊乱的网页，我们就不能用上一篇中Bs4解析了，而是使用正则表达式。

正则表达式最简单的使用方式其实就是直接match。

re.search(匹配规则,文本).group()

观察这里的内容，我们大致的匹配规则就有了。

cid={目标}&aid=av号

117784982就是我们的目标。

av_id = '67946325'
resp = requests.get('https://www.bilibili.com/video/av'+av_id,headers=headers)
match_rule = r'cid=(.*?)&aid'
oid = re.search(match_rule,resp.text).group().replace('cid=','').replace('&aid','')
print('oid='+oid)

先根据av号拿到视频页面，然后解析视频页面拿到oid，最后用oid去请求xml弹幕文件。

xml_url = 'https://api.bilibili.com/x/v1/dm/list.so?oid='+oid
resp = requests.get(xml_url,headers=headers)
print(resp)

这样我们就完成B站弹幕爬虫了。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Python中NumPy的矩阵与通用函数
这篇文章主要介绍了Python中NumPy的矩阵与通用函数,Numpy是python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵，比Python自身的嵌套列表结构要高效的多支持大量的维度数组与矩阵运算,需要的朋友可以参考下
2023-07-07
使用NumPy和pandas对CSV文件进行写操作的实例
今天小编就为大家分享一篇使用NumPy和pandas对CSV文件进行写操作的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-06-06
Python 50行爬虫抓取并处理图灵书目过程详解
这篇文章主要介绍了Python 50行爬虫抓取并处理图灵书目过程详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-09-09
python使用tkinter实现简单计算器
这篇文章主要为大家详细介绍了python使用tkinter实现简单计算器，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-01-01
Python gRPC流式通信协议详细讲解
这篇文章主要介绍了Python gRPC流式通信协议，最近几天在搞golang的grpc，跑通之后想用php作为客户端调用一下grpc服务，结果拉了，一个php的grpc服务安装，搞了好几天，总算搞定了
2022-11-11
Python使用Cv2模块识别验证码的操作方法
这篇文章主要介绍了Python使用Cv2模块识别验证码,使用Cv2模块、pytesseract模块进行操作，pytesseract模块将智能识别图片字体数字，用于打印出来，本文通过代码案例给大家详细讲解，需要的朋友可以参考下
2023-01-01
Python移位密码、仿射变换解密实例代码
凯撒密码（Caesar 密码）是最早的代换密码,也是古典对称密码体制的典型代表,已经初步体现出近代密码系统的雏形,这篇文章主要给大家介绍了关于Python移位密码、仿射变换解密的相关资料,需要的朋友可以参考下
2021-06-06
Python3.6实现带有简单界面的有道翻译小程序
本文通过实例代码给大家介绍了基于Python3.6实现带有简单界面的有道翻译小程序，非常不错，具有一定的参考借鉴价值，需要的朋友参考下吧
2019-04-04
关于使用OpenCsv导入大数据量报错的问题
这篇文章主要介绍了使用OpenCsv导入大数据量报错的问题 ,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-08-08
PyTorch中的train()、eval()和no_grad()的使用
本文主要介绍了PyTorch中的train()、eval()和no_grad()的使用，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-04-04