Python脚本如何在bilibili中查找弹幕发送者

 更新时间:2020年06月04日 14:06:25   作者:dlpu_fan  
这篇文章主要介绍了如何在bilibili中查找弹幕发送者,本文给大家分享小编写的一个python脚本来实现bilibili弹幕发送者,需要的朋友可以参考下

       总所周知bilibili是没有办法直接查看弹幕的发送者的,这使得当我们看到一些nt弹幕的时候虽然生气,却无可奈何,但是B站是可以屏蔽某个用户发送的弹幕的,这说明数据接口里肯定有用户信息,由于最近在学爬虫,所以我想先找找弹幕接口,分析下里面的数据。

找接口

       找接口当然是随便打开一个视频然后F12啦,可是当我找了两圈后我傻眼了,没找到啊。。得,不能把时间浪费在这种事情上,果断打开百度,不出所料,找到了如下的两个接口,都是XML格式网页

https://comment.bilibili.com/+cid
https://api.bilibili.com/x/v1/dm/list.so?oid=+cid

       这里面的cid是一种每个视频独有的数字,也就是每一P都有一个cid,查找cid可以打开网页然后F12,再ctrl+f搜索cid,一般八九位数的就是cid了。

       这里我找到了一个接口,可以通过aid找到cid

https://www.bilibili.com/widget/getPageList?aid=+aid

分析数据

       弹幕数据是获取到了,那么我们就要从这一堆数据中分析他们的用途了

在这里插入图片描述

       这里大概能得到两个信息,其中第6个数据为时间戳第8个数据为用户uid的某种加密方式。经查询得到这是用户uid经过crc32校验得到的结果转为16进制数,所以只能通过uid得到对于的校验码,无法反推。。似乎只能通过彩虹表的方式查找数据了?那么这串8位16进制的数字在数据库中要用什么方式保存呢?
       选择似乎有varchar和bigint,由于B站有差不多6亿个用户,在6亿个数据中查找想要的字符串那速度必然很慢(但有人经测试得到varchar型数据和bigint型数据查找速度其实差的不多?)
       就在我决定用bigint储存数据时,我突然想到,8位16进制那就是2的32次方,int型的储存上限时2的31次方,如果用无符号的方式保存正好是2的32次方,也就是能储存到0xffffffff这么大的数据,正好满足要求。于是果断换成无符号int,与之对应的id也为无符号int,并将crc32b编码过后的数据作为主键,制成彩虹表存入我的服务器内。
       (粗略的算了一下,6亿数据就是需要27G左右的空间…而我的服务器一共才40G的大小…)

做成网页供大家使用

       接下来的操作似乎就水到渠成了,写了个python脚本,该python脚本接受2个参数,视频cid和想要搜索的弹幕关键字,返回用户发送的弹幕,用户的crc32b编码,时间戳。然后用php的exec函数执行python代码,并通过搜索数据库找出用户的uid,通过php返回json格式数据给前端。

python代码(写的很烂)

import requests
from bs4 import BeautifulSoup
import re
import io

import sys

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')
req = requests.get('https://comment.bilibili.com/'+sys.argv[1]+'.xml')
req.encoding = req.apparent_encoding
soup = BeautifulSoup(req.text, 'html.parser').find_all(name='d')
result = ""
for i in soup:
 s = re.sub('<(.*?)>', '', str(i))
 index = 0
 if(len(sys.argv[2])>0):
  index = s.find(str(sys.argv[2]))
 if(index!=-1):
  result+=str(i).split(",")[6]+","+s+","+str(i).split(",")[4]+","
print(result)

效果展示

       前端代码就是随便写的~至少功能实现了嘛

在这里插入图片描述在这里插入图片描述

       这里说一下为什么是NULL,因为我的服务器还在可怜巴巴的往数据库内写入彩虹表数据。。预计需要4天~
       今天加了个暴力破解的功能,避免了查询结果为NULL,但是相对的查询速度会非常慢。

       最后!附上该工具的链接:点我

总结

到此这篇关于Python脚本如何在bilibili中查找弹幕发送者的文章就介绍到这了,更多相关bilibili弹幕发送者内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python八大常见排序算法定义、实现及时间消耗效率分析

    Python八大常见排序算法定义、实现及时间消耗效率分析

    这篇文章主要介绍了Python八大常见排序算法定义、实现及时间消耗效率分析,结合具体实例形式对比分析了冒泡排序、直接插入排序、选择排序、归并排序、希尔排序、桶排序、堆排序等排序算法的使用与执行效率,需要的朋友可以参考下
    2018-04-04
  • 简单介绍利用TK在Python下进行GUI编程的教程

    简单介绍利用TK在Python下进行GUI编程的教程

    这篇文章主要介绍了简单介绍利用TK在Python下进行GUI编程的教程,本文来自于IBM官方开发者技术文档,需要的朋友可以参考下
    2015-04-04
  • python编程使用selenium模拟登陆淘宝实例代码

    python编程使用selenium模拟登陆淘宝实例代码

    这篇文章主要介绍了python编程使用selenium模拟登陆淘宝实例代码,涉及selenium的简介及Windows下的安装,分享了相关代码示例,小编觉得还是挺不错的,具有一定借鉴价值,需要的朋友可以参考下
    2018-01-01
  • Python 中将值附加到集合的操作方法

    Python 中将值附加到集合的操作方法

    这篇文章主要介绍了Python 中将值附加到集合的操作方法,通过使用 add() 方法或 update() 方法,你可以向 Python 中的集合中添加元素,在添加元素时,需要注意不允许重复元素和集合是无序的,本文通过示例代码给大家介绍的非常详细,需要的朋友可以参考下
    2023-05-05
  • 基于python3 的百度图片下载器的实现代码

    基于python3 的百度图片下载器的实现代码

    这篇文章主要介绍了基于python3 的百度图片下载器的实现代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-11-11
  • Python字符串对齐和判断方法汇总

    Python字符串对齐和判断方法汇总

    本教程将详细介绍Python中的字符串对齐方法以及字符串判断方法,这些方法在文本处理、格式化输出和字符串匹配中非常实用,无论你是Python初学者还是想要巩固基础知识的程序员,这篇教程都能帮助你全面理解这些操作,需要的朋友可以参考下
    2025-04-04
  • Python使用sqlite3第三方库读写SQLite数据库的方法步骤

    Python使用sqlite3第三方库读写SQLite数据库的方法步骤

    数据库非常重要,程序的数据增删改查需要数据库支持,python处理数据库非常简单,而且不同类型的数据库处理逻辑方式大同小异,下面这篇文章主要给大家介绍了关于Python使用sqlite3第三方库读写SQLite数据库的方法步骤,需要的朋友可以参考下
    2022-07-07
  • Python新手们容易犯的几个错误总结

    Python新手们容易犯的几个错误总结

    python语言里面有一些小的坑,特别容易弄混弄错,初学者若不注意的话,很容易坑进去,下面我给大家深入解析一些这几个坑,希望对初学者有所帮助,需要的朋友可以参考学习,下面来一起看看吧。
    2017-04-04
  • 基于Python搭建人脸识别考勤系统

    基于Python搭建人脸识别考勤系统

    人脸识别目前正被用于让世界更安全、更智能、更方便。在本文中,你将学习如何使用 Python 构建人脸识别系统。人脸识别比人脸检测更进一步。感兴趣的可以学习一下
    2021-12-12
  • 零基础写python爬虫之使用Scrapy框架编写爬虫

    零基础写python爬虫之使用Scrapy框架编写爬虫

    前面的文章我们介绍了Python爬虫框架Scrapy的安装与配置等基本资料,本文我们就来看看如何使用Scrapy框架方便快捷的抓取一个网站的内容,随便选个小站(dmoz.org)来示例吧
    2014-11-11

最新评论