你会使用python爬虫抓取弹幕吗

更新时间：2022年02月08日 09:23:34 作者：璨星烁

这篇文章主要为大家详细介绍了python爬虫抓取弹幕的方法，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下

前言

时隔108天，何同学在B站发布了最新的视频，《【何同学】我用108天开了个灯…》。那么就让我们用爬虫，爬取视频的弹幕，看看小伙伴们是怎么评价的吧

一、爬虫是什么？

百度百科这样说：自动获取网页内容的程序。在我理解看来，爬虫就是~~“在网络上爬来爬去的…”住口！~~
那么接下来就让我们看看如何养搬运B站弹幕的“虫”吧

二、饲养步骤

1.请求弹幕

首先，得知道爬取的网站url是什么。对于B站弹幕而言，弹幕所在位置是有固定格式的：

http://comment.bilibili.com/+cid+.xml

ok,那么问题来了，cid是什么呢？不用管是什么，我告诉你怎么获取。

1.打开视频后点击F12,切换到“网络”，在筛选器处填入“cid”进行筛选。

在这里插入图片描述

2.点击筛选出的网络信息，在右端Payload处找到cid

在这里插入图片描述

3.到此，我们就知道了何同学视频弹幕的网络链接：

http://comment.bilibili.com/499893135.xml

4.接着就是发送网络请求，获取网络页面资源。Python有很多发送网络请求的库。比如：

urllib库
requests库

我们用reaquests库演示

发送请求的代码如下

（示例）：

#【何同学】我用108天开了个灯......视频的cid：499893135
#弹幕所在地
url = "http://comment.bilibili.com/499893135.xml"
#发送请求
req = requests.get(url = url)
#获取内容响应的内容
html_byte = req.content
#将byte转为str
html_str = str(html_byte,"utf-8")

还有个值得提一下的地方是，发送请求的请求头可以加上，伪装自己是浏览器访问。可以通过header参数，加上user-agent，获取方式如下：

在这里插入图片描述

那么，代码就是下面这样了：

#假装自己是浏览器
header ={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Safari/537.36 Edg/98.0.1108.43'
}
#【何同学】我用108天开了个灯......视频的cid：499893135
#弹幕所在地
url = "http://comment.bilibili.com/499893135.xml"
#发送请求
req = requests.get(url = url, headers=header)
#获取内容响应的内容
html_byte = req.content
#将byte转为str
html_str = str(html_byte,"utf-8")

2.解析弹幕

html_str是html文件的格式，我们需要对其进行处理，来获取我们想要的信息。这个时候，BeautifulSoup库就要闪亮登场了,我们用它来处理得到的html文件

代码如下（示例）：

#解析
    soup = BeautifulSoup(html,'html.parser')
    #找到html文件里的<d>标签
    results = soup.find_all('d')
    #把标签里的文本提取出来
    contents = [x.text for x in results]
    #存为字典
    dic ={"contents" : contents}

contents就是弹幕字符串列表了，存成字典是为了下一步…

3.存储弹幕

把弹幕信息存储成excel，也有好多库可以用。比如：

xlwt库
pandas库

我们就用pandas库把

代码如下（示例）：

把用第二步得到的字典创建dataFrame，然后用pandas库的一个API存下就行了

#用字典创建了一个电子表格
df = pd.DataFrame(dic)
df["contents"].to_excel('htx.xlsx')

4.总代码

import requests
from bs4 import BeautifulSoup
import pandas as pd
 def main():
    html = askUrl()
    dic =analyse(html)
    writeExcel(dic)
 def askUrl():
    #假装自己是浏览器
    header ={
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Safari/537.36 Edg/98.0.1108.43'
    }
    #【何同学】我用108天开了个灯......视频的cid：499893135
    #弹幕所在地
    url = "http://comment.bilibili.com/499893135.xml"
    req = requests.get(url = url, headers=header)
    html_byte = req.content#字节
    html_str = str(html_byte,"utf-8")
    return html_str
 def analyse(html):
    soup = BeautifulSoup(html,'html.parser')
    results = soup.find_all('d')
    #x.text表示要放到contents中的值
    contents = [x.text for x in results]
    #保存结果
    dic ={"contents" : contents}
    return dic
 def writeExcel(dic):
    #用字典创建了一个电子表格
    df = pd.DataFrame(dic)
    df["contents"].to_excel('htx.xlsx')
 if __name__ == '__main__':
    main()

三、总结

爬虫简单来说呢，就三步：

1.发送网络请求，获取资源

2.进行搜索等操作来获取有用信息

3.存储信息

本篇文章就到这里了，希望能够给你带来帮助，也希望您能够多多关注脚本之家的更多内容！

您可能感兴趣的文章:

Python文件夹与文件的相关操作(推荐)
下面小编就为大家带来一篇Python文件夹与文件的相关操作(推荐)。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2016-07-07
如何利用python读取micaps文件详解
这篇文章主要给大家介绍了关于如何利用python读取micaps文件的相关资料，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-10-10
Python使用requests模块爬取百度翻译
这篇文章主要介绍了Python使用requests模块爬取百度翻译,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-08-08
djano一对一、多对多、分页实例代码
在本篇文章里小编给大家整理的是关于djano一对一，多对多，分页实例代码以及相关知识点，需要的朋友们学习下。
2019-08-08
Python基于pycrypto实现的AES加密和解密算法示例
这篇文章主要介绍了Python基于pycrypto实现的AES加密和解密算法,结合实例形式分析了Python使用pycrypto模块进行AES加密与解密操作相关实现技巧,需要的朋友可以参考下
2018-04-04
Python plt.boxplot函数及其参数使用小结
plt.boxplot函数用于绘制箱线图,本文介绍了Python plt.boxplot函数及其参数使用小结,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧
2024-02-02
Python实战之设计一个多功能办公小工具
这篇文章主要介绍了通过Python制作一个多功能的办公小工具，可以实现应用、网页直达以及天气查询，代码具有一定学习价值，需要的小伙伴可以了解一下
2021-12-12
Python pymysql向SQL语句中传参的多种方法
这篇文章主要介绍了Python-pymysql如何向SQL语句中传参，本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
2023-05-05
Python随机数种子(random seed)的使用
在科学技术和机器学习等其他算法相关任务中，我们经常需要用到随机数，本文就详细的介绍一下Python随机数种子，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2021-07-07
Django ORM 事务和查询优化的操作方法
这篇文章主要介绍了Django ORM 事务和查询优化,包括事务操作、ORM 惰性查询及only与defer相关知识，本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2022-09-09