你会使用python爬虫抓取弹幕吗

 更新时间:2022年02月08日 09:23:34   作者:璨星烁  
这篇文章主要为大家详细介绍了python爬虫抓取弹幕的方法,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

前言

时隔108天,何同学在B站发布了最新的视频,《【何同学】我用108天开了个灯…》。那么就让我们用爬虫,爬取视频的弹幕,看看小伙伴们是怎么评价的吧

一、爬虫是什么?

百度百科这样说:自动获取网页内容的程序。在我理解看来,爬虫就是~~“在网络上爬来爬去的…”住口!~~
那么接下来就让我们看看如何养搬运B站弹幕的“虫”吧

二、饲养步骤

1.请求弹幕

首先,得知道爬取的网站url是什么。对于B站弹幕而言,弹幕所在位置是有固定格式的:

http://comment.bilibili.com/+cid+.xml

ok,那么问题来了,cid是什么呢?不用管是什么,我告诉你怎么获取。

1.打开视频后点击F12,切换到“网络”,在筛选器处填入“cid”进行筛选。

在这里插入图片描述

2.点击筛选出的网络信息,在右端Payload处找到cid

在这里插入图片描述

3.到此,我们就知道了何同学视频弹幕的网络链接:

http://comment.bilibili.com/499893135.xml

4.接着就是发送网络请求,获取网络页面资源。Python有很多发送网络请求的库。比如:

  • urllib库
  • requests库

我们用reaquests库演示

发送请求的代码如下

(示例):

#【何同学】我用108天开了个灯......视频的cid:499893135
#弹幕所在地
url = "http://comment.bilibili.com/499893135.xml"
#发送请求
req = requests.get(url = url)
#获取内容响应的内容
html_byte = req.content
#将byte转为str
html_str = str(html_byte,"utf-8")

还有个值得提一下的地方是,发送请求的请求头可以加上,伪装自己是浏览器访问。可以通过header参数,加上user-agent,获取方式如下:

在这里插入图片描述

那么,代码就是下面这样了:

#假装自己是浏览器
header ={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Safari/537.36 Edg/98.0.1108.43'
}
#【何同学】我用108天开了个灯......视频的cid:499893135
#弹幕所在地
url = "http://comment.bilibili.com/499893135.xml"
#发送请求
req = requests.get(url = url, headers=header)
#获取内容响应的内容
html_byte = req.content
#将byte转为str
html_str = str(html_byte,"utf-8")

2.解析弹幕

html_str是html文件的格式,我们需要对其进行处理,来获取我们想要的信息。这个时候,BeautifulSoup库就要闪亮登场了,我们用它来处理得到的html文件

代码如下(示例):

#解析
    soup = BeautifulSoup(html,'html.parser')
    #找到html文件里的<d>标签
    results = soup.find_all('d')
    #把标签里的文本提取出来
    contents = [x.text for x in results]
    #存为字典
    dic ={"contents" : contents}

contents就是弹幕字符串列表了,存成字典是为了下一步…

3.存储弹幕

把弹幕信息存储成excel,也有好多库可以用。比如:

  • xlwt库
  • pandas库

我们就用pandas库把

代码如下(示例):

把用第二步得到的字典创建dataFrame,然后用pandas库的一个API存下就行了

#用字典创建了一个电子表格
df = pd.DataFrame(dic)
df["contents"].to_excel('htx.xlsx')

4.总代码

import requests
from bs4 import BeautifulSoup
import pandas as pd
 def main():
    html = askUrl()
    dic =analyse(html)
    writeExcel(dic)
 def askUrl():
    #假装自己是浏览器
    header ={
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Safari/537.36 Edg/98.0.1108.43'
    }
    #【何同学】我用108天开了个灯......视频的cid:499893135
    #弹幕所在地
    url = "http://comment.bilibili.com/499893135.xml"
    req = requests.get(url = url, headers=header)
    html_byte = req.content#字节
    html_str = str(html_byte,"utf-8")
    return html_str
 def analyse(html):
    soup = BeautifulSoup(html,'html.parser')
    results = soup.find_all('d')
    #x.text表示要放到contents中的值
    contents = [x.text for x in results]
    #保存结果
    dic ={"contents" : contents}
    return dic
 def writeExcel(dic):
    #用字典创建了一个电子表格
    df = pd.DataFrame(dic)
    df["contents"].to_excel('htx.xlsx')
 if __name__ == '__main__':
    main()
 

三、总结

爬虫简单来说呢,就三步:

1.发送网络请求,获取资源

2.进行搜索等操作来获取有用信息

3.存储信息

本篇文章就到这里了,希望能够给你带来帮助,也希望您能够多多关注脚本之家的更多内容!

相关文章

  • Python如何从列表中删除相邻和不相邻的相同元素

    Python如何从列表中删除相邻和不相邻的相同元素

    这篇文章主要介绍了Python如何从列表中删除相邻和不相邻的相同元素问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-08-08
  • Python测试框架pytest介绍

    Python测试框架pytest介绍

    这篇文章主要介绍了Python测试框架pytest介绍,Pytest是一个非常成熟的全功能的python测试框架,有简单灵活易上手、支持参数化等优点,下面其相关内容需要的小伙伴可以参考一下
    2022-03-03
  • Numpy中的repeat函数使用

    Numpy中的repeat函数使用

    Numpy是Python强大的数学计算库,和Scipy一起构建起Python科学计算生态,在本节下面我们重点介绍下repeat函数的用法,需要的朋友可以参考下
    2022-11-11
  • 在python的类中动态添加属性与生成对象

    在python的类中动态添加属性与生成对象

    这篇文章给大家介绍了如何在python的类中动态添加属性和生成对象,文中通过几个方面来进行介绍,对这感兴趣的朋友们可以学习学习。
    2016-09-09
  • python实现异步回调机制代码分享

    python实现异步回调机制代码分享

    本文介绍了python实现异步回调机制的功能,大家参考使用吧
    2014-01-01
  • 关于python中导入文件到list的问题

    关于python中导入文件到list的问题

    这篇文章主要介绍了关于python中导入文件到list的问题,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-10-10
  • 云原生Docker部署Django和mysql项目全过程

    云原生Docker部署Django和mysql项目全过程

    最近在学习用docker部署Django项目,经过百折不挠的鼓捣,终于将项目部署成功,下面这篇文章主要给大家介绍了关于云原生Docker部署Django和mysql项目的相关资料,文中通过图文介绍的非常详细,需要的朋友可以参考下
    2022-12-12
  • Python实现提前查询考研成绩功能

    Python实现提前查询考研成绩功能

    这篇文章主要介绍了Python实现提前查询考研成绩,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-04-04
  • Python无参装饰器的实现方案及优化

    Python无参装饰器的实现方案及优化

    装饰器(Decorators)是 Python 的一个重要部分,所谓装饰器就是闭包函数的一种应用场景,这篇文章主要给大家介绍了关于Python无参装饰器的相关资料,需要的朋友可以参考下
    2021-08-08
  • 对python字典过滤条件的实例详解

    对python字典过滤条件的实例详解

    今天小编就为大家分享一篇对python字典过滤条件的实例详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01

最新评论