python爬虫搭配起Bilibili唧唧的流程分析

更新时间：2020年12月01日 10:39:20 作者：Ericam_

这篇文章主要介绍了python爬虫搭配起Bilibili唧唧的流程分析,本文通过图文并茂的形式给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下

前言

最近需要大规模下载B站视频，同时要将下载好的视频用BV号进行重命名，最后上传至服务器。这个工作一开始我是完全手工完成的，通过游猴来下载，可是下载几十个视频还好，再多一点的话真是太烦了，而且生产力低下，因此诞生了编写脚本的想法。
一开始我需要在B站搜索关键词，然后不断点开视频后进行下载，同时在视频下载后还需要找到这个视频来修改BV号，效率实在太低，特别是当下载的视频多了，再返回来寻找它对应的BV号时也是个很繁琐的过程，因此决定进行编写python脚本。
本次的脚本可以大幅度提高工作效率，但是它并不是全自动完成任务的，毕竟我们用到了Bilibili唧唧。（唧唧真的很好用，其实也可以完全做成全自动，但我觉得没什么必要了，效率已经很高啦~）
大家如果还有什么更好的建议欢迎评论告诉我。
最后，给个赞吧，亲~

概述

简要介绍一下工作流程：
（1）通过爬虫爬取一堆视频BV号，存放于txt文件中，如下所示：

在这里插入图片描述

（2）不断复制BV号，唧唧便会自动进行下载视频

（3）通过脚本将下载好的视频一键化改名

在这里插入图片描述

正文

爬虫部分

1.依赖库

requestsl

xml

2.代码
相关讲解已在注释标注。

'''
author:Ericam
description: 用于爬取b站视频链接
'''
import requests
import re
from lxml import etree
import time

'''
该函数用于解析爬取的网页。
提取出网页里视频的url链接以及对应的视频名。
'''
def getHref(url,page):
 try:
 req = requests.get(url,timeout=5,headers=headers)
 html = req.text
 data = etree.HTML(html)
 '''
 page-1://*[@id="all-list"]/div[1]/div[2]/ul[@class="video-list"]/li
 other://*[@id="all-list"]/div[1]/ul[@class="video-list"]/li
 '''
 pattern = '//*[@id="all-list"]/div[1]/div[2]/ul[contains(@class,"video-list")]/li' if page == 1 else '//*[@id="all-list"]/div[1]/ul[contains(@class,"video-list")]/li'
 vurlList = data.xpath(pattern)
 for li in vurlList:
  vurl = li.xpath(".//a/attribute::href")[0]
  title = li.xpath(".//a/attribute::title")[0]
  yield vurl,title
 except:
 print('第%d页爬取失败' % page)
 print('Unfortunitely -- An Unknow Error Happened, Please wait 3 seconds')
 time.sleep(3)

'''
该函数用于正则提取，将url内的BV号提取出来
'''
def getBv(href):
 pattern = re.compile('(BV.*?)\?')
 data = re.search(pattern,href)
 if data == None:
 return ''
 return data.group(1)

if __name__ == "__main__":

 #头部伪装
 headers = {
 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE'
 }
 hrefList = []
 titleList = []
 #需要爬取多少页，自行进行修改，本代码测试1~2页
 for i in range(1,3): 
 url = "https://search.bilibili.com/all?keyword=歪嘴战神&page={0}".format(i) #修改keyword后的关键字即可
 l = getHref(url,i)
 for vurl,title in l:
  hrefList.append(vurl)
  titleList.append(title)
 print("第{0}页爬取结束".format(i))
 time.sleep(2)
 
 print("---------------------------开始截取BV号-----------------------------")
 for i in range(len(hrefList)):
 hrefList[i] = getBv(hrefList[i])
 with open("bv.txt",'w',encoding='utf-8') as f:
 for i in range(len(hrefList)): 
  f.write(hrefList[i]+"\t"+titleList[i]+"\n")
 print("爬取结束")

3.爬取结果

在这里插入图片描述

唧唧下载视频

给出唧唧的链接，唧唧，很好用的小工具。
我们只需要将刚才爬取好的链接放在一边，不断复制BV号，然后唧唧进行下载即可。

在这里插入图片描述

视频重命名

唧唧下载好的视频如下所示：

在这里插入图片描述

为什么需要将它们进行改名呢，因为如果当视频数量越来越多时，比如几千几万时，通过名字便会越来越难以管理，同时也难以进行去重，很大概率会不断下载重复的视频。
在B站，BV号便是每个视频的“身份证”（主键），因此用其进行视频命名可以方便日后管理，同时也方便进行去重。

代码

'''
author:Ericam
description: 用于将下载下来的b站视频重命名，命名格式为bv号
'''
import os
import difflib

if __name__ == '__main__':
 
 bvpath = os.path.join("D:/","Coding","python","Python爬虫")
 os.chdir(bvpath)
 d = {}
 '''
 bvdownload.txt里存放bv号与title名
 若之前爬虫爬取了几千个，而唧唧只下载了几百个，便可以将这些已下载的bv和title复制到
 bvdownload.txt中，将已下载的视频进行改名
 '''
 with open("bvdownload.txt",'r',encoding='utf-8')as f:
 lines = f.readlines()
 for val in lines:
  val = val.strip("\n")
  data = val.split("\t")
  bv = data[0]
  title = data[1]
  d[title] = bv
 
 #视频存放位置
 path = 'F:/bilibili视频/'
 os.chdir(path)
 videoList = os.listdir()
 
 #开始进行模糊匹配
 for key in d:
 video = difflib.get_close_matches(key,videoList,1, cutoff=0.3)
 if len(video) == 0:
  continue
 video = video[0]
 #检查视频是否已存在,若存在则删除视频
 if os.path.isfile(d[key]+".mp4") and os.path.isfile(video):
  os.remove(video)
 else:
  if os.path.isfile(video):
  os.rename(video,d[key]+".mp4")
 print("重命名完成！")

结果演示

重命名完成的视频列表如下：

在这里插入图片描述

到此这篇关于python爬虫搭配起Bilibili唧唧的流程分析的文章就介绍到这了,更多相关python爬虫Bilibili内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python 判断网络连通的实现方法
下面小编就为大家分享一篇python 判断网络连通的实现方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-04-04
Python调用ctypes使用C函数printf的方法
这篇文章主要介绍了Python调用ctypes使用C函数printf,需要的朋友可以参考下
2017-08-08
使用Python实现PDF页面设置操作
这篇文章主要为大家详细介绍了如何使用Python实现PDF页面设置操作,例如旋转页面和调整页面顺序,感兴趣的小伙伴可以跟随小编一起学习一下
2024-04-04
pycharm激活方法到2099年(激活流程)
这篇文章主要介绍了pycharm激活方法到2099年,文末给大家提到了idea和pycharm最新版激活方法，非常不错对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2020-09-09
Python调用edge-tts实现在线文字转语音效果
edge-tts是一个 Python 模块,允许通过Python代码或命令的方式使用 Microsoft Edge 的在线文本转语音服务,这篇文章主要介绍了Python调用edge-tts实现在线文字转语音效果,需要的朋友可以参考下
2024-03-03
python使用pika库调用rabbitmq交换机模式详解
这篇文章主要介绍了python使用pika库调用rabbitmq交换机模式详解，文章围绕主题展开详细的内容介绍，具有一定的参考价值，感兴趣的小伙伴可以参考一下
2022-08-08
解决ToPILImage时出现维度报错问题pic should be 2/3 d
这篇文章主要介绍了解决ToPILImage时出现维度报错问题pic should be 2/3 dimensional. Got 4 dimensions.具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2024-02-02
Python替换字符串replace()函数使用方法详解
Python中的replace()方法是把字符串中的old（旧字符串）替换成new（新字符串），如果指定第三个参数max，则替换次数不超过max次（将旧的字符串用心的字符串替换不超过max次，本文就给大家讲讲Python replace()函数的使用方法,需要的朋友可以参考下
2023-07-07
Python运维自动化psutil模块的监控和管理深入探究
这篇文章主要为大家介绍了Python运维自动化psutil模块的监控和管理深入探究,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
2024-01-01
Python恋爱小助手之必拿下
小编有个好兄弟最近在追妹子，跟妹子打得火热！就差临门一脚了，这一jio我帮忙补上去了！他问有没有什么酷炫的表白方式，想要一次成功，表白的方式有许多种今天小编来给大家带来两个不得不同意的表白代码
2021-10-10

python爬虫搭配起Bilibili唧唧的流程分析

目录

前言

概述

正文

唧唧下载视频

视频重命名

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具