Python爬虫小练习之爬取并分析腾讯视频m3u8格式

 更新时间:2021年10月14日 11:56:15   作者:松鼠爱吃饼干  
读万卷书不如行万里路,学的扎不扎实要通过实战才能看出来,本篇文章手把手带你爬下腾讯视频的m3u8格式来分析,大家可以在过程中查缺补漏,看看自己掌握程度怎么样

普通爬虫正常流程:

  • 数据来源分析
  • 发送请求
  • 获取数据
  • 解析数据
  • 保存数据

环境介绍

  • python 3.8
  • pycharm 2021专业版

【付费VIP完整版】只要看了就能学会的教程,80集Python基础入门视频教学

点这里即可免费在线观看

分析网站

先打开开发者工具,然后搜索m3u8,会返回给你很多的ts的文件,像这种ts文件,就是视频的片段

我们可以复制url地址,在新的浏览页打开

然后会给我们下载ts的文件,打开文件,就会发现是十多秒的视频片段

所以说这些数据的数据还是比较好找的,只要我们找到地址是从哪里来的

找到url地址,因为是post请求,所以需要下面的表达参数

开始代码

导入模块

import requests
import re
from tqdm import tqdm # 进度条展示

数据请求

url = 'https://vd.l.qq.com/proxyhttp'
data = {"buid":"vinfoad","adparam":"pf=in&ad_type=LD%7CKB%7CPVL&pf_ex=pc&url=https%3A%2F%2Fv.qq.com%2Fx%2Fcover%2Fj3czmhisqin799r.html&refer=https%3A%2F%2Fv.qq.com%2Fx%2Fsearch%2F&ty=web&plugin=1.0.0&v=3.5.57&coverid=j3czmhisqin799r&vid=z002615k57t&pt=&flowid=e9b3e49b2593efd194cbcd24030ed803_10201&vptag=www_baidu_com%7Cvideo%3Aposter_tle&pu=-1&chid=0&adaptor=2&dtype=1&live=0&resp_type=json&guid=4b4e192e83f4abaf8b68df3e4f5be769&req_type=1&from=0&appversion=1.0.166&uid=522810848&tkn=fbYfeWDCLKtAaOd_OGvCNg..&lt=qq&platform=10201&opid=5FE180427A4C883F69CADDED665CE99B&atkn=49C1A486316C8D269AC65AAC080CFB29&appid=101483052&tpid=1&rfid=86c3f668da63d8bc7aab3fbc1eb7378a_1633763084","vinfoparam":"spsrt=1&charge=0&defaultfmt=auto&otype=ojson&guid=4b4e192e83f4abaf8b68df3e4f5be769&flowid=e9b3e49b2593efd194cbcd24030ed803_10201&platform=10201&sdtfrom=v1010&defnpayver=1&appVer=3.5.57&host=v.qq.com&ehost=https%3A%2F%2Fv.qq.com%2Fx%2Fcover%2Fj3czmhisqin799r.html&refer=v.qq.com&sphttps=1&tm=1633767536&spwm=4&logintoken=%7B%22main_login%22%3A%22qq%22%2C%22openid%22%3A%225FE180427A4C883F69CADDED665CE99B%22%2C%22appid%22%3A%22101483052%22%2C%22access_token%22%3A%2249C1A486316C8D269AC65AAC080CFB29%22%2C%22vuserid%22%3A%22522810848%22%2C%22vusession%22%3A%22fbYfeWDCLKtAaOd_OGvCNg..%22%7D&vid=z002615k57t&defn=fhd&fhdswitch=0&show1080p=1&isHLS=1&dtype=3&sphls=2&spgzip=1&dlver=2&drm=32&hdcp=0&spau=1&spaudio=15&defsrc=2&encryptVer=9.1&cKey=W5agxKnJ7N56KJEItZs_lpJX5WB4a2CdS8kEIo8rVaqtHEZQ1c_W6myJ8hQXnmDDG8ErEJDMLjvm2vPBr-xE-uhvZyEMY131vUh1H4pgCXe2OphM_H32Jqtu2hFoqfA-un0sVBkIXYfWkOdABnbLUo4RgzSXkBHF3N3K7dNKPg_56X9JO3gwBMyBeAex05x8SbbQKY5AXaDVSM7hsBQ8XEeHzIEGJzlCt94ONgPYVSRkZqo51NVr_Bs8h4-UNLT0jG-obbyNs2IJhrZ4JUBeuGEk8zAOhE9HTZPNDViLRIyt2mNDud09qSLLKl4XAj3CE6i26P6BRyAy1_qatijXkm9J1hs3ZYC7dgYmAZD6BE9UGX4hkziTy-Y8cCBppeEBGSaj9w&fp2p=1&spadseg=3"}

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'
}
response = requests.post(url=url, json=data, headers=headers)

提取数据

html_data = response.json()['vinfo']
# 正则表达式
m3u8_url = re.findall("url(.*?),", html_data)[3].split('"')[2]
m3u8_data = requests.get(url=m3u8_url).text
m3u8_data = re.sub('#EXTM3U', '', m3u8_data)
m3u8_data = re.sub('#EXT-X-VERSION:\d', '', m3u8_data)
m3u8_data = re.sub('#EXT-X-MEDIA-SEQUENCE:\d', '', m3u8_data)
m3u8_data = re.sub('#EXT-X-TARGETDURATION:\d+', '', m3u8_data)
m3u8_data = re.sub('#EXT-X-PLAYLIST-TYPE:VOD', '', m3u8_data)
m3u8_data = re.sub('#EXTINF:\d+\.\d+,', '', m3u8_data)
m3u8_data = re.sub('#EXT-X-ENDLIST', '', m3u8_data).split()

遍历

for ts in tqdm(m3u8_data):
    ts_url = 'https://apd-57c5d150c8b9788baf40ea4f65feddf8.v.smtcdns.com/moviets.tc.qq.com/A2k4JuW9ATia8thdFQ6y5HWRUGLqAr4L5fk9KFbAUEI8/uwMROfz2r5xgoaQXGdGnC2df64gVTKzl5C_X6A3JOVT0QIb-/doVi4hWq0sqexPo_ylKYxVIJdr9zz2VweWbcY7x70kRnbVNPvBaoTsjwfOq1uojOtsRKJ8r3372HRaTOVg4VyKOFFvzjq2EeMdpleIIyTv0tb-C3CzXmkZz-34hK4Fc-r4mZK55L9W1RqJMpsvrORZr_sqpqvGZrrRq830get0NLJGkeAQ9SBg/' + ts
    ts_content = requests.get(url=ts_url).content

保存数据

with open('霸王别姬.mp4', mode='ab') as f:
    f.write(ts_content)
print('下载完成')

运行代码

到此这篇关于Python爬虫小练习之爬取并分析腾讯视频m3u8格式的文章就介绍到这了,更多相关Python爬取腾讯视频内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python 的 with 语句详解

    Python 的 with 语句详解

    这篇文章主要介绍了Python 的 with 语句,本文详细讲解了with语句、with语句的历史、with语句的使用例子等,需要的朋友可以参考下
    2014-06-06
  • PyTorch搭建ANN实现时间序列风速预测

    PyTorch搭建ANN实现时间序列风速预测

    这篇文章主要为大家介绍了PyTorch搭建ANN实现时间序列风速预测,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-05-05
  • Python实现的简单文件传输服务器和客户端

    Python实现的简单文件传输服务器和客户端

    这篇文章主要介绍了Python实现的简单文件传输服务器和客户端,本文直接给出Server和Client端的实现代码,需要的朋友可以参考下
    2015-04-04
  • Python函数参数类型*、**的区别

    Python函数参数类型*、**的区别

    这篇文章主要介绍了Python函数参数类型*、**的区别,本文用实例讲解它们的区别,并讲解了闭包的相关知识,需要的朋友可以参考下
    2015-04-04
  • Python实现求最大公约数及判断素数的方法

    Python实现求最大公约数及判断素数的方法

    这篇文章主要介绍了Python实现求最大公约数及判断素数的方法,涉及Python算数运算的相关技巧,需要的朋友可以参考下
    2015-05-05
  • Pandas中的常用数据类型详解

    Pandas中的常用数据类型详解

    文章总结:介绍了pandas库中常用的四种数据结构:Series、DatetimeIndex、DataFrame和Panel,详细解释了Series和DatetimeIndex的基本组成和常用操作,并提供了生成时间序列对象的函数date_range()及其参数说明
    2025-01-01
  • 详解python如何调用C/C++底层库与互相传值

    详解python如何调用C/C++底层库与互相传值

    Python作为一门脚本解释语言,本身又很好的结合C++,所以使用Python开发,在性能要求的地方调用C/C++底层库,这简直是神器。本文详细介绍了Python调用C/C++底层库,互相传值问题,下面一起来看看。
    2016-08-08
  • 基于Python实现新年倒计时

    基于Python实现新年倒计时

    眼看马上春节就要来临了,所以满怀期待的写了一个Python新年倒计时的小工具!文中的示例代码简洁易懂,感兴趣的小伙伴可以跟随小编一起学习一下
    2023-01-01
  • Python tkinter模块中类继承的三种方式分析

    Python tkinter模块中类继承的三种方式分析

    这篇文章主要介绍了Python tkinter模块中类继承的三种方式,结合实例形式分析了三种继承方式的实现方法与相关注意事项,需要的朋友可以参考下
    2017-08-08
  • Python文件操作之二进制文件详解

    Python文件操作之二进制文件详解

    下面小编就为大家带来一篇使用Python文件操作之二进制文件。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2021-09-09

最新评论