Python使用Whisper + Transformers自动生成中英文双语字幕的完整流程

 更新时间:2025年12月04日 09:47:25   作者:weixin_46244623  
本文将教你如何使用 OpenAI 的 Whisper 语音识别模型,结合 HuggingFace Transformers 翻译模型,实现从视频中提取音频、识别语音、生成中英双语字幕的完整流程,需要的朋友可以参考下

引言

本文将教你如何使用 OpenAI 的 Whisper 语音识别模型,结合 HuggingFace Transformers 翻译模型,实现从视频中提取音频、识别语音、生成中英双语字幕的完整流程。
支持自动语言检测、进度条显示、以及自动生成 .srt 字幕文件。

一、环境准备

在开始之前,请先安装所需依赖包:

pip install openai-whisper transformers pydub librosa tqdm torch ffmpeg-python modelscope

需要提前安装 FFmpeg(Windows 用户请到 ffmpeg.org 下载并配置环境变量)

二、项目功能概述

本项目实现的流程如下:

  1. 提取视频音频(使用 FFmpeg)
  2. 验证音频文件是否可用(使用 pydub
  3. 使用 Whisper 模型进行语音识别
  4. 自动检测音频语言
  5. 使用 Transformers 翻译模型进行中英文互译
  6. 生成双语字幕文件 .srt

三、国内下载模型方法

from modelscope import snapshot_download

# 下载模型到当前目录
model_dir = snapshot_download('Helsinki-NLP/opus-mt-en-zh', cache_dir='./')

print(f"✅ 模型已下载到当前目录: {model_dir}")

model_dir = snapshot_download('Helsinki-NLP/opus-mt-zh-en', cache_dir='./')

print(f"✅ 模型已下载到当前目录: {model_dir}")

四、完整代码(含中文注释)

import whisper
import warnings
from datetime import timedelta
from tqdm import tqdm
import librosa
import time
from transformers import pipeline
import torch
from pydub import AudioSegment
import os
import ffmpeg

# 忽略警告信息
warnings.filterwarnings("ignore", category=UserWarning)

# 输入视频路径(可修改)
input_video = r"./Gesture Drawing Practice _ 20 and 40 sec. poses.mp4"
# 输出音频路径
output_audio = "Gesture Drawing Practice _ 20 and 40 sec. poses.wav"

# =========================
# Step 1: 提取视频中的音频
# =========================
ffmpeg.input(input_video).output(output_audio, ac=1, ar=16000).run()

# =========================
# Step 2: 时间戳格式化函数
# =========================
def format_timestamp(seconds):
    """将秒数转换为 SRT 时间格式(HH:MM:SS,mmm)"""
    td = timedelta(seconds=seconds)
    hours, remainder = divmod(td.seconds, 3600)
    minutes, seconds = divmod(remainder, 60)
    milliseconds = int(td.microseconds / 1000)
    return f"{hours:02d}:{minutes:02d}:{seconds:02d},{milliseconds:03d}"

# =========================
# Step 3: 验证音频文件是否有效
# =========================
def validate_audio(audio_file):
    """检查音频文件是否有效,并返回其基本信息"""
    try:
        audio = AudioSegment.from_file(audio_file)
        duration = len(audio) / 1000.0  # 秒
        sample_rate = audio.frame_rate
        channels = audio.channels
        print(f"✅ 音频验证成功:时长={duration:.2f}s, 采样率={sample_rate}Hz, 声道={channels}")
        return True, duration
    except Exception as e:
        print(f"❌ 音频验证失败: {e}")
        return False, 0

# =========================
# Step 4: 初始化翻译模型
# =========================
print("🔤 正在加载翻译模型,请稍候...")
translator_en_to_zh = pipeline("translation", model="./Helsinki-NLP/opus-mt-en-zh")  # 英译中
translator_zh_to_en = pipeline("translation", model="./Helsinki-NLP/opus-mt-zh-en")  # 中译英
print("✅ 翻译模型加载完成。")

# =========================
# Step 5: 验证音频文件
# =========================
audio_file = output_audio
is_valid, duration = validate_audio(audio_file)
if not is_valid:
    raise ValueError(f"无效的音频文件: {audio_file}")

# 备用方案:使用 librosa 检查时长
try:
    duration = librosa.get_duration(path=audio_file)
except Exception as e:
    print(f"Librosa 检查失败: {e}")

# =========================
# Step 6: 初始化 Whisper 模型
# =========================
print("🎙️ 正在加载 Whisper 模型...")
try:
    model = whisper.load_model("base")  # 可选 tiny, base, small, medium, large
except Exception as e:
    print(f"加载模型失败: {e},回退到 'medium' 模型。")
    model = whisper.load_model("medium")

# 进度条初始化
progress_bar = tqdm(total=100, desc="语音识别中", unit="%")

# =========================
# Step 7: 执行语音识别(带进度)
# =========================
def transcribe_with_progress(model, audio_file, language=None):
    start_time = time.time()
    
    # 自动检测语言
    if language is None:
        try:
            audio = whisper.load_audio(audio_file)
            mel = whisper.log_mel_spectrogram(audio, n_mels=80).to(model.device)
            _, probs = model.detect_language(mel)
            detected_language = max(probs, key=probs.get)
            print(f"🌍 自动检测语言: {detected_language}")
        except Exception as e:
            print(f"语言检测失败: {e},默认使用英语(en)。")
            detected_language = "en"
    else:
        detected_language = language
        print(f"🌐 使用指定语言: {detected_language}")
    
    # 执行转录
    try:
        result = model.transcribe(audio_file, language=detected_language)
    except Exception as e:
        print(f"转录失败: {e}")
        raise
    
    # 更新进度条
    progress_bar.update(100 - progress_bar.n)
    progress_bar.close()
    
    elapsed_time = time.time() - start_time
    print(f"✅ 转录完成,用时 {elapsed_time:.2f} 秒。")
    
    return result, detected_language

# 执行转录(可指定语言)
result, detected_language = transcribe_with_progress(model, audio_file, language="en")

# =========================
# Step 8: 生成中英双语字幕文件
# =========================
srt_path = f"{output_audio}.srt"
with open(srt_path, "w", encoding="utf-8") as f:
    for i, segment in enumerate(result["segments"]):
        start_time = format_timestamp(segment["start"])
        end_time = format_timestamp(segment["end"])
        text = segment["text"].strip()
        
        # 判断语言并翻译
        if detected_language == "zh":
            # 中文音频:原文中文 + 翻译英文
            zh_text = text
            en_text = translator_zh_to_en(text)[0]["translation_text"]
        else:
            # 英语音频:原文英文 + 翻译中文
            zh_text = translator_en_to_zh(text)[0]["translation_text"]
            en_text = text
        
        # 写入 SRT 文件(中文在上,英文在下)
        f.write(f"{i+1}\n")
        f.write(f"{start_time} --> {end_time}\n")
        f.write(f"{zh_text}\n{en_text}\n\n")

print(f"🎬 字幕文件生成成功:{srt_path}")

执行效果后

srt文件

五、完成效果

以上就是Python使用Whisper + Transformers自动生成中英文双语字幕的完整流程的详细内容,更多关于Python Whisper中英文双语字幕的资料请关注脚本之家其它相关文章!

相关文章

  • Python3.9用pip安装wordcloud库失败的解决过程

    Python3.9用pip安装wordcloud库失败的解决过程

    一般在命令行输入pip install wordcloud 总会显示安装失败,所以下面这篇文章主要给大家介绍了关于Python3.9用pip安装wordcloud库失败的解决过程,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-06-06
  • Python一次性将指定版本所有包上传PyPI镜像解决方案

    Python一次性将指定版本所有包上传PyPI镜像解决方案

    本文主要介绍了一个安全、完整、可离线部署的解决方案,用于一次性准备指定Python版本的所有包,然后导出到内网环境,感兴趣的小伙伴可以跟随小编一起学习一下
    2025-09-09
  • python中的字典及嵌套遍历

    python中的字典及嵌套遍历

    这篇文章主要介绍了python中的字典及嵌套遍历,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-05-05
  • Python的高阶函数用法实例分析

    Python的高阶函数用法实例分析

    这篇文章主要介绍了Python的高阶函数用法,结合实例形式分析了Python针对字符串、列表转换、运算、过滤等操作函数相关使用技巧与注意事项,需要的朋友可以参考下
    2019-04-04
  • python绘图之坐标轴的超详细讲解

    python绘图之坐标轴的超详细讲解

    在使用matplotlib模块时画坐标图时,往往需要对坐标轴设置很多参数,这些参数包括横纵坐标轴范围、坐标轴刻度大小、坐标轴名称等,下面这篇文章主要给大家介绍了关于python绘图之坐标轴的相关资料,需要的朋友可以参考下
    2022-08-08
  • Python 反转输出正整数的操作

    Python 反转输出正整数的操作

    这篇文章主要介绍了Python 反转输出正整数的操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03
  • 使用Python时要注意的十大陷阱汇总

    使用Python时要注意的十大陷阱汇总

    Python虽然没有C/C++的指针和各种数据类型转换,但不代表它没有一片坦途,对于初学者,再感叹Python的简单和强大之时,可能一不小心就掉到陷阱中去了,所以本文给大家盘点了使用Python时要注意的十大陷阱,需要的朋友可以参考下
    2025-06-06
  • Mac PyCharm中的.gitignore 安装设置教程

    Mac PyCharm中的.gitignore 安装设置教程

    这篇文章主要介绍了Mac PyCharm中的.gitignore 安装设置教程,本文通过图文并茂的形式给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-04-04
  • Python中用pyinstaller打包时的图标问题及解决方法

    Python中用pyinstaller打包时的图标问题及解决方法

    这篇文章主要介绍了python中用pyinstaller打包时的图标问题及解决方法,本文从两方面给大家分析原因所在,通过截图实例代码给大家介绍的非常详细,需要的朋友可以参考下
    2020-02-02
  • 用Python自动清理系统垃圾的实现

    用Python自动清理系统垃圾的实现

    这篇文章主要介绍了用Python自动清理系统垃圾的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-01-01

最新评论