FasterWhisperGUI(音频处理工具) v0.8.0 安装免费版

FasterWhisperGUI下载

  • 软件大小:1.7GB
  • 软件语言:简体中文
  • 软件类型:国产软件
  • 软件授权:免费软件
  • 软件类别:音频处理
  • 应用平台:Windows平台
  • 更新时间:2024-07-03
  • 网友评分:
360通过 腾讯通过 金山通过

情介绍

FasterWhisperGUI是一款带有 PySide6 的 fast_whisper 的 GUI 软件,你可以将音频或视频文件转录为srt/txt/smi/vtt/lrc文件,将在线OpenAI-whisper模型转换为ct2格式,并且提供VAD模型和whisper模型的所有参数,目前支持whisperX,Democs 模型,whisper large-v3模型。

听到Whisper,这个大家可能有点熟悉,这是OpenAI做的一个神经网络模型,可以在本地实时语音转文字,用来翻译和做字幕等,之前给大家介绍过一款叫做Constme-Whisper的软件,可以快速进行离线语音文字识别,还有GPU加速等等。

而faster-whisper-GUI增添了更多的特性,可以快速把音视频文件转成srt/txt/smi/vtt/lrc,支持Demucs、FastWhiper和whisperX、VAD-model这些技术,简单来说,支持的可调整的选项要比之前推荐的工具更多一点。 

由于这类工具离线处理的特点,所以体积都比较大,faster-whisper-GUI的本体有1.6个G,安装完之后的占用又是6个多G,而且还不包括后续添加模型的大小,建议大家体验的时候,装在空间富裕的盘里。 

如果是分离音频和背景音乐的话,直接把文件丢进来就行,试了一下效果还不错,也可以单独设置输出的内容。 

其他的就需要加载一下额外模型了,把模型加载的时候需要注意,有个处理设备的选项,CPU还是CUDA,如果你用的不是英伟达的显卡,选择自动就好了,不然会提示加载失败。

模型也有多重选择,如果上面带有V3标志,记得把这个开关打开。

模型也有多重选择,如果上面带有V3标志,记得把这个开关打开。

来试试语音转文字,如果你觉得自己的设备处理等待时间有点长,在软件执行的时候可以挂在后台和切换到其他界面,在它的详情页面能看到输出的具体信息,它的正确率还是比较高的,中英文混合与首字母大小写这些细节都有。

这类机器识别和人一样,识别率还不能做到100%正确,识别完之后,会有一些错误需要手动调整,在faster-whisper-GUI里,它会自己跳转到字幕制作的界面,可以快速浏览调整,在这里分割不同说话人的文本等等 

在设置里面,还有许多细节可以调整,调整音频的默认语言和翻译,以及各种防止幻听的参数。 

这个功能在一些视频编辑软件还是需要收费的,或者需要云端处理,识别的准确率也就那样。

更新日志

0.8.0 改动

修复没有赞助渠道的 bug #126

升级 faster-whisper 到 1.02 版本

添加 distil-large-v3 模型在线模式支持 #130

最新的 Distil-Whisper 模型 distil-large-v3 本质上是为与 OpenAI 顺序算法配合使用而设计的。

支持初始化更多 whisper 模型参数

音频分段设置

max_new_tokens: 每个区块生成的新令牌的最大数量。如果未设置,最大值将通过默认的 max_size 设置。

chunk_length: 音频段的长度。如果不是 None,它将覆盖 FeatureExtractor 的默认chunk_size。

clip_timestamps: 逗号分隔的要处理的剪辑的时间戳列表(以秒为单位)开始,结束,开始,结束......。最后一个结束时间戳默认为文件的结束。如果使用 clip_timestamps,将忽略 VAD 设置。

幻听参数

hallucination_silence_threshold: 当 word_timestamps 为 True 时,当检测到可能的幻觉时,跳过长于此阈值(以秒为单位)的静默期。

其他设置

hotwords: 为模型提供的热词/提示短语。如果 prefix 不是 None,则无效。 你可以输入提示词,类似于:“the video is about comfyUI”。

常规

language_detection_threshold: 如果语言标记的最大概率高于此值,则会检测为该语言。

language_detection_segments: 语言检测需要考虑的分段数量。

其他新特性:https://github.com/SYSTRAN/faster-whisper/releases/tag/v1.0.2

修复 复制字幕 功能的 bug

更新一些 UI 文字

停用 转写参数 页面的 保存参数、读取参数 功能

起止时间、说话人 列居中显示

升级 pytorch 到 2.3.0 , CUDA12

提示

软件需要完全卸载旧版之后安装新版(cache文件夹可不做清理)

需要安装 ffmpeg

使用 V3 模型时,如果频繁出现显存溢出,请尝试更新显卡驱动程序到最新或者回退到上一个稳定版本,当前版本(2024.5.29)测试结果稳定。

  • FasterWhisperGUI(音频处理工具) v0.8.0 安装免费版

载地址

下载错误?【投诉报错】

FasterWhisperGUI(音频处理工具) v0.8.0 安装免费版

      气软件

      关文章

      载声明

      ☉ 解压密码:www.jb51.net 就是本站主域名,希望大家看清楚,[ 分享码的获取方法 ]可以参考这篇文章
      ☉ 推荐使用 [ 迅雷 ] 下载,使用 [ WinRAR v5 ] 以上版本解压本站软件。
      ☉ 如果这个软件总是不能下载的请在评论中留言,我们会尽快修复,谢谢!
      ☉ 下载本站资源,如果服务器暂不能下载请过一段时间重试!或者多试试几个下载地址
      ☉ 如果遇到什么问题,请评论留言,我们定会解决问题,谢谢大家支持!
      ☉ 本站提供的一些商业软件是供学习研究之用,如用于商业用途,请购买正版。
      ☉ 本站提供的FasterWhisperGUI(音频处理工具) v0.8.0 安装免费版资源来源互联网,版权归该下载资源的合法拥有者所有。