详情介绍
FasterWhisperGUI是一款带有 PySide6 的 fast_whisper 的 GUI 软件,你可以将音频或视频文件转录为srt/txt/smi/vtt/lrc文件,将在线OpenAI-whisper模型转换为ct2格式,并且提供VAD模型和whisper模型的所有参数,目前支持whisperX,Democs 模型,whisper large-v3模型。
听到Whisper,这个大家可能有点熟悉,这是OpenAI做的一个神经网络模型,可以在本地实时语音转文字,用来翻译和做字幕等,之前给大家介绍过一款叫做Constme-Whisper的软件,可以快速进行离线语音文字识别,还有GPU加速等等。
而faster-whisper-GUI增添了更多的特性,可以快速把音视频文件转成srt/txt/smi/vtt/lrc,支持Demucs、FastWhiper和whisperX、VAD-model这些技术,简单来说,支持的可调整的选项要比之前推荐的工具更多一点。
由于这类工具离线处理的特点,所以体积都比较大,faster-whisper-GUI的本体有1.6个G,安装完之后的占用又是6个多G,而且还不包括后续添加模型的大小,建议大家体验的时候,装在空间富裕的盘里。


如果是分离音频和背景音乐的话,直接把文件丢进来就行,试了一下效果还不错,也可以单独设置输出的内容。


其他的就需要加载一下额外模型了,把模型加载的时候需要注意,有个处理设备的选项,CPU还是CUDA,如果你用的不是英伟达的显卡,选择自动就好了,不然会提示加载失败。

模型也有多重选择,如果上面带有V3标志,记得把这个开关打开。

模型也有多重选择,如果上面带有V3标志,记得把这个开关打开。


来试试语音转文字,如果你觉得自己的设备处理等待时间有点长,在软件执行的时候可以挂在后台和切换到其他界面,在它的详情页面能看到输出的具体信息,它的正确率还是比较高的,中英文混合与首字母大小写这些细节都有。

这类机器识别和人一样,识别率还不能做到100%正确,识别完之后,会有一些错误需要手动调整,在faster-whisper-GUI里,它会自己跳转到字幕制作的界面,可以快速浏览调整,在这里分割不同说话人的文本等等

在设置里面,还有许多细节可以调整,调整音频的默认语言和翻译,以及各种防止幻听的参数。

这个功能在一些视频编辑软件还是需要收费的,或者需要云端处理,识别的准确率也就那样。
更新日志
0.8.0 改动
修复没有赞助渠道的 bug #126
升级 faster-whisper 到 1.02 版本
添加 distil-large-v3 模型在线模式支持 #130
最新的 Distil-Whisper 模型 distil-large-v3 本质上是为与 OpenAI 顺序算法配合使用而设计的。
支持初始化更多 whisper 模型参数
音频分段设置
max_new_tokens: 每个区块生成的新令牌的最大数量。如果未设置,最大值将通过默认的 max_size 设置。
chunk_length: 音频段的长度。如果不是 None,它将覆盖 FeatureExtractor 的默认chunk_size。
clip_timestamps: 逗号分隔的要处理的剪辑的时间戳列表(以秒为单位)开始,结束,开始,结束......。最后一个结束时间戳默认为文件的结束。如果使用 clip_timestamps,将忽略 VAD 设置。
幻听参数
hallucination_silence_threshold: 当 word_timestamps 为 True 时,当检测到可能的幻觉时,跳过长于此阈值(以秒为单位)的静默期。
其他设置
hotwords: 为模型提供的热词/提示短语。如果 prefix 不是 None,则无效。 你可以输入提示词,类似于:“the video is about comfyUI”。
常规
language_detection_threshold: 如果语言标记的最大概率高于此值,则会检测为该语言。
language_detection_segments: 语言检测需要考虑的分段数量。
其他新特性:https://github.com/SYSTRAN/faster-whisper/releases/tag/v1.0.2
修复 复制字幕 功能的 bug
更新一些 UI 文字
停用 转写参数 页面的 保存参数、读取参数 功能
起止时间、说话人 列居中显示
升级 pytorch 到 2.3.0 , CUDA12
提示
软件需要完全卸载旧版之后安装新版(cache文件夹可不做清理)
需要安装 ffmpeg
使用 V3 模型时,如果频繁出现显存溢出,请尝试更新显卡驱动程序到最新或者回退到上一个稳定版本,当前版本(2024.5.29)测试结果稳定。
下载地址
人气软件

PreSonus Studio One 6 Professional V6.6.2 中文永久免费版(附
最强伴奏与人声一键分离工具Ultimate Vocal Remover GUI(UVR5) v
PreSonus Studio One Pro 7 v7.2.1 中文完整免费版(附安装教程)
Studio One6机架效果包插件 V6.0.2 中文免费版(附使用教程)
大饼AI变声 v2.5.11 官方安装版
IBM ViaVoice Pro语音识别输入系统 v9.1 简体中文版
Adobe Audition 2024(Au2024) v24.6.0.069 中文安装免费版 64位
阿里开源语音模型CosyVoice 0721 整合包 免费版
Native Instruments Kontakt 8 v8.9.0 完整安装免费版(附文件+教
终极伴奏人声提取工具 Ultimate Vocal Remover(UVR) v5.5.1 中文
相关文章
-
智能音频处理专家(格式转换/压缩/合并)v1.0.2.0 官方安装版智能音频处理专家Smart Audio Expert专业的音频处理软件,提供了音频转换、合并、压缩、调速以及bilibili转音频等...
-
优灵音频格式转换器 V3.2.5.1 官方安装版优灵音频格式转换器支持海量格式一键转换,支持多种视频格式转换,一键添加视频文件,批量提取成音频等,欢迎下载使用...
-
EZ Meta Tag Editor 音频标签编辑器 v12.3.4.1 绿色免费版EZ Meta Tag Editor是一款专业实用的音乐文件编辑软件,有的时候用户需要对音乐添加各种标签,或者编辑音乐的各个参数进行管理,直接通过该软件就可以直接进行设置,欢迎需...
-
广告配音王(配音软件) V1.0 免费安装版广告配音王是一款真正为广告行业量身打造的专业软件,它不仅简化了文字转语音的过程,还大大提高了音频文件的质量...
-
冬瓜配音 v1.4.1 官方安装版冬瓜配音提供多样的语音库,涵盖各种音色、语调,满足用户多样化的配音需求,欢迎下载使用...
-
优声音频转换大师 V1.0.1.1 官方安装版优声音频转换大师支持音频格式转换、音频合并、音频变速、音频剪切、音频变调、音频添加封面、音频音量调整等功能...
下载声明
☉ 解压密码:www.jb51.net 就是本站主域名,希望大家看清楚,[ 分享码的获取方法 ]可以参考这篇文章
☉ 推荐使用 [ 迅雷 ] 下载,使用 [ WinRAR v5 ] 以上版本解压本站软件。
☉ 如果这个软件总是不能下载的请在评论中留言,我们会尽快修复,谢谢!
☉ 下载本站资源,如果服务器暂不能下载请过一段时间重试!或者多试试几个下载地址
☉ 如果遇到什么问题,请评论留言,我们定会解决问题,谢谢大家支持!
☉ 本站提供的一些商业软件是供学习研究之用,如用于商业用途,请购买正版。
☉ 本站提供的FasterWhisperGUI(音频处理工具) v0.8.0 安装免费版资源来源互联网,版权归该下载资源的合法拥有者所有。





































