详情介绍
FasterWhisperGUI是一款带有 PySide6 的 fast_whisper 的 GUI 软件,你可以将音频或视频文件转录为srt/txt/smi/vtt/lrc文件,将在线OpenAI-whisper模型转换为ct2格式,并且提供VAD模型和whisper模型的所有参数,目前支持whisperX,Democs 模型,whisper large-v3模型。
听到Whisper,这个大家可能有点熟悉,这是OpenAI做的一个神经网络模型,可以在本地实时语音转文字,用来翻译和做字幕等,之前给大家介绍过一款叫做Constme-Whisper的软件,可以快速进行离线语音文字识别,还有GPU加速等等。
而faster-whisper-GUI增添了更多的特性,可以快速把音视频文件转成srt/txt/smi/vtt/lrc,支持Demucs、FastWhiper和whisperX、VAD-model这些技术,简单来说,支持的可调整的选项要比之前推荐的工具更多一点。
由于这类工具离线处理的特点,所以体积都比较大,faster-whisper-GUI的本体有1.6个G,安装完之后的占用又是6个多G,而且还不包括后续添加模型的大小,建议大家体验的时候,装在空间富裕的盘里。


如果是分离音频和背景音乐的话,直接把文件丢进来就行,试了一下效果还不错,也可以单独设置输出的内容。


其他的就需要加载一下额外模型了,把模型加载的时候需要注意,有个处理设备的选项,CPU还是CUDA,如果你用的不是英伟达的显卡,选择自动就好了,不然会提示加载失败。

模型也有多重选择,如果上面带有V3标志,记得把这个开关打开。

模型也有多重选择,如果上面带有V3标志,记得把这个开关打开。


来试试语音转文字,如果你觉得自己的设备处理等待时间有点长,在软件执行的时候可以挂在后台和切换到其他界面,在它的详情页面能看到输出的具体信息,它的正确率还是比较高的,中英文混合与首字母大小写这些细节都有。

这类机器识别和人一样,识别率还不能做到100%正确,识别完之后,会有一些错误需要手动调整,在faster-whisper-GUI里,它会自己跳转到字幕制作的界面,可以快速浏览调整,在这里分割不同说话人的文本等等

在设置里面,还有许多细节可以调整,调整音频的默认语言和翻译,以及各种防止幻听的参数。

这个功能在一些视频编辑软件还是需要收费的,或者需要云端处理,识别的准确率也就那样。
更新日志
0.8.0 改动
修复没有赞助渠道的 bug #126
升级 faster-whisper 到 1.02 版本
添加 distil-large-v3 模型在线模式支持 #130
最新的 Distil-Whisper 模型 distil-large-v3 本质上是为与 OpenAI 顺序算法配合使用而设计的。
支持初始化更多 whisper 模型参数
音频分段设置
max_new_tokens: 每个区块生成的新令牌的最大数量。如果未设置,最大值将通过默认的 max_size 设置。
chunk_length: 音频段的长度。如果不是 None,它将覆盖 FeatureExtractor 的默认chunk_size。
clip_timestamps: 逗号分隔的要处理的剪辑的时间戳列表(以秒为单位)开始,结束,开始,结束......。最后一个结束时间戳默认为文件的结束。如果使用 clip_timestamps,将忽略 VAD 设置。
幻听参数
hallucination_silence_threshold: 当 word_timestamps 为 True 时,当检测到可能的幻觉时,跳过长于此阈值(以秒为单位)的静默期。
其他设置
hotwords: 为模型提供的热词/提示短语。如果 prefix 不是 None,则无效。 你可以输入提示词,类似于:“the video is about comfyUI”。
常规
language_detection_threshold: 如果语言标记的最大概率高于此值,则会检测为该语言。
language_detection_segments: 语言检测需要考虑的分段数量。
其他新特性:https://github.com/SYSTRAN/faster-whisper/releases/tag/v1.0.2
修复 复制字幕 功能的 bug
更新一些 UI 文字
停用 转写参数 页面的 保存参数、读取参数 功能
起止时间、说话人 列居中显示
升级 pytorch 到 2.3.0 , CUDA12
提示
软件需要完全卸载旧版之后安装新版(cache文件夹可不做清理)
需要安装 ffmpeg
使用 V3 模型时,如果频繁出现显存溢出,请尝试更新显卡驱动程序到最新或者回退到上一个稳定版本,当前版本(2024.5.29)测试结果稳定。
下载地址
人气软件

PreSonus Studio One 6 Professional V6.6.2 中文永久免费版(附
最强伴奏与人声一键分离工具Ultimate Vocal Remover GUI(UVR5) v
PreSonus Studio One Pro 7 v7.2.1 中文完整免费版(附安装教程)
Studio One6机架效果包插件 V6.0.2 中文免费版(附使用教程)
IBM ViaVoice Pro语音识别输入系统 v9.1 简体中文版
大饼AI变声 v2.5.8 官方安装版
Adobe Audition 2024(Au2024) v24.6.0.069 中文安装免费版 64位
阿里开源语音模型CosyVoice 0721 整合包 免费版
终极伴奏人声提取工具 Ultimate Vocal Remover(UVR) v5.5.1 中文
Native Instruments Kontakt 8 v8.8.0 完整安装免费版(附文件+教
相关文章
-
EZ Meta Tag Editor 音频标签编辑器 v12.3.4.1 绿色免费版EZ Meta Tag Editor是一款专业实用的音乐文件编辑软件,有的时候用户需要对音乐添加各种标签,或者编辑音乐的各个参数进行管理,直接通过该软件就可以直接进行设置,欢迎需...
-
广告配音王(配音软件) V1.0 免费安装版广告配音王是一款真正为广告行业量身打造的专业软件,它不仅简化了文字转语音的过程,还大大提高了音频文件的质量...
-
冬瓜配音 v1.3.0 官方安装版冬瓜配音提供多样的语音库,涵盖各种音色、语调,满足用户多样化的配音需求,欢迎下载使用...
-
优声音频转换大师 V1.0.1.1 官方安装版优声音频转换大师支持音频格式转换、音频合并、音频变速、音频剪切、音频变调、音频添加封面、音频音量调整等功能...
-
全方位录音 V2.1.0.2 官方安装版全方位录音提供了麦克风录音、电脑系统录音、电脑内录、音乐平台录制等,支持的格式MP3,WMA,AC3,FLAC,WAV,M4A,OGG等,欢迎下载...
-
团子AI(伴奏提取分离)v1.0.10 linux最新版团子AI专业的人工智能工具,该软件拥有专业 NVIDIAV100 计算卡,提供批量处理工具,无人托管,一键上传,批量处理...
下载声明
☉ 解压密码:www.jb51.net 就是本站主域名,希望大家看清楚,[ 分享码的获取方法 ]可以参考这篇文章
☉ 推荐使用 [ 迅雷 ] 下载,使用 [ WinRAR v5 ] 以上版本解压本站软件。
☉ 如果这个软件总是不能下载的请在评论中留言,我们会尽快修复,谢谢!
☉ 下载本站资源,如果服务器暂不能下载请过一段时间重试!或者多试试几个下载地址
☉ 如果遇到什么问题,请评论留言,我们定会解决问题,谢谢大家支持!
☉ 本站提供的一些商业软件是供学习研究之用,如用于商业用途,请购买正版。
☉ 本站提供的FasterWhisperGUI(音频处理工具) v0.8.0 安装免费版资源来源互联网,版权归该下载资源的合法拥有者所有。


































