Python使用whisper实现语音识别(ASR)的示例代码

 更新时间:2024年03月20日 09:55:51   作者:怎么这么多名字都被占了  
Whisper是OpenAI的一个强大的语音识别库,支持离线的语音识别,本文主要介绍了Python使用whisper实现语音识别(ASR)的示例代码,具有一定的参考价值,感兴趣的可以了解一下

Whisper的安装

Whisper是OpenAI的一个强大的语音识别库,支持离线的语音识别。在使用之前,需要先安装它的库:

pip install openai-whisper

使用whisper,还需安装setuptools-rust:

pip install setuptools-rust

但是,whisper安装时,自带的pytorch可能有些bug,因此需要卸载重装:

卸载:

pip uninstall torch

重装:

pip install torch

另外,需要通过choco安装ffmpeg库。先通过管理员权限的PowerShell安装choco:

Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; 
iex ((New-Object System.Net.WebClient).DownloadString('https://chocolatey.org/install.ps1'))

然后,在管理员权限的PowerShell安装ffmpeg:

choco install ffmpeg

完成这些步骤之后,我们就可以使用啦!

Whisper的基本使用

whisper的基本代码如下:

import whisper

model = whisper.load_model("base")
result = model.transcribe("zh.wav")
print(result['text'])

其中,zh.wav可以换成你自己的音频。我的控制台输出:

我們說,40月2日混淩土不能與引力長相互攪拌不然會因為愛銀斯坦的相對論而引發雜串的食品安全問題這是嚴重的金融危機

可以看到,它的识别结果还行(因为我的音频是AI合成的,识别会有一定误差),但是输出的是繁体中文,我们需要把他变成简体中文。

识别结果转简体中文

可以通过opencc库实现转化,先安装:

pip install opencc

然后修改代码:

import whisper
import opencc

model = whisper.load_model("base")
result = model.transcribe("zh.wav")
cc = opencc.OpenCC("t2s")
res = cc.convert(result['text'])
print(res)

输出:

我们说,40月2日混凌土不能与引力长相互搅拌不然会因为爱银斯坦的相对论而引发杂串的食品安全问题这是严重的金融危机

断句

在一个语音中,我们都会有一些停顿。但是,在识别结果中,这些停顿并没有被完全表示出来。我们可以如此修改代码,实现按断句输出结果:

import whisper
import opencc

model = whisper.load_model("base")
result = model.transcribe("zh.wav")
cc = opencc.OpenCC("t2s")
for i in result['segments']:
    res = cc.convert(i['text'])
    print(f"断句开始于{i['start']}秒,结束于{i['end']}秒,识别结果:{res}")

输出:

断句开始于0.0秒,结束于5.36秒,识别结果:我们说,40月2日混凌土不能与引力长相互搅拌
断句开始于5.36秒,结束于11.14秒,识别结果:不然会因为爱银斯坦的相对论而引发杂串的食品安全问题
断句开始于11.14秒,结束于13.44秒,识别结果:这是严重的金融危机

到此这篇关于Python使用whisper实现语音识别(ASR)的示例代码的文章就介绍到这了,更多相关Python whisper语音识别内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python采用Django制作简易的知乎日报API

    Python采用Django制作简易的知乎日报API

    这篇文章主要为大家详细介绍了Python采用Django制作简易的知乎日报API,感兴趣的小伙伴们可以参考一下
    2016-08-08
  • Python使用Ollama实现私有大模型知识库

    Python使用Ollama实现私有大模型知识库

    这篇文章主要介绍了Python使用Ollama实现私有大模型知识库,在不依赖LangChain、LlamaIndex等框架的前提下,尽量减少第三方库的使用,仅通过Ollama和NumPy两个外部库来实现RAG,需要的朋友可以参考下
    2022-01-01
  • 详解用python生成随机数的几种方法

    详解用python生成随机数的几种方法

    这篇文章主要介绍了详解用python生成随机数的几种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-08-08
  • 忆童年!用Python实现愤怒的小鸟游戏

    忆童年!用Python实现愤怒的小鸟游戏

    好久都没玩过愤怒的小鸟了,今天咱自己做一个玩玩,文中有非常详细的代码示例,对想玩的小伙伴们很有用哦,需要的朋友可以参考下
    2021-06-06
  • Python 实现打印单词的菱形字符图案

    Python 实现打印单词的菱形字符图案

    这篇文章主要介绍了Python 实现打印单词的菱形字符图案,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04
  • PyQt信号和槽机制的具体使用

    PyQt信号和槽机制的具体使用

    信号和槽机制是一种通信机制,在PyQt中,信号是一种特殊的函数,它可以传递任何类型的数据,而槽则是一种接收信号的函数,本文就介绍了PyQt信号和槽机制的具体使用,感兴趣的可以了解一下
    2023-08-08
  • Python实现迷宫生成器的详细代码

    Python实现迷宫生成器的详细代码

    这篇文章主要介绍了Python实现迷宫生成器的详细代码,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-07-07
  • Python读取HTML中的canvas并且以图片形式存入Word文档

    Python读取HTML中的canvas并且以图片形式存入Word文档

    这篇文章主要介绍了Python读取HTML中的canvas并且以图片形式存入Word文档,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-08-08
  • Python数据可视化Pyecharts制作Heatmap热力图

    Python数据可视化Pyecharts制作Heatmap热力图

    这篇文章主要介绍了Python数据可视化Pyecharts制作Heatmap热力图,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步早日升职加薪
    2022-04-04
  • Django框架自定义模型管理器与元选项用法分析

    Django框架自定义模型管理器与元选项用法分析

    这篇文章主要介绍了Django框架自定义模型管理器与元选项用法,结合实例形式分析了自定义模型管理器与元选项的功能、用法及相关操作注意事项,需要的朋友可以参考下
    2019-07-07

最新评论