python录音并调用百度语音识别接口的示例

更新时间：2020年12月01日 15:22:30 作者：希希大队长

这篇文章主要介绍了python录音并调用百度语音识别接口的示例，帮助大家更好的理解和利用python处理音频，感兴趣的朋友可以了解下

#！/usr/bin/env python
import requests
import json
import base64
import pyaudio
import wave
import os
import psutil


#首先配置必要的信息
def bat(voice_path):
  baidu_server = 'https://aip.baidubce.com/oauth/2.0/token?'
  grant_type = 'client_credentials'
  client_id = 'uj70rS1LiwZ9sQDvMSUqKsie' #API KEY
  client_secret = 'Q88eav41PzeNLczZ3hlRjhR8e4WShXwD' #Secret KEY  这里可以自己去百度注册，这里是我的API KEY 和 Secret KEY

  #合成请求token的url
  url = baidu_server+'grant_type='+grant_type+'&client_id='+client_id+'&client_secret='+client_secret

  #获取token
  res = requests.get(url).text
  data = json.loads(res)
  token = data['access_token']

  #设置音频的属性，采样率，格式等
  VOICE_RATE = 8000
  FILE_NAME = voice_path
  # USER_ID = '16241950' #这里的id随便填填就好啦，我填的自己昵称
  FILE_TYPE = 'wav'
  CUID="wate_play"
  #读取文件二进制内容
  f_obj = open(FILE_NAME, 'rb')
  content = base64.b64encode(f_obj.read())  # 百度语音识别需要base64编码格式
  speech = content.decode("utf-8")
  size = os.path.getsize(FILE_NAME)

  #json封装
  datas = json.dumps({
    'format': FILE_TYPE,
    'rate': VOICE_RATE,
    'channel': 1,
    'cuid': CUID,
    'token': token,
    'speech': speech,
    'len': size,
    "dev_pid":"1536"
  })
  return datas

#设置headers和请求地址url
def post(datas):
  headers = {'Content-Type':'application/json'}
  url = 'https://vop.baidu.com/server_api'
  # url = "http://vop.baidu.com/server_api"

  #用post方法传数据
  request = requests.post(url, datas, headers)
  result = json.loads(request.text)
  text = result.get("result")
  if result['err_no'] == 0:
    return text
  else:
    return "Error"


def get_audio(filepath):
  input("回车开始录音 >>>")   #输出提示文本，input接收一个值,转为str，赋值给aa
  CHUNK = 256         #定义数据流块
  FORMAT = pyaudio.paInt16  #量化位数（音量级划分）
  CHANNELS = 1        # 声道数;声道数：可以是单声道或者是双声道
  RATE = 8000        # 采样率;采样率：一秒内对声音信号的采集次数，常用的有8kHz, 16kHz, 32kHz, 48kHz, 11.025kHz, 22.05kHz, 44.1kHz
  RECORD_SECONDS = 5     #录音秒数
  WAVE_OUTPUT_FILENAME = filepath   #wav文件路径
  p = pyaudio.PyAudio()        #实例化

  stream = p.open(format=FORMAT,
          channels=CHANNELS,
          rate=RATE,
          input=True,
          frames_per_buffer=CHUNK)
  print("*"*10, "开始录音：请在5秒内输入语音")
  frames = []                         #定义一个列表
  for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):   #循环，采样率11025 / 256 * 5
    data = stream.read(CHUNK)                #读取chunk个字节 保存到data中
    frames.append(data)                   #向列表frames中添加数据data
  # print(frames)
  print("*" * 10, "录音结束\n")

  stream.stop_stream()
  stream.close()     #关闭
  p.terminate()      #终结

  wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')         #打开wav文件创建一个音频对象wf，开始写WAV文件
  wf.setnchannels(CHANNELS)                  #配置声道数
  wf.setsampwidth(p.get_sample_size(FORMAT))         #配置量化位数
  wf.setframerate(RATE)                    #配置采样率
  wf.writeframes(b''.join(frames))              #转换为二进制数据写入文件
  wf.close()       #关闭
  return


def check_disk():
  list_drive = psutil.disk_partitions() # 找出本地磁盘列表，保存的是结构体对象
  list_disk = []
  for drive in list_drive:
    list_disk.append(drive.device)
  return list_disk


if __name__ == '__main__':
  list_disk = check_disk() # 检索本地磁盘
  dirname_path = os.path.join(list_disk[0], "voice") # 设置语音文件存放路径， 
                                  （mac os下需要自己定存储路径）
  if not os.path.exists(dirname_path):
    os.makedirs(dirname_path)

  filename = "voice.wav" # 定义语音文件名
  in_path = os.path.join(dirname_path, filename)

  get_audio(in_path) # 录音

  datas = bat(in_path) # 封装百度语音识别需要的配置信息，返回请求头
  res = post(datas) # 连接百度语音识别接口，得到识别结果
  print("识别结果：",res[0])

实现效果：

在上述代码中，需要装到requests、psutil、pyaudio等库，其中pyaudio这个库在python3环境下装比较特殊，

windows环境下具体步骤如下：

第一步：下载whl文件支持

url：https://www.lfd.uci.edu/~gohlke/pythonlibs/#pyaudio

注意：

下载自己python解释器对应版本的

不要下载错了，资源很多

第二步：打开cmd，cd 进入下载的whl所在目录

执行命令：pip install Twisted-18.7.0-cp36-cp36m-win_amd64.whl # 下载的什么版本，后面就跟什么版本

第三步：执行命令：pip install pyaudio 安装

如果本地同时装有python2和python3，想装到python3里可以在cmd命令里把 pip 改成 pip3 即可

mac os 下安装pyaudio步骤如下：

到这里就结束啦！

以上就是python录音并调用百度语音识别接口的示例的详细内容，更多关于python 录音并调用语音识别接口的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

python利用while求100内的整数和方式
这篇文章主要介绍了 python利用while求100内的整数和方式，下面文章要描述的内容有1到100的和、1到100内的偶数和、1到100内的奇数和，具体详细内容,需要的朋友可以参考一下
2021-11-11
Django csrf 验证问题的实现
csrf是通过伪装来自受信任用户的请求来利用受信任的网站。这篇文章主要介绍了Django csrf 验证问题的实现，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-10-10
动感网页相册 python编写简单文件夹内图片浏览工具
这篇文章主要为大家详细介绍了动感网页相册的制作方法，即利用python编写简单文件夹内图片浏览工具，感兴趣的小伙伴们可以参考一下
2016-08-08
Python 多线程不加锁分块读取文件的方法
今天小编就为大家分享一篇Python 多线程不加锁分块读取文件的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-12-12
Python实现绘制凸包的示例代码
凸包（Convex Hull）是一个计算几何（图形学）中的概念。这篇文章主要为大家详细介绍了Python绘制凸包的示例代码，感兴趣的小伙伴可以了解一下
2023-05-05
Python 合并/拆分Excel的实现示例
有时对于多个工作表需要进行合并或拆分,以便进行浏览总结,本文主要介绍了Python 合并/拆分Excel的实现示例,具有一定的参考价值,感兴趣的可以了解一下
2023-09-09
如何使用Python实现斐波那契数列
这篇文章主要介绍了如何使用Python实现斐波那契数列，斐波那契数列（Fibonacci）最早由印度数学家Gopala提出，而第一个真正研究斐波那契数列的是意大利数学家 Leonardo Fibonacci,需要的朋友可以参考下
2019-07-07
python使用pymongo与MongoDB基本交互操作示例
这篇文章主要介绍了python使用pymongo与MongoDB基本交互操作,结合实例形式详细分析了python基于pymongo库实现与MongoDB基本交互相关操作技巧与注意事项,需要的朋友可以参考下
2020-04-04
python matplotlib模块基本图形绘制方法小结【直线，曲线，直方图，饼图等】
这篇文章主要介绍了python matplotlib模块基本图形绘制方法,结合实例形式总结分析了Python使用matplotlib模块绘制直线，曲线，直方图，饼图等图形的相关操作技巧,需要的朋友可以参考下
2020-04-04
Python Base64编码和解码操作
Base64 就是一种基于64个可打印字符来表示二进制数据的方法，这篇文章主要介绍了Python Base64编码和解码,需要的朋友可以参考下
2022-12-12

python录音并调用百度语音识别接口的示例

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具