Python迅速掌握语音识别之知识储备篇

更新时间：2021年11月22日 10:14:56 作者：我是小白呀

语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域

概述

从今天开始我们将开启一个新的深度学习章节, 为大家来讲述一下深度学习在语音识别 (Speech Recognition) 的应用. 语音识别技术可以将语音转换为计算机可读的输入, 让计算机明白我们要表达什么, 实现真正的人机交互. 希望通过本专栏的学习, 大家能够对语音识别这一领域有一个基本的了解.

在这里插入图片描述

RNN

RNN (Recurrent Neural Network) 即循环神经网络, 用于处理输入有相关性的任务. RNN 网络包括一个输入层, 一个隐层, 和一个输出层组成, 如图:

在这里插入图片描述

计算

隐层 (Hidden Layer) 定义了整个网络的状态, RNN 网络的计算过程如下:

在这里插入图片描述

计算状态 (State)

在这里插入图片描述

计算输出:

在这里插入图片描述

RNN 存在的问题

梯度消失问题 (Vanishing gradient problem). 如果导数小于 1, 随着网络层数的增加梯度跟新会朝着指数衰减的方向前进, 这就是梯度消失, 如图:

在这里插入图片描述

我们可以看出, 随着时间的增加, 深层的网络对浅层的感知变得越来越微弱, 梯度接近于0.

梯度爆炸问题 (Exploding gradient problem). 如果导数大于 1, 随着网络层数的增加梯度跟新会朝着指数增加的方向前进, 这就是梯度爆炸. 当 RNN 网络导数大于 1 时就会出现时序依赖, 从而造成梯度爆炸.

在这里插入图片描述

LSTM

LSTM (Long Short Term Memory), 即长短期记忆模型. LSTM 是一种特殊的 RNN 模型, 解决了长序列训练过程中的梯度消失和梯度爆炸的问题. 相较于普通 RNN, LSTM 能够在更长的序列中有更好的表现. 相比 RNN 只有一个传递状态 ht, LSTM 有两个传递状态： ct (cell state) 和 ht (hidden state).

在这里插入图片描述

LSTM 增加了输入门, 输出门, 遗忘门三个控制单元. LSTM 的 cell 会决定哪些信息被留下, 哪些信息被遗忘, 从而解决神经网络中长序列依赖的问题.

GRU

GRU (Gate Recurrent Unit) 和 LSTM 类似, 但是更易于计算. GRU 由重置门, 更新门, 和输出门组成. 重置门和 LSTM 的遗忘文作用一样, 用于决定信息的去留. 同理, 更新门的作用类似于 LSTM 的输入门.

在这里插入图片描述

Seq2seq

Seq2seq 由 Encoder 和 Decoder 两个 RNN 组成. Encoder 将变长序列输出, 编码成 encoderstate 再由 Decoder 输出变长序列.

在这里插入图片描述

Attention 模型

Attention 是一种用于提升 RNN 的 Encoder 和 Decoder 模型的效果的机制. 广泛应用于机器翻译, 语音识别, 图像标注等多个领域. 深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似. 核心目标也是从众多信息中选择出对当前任务目标更关键的信息.

在这里插入图片描述

Attention 实质上是一种 content-based addressing 的机制. 即从网络中某些状态集合中选取给定状态较为相似的状态, 进而做后续的信息抽取.

在这里插入图片描述

首先根据 Encoder 和 Decoder 的特征计算权值, 然后对 Encoder 的特征进行加权求和, 作为 Decoder 的输入. 其作用的将 Encoder 的特征以更好的方式呈献给 Decoder. (并不是所有的 context 都对下一个状态的生成产生影响, Attention 就是选择恰当的 context 用它生成下一个状态.

Teacher Forcing 机制

早起的 RNN 在训练过程中的预测能力非常弱, 如果一个 unit 预测错了, 后面的 unit 就很难再获取对的结果. 比如我们翻译一句话:

Life is like a box of chocolates.You never know what you're going to get
人生就像一盒巧克力，你永远也不知道下一块是什么味道

如果我们把 life 翻译成 “西伯利亚”, 那么后面再翻译对的可能性就几乎为 0.

在这里插入图片描述

Teacher Forcing 是一种网络训练的方法, 使用上一个 label 作为下一个 state 的输入. 还是用上面的例子说明: 当使用 Teacher Forcing 机制的时候, 即时我们把 life 翻译成 “西伯利亚”, 下一个 Decoder 的输入我们会使用上一个的 label 作为 state, 即 “人生”, 而不是 “西伯利亚”. 这样就大大提高了 RNN 网络的预测能力.

到此这篇关于Python迅速掌握语音识别之知识储备篇的文章就介绍到这了,更多相关Python 语音识别内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python实现常见坐标系的相互转换
WGS84坐标系、GCJ02坐标系、BD09坐标系和Web 墨卡托投影坐标系是我们常见的四个坐标系。这篇文章为大家整理了这四个坐标系之间相互转换的方法，需要的可以参考一下
2023-02-02
pytorch-autograde-计算图的特点说明
这篇文章主要介绍了pytorch-autograde-计算图的特点，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2021-05-05
numpy如何按条件给元素赋值np.where、np.clip
这篇文章主要介绍了numpy如何按条件给元素赋值np.where、np.clip问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-06-06
python实现ip地址查询经纬度定位详解
这篇文章主要介绍了python实现ip地址查询经纬度定位详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-08-08
MoviePy简介及Python视频剪辑自动化
MoviePy是一个用于视频编辑的Python模块，可用于基本操作（如剪切、拼接、字幕插入）、视频合成、视频处理或创建高级效果等。本文给大家介绍MoviePy简介及Python视频剪辑自动化的相关知识，感兴趣的朋友一起看看吧
2020-12-12
python利用正则表达式排除集合中字符的功能示例
在正则表达式里,想匹配一些字符中的一个,也就是说给出一个字符的集合,只要出现这个集合里任意的字符,都是成立的，下面这篇文章主要给大家介绍了关于python利用正则表达式排除集合中字符功能的相关资料，需要的朋友可以参考下。
2017-10-10
OpenCV学习之图像形态学处理详解
这篇文章主要为大家详细介绍了OpenCV中图像形态学处理的相关知识，例如：腐蚀操作、膨胀操作、开闭运算、梯度运算、Top Hat Black Hat运算等操作，需要的可以参考一下
2023-02-02
python 读取.csv文件数据到数组(矩阵)的实例讲解
今天小编就为大家分享一篇python 读取.csv文件数据到数组(矩阵)的实例讲解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-06-06
selenium判断元素是否存在的两种方法小结
这篇文章主要介绍了selenium判断元素是否存在的两种方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-12-12
用Python画一个LinkinPark的logo代码实例
这篇文章主要介绍了用Python画一个LinkinPark的logo代码实例,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-09-09