YOLO v4常见的非线性激活函数详解

 更新时间:2021年05月12日 11:06:12   作者:满船清梦压星河HK  
这篇文章主要介绍了YOLO v4常见的非线性激活函数,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

YOLO v4中用到的激活函数是Mish激活函数
在YOLO v4中被提及的激活函数有: ReLU, Leaky ReLU, PReLU, ReLU6, SELU, Swish, Mish
其中Leaky ReLU, PReLU难以训练,ReLU6转为量化网络设计

激活函数使用过程图:

在这里插入图片描述

一、饱和激活函数

 1.1、Sigmoid

函数表达式:

Sigmoid函数图像及其导数图像:

在这里插入图片描述

优点:

  • 是一个便于求导的平滑函数;
  • 能压缩数据,使输出保证在 [ 0 , 1 ] [0,1] [0,1]之间(相当于对输出做了归一化),保证数据幅度不会有问题;
  • (有上下界)适合用于前向传播,但是不利于反向传播。

缺点:

  • 容易出现梯度消失(gradient vanishing),不利于权重更新;
  • 不是0均值(zero-centered)的,这会导致后层的神经元的输入是非0均值的信号,这会对梯度产生影响。以 f=sigmoid(wx+b)为例, 假设输入均为正数(或负数),那么对w的导数总是正数(或负数),这样在反向传播过程中要么都往正方向更新,要么都往负方向更新,导致有一种捆绑效果,使得收敛缓慢。
  • 指数运算,相对耗时。

1.2、hard-Sigmoid函数

hard-Sigmoid函数时Sigmoid激活函数的分段线性近似。

函数公式:

hard-Sigmoid函数图像和Sigmoid函数图像对比:

在这里插入图片描述

hard-Sigmoid函数图像及其导数图像:

在这里插入图片描述

优点:

  1. 从公示和曲线上来看,其更易计算,没有指数运算,因此会提高训练的效率。

缺点:

  1. 首次派生值为零可能会导致神经元died或者过慢的学习率。

1.3、Tanh双曲正切

函数表达式:

Tanh函数图像及其导函数图像:

在这里插入图片描述

优点:

  1. 解决了Sigmoid函数的非zero-centered问题
  2. 能压缩数据,使输出保证在 [ 0 , 1 ] [0,1] [0,1]之间(相当于对输出做了归一化),保证数据幅度不会有问题;(有上下界)

缺点:

  • 还是容易出现梯度消失(gradient vanishing),不利于权重更新;
  • 指数运算,相对耗时。

二、非饱和激活函数

 2.1、ReLU(修正线性单元)

函数表达式:

f ( z ) = m a x ( 0 , x ) f(z)=max(0,x) f(z)=max(0,x)

ReLU函数图像及其导数图像:

在这里插入图片描述

优点:

  1. ReLu的收敛速度比 sigmoid 和 tanh 快;
  2. 输入为正时,解决了梯度消失的问题,适合用于反向传播。;
  3. 计算复杂度低,不需要进行指数运算;

缺点:

  • ReLU的输出不是zero-centered;
  • ReLU不会对数据做幅度压缩,所以数据的幅度会随着模型层数的增加不断扩张。(有下界无上界)
  • Dead ReLU Problem(神经元坏死现象):x为负数时,梯度都是0,这些神经元可能永远不会被激活,导致相应参数永远不会被更新。(输入为负时,函数存在梯度消失的现象)

 2.2、ReLU6(抑制其最大值)

函数表达式:

ReLU函数图像和ReLU6函数图像对比:

在这里插入图片描述

ReLU6函数图像及其导数图像:

在这里插入图片描述

2.3、Leakly ReLU

函数表达式:

ReLU函数图像和Leakly ReLU函数图像对比:

在这里插入图片描述

Leakly ReLU函数图像及其导数图像:

在这里插入图片描述

优点:

  1. 解决上述的dead ReLU现象, 让负数区域也会梯度消失;

理论上Leaky ReLU 是优于ReLU的,但是实际操作中,并不一定。

2.4、PReLU(parametric ReLU)

函数公式:

注意:

函数图像:

在这里插入图片描述

优点:

  • 可以避免dead ReLU现象;
  • 与ELU相比,输入为负数时不会出现梯度消失。

2.5、ELU(指数线性函数)

函数表达式:

ELU函数图像及其导数图像( α = 1.5 \alpha=1.5 α=1.5):

在这里插入图片描述

优点:

  • 有ReLU的所有优点,且没有Dead ReLU Problem(神经元坏死现象);
  • 输出是zero-centered的,输出平均值接近0;
  • 通过减少偏置偏移的影响,使正常梯度更加接近自然梯度,从而使均值向0加速学习。

缺点:

  • 计算量更高了。

理论上ELU优于ReLU, 但是真实数据下,并不一定。

2.6、SELU

SELU就是在ELU的基础上添加了一个 λ \lambda λ参数,且 λ > 1 \lambda>1 λ>1

函数表达式:

ELU函数图像和SELU函数图像对比( α = 1.5 , λ = 2 \alpha=1.5, \lambda=2 α=1.5,λ=2):

在这里插入图片描述

SELU函数图像及其导数图像( α = 1.5 , λ = 2 \alpha=1.5, \lambda=2 α=1.5,λ=2):

在这里插入图片描述

优点:

  1. 以前的ReLU、P-ReLU、ELU等激活函数都是在负半轴坡度平缓,这样在激活的方差过大时可以让梯度减小,防止了梯度爆炸,但是在正半轴其梯度简答的设置为了1。而SELU的正半轴大于1,在方差过小的时候可以让它增大,但是同时防止了梯度消失。这样激活函数就有了一个不动点,网络深了之后每一层的输出都是均值为0,方差为1. 2.7、Swish

函数表达式:

Swish函数图像( β = 0.1 , β = 1 , β = 10 \beta=0.1, \beta=1,\beta=10 β=0.1,β=1,β=10):

在这里插入图片描述

Swish函数梯度图像( β = 0.1 , β = 1 , β = 10 \beta=0.1, \beta=1,\beta=10 β=0.1,β=1,β=10):

在这里插入图片描述

优点:

  • 在x > 0的时候,同样是不存在梯度消失的情况;而在x < 0时候,神经元也不会像ReLU一样出现死亡的情况。
  • 同时Swish相比于ReLU导数不是一成不变的,这也是一种优势。
  • 而且Swish处处可导,连续光滑。

缺点:

  • 计算量大,本来sigmoid函数就不容易计算,它比sigmoid还难。 2.8、hard-Swish

hard = 硬,就是让图像在整体上没那么光滑(从下面两个图都可以看出来)

函数表达式:

hard-Swish函数图像和Swish( β = 1 \beta=1 β=1)函数图像对比:

在这里插入图片描述

hard-Swish函数图像和Swish( β = 1 \beta=1 β=1)函数梯度图像对比:

在这里插入图片描述

优点:

  1. hard-Swish近似达到了Swish的效果;
  2. 且改善了Swish的计算量过大的问题,在量化模式下,ReLU函数相比Sigmoid好算太多了;

 2.9、Mish

论文地址:

https://arxiv.org/pdf/1908.08681.pdf

关于激活函数改进的最新一篇文章,且被广泛用于YOLO4中,相比Swish有0.494%的提升,相比ReLU有1.671%的提升。

Mish函数公式:

Mish函数图像和Swish( β = 1 \beta=1 β=1)函数图像对比:

在这里插入图片描述

Mish函数图像和Swish( β = 1 \beta=1 β=1)函数导数图像对比:

在这里插入图片描述

为什么Mish表现的更好:

上面无边界(即正值可以达到任何高度)避免了由于封顶而导致的饱和。理论上对负值的轻微允许更好的梯度流,而不是像ReLU中那样的硬零边界。
最后,可能也是最重要的,目前的想法是,平滑的激活函数允许更好的信息深入神经网络,从而得到更好的准确性和泛化。Mish函数在曲线上几乎所有点上都极其平滑。

三、PyTorch 实现

import matplotlib.pyplot as plt
import numpy as np

class ActivateFunc():
    def __init__(self, x, b=None, lamb=None, alpha=None, a=None):
        super(ActivateFunc, self).__init__()
        self.x = x
        self.b = b
        self.lamb = lamb
        self.alpha = alpha
        self.a = a

    def Sigmoid(self):
        y = np.exp(self.x) / (np.exp(self.x) + 1)
        y_grad = y*(1-y)
        return [y, y_grad]

    def Hard_Sigmoid(self):
        f = (2 * self.x + 5) / 10
        y = np.where(np.where(f > 1, 1, f) < 0, 0, np.where(f > 1, 1, f))
        y_grad = np.where(f > 0, np.where(f >= 1, 0, 1 / 5), 0)
        return [y, y_grad]

    def Tanh(self):
        y = np.tanh(self.x)
        y_grad = 1 - y * y
        return [y, y_grad]

    def ReLU(self):
        y = np.where(self.x < 0, 0, self.x)
        y_grad = np.where(self.x < 0, 0, 1)
        return [y, y_grad]

    def ReLU6(self):
        y = np.where(np.where(self.x < 0, 0, self.x) > 6, 6, np.where(self.x < 0, 0, self.x))
        y_grad = np.where(self.x > 6, 0, np.where(self.x < 0, 0, 1))
        return [y, y_grad]

    def LeakyReLU(self):   # a大于1,指定a
        y = np.where(self.x < 0, self.x / self.a, self.x)
        y_grad = np.where(self.x < 0, 1 / self.a, 1)
        return [y, y_grad]

    def PReLU(self):    # a大于1,指定a
        y = np.where(self.x < 0, self.x / self.a, self.x)
        y_grad = np.where(self.x < 0, 1 / self.a, 1)
        return [y, y_grad]

    def ELU(self): # alpha是个常数,指定alpha
        y = np.where(self.x > 0, self.x, self.alpha * (np.exp(self.x) - 1))
        y_grad = np.where(self.x > 0, 1, self.alpha * np.exp(self.x))
        return [y, y_grad]

    def SELU(self):  # lamb大于1,指定lamb和alpha
        y = np.where(self.x > 0, self.lamb * self.x, self.lamb * self.alpha * (np.exp(self.x) - 1))
        y_grad = np.where(self.x > 0, self.lamb * 1, self.lamb * self.alpha * np.exp(self.x))
        return [y, y_grad]

    def Swish(self): # b是一个常数,指定b
        y = self.x * (np.exp(self.b*self.x) / (np.exp(self.b*self.x) + 1))
        y_grad = np.exp(self.b*self.x)/(1+np.exp(self.b*self.x)) + self.x * (self.b*np.exp(self.b*self.x) / ((1+np.exp(self.b*self.x))*(1+np.exp(self.b*self.x))))
        return [y, y_grad]

    def Hard_Swish(self):
        f = self.x + 3
        relu6 = np.where(np.where(f < 0, 0, f) > 6, 6, np.where(f < 0, 0, f))
        relu6_grad = np.where(f > 6, 0, np.where(f < 0, 0, 1))
        y = self.x * relu6 / 6
        y_grad = relu6 / 6 + self.x * relu6_grad / 6
        return [y, y_grad]

    def Mish(self):
        f = 1 + np.exp(x)
        y = self.x * ((f*f-1) / (f*f+1))
        y_grad = (f*f-1) / (f*f+1) + self.x*(4*f*(f-1)) / ((f*f+1)*(f*f+1))
        return [y, y_grad]

def PlotActiFunc(x, y, title):
    plt.grid(which='minor', alpha=0.2)
    plt.grid(which='major', alpha=0.5)
    plt.plot(x, y)
    plt.title(title)
    plt.show()

def PlotMultiFunc(x, y):
    plt.grid(which='minor', alpha=0.2)
    plt.grid(which='major', alpha=0.5)
    plt.plot(x, y)

if __name__ == '__main__':
    x = np.arange(-10, 10, 0.01)
    activateFunc = ActivateFunc(x)
    activateFunc.a = 100
    activateFunc.b= 1
    activateFunc.alpha = 1.5
    activateFunc.lamb = 2

    plt.figure(1)
    PlotMultiFunc(x, activateFunc.Sigmoid()[0])
    PlotMultiFunc(x, activateFunc.Hard_Sigmoid()[0])
    PlotMultiFunc(x, activateFunc.Tanh()[0])
    PlotMultiFunc(x, activateFunc.ReLU()[0])
    PlotMultiFunc(x, activateFunc.ReLU6()[0])
    PlotMultiFunc(x, activateFunc.LeakyReLU()[0])
    PlotMultiFunc(x, activateFunc.ELU()[0])
    PlotMultiFunc(x, activateFunc.SELU()[0])
    PlotMultiFunc(x, activateFunc.Swish()[0])
    PlotMultiFunc(x, activateFunc.Hard_Swish()[0])
    PlotMultiFunc(x, activateFunc.Mish()[0])

    plt.legend(['Sigmoid', 'Hard_Sigmoid', 'Tanh', 'ReLU', 'ReLU6', 'LeakyReLU',
                'ELU', 'SELU', 'Swish', 'Hard_Swish', 'Mish'])
    plt.show()

四、结果显示

在这里插入图片描述

Reference

链接1: link.

链接2: link.

https://arxiv.org/pdf/1908.08681.pdf

到此这篇关于YOLO v4常见的非线性激活函数详解的文章就介绍到这了,更多相关YOLO v4激活函数内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 趣味函数式编程圣经

    趣味函数式编程圣经

    这篇文章主要介绍了函数式编程的的相关资料,有趣的讲解了函数式编程的相关知识,帮助大家更好的理解学习,感兴趣的朋友可以了解下
    2020-06-06
  • nasm实现的用vmware运行自做的linux启动盘的引导代码

    nasm实现的用vmware运行自做的linux启动盘的引导代码

    这个小的代码的编写和运行还是能让自己对系统启动有一个更深的认识,不过有个不懂的就是怎么用ISO镜像文件启动,怎么将引导代码写入ISO镜像文件,依然没有找到很好的方法解决
    2013-04-04
  • 分享5个实用的vs调试技巧

    分享5个实用的vs调试技巧

    vs 是我们平时编写代码时的首选工具,相信也是大多数小伙伴儿的首选调试工具,因为实际操作起来太方便了,代码编写完,一个 F5 就可以愉快的调试了。今天我想向大家推荐几个非常值得了解 vs 调试技巧。
    2020-09-09
  • 详解提升场景文本识别中的语言模型

    详解提升场景文本识别中的语言模型

    语言模型即根据当前语境的上下文推断当前句子的意思。文本图像中包含两层信息:视觉纹理信息和语言信息。由于单纯根据视觉纹理信息进行文字识别缺少了对上下文的字符语义信息的挖掘,时常会导致错误的文本识别结果(之后会详细说明)。
    2021-05-05
  • TCP 四种定时器(重传定时器,坚持计时器,保活定时器,时间等待计时器)

    TCP 四种定时器(重传定时器,坚持计时器,保活定时器,时间等待计时器)

    这篇文章主要介绍了TCP 四种定时器,重传定时器,坚持计时器,保活定时器,时间等待计时器的相关资料,需要的朋友可以参考下
    2017-03-03
  • 漫谈架构之微服务

    漫谈架构之微服务

    微服务的架构出现已经很久很久了,微服务架构就是一种将单个应用程序转换为一组小服务的方法,每个小服务都在自己的进程中运行,并使用轻量级的交互方式(如HTTP)进行通信
    2021-06-06
  • 解读Serverless架构的前世今生

    解读Serverless架构的前世今生

    云计算的不断发展,涌现出很多改变传统IT架构和运维方式的新技术,而以虚拟机、容器、微服务为代表的技术更是在各个层面不断提升云服务的技术能力,它们将应用和环境中很多通用能力变成了一种服务。但无论这些技术应用在哪里,帮助企业降本增效是技术变革永恒的主题。
    2021-05-05
  • Eclipse 误删文件的恢复与代码的恢复详解

    Eclipse 误删文件的恢复与代码的恢复详解

    这篇文章主要介绍了Eclipse 误删文件的恢复,代码的恢复的相关资料,需要的朋友可以参考下
    2016-09-09
  • 计算机网络编程MQTT协议基础原理详解

    计算机网络编程MQTT协议基础原理详解

    这篇文章主要为大家介绍了计算机编程MQTT协议的基础原理详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步早日升职加薪
    2021-11-11
  • 内存溢出和内存泄漏的详解及区别

    内存溢出和内存泄漏的详解及区别

    这篇文章主要介绍了内存溢出和内存泄漏的详解及区别的相关资料,需要的朋友可以参考下
    2017-03-03

最新评论