pytorch中Schedule与warmup_steps的用法说明

更新时间：2021年05月24日 10:33:29 作者：Bingoyear

这篇文章主要介绍了pytorch中Schedule与warmup_steps的用法说明，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教

1. lr_scheduler相关

lr_scheduler = WarmupLinearSchedule(optimizer, warmup_steps=args.warmup_steps, t_total=num_train_optimization_steps)

其中args.warmup_steps可以认为是耐心系数

num_train_optimization_steps为模型参数的总更新次数

一般来说：

num_train_optimization_steps = int(total_train_examples / args.train_batch_size / args.gradient_accumulation_steps)

Schedule用来调节学习率，拿线性变换调整来说，下面代码中，step是当前迭代次数。

    def lr_lambda(self, step):
        # 线性变换，返回的是某个数值x，然后返回到类LambdaLR中，最终返回old_lr*x
        if step < self.warmup_steps: # 增大学习率
            return float(step) / float(max(1, self.warmup_steps))
        # 减小学习率
        return max(0.0, float(self.t_total - step) / float(max(1.0, self.t_total - self.warmup_steps)))

在实际运行中，lr_scheduler.step()先将lr初始化为0. 在第一次参数更新时，此时step=1，lr由0变为初始值initial_lr；在第二次更新时，step=2，上面代码中生成某个实数alpha，新的lr=initial_lr *alpha；在第三次更新时，新的lr是在initial_lr基础上生成，即新的lr=initial_lr *alpha。

其中warmup_steps可以认为是lr调整的耐心系数。

由于有warmup_steps存在，lr先慢慢增加，超过warmup_steps时，lr再慢慢减小。

在实际中，由于训练刚开始时，训练数据计算出的grad可能与期望方向相反，所以此时采用较小的lr，随着迭代次数增加，lr线性增大，增长率为1/warmup_steps；迭代次数等于warmup_steps时，学习率为初始设定的学习率；迭代次数超过warmup_steps时，学习率逐步衰减，衰减率为1/(total-warmup_steps)，再进行微调。

2. gradient_accumulation_steps相关

gradient_accumulation_steps通过累计梯度来解决本地显存不足问题。

假设原来的batch_size=6，样本总量为24，gradient_accumulation_steps=2

那么参数更新次数=24/6=4

现在，减小batch_size=6/2=3，参数更新次数不变=24/3/2=4

在梯度反传时，每gradient_accumulation_steps次进行一次梯度更新，之前照常利用loss.backward()计算梯度。

补充：pytorch学习笔记 -optimizer.step()和scheduler.step()

optimizer.step()和scheduler.step()的区别

optimizer.step()通常用在每个mini-batch之中，而scheduler.step()通常用在epoch里面,但是不绝对，可以根据具体的需求来做。只有用了optimizer.step()，模型才会更新，而scheduler.step()是对lr进行调整。

通常我们有

optimizer = optim.SGD(model.parameters(), lr = 0.01, momentum = 0.9)
scheduler = lr_scheduler.StepLR(optimizer, step_size = 100, gamma = 0.1)
model = net.train(model, loss_function, optimizer, scheduler, num_epochs = 100)

在scheduler的step_size表示scheduler.step()每调用step_size次，对应的学习率就会按照策略调整一次。

所以如果scheduler.step()是放在mini-batch里面，那么step_size指的是经过这么多次迭代，学习率改变一次。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

python关于字典及遍历的常用方法
这篇文章主要介绍了python关于字典及遍历的常用方法，字典的键可以是字符串、整数、元组或字典。字典的值也可以是字符串、整数，文章围绕主题展开更多详细的内容，需要的小伙伴可以参考一下
2022-06-06
Python模仿POST提交HTTP数据及使用Cookie值的方法
这篇文章主要介绍了Python模仿POST提交HTTP数据及使用Cookie值的方法,通过两种不同的实现方法较为详细的讲述了HTTP数据通信及cookie的具体用法,需要的朋友可以参考下
2014-11-11
详解python持久化文件读写
这篇文章主要介绍了python持久化文件读写，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-04-04
Python图像运算之图像灰度非线性变换详解
这篇文章将详细讲解图像灰度非线性变换。图像灰度非线性变换主要包括对数变换、幂次变换、指数变换、分段函数变换，通过非线性关系对图像进行灰度处理，本文主要讲解三种常见类型的灰度非线性变换，感兴趣的可以了解一下
2022-03-03
Python3 多线程(连接池)操作MySQL插入数据
本文将结合实例代码，介绍Python3 多线程(连接池)操作MySQL插入数据，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2021-06-06
Python的多态性实例分析
这篇文章主要介绍了Python的多态性,以实例形式深入浅出的分析了Python在面向对象编程中多态性的原理与实现方法,需要的朋友可以参考下
2015-07-07
python 实现批量xls文件转csv文件的方法
今天小编就为大家分享一篇python 实现批量xls文件转csv文件的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-10-10
python引入导入自定义模块和外部文件的实例
下面小编就为大家带来一篇python引入导入自定义模块和外部文件的实例。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2017-07-07
Django使用HttpResponse返回图片并显示的方法
今天小编就为大家分享一篇Django使用HttpResponse返回图片并显示的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-05-05
Python批量修改文本文件内容的方法
这篇文章主要介绍了Python批量修改文本文件内容的方法的相关资料,需要的朋友可以参考下
2016-04-04