pytorch中Schedule与warmup_steps的用法说明

 更新时间:2021年05月24日 10:33:29   作者:Bingoyear  
这篇文章主要介绍了pytorch中Schedule与warmup_steps的用法说明,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教

1. lr_scheduler相关

lr_scheduler = WarmupLinearSchedule(optimizer, warmup_steps=args.warmup_steps, t_total=num_train_optimization_steps)

其中args.warmup_steps可以认为是耐心系数

num_train_optimization_steps为模型参数的总更新次数

一般来说:

num_train_optimization_steps = int(total_train_examples / args.train_batch_size / args.gradient_accumulation_steps)

Schedule用来调节学习率,拿线性变换调整来说,下面代码中,step是当前迭代次数。

    def lr_lambda(self, step):
        # 线性变换,返回的是某个数值x,然后返回到类LambdaLR中,最终返回old_lr*x
        if step < self.warmup_steps: # 增大学习率
            return float(step) / float(max(1, self.warmup_steps))
        # 减小学习率
        return max(0.0, float(self.t_total - step) / float(max(1.0, self.t_total - self.warmup_steps)))

在实际运行中,lr_scheduler.step()先将lr初始化为0. 在第一次参数更新时,此时step=1,lr由0变为初始值initial_lr;在第二次更新时,step=2,上面代码中生成某个实数alpha,新的lr=initial_lr *alpha;在第三次更新时,新的lr是在initial_lr基础上生成,即新的lr=initial_lr *alpha。

其中warmup_steps可以认为是lr调整的耐心系数。

由于有warmup_steps存在,lr先慢慢增加,超过warmup_steps时,lr再慢慢减小。

在实际中,由于训练刚开始时,训练数据计算出的grad可能与期望方向相反,所以此时采用较小的lr,随着迭代次数增加,lr线性增大,增长率为1/warmup_steps;迭代次数等于warmup_steps时,学习率为初始设定的学习率;迭代次数超过warmup_steps时,学习率逐步衰减,衰减率为1/(total-warmup_steps),再进行微调。

2. gradient_accumulation_steps相关

gradient_accumulation_steps通过累计梯度来解决本地显存不足问题。

假设原来的batch_size=6,样本总量为24,gradient_accumulation_steps=2

那么参数更新次数=24/6=4

现在,减小batch_size=6/2=3,参数更新次数不变=24/3/2=4

在梯度反传时,每gradient_accumulation_steps次进行一次梯度更新,之前照常利用loss.backward()计算梯度。

补充:pytorch学习笔记 -optimizer.step()和scheduler.step()

optimizer.step()和scheduler.step()的区别

optimizer.step()通常用在每个mini-batch之中,而scheduler.step()通常用在epoch里面,但是不绝对,可以根据具体的需求来做。只有用了optimizer.step(),模型才会更新,而scheduler.step()是对lr进行调整。

通常我们有

optimizer = optim.SGD(model.parameters(), lr = 0.01, momentum = 0.9)
scheduler = lr_scheduler.StepLR(optimizer, step_size = 100, gamma = 0.1)
model = net.train(model, loss_function, optimizer, scheduler, num_epochs = 100)

在scheduler的step_size表示scheduler.step()每调用step_size次,对应的学习率就会按照策略调整一次。

所以如果scheduler.step()是放在mini-batch里面,那么step_size指的是经过这么多次迭代,学习率改变一次。

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • django model 条件过滤 queryset.filter(**condtions)用法详解

    django model 条件过滤 queryset.filter(**condtions)用法详解

    这篇文章主要介绍了django model 条件过滤 queryset.filter(**condtions)用法详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-05-05
  • Python unittest工作原理和使用过程解析

    Python unittest工作原理和使用过程解析

    这篇文章主要介绍了Python unittest工作原理和使用过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-02-02
  • Python网络编程之socket与socketserver

    Python网络编程之socket与socketserver

    这篇文章介绍了Python网络编程之socket与socketserver,文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-05-05
  • Python中的枚举类型示例介绍

    Python中的枚举类型示例介绍

    这篇文章主要给大家介绍了关于Python中枚举类型的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-01-01
  • 通过示例学习python中os模块的使用

    通过示例学习python中os模块的使用

    os模块是Python中处理文件和文件夹的重要模块,其中了解模块的一些基本功能对于使用Python对excel进行数据分析具有很大的帮助,这篇文章主要介绍了python os模块使用,感兴趣的朋友跟随小编一起看看吧
    2022-12-12
  • Python 中下划线的几种用法(_、_xx、xx_、__xx、__xx__)

    Python 中下划线的几种用法(_、_xx、xx_、__xx、__xx__)

    本文主要介绍了Python 中下划线的几种用法(_、_xx、xx_、__xx、__xx__),详细的介绍了这几种下划线的用处,具有一定的参考价值,感兴趣的可以了解一下
    2023-09-09
  • Python 装饰器常用的创建方式及源码示例解析

    Python 装饰器常用的创建方式及源码示例解析

    装饰器(decorator)是一种高级Python语法,可以对一个函数、方法或者类进行加工,这篇文章主要介绍了Python 装饰器常用的创建方式及解析,需要的朋友可以参考下
    2022-04-04
  • mac安装scrapy并创建项目的实例讲解

    mac安装scrapy并创建项目的实例讲解

    今天小编就为大家分享一篇mac安装scrapy并创建项目的实例讲解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-06-06
  • Python 实现淘宝秒杀的示例代码

    Python 实现淘宝秒杀的示例代码

    本篇文章主要介绍了Python 实现淘宝秒杀的示例代码,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-01-01
  • Python绘制三维立体图详解与绘图填充方式

    Python绘制三维立体图详解与绘图填充方式

    这篇文章主要介绍了Python绘制三维立体图详解与绘图填充方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-02-02

最新评论