如何解决pytorch训练过程中CPU内存溢出问题

 更新时间:2023年09月08日 09:15:59   作者:yyyyyyhx  
这篇文章主要介绍了如何解决pytorch训练过程中CPU内存溢出问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教

pytorch训练过程中CPU内存溢出问题

期待了一晚上的结果,早上起来竟然发现CPU内存溢出导致程序奔溃了,今天郁闷了一天。。。

经查询,内存溢出的常见原因有:

  • loss求和未加item()
  • num_workers过大
  • 大量使用list转tensor

排查过程

找了好多原因,感觉上面的比较贴近,但是改了一堆,内存还是蹭蹭往上涨。

后来调用了memory_profiler这个包,发现了

我的程序中上面这部分每轮都加了70多m,可能是这个循环导致的(另外排查了好多程序都不说了。。。)

然后我把这个循环改成了下面这样

观察每组数据的memory占用,发现了很神奇的现象:

第一组数据没怎么占内存,后面重复调用同一个数据的时候内存就开始暴涨,到现在也没整明白为什么会这样。。

解决方法

后来调用了

from einops import rearrange

把数组维度修改了一下,再一起送进网络

可算解决了

pytorch内存溢出,Ubuntu进程killed问题

pytorch显存越来越多的一个原因

optimizer.zero_grad()
loss.backward()
optimizer.step()
train_loss += loss

参考了别人的代码发现那句loss一般是这样写

loss_sum += loss.data[0]

这是因为输出的loss的数据类型是Variable。而PyTorch的动态图机制就是通过Variable来构建图。

主要是使用Variable计算的时候,会记录下新产生的Variable的运算符号,在反向传播求导的时候进行使用。

如果这里直接将loss加起来,系统会认为这里也是计算图的一部分,也就是说网络会一直延伸变大那么消耗的显存也就越来越大。

用Tensor计算要写成:

train_loss += loss.item()
correct_total += torch.eq(predict, label_batch).sum().item()
train_loss += loss.item()

当需要将模型中变量提取出来参与计算时,需要使用** .item()**

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • python绘制带有色块的折线图

    python绘制带有色块的折线图

    这篇文章主要为大家详细介绍了python绘制带有色块的折线图,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-04-04
  • python光学仿真通过菲涅耳公式实现波动模型

    python光学仿真通过菲涅耳公式实现波动模型

    这篇文章主要介绍了python光学仿真通过菲涅耳公式实现波动模型的示例解析原理,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步
    2021-10-10
  • Python用函数思想完成哥德巴赫猜想代码分析

    Python用函数思想完成哥德巴赫猜想代码分析

    在本篇文章里小编给大家整理的是一篇关于Python用函数思想完成哥德巴赫猜想代码分析,有兴趣的朋友们可以参考下。
    2021-06-06
  • python+selenium识别验证码并登录的示例代码

    python+selenium识别验证码并登录的示例代码

    本篇文章主要介绍了python+selenium识别验证码并登录的示例代码,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-12-12
  • Python面向对象类继承和组合实例分析

    Python面向对象类继承和组合实例分析

    这篇文章主要介绍了Python面向对象类继承和组合,结合实例形式分析了Python3面向对象继承的原理、用法以及继承与组合相关使用技巧,需要的朋友可以参考下
    2018-05-05
  • Python异步SSH编程AsyncSSH的使用

    Python异步SSH编程AsyncSSH的使用

    本文介绍了Python异步SSH库AsyncSSH的核心功能与应用场景,相比传统同步SSH工具Paramiko,AsyncSSH基于asyncio框架,能够高效处理大规模并发连接,感兴趣的可以了解一下
    2025-09-09
  • 对python中return和print的一些理解

    对python中return和print的一些理解

    最近看到视频中讲到python中的print和return的区别,感到一些迷惑,所以自己上手实践了一把,下面这篇文章主要给大家介绍了关于对python中return和print的一些理解,需要的朋友可以参考借鉴,下面来一起看看吧。
    2017-08-08
  • 基于virtualenv创建python虚拟环境过程图解

    基于virtualenv创建python虚拟环境过程图解

    这篇文章主要介绍了基于virtualenv创建python虚拟环境过程图解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-03-03
  • python 序列解包的多种形式及用法解析

    python 序列解包的多种形式及用法解析

    这篇文章主要介绍了python 序列解包的多种形式及用法解析,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-05-05
  • 用Python selenium实现淘宝抢单机器人

    用Python selenium实现淘宝抢单机器人

    今天给大家带来的是关于Python实战的相关知识,文章围绕着用Python selenium实现淘宝抢单机器人展开,文中有非常详细的介绍及代码示例,需要的朋友可以参考下
    2021-06-06

最新评论