解决Pytorch内存溢出,Ubuntu进程killed的问题

 更新时间:2021年05月28日 10:45:54   作者:Coding呆呆  
这篇文章主要介绍了解决Pytorch内存溢出,Ubuntu进程killed的问题,具有很好的参考价值,希望对大家有所帮助。

pytorch显存越来越多的一个原因

optimizer.zero_grad()
loss.backward()
optimizer.step()
train_loss += loss

参考了别人的代码发现那句loss一般是这样写

loss_sum += loss.data[0]

这是因为输出的loss的数据类型是Variable。而PyTorch的动态图机制就是通过Variable来构建图。主要是使用Variable计算的时候,会记录下新产生的Variable的运算符号,在反向传播求导的时候进行使用。如果这里直接将loss加起来,系统会认为这里也是计算图的一部分,也就是说网络会一直延伸变大那么消耗的显存也就越来越大。

用Tensor计算要写成:

train_loss += loss.item()

correct_total += torch.eq(predict, label_batch).sum().item()
train_loss += loss.item()

当需要将模型中变量提取出来参与计算时,需要使用** .item()**

补充:linux下运行pytorch程序显示“killed”或者“已杀死”

这是由pytorch对于内存不足的反应,确切说,是Linux内核对pytorch程序占用太多内存的反应。Linux内核一旦因为内存资源不足而生气的时候,会使用OOM killer将占用内存最多的进程杀掉。

这种情况下,pytorch的python程序根本就来不及显示相关的内存日志,直接在呼喊出killed这一个简短有力的词语后,就game over了。如果不提前掌握这个背景的话,你可真是会手足无措啊。

既然我们确定了是内存不足导致的问题(dmesg也能明确的显示出kernel把占了近10个GB的python进程给kill了),

那我们的解决方案就有2个:

第一个是加大内存,将我的x99平台的内存从16GB增加到64GB;这个方案先放弃了,因为内存条涨价太猛,我买不起了;

第二个是增加swap分区,当然性能会降低,但不需要额外增加成本。所以Gemfield今天的选择就是第二个方案。

1、先禁止掉swap功能

sudo swapoff /swapfile

这个命令执行之后,如果你用free命令查看的话会发现swap分区的大小变为了0。

2、增加 /swapfile的大小

sudo dd if=/dev/zero of=/swapfile bs=1M count=30720 oflag=append conv=notrunc

这个命令会在现有的/swapfile后面追加30GB,加上之前的2GB的swap分区,现在共有32个GB的swap分区了。如果按照固态硬盘128GB有300多块钱来算的话,这个命令花了七八十块钱呢。

3、设置这个文件为swap分区的挂载点:

sudo mkswap /swapfile

4、再次启用swap

sudo swapon /swapfile

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • 浅谈Python实现opencv之图片色素的数值运算和逻辑运算

    浅谈Python实现opencv之图片色素的数值运算和逻辑运算

    今天带大家来学习的是关于Python的相关知识,文章围绕着图片色素的数值运算和逻辑运算展开,文中有非常详细的的介绍及代码示例,需要的朋友可以参考下
    2021-06-06
  • python实现skywalking的trace模块过滤和报警(实例代码)

    python实现skywalking的trace模块过滤和报警(实例代码)

    Skywalking可以对链路追踪到数据进行告警规则配置,例如响应时间、响应百分比等。发送警告通过调用webhook接口完成。webhook接口用户可以自定义。本文给大家介绍python实现skywalking的trace模块过滤和报警,感兴趣的朋友跟随小编一起看看吧
    2021-12-12
  • 在jupyter notebook中使用pytorch的方法

    在jupyter notebook中使用pytorch的方法

    这篇文章主要介绍了在jupyter notebook中使用pytorch的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-09-09
  • Python字符串处理的8招秘籍(小结)

    Python字符串处理的8招秘籍(小结)

    这篇文章主要介绍了Python字符串处理的8招秘籍,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-08-08
  • python线程、进程和协程详解

    python线程、进程和协程详解

    Python被人诟病最多的大概就是性能差,在这里讲一下 Python 的多进程,多线程与协程。首先声明这不是教程,看完这篇文章,大概能够对 Python 的多进程与多线程有一定的了解。
    2016-07-07
  • 更换Django默认的模板引擎为jinja2的实现方法

    更换Django默认的模板引擎为jinja2的实现方法

    今天小编就为大家分享一篇更换Django默认的模板引擎为jinja2的实现方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-05-05
  • Python中字符串操作技巧

    Python中字符串操作技巧

    在编程中,字符串操作是一项基本技能,常见的操作包括大小写转换、字符串替换、倒序、统计、切片、切割、清理和对齐等,查找方法如find()、rfind()、index()和rindex()用于定位子串,字符串可以通过"+"号或join()方法拼接,去重技巧等,都是常见的字符串处理需求
    2024-10-10
  • 详解使用python爬取抖音app视频(appium可以操控手机)

    详解使用python爬取抖音app视频(appium可以操控手机)

    这篇文章主要介绍了详解使用python爬取抖音app视频(appium可以操控手机),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-01-01
  • Python+unittest+DDT实现数据驱动测试

    Python+unittest+DDT实现数据驱动测试

    这篇文章主要介绍了Python+unittest+DDT实现数据驱动测试,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-11-11
  • Python文本预处理学习指南

    Python文本预处理学习指南

    文本预处理是指在进行自然语言处理(NLP)任务之前,对原始文本数据进行清洗、转换和标准化的过程,本文主要为大家介绍了文本预处理的使用,需要的可以参考下
    2023-07-07

最新评论