Pytorch训练网络过程中loss突然变为0的解决方案

 更新时间:2021年05月13日 10:07:02   作者:他们叫我一代大侠  
这篇文章主要介绍了Pytorch训练网络过程中loss突然变为0的解决方案,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教

问题

// loss 突然变成0
python train.py -b=8
INFO: Using device cpu
INFO: Network:
        1 input channels
        7 output channels (classes)
        Bilinear upscaling
INFO: Creating dataset with 868 examples
INFO: Starting training:
        Epochs:          5
        Batch size:      8
        Learning rate:   0.001
        Training size:   782
        Validation size: 86
        Checkpoints:     True
        Device:          cpu
        Images scaling:  1
    
Epoch 1/5:  10%|██████████████▏                                                                                                                            | 80/782 [01:33<13:21,  1.14s/img, loss (batch)=0.886I
NFO: Validation cross entropy: 1.86862473487854                                                                                                                                                                  
Epoch 1/5:  20%|███████████████████████████▊                                                                                                            | 160/782 [03:34<11:51,  1.14s/img, loss (batch)=2.35e-7I
NFO: Validation cross entropy: 5.887489884504049e-10                                                                                                                                                             
Epoch 1/5:  31%|███████████████████████████████████████████▌                                                                                                  | 240/782 [05:41<11:29,  1.27s/img, loss (batch)=0I
NFO: Validation cross entropy: 0.0                                                                                                                                                                               
Epoch 1/5:  41%|██████████████████████████████████████████████████████████                                                                                    | 320/782 [07:49<09:16,  1.20s/img, loss (batch)=0I
NFO: Validation cross entropy: 0.0                                                                                                                                                                               
Epoch 1/5:  51%|████████████████████████████████████████████████████████████████████████▋                                                                     | 400/782 [09:55<07:31,  1.18s/img, loss (batch)=0I
NFO: Validation cross entropy: 0.0                                                                                                                                                                               
Epoch 1/5:  61%|███████████████████████████████████████████████████████████████████████████████████████▏                                                      | 480/782 [12:02<05:58,  1.19s/img, loss (batch)=0I
NFO: Validation cross entropy: 0.0                                                                                                                                                                               
Epoch 1/5:  72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋                                        | 560/782 [14:04<04:16,  1.15s/img, loss (batch)=0I
NFO: Validation cross entropy: 0.0                                                                                                                                                                               
Epoch 1/5:  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 640/782 [16:11<02:49,  1.20s/img, loss (batch)=0I
NFO: Validation cross entropy: 0.0                                                                                                                                                                               
Epoch 1/5:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 720/782 [18:21<01:18,  1.26s/img, loss (batch)=0I
NFO: Validation cross entropy: 0.0                                                                                                                                                                               
Epoch 1/5:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 736/782 [19:17<01:12,  1.57s/img, loss (batch)=0]
Traceback (most recent call last):
  File "train.py", line 182, in <module>
    val_percent=args.val / 100)
  File "train.py", line 66, in train_net
    for batch in train_loader:
  File "/public/home/lidd/.conda/envs/lgg2/lib/python3.6/site-packages/torch/utils/data/dataloader.py", line 819, in __next__
    return self._process_data(data)
  File "/public/home/lidd/.conda/envs/lgg2/lib/python3.6/site-packages/torch/utils/data/dataloader.py", line 846, in _process_data
    data.reraise()
  File "/public/home/lidd/.conda/envs/lgg2/lib/python3.6/site-packages/torch/_utils.py", line 385, in reraise
    raise self.exc_type(msg)
RuntimeError: Caught RuntimeError in DataLoader worker process 4.
Original Traceback (most recent call last):
  File "/public/home/lidd/.conda/envs/lgg2/lib/python3.6/site-packages/torch/utils/data/_utils/worker.py", line 178, in _worker_loop
    data = fetcher.fetch(index)
  File "/public/home/lidd/.conda/envs/lgg2/lib/python3.6/site-packages/torch/utils/data/_utils/fetch.py", line 47, in fetch
    return self.collate_fn(data)
  File "/public/home/lidd/.conda/envs/lgg2/lib/python3.6/site-packages/torch/utils/data/_utils/collate.py", line 74, in default_collate
    return {key: default_collate([d[key] for d in batch]) for key in elem}
  File "/public/home/lidd/.conda/envs/lgg2/lib/python3.6/site-packages/torch/utils/data/_utils/collate.py", line 74, in <dictcomp>
    return {key: default_collate([d[key] for d in batch]) for key in elem}
  File "/public/home/lidd/.conda/envs/lgg2/lib/python3.6/site-packages/torch/utils/data/_utils/collate.py", line 55, in default_collate
    return torch.stack(batch, 0, out=out)
RuntimeError: Expected object of scalar type Double but got scalar type Byte for sequence element 4 in sequence argument at position #1 'tensors'

交叉熵损失函数是衡量输出与标签之间的损失,通过求导确定梯度下降的方向。

loss突然变为0,有两种可能性。

一是因为预测输出为0,二是因为标签为0。

如果是因为标签为0,那么一开始loss就可能为0.

检查参数初始化

检查前向传播的网络

检查loss的计算格式

检查梯度下降

是否出现梯度消失。

实际上是标签出了错误

补充:pytorch训练出现loss=na

遇到一个很坑的情况,在pytorch训练过程中出现loss=nan的情况

有以下几种可能:

1.学习率太高。

2.loss函数有问题

3.对于回归问题,可能出现了除0 的计算,加一个很小的余项可能可以解决

4.数据本身,是否存在Nan、inf,可以用np.isnan(),np.isinf()检查一下input和target

5.target本身应该是能够被loss函数计算的,比如sigmoid激活函数的target应该大于0,同样的需要检查数据集

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。

相关文章

  • Python开发之快速搭建自动回复微信公众号功能

    Python开发之快速搭建自动回复微信公众号功能

    这篇文章主要介绍了Python开发之快速搭建自动回复微信公众号功能的相关资料,需要的朋友可以参考下
    2016-04-04
  • Python中使用ctypes调用C++的方法

    Python中使用ctypes调用C++的方法

    本文主要介绍了Python中使用ctypes调用C++的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-06-06
  • python实现人人对战的五子棋游戏

    python实现人人对战的五子棋游戏

    这篇文章主要为大家详细介绍了python实现人人对战的五子棋游戏,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-05-05
  • python输出指定月份日历的方法

    python输出指定月份日历的方法

    这篇文章主要介绍了python输出指定月份日历的方法,涉及Python中calendar模块操作日期的相关技巧,需要的朋友可以参考下
    2015-04-04
  • python:print格式化输出到文件的实例

    python:print格式化输出到文件的实例

    今天小编就为大家分享一篇python:print格式化输出到文件的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-05-05
  • 利用Python写个摸鱼监控进程

    利用Python写个摸鱼监控进程

    继打游戏、看视频等摸鱼行为被监控后,现在打工人离职的倾向也会被监控。今天就带大家领略一下怎么写几行Python代码,就能监控电脑,感兴趣的可以学习一下
    2022-02-02
  • Python flask框架如何显示图像到web页面

    Python flask框架如何显示图像到web页面

    这篇文章主要介绍了Python flask框架如何显示图像到web页面,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-06-06
  • Python开发加薪利器之Docker的使用实践

    Python开发加薪利器之Docker的使用实践

    docker利用容器技术,独立运行一个或者一组应用,docker是基于go语言开发,docker镜像好比是一个模版,可以通过这个模版来创建容器服务,今天通过本文给大家分享Docker的使用实践,感兴趣的朋友跟随小编一起看看吧
    2021-05-05
  • 使用Pytorch导出自定义ONNX算子的示例代码

    使用Pytorch导出自定义ONNX算子的示例代码

    这篇文章主要介绍了使用Pytorch导出自定义ONNX算子的示例代码,下面给出个具体应用中的示例:需要导出pytorch的affine_grid算子,但在pytorch的2.0.1版本中又无法正常导出该算子,故可通过如下自定义算子代码导出,需要的朋友可以参考下
    2024-03-03
  • Python编程实现简易的音乐播放器基本操作

    Python编程实现简易的音乐播放器基本操作

    这篇文章主要来教大家利用Python编程来实现一个简易的音乐播放器,文中含有基本功能的操作示例,有需要的朋友可以借鉴参考下,希望能够有所帮助
    2021-10-10

最新评论