pytorch GPU计算比CPU还慢的可能原因分析

 更新时间:2024年02月22日 08:29:53   作者:Kevin Davis  
这篇文章主要介绍了pytorch GPU计算比CPU还慢的可能原因,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教

1. 张量(tensor)太小,难以并行化计算

我们先来做个简单实验:

import torch
import time

def train(size_list, epochs):

    for s in size_list:

        # CPU
        start_time1 = time.time()
        a = torch.ones(s,s)
        for _ in range(epochs):
            a += a
        cpu_time = time.time() - start_time1

        # GPU
        start_time2 = time.time()
        b = torch.ones(s,s).cuda()
        for _ in range(epochs):
            b += b
        gpu_time = time.time() - start_time2

        print('s = %d, CPU_time = %.4fs, GPU_time = %.4fs'%(s, cpu_time, gpu_time))

size_list = [8, 32, 128, 512]
epochs = 100000
train(size_list, 100000)

s = 8, CPU_time = 0.2252s, GPU_time = 0.6376s
s = 32, CPU_time = 0.3321s, GPU_time = 0.6468s
s = 128, CPU_time = 2.2634s, GPU_time = 0.6493s
s = 512, CPU_time = 9.6728s, GPU_time = 1.5587s

可以看到,在tensor维度比较低(s = 8, 32) 时,CPU的计算耗时比GPU少,这是因为把数据从CPU搬到GPU也是需要时间的,GPU加速带来的收益被这部分搬运时间抵消了,完全展示不出cuda的加速功能。

当tensor维度达到128或以上时,GPU的计算耗时显著低于CPU的计算耗时,这时GPU加速带来的收益远高于搬运数据所花费的时间,展示出GPU加速的强大能力(老黄牛批!)。

咳咳,分析一下:

GPU加速通过大量的计算并行化来工作。 GPU有大量的内核,每个内核都不是很强大,但是核心数量巨大。PyTorch可以使它们尽可能地并行计算,在tensor维度比较高的情况下,GPU能够并行化更多的整体计算,显著减少计算耗时。

因此,如果遇到pytorch 用CPU比GPU还快的情况时,可以看看dataloader里单次输入的 x 维度是否太低,如果太低可以把 batch_size 调大一点,可以的话增加一下数据维度,单次输入的tensor的shape越大,GPU越能并行化计算。

当然,也不要设的太大了,比如batch_size设个大几万啥的,再强的显卡也遭不住这么折腾。

2. 模型太过简单

GPU的强大体现在它的并行计算,数据越大,模型越复杂越能体现出来。

太过简单的模型CPU一下子就算完了,此时的GPU可能才刚接收完数据,没法体现GPU的强大。

因此,解决方案也很简单,换个复杂点的模型或者加深加宽现有的神经网络模型

3. CPU 相对 GPU 强太多

在相同的、没调好的参数情况下,有时候64核的CPU用60%的核心(也就是38个)也能达到一张2080ti显卡(GPU)的效果。

如果CPU是个64核的芯片,而显卡是老黄家的古董960,那CPU比GPU快也是完全有可能的,这时候瓶颈就在显卡了。

总结

以上是我在写bug代码时遇到的情况及可能原因,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • python传递参数方式小结

    python传递参数方式小结

    这篇文章主要介绍了python传递参数方式,实例总结了Python常用的参数传递方式,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-04-04
  • python中cryptography库的实现

    python中cryptography库的实现

    本文主要介绍了python中cryptography库的实现,包括Fernet、hash、AES、RSA等加密算法的使用,具有一定的参加价值,感兴趣的可以了解一下
    2025-01-01
  • Python Sqlalchemy如何实现select for update

    Python Sqlalchemy如何实现select for update

    这篇文章主要介绍了Python Sqlalchemy如何实现select for update,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-10-10
  • PyQT中QTableWidget如何根据单元格内容设置自动宽度

    PyQT中QTableWidget如何根据单元格内容设置自动宽度

    这篇文章主要介绍了PyQT中QTableWidget如何根据单元格内容设置自动宽度问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-05-05
  • 浅谈Python xlwings 读取Excel文件的正确姿势

    浅谈Python xlwings 读取Excel文件的正确姿势

    这篇文章主要介绍了浅谈Python xlwings 读取Excel文件的正确姿势,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-02-02
  • Python使用socket实现组播与发送二进制数据

    Python使用socket实现组播与发送二进制数据

    在工作中经常会用到socket传输数据,例如客户端给服务器发送数据(双方约定了数据格式),本文主要介绍了Python使用socket实现组播与发送二进制数据,感兴趣的可以了解一下
    2021-06-06
  • Python实现对一个函数应用多个装饰器的方法示例

    Python实现对一个函数应用多个装饰器的方法示例

    这篇文章主要介绍了Python实现对一个函数应用多个装饰器的方法,结合实例形式分析了Python编程中一个函数使用多个装饰器的简单操作技巧,需要的朋友可以参考下
    2018-02-02
  • python属于跨平台语言码

    python属于跨平台语言码

    在本篇文章里小编给大家整理的是关于python是否跨平台的相关知识点文章,有兴趣的朋友们可以参考下。
    2020-06-06
  • Python深度学习实战PyQt5布局管理项目示例详解

    Python深度学习实战PyQt5布局管理项目示例详解

    本文具体介绍基本的水平布局、垂直布局、栅格布局、表格布局和进阶的嵌套布局和容器布局,最后通过案例带小白创建一个有型的图形布局窗口
    2021-10-10
  • 通过Python代码实现照片秒变艺术素描画效果

    通过Python代码实现照片秒变艺术素描画效果

    这篇文章主要介绍了通过Python和OpenCV实现照片素描效果的“三步走”策略,并提供了示例代码,步骤包括灰度化、反转与模糊以及混合,最终生成类似铅笔素描的艺术效果,需要的朋友可以参考下
    2025-11-11

最新评论