DeepSeek部署之GPU监控指标接入Prometheus的过程

 更新时间:2025年02月15日 13:52:55   作者:程序员Rocky  
文章介绍了如何在GPU主机上部署DeepSeek大模型,并使用GPU资源加速推理计算,通过监控主机GPU的显存使用情况等指标,可以更好地进行运维和优化,感兴趣的朋友跟随小编一起看看吧

一、背景

        上一篇文章介绍了在GPU主机部署DeepSeek大模型。并且DeepSeek使用到了GPU资源来进行推理和计算的过程,加速我们模型的回答速度。

        由此,我们必须要关注主机GPU的监控指标情况,例如总的显卡显存大小、占用的显存大小、显卡的版本信息、驱动信息等等,才能对CPU运行情况、利用率等做到心中有数,便于后期的运维、高可用性等。

二、部署nvidia_gpu_exporter

1、nvidia_gpu_exporter介绍

        地址: GitHub - utkuozdemir/nvidia_gpu_exporter: Nvidia GPU exporter for prometheus using nvidia-smi binary

        我们可以使用nvidia_gpu_exporter本质原理是用过nvidia-smi指令采集GPU的信息,然后转换为prometheus metric。

        所以部署nvidia_gpu_exporter之前,需要正常安装号nvidia-smi,并且安装好了nvidia驱动、CUDA驱动等。

        正常执行nvidia-smi如下:

nvidia-smi

2、docker部署,测试/metrics是否正常

执行docker命令:

docker run -d --gpus=all -p 32768:9835 utkuozdemir/nvidia_gpu_exporter:1.3.0-amd64

通过curl访问主机的32768(端口可以自己做映射), 访问/metrics接口看是否可以正常拿到指标数据:

curl -s localhost:32768/metrics | grep 'nvidia'

三、配置prometheus+Grafana

1、配置prometheus进行采集

配置promethues.yml文件:

查看promethues的target是否正常能采集到数据:

搜索指标是否已经入库:

2、Grafana面板搜索并且导入面板

搜索gpu关键词,查询到面板ID:

3、导入Grafana面板ID,查看效果

        面板可以看到GPU的型号是RTX 4090、显存的使用情况等指标, 此时我正在服务器运行deepseek-r1:1.5b的模型,所以看到GPU的相关使用。如果将模型停止运行,则GPU基本上无占用

四、总结

        AI人工智能、大模型等理论知识我们都能多少了解点,但是今天看了一些大佬的教程,稍微深入了一下使用PyTorch进行了一些基础、简单模型的训练以及部署运行, 发现从零开始去尝试做机器学习的相关开发工作简直是天方夜谈,涉及到的就是各种概率学、统计学、线性代数、算法等等,门槛是相当高。

         既然无法做开发,那么从运维工程师的角度出发,了解PyTorch、tensorflow等深度学习框架的部署、模型的运行等等,继续在运维路上前进,扬长避短,才能发挥自我优势!

到此这篇关于DeepSeek部署之GPU监控指标接入Prometheus的文章就介绍到这了,更多相关DeepSeek GPU接入Prometheus内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 最新idea2021最新激活超详细教程

    最新idea2021最新激活超详细教程

    最近有朋友向小编反应idea激活码失效的问题,今天小编给大家推荐使用通过无限重置试用期持续激活,需要的朋友参考下吧
    2020-09-09
  • 详解git commit --amend 用法

    详解git commit --amend 用法

    这篇文章主要介绍了详解git commit --amend 用法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-08-08
  • curl和wget检测网页状态的区别

    curl和wget检测网页状态的区别

    curl和Wget在linux日常使用中非常常见,它们都可以向服务器发出请求,curl和Wget的一个最明显的区别是:默认情况下Wget将查询的网页保存到系统,而 curl将其显示在终端输出中但不保存它,curl的使用率比Wget多得多
    2025-04-04
  • 测试框架JUnit VS TestNG对比分析

    测试框架JUnit VS TestNG对比分析

    这篇文章主要为大家介绍了测试框架JUnit VS TestNG对比分析详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-07-07
  • MobaXterm使用指南(常用功能)

    MobaXterm使用指南(常用功能)

    MobaXterm就是一款SSH客户端,它帮助我们在Windows操作系统下去连接并操作Linux服务器,这篇文章主要介绍了MobaXterm使用指南,需要的朋友可以参考下
    2023-05-05
  • git中cherry-pick命令的使用教程

    git中cherry-pick命令的使用教程

    这篇文章介绍了git中cherry-pick命令的使用方法,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-06-06
  • 使用roolup构建你的lib(实现步骤)

    使用roolup构建你的lib(实现步骤)

    大家都知道Rollup更加适合用于构建lib 而 Webpack, Precel 更加适合开发应用。本文,将结合一个简单的例子说说如何使用Rollup构建自己的lib,感兴趣的朋友一起看看吧
    2021-08-08
  • 0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

    0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

    DeepSeek R1 模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发挥重要作用,推动各行业的智能化发展,文章介绍了如何使用蓝耘元生代智算云在本地部署DeepSeekR1模型,感兴趣的朋友一起看看吧
    2025-02-02
  • chatgpt成功解决Access denied 1020错误问题(最新推荐)

    chatgpt成功解决Access denied 1020错误问题(最新推荐)

    从前两天网上开始一直开着的chatgpt网页突然打不开了,提示1020错误,尝试换了不同代理软件或者代理地点仍然无法解决,这篇文章主要介绍了chatgpt成功解决Access denied 1020错误,需要的朋友可以参考下
    2023-05-05
  • 每个程序员都应该学习使用Python或Ruby

    每个程序员都应该学习使用Python或Ruby

    在这篇文章里,我将会告诉你,为什么你一定要学习Python或Ruby语言
    2016-07-07

最新评论