DeepSeek部署之GPU监控指标接入Prometheus的过程

 更新时间:2025年02月15日 13:52:55   作者:程序员Rocky  
文章介绍了如何在GPU主机上部署DeepSeek大模型,并使用GPU资源加速推理计算,通过监控主机GPU的显存使用情况等指标,可以更好地进行运维和优化,感兴趣的朋友跟随小编一起看看吧

一、背景

        上一篇文章介绍了在GPU主机部署DeepSeek大模型。并且DeepSeek使用到了GPU资源来进行推理和计算的过程,加速我们模型的回答速度。

        由此,我们必须要关注主机GPU的监控指标情况,例如总的显卡显存大小、占用的显存大小、显卡的版本信息、驱动信息等等,才能对CPU运行情况、利用率等做到心中有数,便于后期的运维、高可用性等。

二、部署nvidia_gpu_exporter

1、nvidia_gpu_exporter介绍

        地址: GitHub - utkuozdemir/nvidia_gpu_exporter: Nvidia GPU exporter for prometheus using nvidia-smi binary

        我们可以使用nvidia_gpu_exporter本质原理是用过nvidia-smi指令采集GPU的信息,然后转换为prometheus metric。

        所以部署nvidia_gpu_exporter之前,需要正常安装号nvidia-smi,并且安装好了nvidia驱动、CUDA驱动等。

        正常执行nvidia-smi如下:

nvidia-smi

2、docker部署,测试/metrics是否正常

执行docker命令:

docker run -d --gpus=all -p 32768:9835 utkuozdemir/nvidia_gpu_exporter:1.3.0-amd64

通过curl访问主机的32768(端口可以自己做映射), 访问/metrics接口看是否可以正常拿到指标数据:

curl -s localhost:32768/metrics | grep 'nvidia'

三、配置prometheus+Grafana

1、配置prometheus进行采集

配置promethues.yml文件:

查看promethues的target是否正常能采集到数据:

搜索指标是否已经入库:

2、Grafana面板搜索并且导入面板

搜索gpu关键词,查询到面板ID:

3、导入Grafana面板ID,查看效果

        面板可以看到GPU的型号是RTX 4090、显存的使用情况等指标, 此时我正在服务器运行deepseek-r1:1.5b的模型,所以看到GPU的相关使用。如果将模型停止运行,则GPU基本上无占用

四、总结

        AI人工智能、大模型等理论知识我们都能多少了解点,但是今天看了一些大佬的教程,稍微深入了一下使用PyTorch进行了一些基础、简单模型的训练以及部署运行, 发现从零开始去尝试做机器学习的相关开发工作简直是天方夜谈,涉及到的就是各种概率学、统计学、线性代数、算法等等,门槛是相当高。

         既然无法做开发,那么从运维工程师的角度出发,了解PyTorch、tensorflow等深度学习框架的部署、模型的运行等等,继续在运维路上前进,扬长避短,才能发挥自我优势!

到此这篇关于DeepSeek部署之GPU监控指标接入Prometheus的文章就介绍到这了,更多相关DeepSeek GPU接入Prometheus内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Django 使用 cookie 实现简单的用户管理功能

    Django 使用 cookie 实现简单的用户管理功能

    这篇文章主要介绍了Django 使用 cookie 实现简单的用户管理功能,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-06-06
  • 前端图片加载失败、 img出现裂图的原因超详细解析

    前端图片加载失败、 img出现裂图的原因超详细解析

    这篇文章主要介绍了前端图片加载失败、 img出现裂图原因的相关资料,图片加载失败主要由路径错误、格式问题、浏览器缓存、图片过大和编码问题导致,需要的朋友可以参考下
    2026-02-02
  • Clawdbot(Moltbot)保姆级安装教程

    Clawdbot(Moltbot)保姆级安装教程

    最近,Clawdbot 在技术圈彻底火了,这种热度让人联想到去年 Manus 发布时的盛况,几乎在一夜之间引爆了互联网,所以本文给大家介绍了Clawdbot(Moltbot)安装的保姆级教程,需要的朋友可以参考下
    2026-02-02
  • GCC 指令详解及动态库、静态库的使用方法

    GCC 指令详解及动态库、静态库的使用方法

    GCC 是 Linux 下的编译工具集,是「GNU Compiler Collection」的缩写,包含 gcc、g++ 等编译器,这篇文章主要介绍了GCC 指令详解及动态库、静态库的使用,需要的朋友可以参考下
    2022-10-10
  • IDEA出现java:程序包javax.servlet不存在问题解决方法

    IDEA出现java:程序包javax.servlet不存在问题解决方法

    这篇文章主要给大家介绍了关于IDEA出现java:程序包javax.servlet不存在问题的解决方法,这个错误提示意味着你的Java程序中缺少了javax.servlet这个包,文中通过图文介绍的非常详细,需要的朋友可以参考下
    2023-11-11
  • Crystal最新发布v1.3.0语法相似Ruby编译型编程语言

    Crystal最新发布v1.3.0语法相似Ruby编译型编程语言

    Crystal 是一种通用的、面向对象的编程语言,由 Ary Borenszweig、Juan Wajnerman、Brian Cardiff 和 300 多名贡献者设计开发
    2022-01-01
  • idea2023连接gitee远程仓库的实现方法

    idea2023连接gitee远程仓库的实现方法

    在我们平时做项目的过程中,经常会遇到分工合作,一起完成一个项目,就会借助其它的一些项目管理工具,来帮助我们更方便的开发,本文主要介绍了idea2023连接gitee远程仓库的实现方法,感兴趣的可以了解一下
    2024-01-01
  • Hadoop 分布式存储系统 HDFS的实例详解

    Hadoop 分布式存储系统 HDFS的实例详解

    HDFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系统。这篇文章主要介绍了Hadoop 分布式存储系统 HDFS,需要的朋友可以参考下
    2019-06-06
  • webstorm配置eslint一键格式化代码的方法详解

    webstorm配置eslint一键格式化代码的方法详解

    在项目中我们为了代码书写更规范,在项目中安装ESlint帮助我们检查语法,这篇文章主要给大家介绍了关于webstorm配置eslint一键格式化代码的相关资料,需要的朋友可以参考下
    2024-02-02
  • UTC时间、GMT时间、本地时间、Unix时间戳的具体使用

    UTC时间、GMT时间、本地时间、Unix时间戳的具体使用

    本文主要介绍了UTC时间、GMT时间、本地时间、Unix时间戳的具体使用,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-09-09

最新评论