ollama配置使用GPU的方法步骤

  发布时间:2026-04-30 10:32:23   作者:努力的小Qin   我要评论
本文介绍了在Windows系统上配置Ollama使用GPU加速的步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

第一步:查看自己显卡是否支持

第二步:查看本机显卡参数

命令:nvidia-smi

第三步:安装cuda toolkit

cuda toolkit下载地址:https://developer.nvidia.com/cuda-toolkit-archive
请记住流程安装选local而非network
安装完后验证是否安装成功,命令:nvcc --version

第四步:设置ollama 环境变量

添加以下环境变量:

  • 变量名:OLLAMA_GPU_LAYER
  • 变量值:cuda

指定特定的 GPU,可以添加以下环境变量:

  • 变量名:CUDA_VISIBLE_DEVICES
  • 变量值:GPU的UUID(方法如下)

GPU的UUID查看命令:nvidia-smi -L

第五步:验证是否使用gpu

运行大模型

然后再起一个命令行 输入 ollama ps 就可以看到 processor里面有cpu与gpu运行百分比

Ollama可配置环境变量

  • OLLAMA_DEBUG: 显示额外的调试信息(例如:OLLAMA_DEBUG=1)。
  • OLLAMA_HOST: Ollama 服务器的 IP 地址(默认值:127.0.0.1:11434)。
  • OLLAMA_KEEP_ALIVE: 模型在内存中保持加载的时长(默认值:“5m”),设置为-1表示常驻内存运行。
  • OLLAMA_MAX_LOADED_MODELS: 每个 GPU 上最大加载模型数量。
  • OLLAMA_MAX_QUEUE: 请求队列的最大长度。
  • OLLAMA_MODELS: 模型目录的路径。
  • OLLAMA_NUM_PARALLEL: 最大并行请求数。
  • OLLAMA_NOPRUNE: 启动时不修剪模型 blob。
  • OLLAMA_ORIGINS: 允许的源列表,使用逗号分隔。
  • OLLAMA_SCHED_SPREAD: 始终跨所有 GPU 调度模型。
  • OLLAMA_TMPDIR: 临时文件的位置。
  • OLLAMA_FLASH_ATTENTION: 启用 Flash Attention。
  • OLLAMA_LLM_LIBRARY: 设置 LLM 库以绕过自动检测。

windows系统上设置直接在环境变量中设置即可。

到此这篇关于ollama配置使用GPU的方法步骤的文章就介绍到这了,更多相关ollama配置GPU内容请搜索脚本之家以前的文章或继续浏览下面的相关文章,希望大家以后多多支持脚本之家!

相关文章

  • 查看Ollama GPU资源使用情况的两种方法

    本文主要介绍了如何查看Ollama的GPU内存使用情况,包括通过命令行工具ollamaps和任务管理器两种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考
    2026-03-09

最新评论