Ollama本地大模型安装配置的完整流程教学

  发布时间:2026-04-12 11:03:23   作者:大崔的Linux导航   我要评论
Ollama是一个轻量级、易于使用的大模型管理和部署工具,主要用于简化大模型的运行和交互,并且为开发者和用户提供了快速加载,管理和调用多种主流大模型的能力,下面我们就来看看Ollama本地大模型安装配置的完整教程吧

Ollama介绍和特性

Ollama是一个轻量级、易于使用的大模型管理和部署工具,主要用于简化大模型的运行和交互。并且为开发者和用户提供了快速加载、管理和调用多种主流大模型的能力,同时支持本地化部署各类大模型。

核心特点:

  • ✓ 轻量化设计:Ollama体积小巧,安装简单,适合个人开发者和小型团队
  • ✓ 多模型支持:支持多种主流大模型,如Llama系列、Qwen系列、Deepseek系列等
  • ✓ 资源优化:通过量化技术降低模型显存占用,减少对高性能GPU的依赖
  • ✓ 易用性:提供命令行工具和图形化界面,方便用户操作
  • ✓ 扩展性强:可以与其他工具(如 Kubernetes、Docker)结合,实现分布式部署和管理

Ollama与其它工具对比

Ollama

官网:https://ollama.com/

安装简单,提供 CLI 和 WebUI,适合初学者和开发者。支持量化技术降低内存占用,适合普通硬件、支持 Linux、macOS 和 Windows、支持大部分主流模型。但是 Ollama 并发性能不如 vLLM。

vLLM

官网:https://vllm.ai/

vLLM 是一个高效的大模型推理和服务引擎,在多 GPU 环境下性能表现优异,更适合大规模在线推理服务。但是 vLLM 的部署复杂度较高,需要一定的技术基础,主要面向 Linux,跨平台支持有限。

LocalAI

官网:https://localai.io/

LocalAI 和 Ollama 相似,是一个轻量级的本地大模型服务框架,开箱即用,无需复杂配置。但是性能优化不如 vLLM 和 Ollama,并且功能较少,比如不支持多线程加速等。

Ollama安装部署

Linux 手动安装 Ollama

下载并安装 Ollama:

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz
sudo tar -C /usr -xzf ollama-linux-amd64.tgz

创建 Ollama 专用用户:

sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama
sudo usermod -a -G ollama $(whoami)

创建 Ollama 模型存储目录:

mkdir /data/ollama/models
chown -R ollama.ollama /data/ollama/

创建 Ollama 启动 Service:

[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_MODELS=/data/ollama/models"

[Install]
WantedBy=default.target

将上述配置保存到 /etc/systemd/system/ollama.service

启动 Ollama 服务:

systemctl daemon-reload
systemctl enable --now ollama

查看启动状态:

systemctl status ollama

预期输出:

● ollama.service - Ollama Service
   Loaded: loaded (/etc/systemd/system/ollama.service; enabled; vendor preset: disabled)
   Active: active (running) since ...

测试端口:

curl 127.0.0.1:11434

预期输出:

Ollama is running

Ollama 常用命令详解

下载模型

ollama pull deepseek-r1:1.5b

输出示例:

pulling manifest
pulling aabd4debf0c8... 100% ▕██████████████████████████████████████████████████████████████████████████▏ 1.1 GB
pulling 369ca498f347... 100% ▕██████████████████████████████████████████████████████████████████████████▏ 387 B
pulling 6e4c38e1172f... 100% ▕██████████████████████████████████████████████████████████████████████████▏ 1.1 KB
pulling f4d24e9138dd... 100% ▕██████████████████████████████████████████████████████████████████████████▏ 148 B
pulling a85fe2a2e58e... 100% ▕██████████████████████████████████████████████████████████████████████████▏ 487 B
verifying sha256 digest
writing manifest
success

查看本地模型列表

ollama list

输出示例:

NAME               ID            SIZE    MODIFIED
deepseek-r1:1.5b   a42b25d8c10a 1.1 GB  3 minutes ago
phi:latest         e2fd6321a5fe 1.6 GB  27 minutes ago

查看模型详情

ollama show deepseek-r1:1.5b

输出示例:

  architecture        qwen2
  parameters          1.8B
  context length      131072
  embedding length    1536
  quantization        Q4_K_M

Parameters
  stop "<|begin▁of▁sentence|>"
  stop "<|end▁of▁sentence|>"
  stop "<|User|>"
  stop "<|Assistant|>"

License
  MIT License
  Copyright (c) 2023 DeepSeek

启动一个模型并进入交互模式

ollama run phi

交互示例:

>>> who are you?
I am Phi, a large language model trained by Microsoft. I'm here to help you with any questions or tasks you have. What can I assist you with today?

查看当前正在运行的模型

ollama ps

输出示例:

NAME               ID            SIZE    PROCESSOR   UNTIL
phi:latest         e2fd6321a5fe 5.4 GB  100% GPU   4 minutes from now
deepseek-r1:1.5b   a42b25d8c10a 2.0 GB  100% GPU   About a minute from now

停止一个运行中的模型

ollama stop phi:latest

停止后再次查看:

ollama ps

输出示例:

NAME               ID            SIZE    PROCESSOR   UNTIL
deepseek-r1:1.5b   a42b25d8c10a 2.0 GB  100% GPU   17 seconds from now

删除一个本地模型

ollama rm phi:latest

输出示例:

deleted 'phi:latest'

删除后再次查看:

ollama list

输出示例:

NAME               ID            SIZE    MODIFIED
deepseek-r1:1.5b   a42b25d8c10a 1.1 GB  42 hours ago

Ollama WebUI 部署

注意:Ollama WebUI 需要使用 Docker 启动,如果服务器没有安装 Docker,需要先安装 Docker。

创建数据目录:

mkdir -p /data/ollama/webui

直接使用 docker 部署即可:

docker run -d -p 3000:8080 -e ENABLE_OPENAI_API=false -e OLLAMA_BASE_URL=http://[OLLAMA_HOST]:11434 -e HF_HUB_OFFLINE=1 -v /data/ollama/models:/root/.ollama -v /data/ollama/webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

启动后通过宿主机的 3000 端口访问即可。

Ollama 服务端常用配置

启动 Ollama 服务端:

ollama serve

使用自定义端口启动:

OLLAMA_HOST=0.0.0.0:11435 ollama serve

常用环境变量:

环境变量说明默认值
OLLAMA_DEBUG启用调试模式,设置为 1 表示开启-
OLLAMA_HOST指定 Ollama 服务绑定的 IP 地址和端口127.0.0.1:11434
OLLAMA_KEEP_ALIVE设置模型在内存中保持加载的时间5m
OLLAMA_MAX_LOADED_MODELS限制每块 GPU 上同时加载的最大模型数量-
OLLAMA_MAX_QUEUE设置请求队列的最大长度,超过限制新请求会被拒绝-
OLLAMA_MODELS指定模型文件存储的目录路径~/.ollama/models
OLLAMA_NUM_PARALLEL限制同时处理的最大并行请求数-
OLLAMA_NOPRUNE禁用启动时模型清理操作-
OLLAMA_ORIGINS指定允许跨域访问的来源列表(逗号分隔)-
OLLAMA_SCHED_SPREAD强制将模型调度到所有可用 GPU 上,均匀分布-
OLLAMA_FLASH_ATTENTION启用 Flash Attention 技术,硬件不支持可能报错-
OLLAMA_KV_CACHE_TYPE指定 K/V 缓存的量化类型f16
OLLAMA_GPU_OVERHEAD预留显存,防止其他进程因显存不足而崩溃-
OLLAMA_LOAD_TIMEOUT设置模型加载的最大超时时间(分钟)5m

限制使用指定GPU

默认情况下,Ollama 可以使用所有可用 GPU 进行模型推理。如果需要限制 Ollama 只能使用特定的 GPU,可以通过 CUDA_VISIBLE_DEVICES 环境变量进行控制。

例如,限制 Ollama 只能使用 01 两个 GPU,编辑 /etc/systemd/system/ollama.service

[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_MODELS=/data/ollama/models"
Environment="CUDA_VISIBLE_DEVICES=0,1"

[Install]
WantedBy=default.target

修改完成后,重新加载配置并重启 Ollama 服务:

systemctl daemon-reload
systemctl restart ollama

进阶说明

如果你的系统中搭载了多张英伟达显卡,且希望限制 Ollama 仅使用其中部分显卡,可将 CUDA_VISIBLE_DEVICES 设置为以逗号分隔的显卡列表。

  • 使用数字编号:可以直接使用数字编号作为显卡标识,但编号顺序可能会发生变化
  • 使用 UUID(推荐):使用 UUID 更为可靠,不会因硬件变更而改变

查看显卡的 UUID:

nvidia-smi -L

强制使用 CPU 运算:如果想忽略显卡并强制 Ollama 使用 CPU 运算,可输入无效的显卡编号,例如:

Environment="CUDA_VISIBLE_DEVICES=-1"

到此这篇关于Ollama本地大模型安装配置的完整流程教学的文章就介绍到这了,更多相关Ollama本地大模型安装配置内容请搜索脚本之家以前的文章或继续浏览下面的相关文章,希望大家以后多多支持脚本之家!

相关文章

  • Python + Ollama 本地跑大模型:零成本搭建你的私有 AI 助手

    文章介绍Ollama本地AI助手的安装方法,从环境准备、快速上手到实战项目,并探讨了其核心优势,包括零成本、零数据风险、零门槛和零妥协,通过使用Ollama,用户可以在本地运行大
    2026-04-09
  • 三种快速安装下载OLLAMA的方法小结(任何版本都适用)

    本文主要介绍了三种快速下载OLLAMA的方法小结,文中通过图文步骤介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2026-03-31
  • ollama本地部署DeepSeek教程的实现

    本文主要介绍如何使用ollama本地部署deepseek大模型,以及使用WebUI工具界面进行交互,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需
    2026-03-31
  • Docker部署Ollama搭建本地AI开发环境

    本文介绍如何通过Docker+Ollama搭建本地AI开发环境,解决云端API调用成本高、延迟大的问题,帮助开发者快速实现本地AI应用开发,无需担心API调用限制和费用问题,感兴趣的可
    2026-03-30
  • Windows11下Ollama部署Qwen2.5大模型的实战指南

    本文旨在记录 如何在Windows 11 本地环境下,利用 Ollama 部署 Qwen2.5 大模型,并实现 API 调用,无需显卡也能跑”、能够确保隐私安全,有需要的小伙伴可以跟随小编一起了解
    2026-03-18
  • Ollama 模型交互的三种方式介绍

    与 Ollama 模型交互是使用大语言模型(LLM)进行对话、生成文本或执行任务的核心功能,Ollama 提供两种主要交互方式:通过命令行界面(CLI)的交互式终端和通过 REST API 的
    2026-03-09
  • Ollama 模型交互基础篇

    Ollama 提供了多种方式与模型进行交互,其中最常见的就是通过命令行进行推理操作
    2026-03-09

最新评论