Ollama 运行模型(Ollama 模型的简要指南)
运行 Ollama 模型是在本地使用大语言模型(LLM)进行推理、对话或其他任务的核心步骤。以下是运行 Ollama 模型的简要指南,涵盖拉取模型、运行模型以及常见配置,适用于已安装 Ollama 的 Windows、macOS 或 Linux 系统。
一. 拉取模型
在运行模型之前,需要从 Ollama 模型库下载模型到本地。
命令:
ollama pull <model-name>
示例:拉取 LLaMA 3 模型(8B 参数版本):
ollama pull llama3
常见模型:
llama3:Meta 的 LLaMA 3,适合通用任务。mistral:Mistral AI 的高效模型。phi3:微软的轻量级模型,适合低配置设备。
查看更多模型:访问 Ollama 模型库 或运行 ollama list。
注意:
模型文件较大(几 GB),确保网络稳定和磁盘空间充足。
可选择不同大小的模型(如 llama3:8b 或 llama3:70b),小模型更适合低配硬件。
二. 运行模型
Ollama 提供两种主要方式运行模型:交互式终端和 API 调用。
方式 1:交互式终端
命令:
ollama run <model-name>
示例:
ollama run llama3
效果:
进入交互模式,直接输入提示(prompt)与模型对话。
示例输入:What is the capital of France? 模型会返回 The capital of France is Paris.
退出:输入 /exit 或按 Ctrl+D。
方式 2:通过 API 运行
Ollama 提供 REST API,适合集成到应用或脚本中。
默认地址:http://localhost:11434
示例(使用 curl):
curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt": "Write a short poem about the moon."
}'响应:模型会返回生成的文本,格式为 JSON。
编程集成:使用 Python、Node.js 等调用 API。例如 Python 代码:
import requests
response = requests.post('http://localhost:11434/api/generate', json={
'model': 'llama3',
'prompt': 'Hello, world!'
})
print(response.json())三. 管理运行中的模型
查看已下载模型:
ollama list
删除模型(释放空间):
ollama rm <model-name>
查看运行状态:
ollama ps
AI写代码bash
显示当前运行的模型实例。
四. 优化运行性能
硬件要求:
小模型(如 phi3):4-8GB 内存即可。
大模型(如 llama3:70b):建议 16GB+ 内存和 GPU。
GPU 支持:
确保安装 NVIDIA CUDA 驱动(Linux/Windows)或 Metal(macOS)。
Ollama 自动检测并使用 GPU 加速(若可用)。
参数调整:
使用 --verbose 查看运行详情。
自定义模型参数(如温度、top-k):通过 API 指定,例如:
{
"model": "llama3",
"prompt": "Tell a story",
"temperature": 0.7,
"top_p": 0.9
}多模型运行:
Ollama 支持同时运行多个模型,但需足够内存和 CPU/GPU 资源。
五. 常见问题
模型未找到:确保已通过 ollama pull 下载模型。
运行缓慢:尝试更小模型或启用 GPU 加速。
端口占用:Ollama 默认使用 11434 端口,若冲突,可通过环境变量修改:
export OLLAMA_HOST=127.0.0.1:11435
内存不足:关闭其他程序或选择更小模型。
六. 进阶使用
自定义模型:[通过 Modelfile 创建自定义模型,定义提示、参数等:
ollama create mymodel -f Modelfile
批量处理:编写脚本循环调用 API,处理大量任务。
嵌入生成:使用 /api/embeddings 端点生成文本嵌入,适用于搜索或分类任务。
示例场景
对话:运行 ollama run mistral 与模型聊天。
代码生成:输入 Write a Python script to sort a list 获取代码。
API 集成:将 Ollama 嵌入 Web 应用,实时生成内容。
如需特定模型运行示例、API 集成代码或故障排除帮助,请告诉我!
七.ollama run 命令
Ollama 运行模型使用 ollama run 命令。
例如我们要运行 Llama 3.2 并与该模型对话可以使用以下命令:
ollama run llama3.2
执行以上命令如果没有该模型会去下载 llama3.2 模型:

等待下载完成后,我们在终端中,输入以下命令来加载 LLama3.2 模型并进行交互:
writing manifest success >>> 你好 Hello >>> 能讲中文吗 是的,我可以在 Chinese 中对話。哪些话题或问题想要了解我呢?
结束对话可以输入 /bye 或按 Ctrl+d 按键来结束。
我们可以使用 ollama list,查看已安装的模型:
NAME ID SIZE MODIFIED llama3.2 baf6a787fdff 1.3 GB 4 minutes ago
Ollama 支持的模型可以访问:https://ollama.com/library

下表列出一些模型的下载命令:
| 模型 | 参数 | 大小 | 下载命令 |
|---|---|---|---|
| Llama 3.3 | 70B | 43GB | ollama run llama3.3 |
| Llama 3.2 | 3B | 2.0GB | ollama run llama3.2 |
| Llama 3.2 | 1B | 1.3GB | ollama run llama3.2:1b |
| Llama 3.2 Vision | 11B | 7.9GB | ollama run llama3.2-vision |
| Llama 3.2 Vision | 90B | 55GB | ollama run llama3.2-vision:90b |
| Llama 3.1 | 8B | 4.7GB | ollama run llama3.1 |
| Llama 3.1 | 405B | 231GB | ollama run llama3.1:405b |
| Phi 4 | 14B | 9.1GB | ollama run phi4 |
| Phi 3 Mini | 3.8B | 2.3GB | ollama run phi3 |
| Gemma 2 | 2B | 1.6GB | ollama run gemma2:2b |
| Gemma 2 | 9B | 5.5GB | ollama run gemma2 |
| Gemma 2 | 27B | 16GB | ollama run gemma2:27b |
| Mistral | 7B | 4.1GB | ollama run mistral |
| Moondream 2 | 1.4B | 829MB | ollama run moondream |
| Neural Chat | 7B | 4.1GB | ollama run neural-chat |
| Starling | 7B | 4.1GB | ollama run starling-lm |
| Code Llama | 7B | 3.8GB | ollama run codellama |
| Llama 2 Uncensored | 7B | 3.8GB | ollama run llama2-uncensored |
| LLaVA | 7B | 4.5GB | ollama run llava |
| Solar | 10.7B | 6.1GB | ollama run solar |
八.通过 Python SDK 使用模型
如果你希望将 Ollama 与 Python 代码集成,可以使用 Ollama 的 Python SDK 来加载和运行模型。
1. 安装 Python SDK
首先,需要安装 Ollama 的 Python SDK,打开终端,执行以下命令:
pip install ollama
2. 编写 Python 脚本
接下来,你可以使用 Python 代码来加载和与模型交互。
以下是一个简单的 Python 脚本示例,演示如何使用 LLama3.2 模型来生成文本:
import ollama response = ollama.generate( model="llama3.2", # 模型名称 prompt="你是谁。" # 提示文本 ) print(response)
3. 运行 Python 脚本
在终端中运行你的 Python 脚本:
python test.py
你会看到模型根据你的输入返回的回答。
4.对话模式
from ollama import chat
response = chat(
model="llama3.2",
messages=[
{"role": "user", "content": "为什么天空是蓝色的?"}
]
)
print(response.message.content)此代码会与模型进行对话,并打印模型的回复。
5. 流式响应
from ollama import chat
stream = chat(
model="llama3.2",
messages=[{"role": "user", "content": "为什么天空是蓝色的?"}],
stream=True
)
for chunk in stream:
print(chunk["message"]["content"], end="", flush=True)此代码会以流式方式接收模型的响应,适用于处理大数据。
相关文章
运行 Ollama 模型是在本地使用大语言模型(LLM)进行推理、对话或其他任务的核心步骤,以下是运行 Ollama 模型的简要指南,涵盖拉取模型、运行模型以及常见配置,适用于已安2026-03-08
Ollama 简单安装(windows/mac/linux/docker)
Ollama 支持多种操作系统,包括 macOS、Windows、Linux 以及通过 Docker 容器运行,Ollama 对硬件要求不高,旨在让用户能够轻松地在本地运行、管理和与大型语言模型进行交互2026-03-07
Ollama 可以说是一个让你在自家电脑上就能轻松玩转大语言模型的“AI 模型管家”,它的核心作用就是将复杂的大模型本地部署过程,简化到只需几行命令,让每个人都能便捷、安2026-03-07
Ollama最新版安装包下载和安装步骤(开源,简单,小白5分钟学会)
本文详细介绍了Ollama的安装流程,包括Windows和Linux两个平台的安装步骤,以及如何修改模型存储路径和使用示例,本文给大家介绍的非常详细,感兴趣的朋友跟随小编一起看看吧2026-03-06






最新评论