Ollama 运行模型(Ollama 模型的简要指南)

发布时间：2026-03-08 00:10:20 作者：佚名

运行 Ollama 模型是在本地使用大语言模型（LLM）进行推理、对话或其他任务的核心步骤,以下是运行 Ollama 模型的简要指南，涵盖拉取模型、运行模型以及常见配置，适用于已安装 Ollama 的 Windows、macOS 或 Linux 系统

一. 拉取模型

在运行模型之前，需要从 Ollama 模型库下载模型到本地。

命令：

ollama pull <model-name>

示例：拉取 LLaMA 3 模型（8B 参数版本）：

ollama pull llama3

常见模型：

llama3：Meta 的 LLaMA 3，适合通用任务。
mistral：Mistral AI 的高效模型。
phi3：微软的轻量级模型，适合低配置设备。

查看更多模型：访问 Ollama 模型库或运行 ollama list。

注意：

模型文件较大（几 GB），确保网络稳定和磁盘空间充足。

可选择不同大小的模型（如 llama3:8b 或 llama3:70b），小模型更适合低配硬件。

二. 运行模型

Ollama 提供两种主要方式运行模型：交互式终端和 API 调用。

方式 1：交互式终端

命令：

ollama run <model-name>

示例：

ollama run llama3

效果：

进入交互模式，直接输入提示（prompt）与模型对话。

示例输入：What is the capital of France? 模型会返回 The capital of France is Paris.

退出：输入 /exit 或按 Ctrl+D。

方式 2：通过 API 运行

Ollama 提供 REST API，适合集成到应用或脚本中。

默认地址：http://localhost:11434

示例（使用 curl）：

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Write a short poem about the moon."
}'

响应：模型会返回生成的文本，格式为 JSON。

编程集成：使用 Python、Node.js 等调用 API。例如 Python 代码：

import requests
response = requests.post('http://localhost:11434/api/generate', json={
    'model': 'llama3',
    'prompt': 'Hello, world!'
})
print(response.json())

三. 管理运行中的模型

查看已下载模型：

ollama list

删除模型（释放空间）：

ollama rm <model-name>

查看运行状态：

ollama ps

AI写代码bash

显示当前运行的模型实例。

四. 优化运行性能

硬件要求：

小模型（如 phi3）：4-8GB 内存即可。

大模型（如 llama3:70b）：建议 16GB+ 内存和 GPU。

GPU 支持：

确保安装 NVIDIA CUDA 驱动（Linux/Windows）或 Metal（macOS）。

Ollama 自动检测并使用 GPU 加速（若可用）。

参数调整：

使用 --verbose 查看运行详情。

自定义模型参数（如温度、top-k）：通过 API 指定，例如：

{
  "model": "llama3",
  "prompt": "Tell a story",
  "temperature": 0.7,
  "top_p": 0.9
}

多模型运行：

Ollama 支持同时运行多个模型，但需足够内存和 CPU/GPU 资源。

五. 常见问题

模型未找到：确保已通过 ollama pull 下载模型。

运行缓慢：尝试更小模型或启用 GPU 加速。

端口占用：Ollama 默认使用 11434 端口，若冲突，可通过环境变量修改：

export OLLAMA_HOST=127.0.0.1:11435

内存不足：关闭其他程序或选择更小模型。

六. 进阶使用

自定义模型：[通过 Modelfile 创建自定义模型，定义提示、参数等：

ollama create mymodel -f Modelfile

批量处理：编写脚本循环调用 API，处理大量任务。

嵌入生成：使用 /api/embeddings 端点生成文本嵌入，适用于搜索或分类任务。

示例场景

对话：运行 ollama run mistral 与模型聊天。

代码生成：输入 Write a Python script to sort a list 获取代码。

API 集成：将 Ollama 嵌入 Web 应用，实时生成内容。

如需特定模型运行示例、API 集成代码或故障排除帮助，请告诉我！

七.ollama run 命令

Ollama 运行模型使用 ollama run 命令。

例如我们要运行 Llama 3.2 并与该模型对话可以使用以下命令：

ollama run llama3.2

执行以上命令如果没有该模型会去下载 llama3.2 模型：

六. 进阶使用

等待下载完成后，我们在终端中，输入以下命令来加载 LLama3.2 模型并进行交互：

writing manifest 
success 
>>> 你好
Hello
>>> 能讲中文吗
是的，我可以在 Chinese 中对話。哪些话题或问题想要了解我呢？

结束对话可以输入 /bye 或按 Ctrl+d 按键来结束。

我们可以使用 ollama list，查看已安装的模型：

NAME           ID              SIZE      MODIFIED      
llama3.2    baf6a787fdff    1.3 GB    4 minutes ago

Ollama 支持的模型可以访问：https://ollama.com/library

六. 进阶使用_图2

下表列出一些模型的下载命令：

模型	参数	大小	下载命令
Llama 3.3	70B	43GB	`ollama run llama3.3`
Llama 3.2	3B	2.0GB	`ollama run llama3.2`
Llama 3.2	1B	1.3GB	`ollama run llama3.2:1b`
Llama 3.2 Vision	11B	7.9GB	`ollama run llama3.2-vision`
Llama 3.2 Vision	90B	55GB	`ollama run llama3.2-vision:90b`
Llama 3.1	8B	4.7GB	`ollama run llama3.1`
Llama 3.1	405B	231GB	`ollama run llama3.1:405b`
Phi 4	14B	9.1GB	`ollama run phi4`
Phi 3 Mini	3.8B	2.3GB	`ollama run phi3`
Gemma 2	2B	1.6GB	`ollama run gemma2:2b`
Gemma 2	9B	5.5GB	`ollama run gemma2`
Gemma 2	27B	16GB	`ollama run gemma2:27b`
Mistral	7B	4.1GB	`ollama run mistral`
Moondream 2	1.4B	829MB	`ollama run moondream`
Neural Chat	7B	4.1GB	`ollama run neural-chat`
Starling	7B	4.1GB	`ollama run starling-lm`
Code Llama	7B	3.8GB	`ollama run codellama`
Llama 2 Uncensored	7B	3.8GB	`ollama run llama2-uncensored`
LLaVA	7B	4.5GB	`ollama run llava`
Solar	10.7B	6.1GB	`ollama run solar`

八.通过 Python SDK 使用模型

如果你希望将 Ollama 与 Python 代码集成，可以使用 Ollama 的 Python SDK 来加载和运行模型。

1. 安装 Python SDK

首先，需要安装 Ollama 的 Python SDK，打开终端，执行以下命令：

pip install ollama

2. 编写 Python 脚本

接下来，你可以使用 Python 代码来加载和与模型交互。

以下是一个简单的 Python 脚本示例，演示如何使用 LLama3.2 模型来生成文本：

import ollama
response = ollama.generate(
    model="llama3.2",  # 模型名称
    prompt="你是谁。"  # 提示文本
)
print(response)

3. 运行 Python 脚本

在终端中运行你的 Python 脚本：

python test.py

你会看到模型根据你的输入返回的回答。

4.对话模式

from ollama import chat
response = chat(
    model="llama3.2",
    messages=[
        {"role": "user", "content": "为什么天空是蓝色的？"}
    ]
)
print(response.message.content)

此代码会与模型进行对话，并打印模型的回复。

5. 流式响应

from ollama import chat
stream = chat(
    model="llama3.2",
    messages=[{"role": "user", "content": "为什么天空是蓝色的？"}],
    stream=True
)
for chunk in stream:
    print(chunk["message"]["content"], end="", flush=True)

此代码会以流式方式接收模型的响应，适用于处理大数据。

Tag：Ollama 运行模型

Ollama 运行模型(Ollama 模型的简要指南)
运行 Ollama 模型是在本地使用大语言模型（LLM）进行推理、对话或其他任务的核心步骤,以下是运行 Ollama 模型的简要指南，涵盖拉取模型、运行模型以及常见配置，适用于已安
2026-03-08
Ollama 简单安装(windows/mac/linux/docker)
Ollama 支持多种操作系统，包括 macOS、Windows、Linux 以及通过 Docker 容器运行,Ollama 对硬件要求不高，旨在让用户能够轻松地在本地运行、管理和与大型语言模型进行交互
2026-03-07
Ollama入门简介 Ollama是什么东西有哪些作用
Ollama 可以说是一个让你在自家电脑上就能轻松玩转大语言模型的“AI 模型管家”,它的核心作用就是将复杂的大模型本地部署过程，简化到只需几行命令，让每个人都能便捷、安
2026-03-07
Ollama最新版安装包下载和安装步骤(开源,简单,小白5分钟学会)
本文详细介绍了Ollama的安装流程,包括Windows和Linux两个平台的安装步骤,以及如何修改模型存储路径和使用示例，本文给大家介绍的非常详细，感兴趣的朋友跟随小编一起看看吧
2026-03-06

Ollama 运行模型(Ollama 模型的简要指南)

目录

一. 拉取模型

二. 运行模型

方式 1：交互式终端

方式 2：通过 API 运行

三. 管理运行中的模型

四. 优化运行性能

五. 常见问题

六. 进阶使用

示例场景

七.ollama run 命令

八.通过 Python SDK 使用模型

1. 安装 Python SDK

2. 编写 Python 脚本

3. 运行 Python 脚本

4.对话模式

5. 流式响应

相关文章

最新评论

文章分类

大家感兴趣的内容

最近更新的内容