Ollama 运行模型(Ollama 模型的简要指南)

  发布时间:2026-03-08 00:10:20   作者:佚名   我要评论
运行 Ollama 模型是在本地使用大语言模型(LLM)进行推理、对话或其他任务的核心步骤,以下是运行 Ollama 模型的简要指南,涵盖拉取模型、运行模型以及常见配置,适用于已安装 Ollama 的 Windows、macOS 或 Linux 系统

运行 Ollama 模型是在本地使用大语言模型(LLM)进行推理、对话或其他任务的核心步骤。以下是运行 Ollama 模型的简要指南,涵盖拉取模型、运行模型以及常见配置,适用于已安装 Ollama 的 Windows、macOS 或 Linux 系统。

一. 拉取模型

在运行模型之前,需要从 Ollama 模型库下载模型到本地。

命令

ollama pull <model-name>

示例:拉取 LLaMA 3 模型(8B 参数版本):

ollama pull llama3

常见模型

  • llama3:Meta 的 LLaMA 3,适合通用任务。
  • mistral:Mistral AI 的高效模型。
  • phi3:微软的轻量级模型,适合低配置设备。

查看更多模型:访问 Ollama 模型库 或运行 ollama list

注意

模型文件较大(几 GB),确保网络稳定和磁盘空间充足。

可选择不同大小的模型(如 llama3:8b 或 llama3:70b),小模型更适合低配硬件。

二. 运行模型

Ollama 提供两种主要方式运行模型:交互式终端和 API 调用。

方式 1:交互式终端

命令

ollama run <model-name>

示例:

ollama run llama3

效果

进入交互模式,直接输入提示(prompt)与模型对话。

示例输入:What is the capital of France? 模型会返回 The capital of France is Paris.

退出:输入 /exit 或按 Ctrl+D

方式 2:通过 API 运行

Ollama 提供 REST API,适合集成到应用或脚本中。

默认地址http://localhost:11434

示例(使用 curl)

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Write a short poem about the moon."
}'

响应:模型会返回生成的文本,格式为 JSON。

编程集成:使用 Python、Node.js 等调用 API。例如 Python 代码:

import requests
response = requests.post('http://localhost:11434/api/generate', json={
    'model': 'llama3',
    'prompt': 'Hello, world!'
})
print(response.json())

三. 管理运行中的模型

查看已下载模型

ollama list

删除模型(释放空间):

ollama rm <model-name>

查看运行状态

ollama ps

AI写代码bash

显示当前运行的模型实例。

四. 优化运行性能

硬件要求

小模型(如 phi3):4-8GB 内存即可。

大模型(如 llama3:70b):建议 16GB+ 内存和 GPU。

GPU 支持

确保安装 NVIDIA CUDA 驱动(Linux/Windows)或 Metal(macOS)。

Ollama 自动检测并使用 GPU 加速(若可用)。

参数调整

使用 --verbose 查看运行详情。

自定义模型参数(如温度、top-k):通过 API 指定,例如:

{
  "model": "llama3",
  "prompt": "Tell a story",
  "temperature": 0.7,
  "top_p": 0.9
}

多模型运行

Ollama 支持同时运行多个模型,但需足够内存和 CPU/GPU 资源。

五. 常见问题

模型未找到:确保已通过 ollama pull 下载模型。

运行缓慢:尝试更小模型或启用 GPU 加速。

端口占用:Ollama 默认使用 11434 端口,若冲突,可通过环境变量修改:

export OLLAMA_HOST=127.0.0.1:11435

内存不足:关闭其他程序或选择更小模型。

六. 进阶使用

自定义模型:[通过 Modelfile 创建自定义模型,定义提示、参数等:

ollama create mymodel -f Modelfile

批量处理:编写脚本循环调用 API,处理大量任务。

嵌入生成:使用 /api/embeddings 端点生成文本嵌入,适用于搜索或分类任务。

示例场景

对话:运行 ollama run mistral 与模型聊天。

代码生成:输入 Write a Python script to sort a list 获取代码。

API 集成:将 Ollama 嵌入 Web 应用,实时生成内容。

如需特定模型运行示例、API 集成代码或故障排除帮助,请告诉我!

七.ollama run 命令

Ollama 运行模型使用 ollama run 命令。

例如我们要运行 Llama 3.2 并与该模型对话可以使用以下命令:

ollama run llama3.2

执行以上命令如果没有该模型会去下载 llama3.2 模型:

六. 进阶使用

等待下载完成后,我们在终端中,输入以下命令来加载 LLama3.2 模型并进行交互:

writing manifest 
success 
>>> 你好
Hello
>>> 能讲中文吗
是的,我可以在 Chinese 中对話。哪些话题或问题想要了解我呢?

结束对话可以输入 /bye 或按 Ctrl+d 按键来结束。

我们可以使用 ollama list,查看已安装的模型:

NAME           ID              SIZE      MODIFIED      
llama3.2    baf6a787fdff    1.3 GB    4 minutes ago

Ollama 支持的模型可以访问:https://ollama.com/library

六. 进阶使用_图2

下表列出一些模型的下载命令:

模型参数大小下载命令
Llama 3.370B43GBollama run llama3.3
Llama 3.23B2.0GBollama run llama3.2
Llama 3.21B1.3GBollama run llama3.2:1b
Llama 3.2 Vision11B7.9GBollama run llama3.2-vision
Llama 3.2 Vision90B55GBollama run llama3.2-vision:90b
Llama 3.18B4.7GBollama run llama3.1
Llama 3.1405B231GBollama run llama3.1:405b
Phi 414B9.1GBollama run phi4
Phi 3 Mini3.8B2.3GBollama run phi3
Gemma 22B1.6GBollama run gemma2:2b
Gemma 29B5.5GBollama run gemma2
Gemma 227B16GBollama run gemma2:27b
Mistral7B4.1GBollama run mistral
Moondream 21.4B829MBollama run moondream
Neural Chat7B4.1GBollama run neural-chat
Starling7B4.1GBollama run starling-lm
Code Llama7B3.8GBollama run codellama
Llama 2 Uncensored7B3.8GBollama run llama2-uncensored
LLaVA7B4.5GBollama run llava
Solar10.7B6.1GBollama run solar

八.通过 Python SDK 使用模型

如果你希望将 Ollama 与 Python 代码集成,可以使用 Ollama 的 Python SDK 来加载和运行模型。

1. 安装 Python SDK

首先,需要安装 Ollama 的 Python SDK,打开终端,执行以下命令:

pip install ollama

2. 编写 Python 脚本

接下来,你可以使用 Python 代码来加载和与模型交互。

以下是一个简单的 Python 脚本示例,演示如何使用 LLama3.2 模型来生成文本:

import ollama
response = ollama.generate(
    model="llama3.2",  # 模型名称
    prompt="你是谁。"  # 提示文本
)
print(response)

3. 运行 Python 脚本

在终端中运行你的 Python 脚本:

python test.py

你会看到模型根据你的输入返回的回答。

4.对话模式

from ollama import chat
response = chat(
    model="llama3.2",
    messages=[
        {"role": "user", "content": "为什么天空是蓝色的?"}
    ]
)
print(response.message.content)

此代码会与模型进行对话,并打印模型的回复。

5. 流式响应

from ollama import chat
stream = chat(
    model="llama3.2",
    messages=[{"role": "user", "content": "为什么天空是蓝色的?"}],
    stream=True
)
for chunk in stream:
    print(chunk["message"]["content"], end="", flush=True)

此代码会以流式方式接收模型的响应,适用于处理大数据。

相关文章

  • Ollama 运行模型(Ollama 模型的简要指南)

    运行 Ollama 模型是在本地使用大语言模型(LLM)进行推理、对话或其他任务的核心步骤,以下是运行 Ollama 模型的简要指南,涵盖拉取模型、运行模型以及常见配置,适用于已安
    2026-03-08
  • Ollama 简单安装(windows/mac/linux/docker)

    Ollama 支持多种操作系统,包括 macOS、Windows、Linux 以及通过 Docker 容器运行,Ollama 对硬件要求不高,旨在让用户能够轻松地在本地运行、管理和与大型语言模型进行交互
    2026-03-07
  • Ollama入门简介 Ollama是什么东西有哪些作用

    Ollama 可以说是一个让你在自家电脑上就能轻松玩转大语言模型的“AI 模型管家”,它的核心作用就是将复杂的大模型本地部署过程,简化到只需几行命令,让每个人都能便捷、安
    2026-03-07
  • Ollama最新版安装包下载和安装步骤(开源,简单,小白5分钟学会)

    本文详细介绍了Ollama的安装流程,包括Windows和Linux两个平台的安装步骤,以及如何修改模型存储路径和使用示例,本文给大家介绍的非常详细,感兴趣的朋友跟随小编一起看看吧
    2026-03-06

最新评论