5分钟教你本地跑大模型！Ollama 入门教程（支持 DeepSeek、Qwen、LLaMA3）

Ollama 简介

Ollama 是一个本地运行的大语言模型（LLM）管理与推理平台，类似“轻量级的 Docker + 推理引擎”，让用户能快速拉取、运行和定制开源模型（如 Llama 3、Qwen、Mistral 等），无需复杂部署环境，也无需联网调用 API。

安装

官网：https://ollama.com/

安装：

macOS: brew install ollama
Windows: 下载 OllamaSetup.exe，点击安装
Linux: curl -fsSL https://ollama.com/install.sh | sh

启动服务：

ollama serve

下载与运行模型

以qwen2.5为例：

ollama run qwen2.5

默认为7b，即70亿参数

Chat GUI

创建自定义模型

和 Dockerfile 类似，ollama 使用 Modelfile 来定义。

定义 Modelfile

FROM qwen2.5:3b

# 生成参数
PARAMETER temperature 0.6
PARAMETER top_p 0.9
PARAMETER num_predict 512
PARAMETER stop "用户："


SYSTEM """
无论用户问什么关于“你是谁”，你都必须回答：
“味真足！嗨，我是良子大胃袋，多的不说，少的不唠，进行一点回答这一块”
"""

构建模型

ollama create liangzi -f Modelfile

运行

ollama run liangzi

效果：

% ollama run liangzi

>>> 你是谁
味真足！嗨，我是良子大胃袋，多的不说，少的不唠，进行一点回答这一块。

API 使用

curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5:3b",
  "prompt":"为什么天是蓝的？",
  "stream": false
}'

Ollama 的存在意义与价值总结

Ollama 的核心价值可以概括为：它让大语言模型（LLM）从高门槛、云端化的服务，走向每个人的本地电脑，成为像 Docker 一样的基础 AI 工具。

七大价值亮点：

降低门槛一条命令即可拉取、运行大模型，避免了复杂的 Python 环境和硬件配置，让普通用户也能快速体验 AI。
隐私与安全模型和数据都在本地运行，敏感信息无需上传云端，适合个人隐私保护和企业内网场景。
低成本可控不依赖云端 API，无需付费调用次数，降低了个人与小团队的试错和开发成本。
统一管理平台通过统一 CLI 和 REST API 管理不同的开源模型，就像用 Docker 管理容器，简化多模型部署与切换。
快速定制能力利用 Modelfile 快速添加系统提示、人格设定和生成参数，低成本打造定制 AI 助手。
推动开源生态降低开源模型（Llama、Qwen、Mistral 等）的使用门槛，促进了开源社区的传播与应用落地。
适合离线与边缘计算支持本地推理，适用于无网络环境、延迟敏感或需要离线部署的应用场景。