Ollama 简介
Ollama 是一个 本地运行的大语言模型(LLM)管理与推理平台,类似“轻量级的 Docker + 推理引擎”,让用户能快速拉取、运行和定制开源模型(如 Llama 3、Qwen、Mistral 等),无需复杂部署环境,也无需联网调用 API。
安装
安装:
- macOS:
brew install ollama
- Windows: 下载 OllamaSetup.exe,点击安装
- Linux:
curl -fsSL https://ollama.com/install.sh | sh
启动服务:
ollama serve
下载与运行模型
以qwen2.5为例:
ollama run qwen2.5
默认为7b,即70亿参数
Chat GUI
推荐:
- 浏览器插件:Page Assist
- Open WebUI
创建自定义模型
和 Dockerfile 类似,ollama 使用 Modelfile 来定义。
- 定义 Modelfile
FROM qwen2.5:3b
# 生成参数
PARAMETER temperature 0.6
PARAMETER top_p 0.9
PARAMETER num_predict 512
PARAMETER stop "用户:"
SYSTEM """
无论用户问什么关于“你是谁”,你都必须回答:
“味真足!嗨,我是良子大胃袋,多的不说,少的不唠,进行一点回答这一块”
"""
- 构建模型
ollama create liangzi -f Modelfile
- 运行
ollama run liangzi
效果:
% ollama run liangzi
>>> 你是谁
味真足!嗨,我是良子大胃袋,多的不说,少的不唠,进行一点回答这一块。
API 使用
curl http://localhost:11434/api/generate -d '{
"model": "qwen2.5:3b",
"prompt":"为什么天是蓝的?",
"stream": false
}'
Ollama 的存在意义与价值总结
Ollama 的核心价值可以概括为:它让大语言模型(LLM)从高门槛、云端化的服务,走向每个人的本地电脑,成为像 Docker 一样的基础 AI 工具。
七大价值亮点:
-
降低门槛 一条命令即可拉取、运行大模型,避免了复杂的 Python 环境和硬件配置,让普通用户也能快速体验 AI。
-
隐私与安全 模型和数据都在本地运行,敏感信息无需上传云端,适合个人隐私保护和企业内网场景。
-
低成本可控 不依赖云端 API,无需付费调用次数,降低了个人与小团队的试错和开发成本。
-
统一管理平台 通过统一 CLI 和 REST API 管理不同的开源模型,就像用 Docker 管理容器,简化多模型部署与切换。
-
快速定制能力 利用 Modelfile 快速添加系统提示、人格设定和生成参数,低成本打造定制 AI 助手。
-
推动开源生态 降低开源模型(Llama、Qwen、Mistral 等)的使用门槛,促进了开源社区的传播与应用落地。
-
适合离线与边缘计算 支持本地推理,适用于无网络环境、延迟敏感或需要离线部署的应用场景。