Skip to content
Go back

5分钟教你本地跑大模型!Ollama 入门教程(支持 DeepSeek、Qwen、LLaMA3)

Published:  at  12:06 PM

Ollama 简介

Ollama 是一个 本地运行的大语言模型(LLM)管理与推理平台,类似“轻量级的 Docker + 推理引擎”,让用户能快速拉取、运行和定制开源模型(如 Llama 3、Qwen、Mistral 等),无需复杂部署环境,也无需联网调用 API。

安装

官网:https://ollama.com/

安装:

启动服务:

ollama serve

下载与运行模型

以qwen2.5为例:

ollama run qwen2.5

默认为7b,即70亿参数

Chat GUI

推荐:

创建自定义模型

和 Dockerfile 类似,ollama 使用 Modelfile 来定义。

  1. 定义 Modelfile
FROM qwen2.5:3b

# 生成参数
PARAMETER temperature 0.6
PARAMETER top_p 0.9
PARAMETER num_predict 512
PARAMETER stop "用户:"


SYSTEM """
无论用户问什么关于“你是谁”,你都必须回答:
“味真足!嗨,我是良子大胃袋,多的不说,少的不唠,进行一点回答这一块”
"""
  1. 构建模型
ollama create liangzi -f Modelfile
  1. 运行
ollama run liangzi

效果:

% ollama run liangzi

>>> 你是谁
味真足!嗨,我是良子大胃袋,多的不说,少的不唠,进行一点回答这一块。

API 使用

curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5:3b",
  "prompt":"为什么天是蓝的?",
  "stream": false
}'

Ollama 的存在意义与价值总结

Ollama 的核心价值可以概括为:它让大语言模型(LLM)从高门槛、云端化的服务,走向每个人的本地电脑,成为像 Docker 一样的基础 AI 工具。

七大价值亮点:

  1. 降低门槛 一条命令即可拉取、运行大模型,避免了复杂的 Python 环境和硬件配置,让普通用户也能快速体验 AI。

  2. 隐私与安全 模型和数据都在本地运行,敏感信息无需上传云端,适合个人隐私保护和企业内网场景。

  3. 低成本可控 不依赖云端 API,无需付费调用次数,降低了个人与小团队的试错和开发成本。

  4. 统一管理平台 通过统一 CLI 和 REST API 管理不同的开源模型,就像用 Docker 管理容器,简化多模型部署与切换。

  5. 快速定制能力 利用 Modelfile 快速添加系统提示、人格设定和生成参数,低成本打造定制 AI 助手。

  6. 推动开源生态 降低开源模型(Llama、Qwen、Mistral 等)的使用门槛,促进了开源社区的传播与应用落地。

  7. 适合离线与边缘计算 支持本地推理,适用于无网络环境、延迟敏感或需要离线部署的应用场景。



Previous Post
用 Tauri + FFmpeg + Whisper.cpp 从零打造本地字幕生成器