Ollama 指南：本地运行、模型选择、UI 增强及 Copilot 替代方案

LLM

Ollama

其他语言: English

创建时间：2024-12-01

更新时间：2025-06-05

字数：3979

阅读时间：19.89分钟

全面了解 Ollama，从常用命令到支持的模型，再到第三方用户界面 (UI) 提升体验，以及将其打造成 GitHub Copilot 的本地替代品

大型语言模型 (LLM) 已经彻底改变了我们与技术互动的方式。但你是否知道，无需强大的云服务器，你也能在自己的电脑上运行这些模型？Ollama 正是为此而生！它让在本地机器上运行、创建和管理各种开源大模型变得前所未有的简单。

本文将带你全面了解 Ollama，从常用命令到支持的模型，如何安装、理解模型对内存的占用，再到如何通过第三方用户界面 (UI) 提升体验，甚至是如何将其打造成 GitHub Copilot 的本地替代品。

为什么选择 Ollama？

本地运行，数据隐私：所有数据都在你的机器上处理，无需上传到第三方服务器，这对注重隐私的个人用户和企业至关重要。
离线可用：一旦模型下载到本地，即使没有网络连接也能正常工作。
简单易用：Ollama 提供了简洁的命令行工具和 API，让模型的下载、运行和定制变得异常简单。
硬件友好：通过对模型进行量化（例如 GGUF 格式），Ollama 能够充分利用 CPU 甚至集成显卡，让更多人能在普通笔记本上体验 LLM。
丰富的模型库：Ollama 社区维护着一个不断增长的模型库，包括 Llama 2、Mistral、CodeLlama、Gemma 等流行模型。

Ollama 安装方法

安装 Ollama 非常简单，支持 macOS、Linux 和 Windows。

macOS

直接访问 Ollama 官网下载安装包：

使用 Homebrew 安装 Ollama：


bash
brew install ollama

或者

前往 ollama.com/download。
点击 "Download for macOS"。
下载完成后，双击 .dmg 文件，将 Ollama 拖拽到 "Applications" 文件夹即可。

Linux

运行命令：


bash
curl -fsSL https://ollama.com/install.sh | sh

Windows (预览版)

Windows 版本目前处于预览阶段，但安装同样简单：

前往 ollama.com/download。
点击 "Download for Windows"。
下载 .exe 安装程序并运行，按照提示完成安装。

验证安装

安装完成后，打开终端（或命令提示符），运行以下命令：


bash
ollama --version

如果看到版本信息，说明 Ollama 已成功安装。

运行模型

安装完 Ollama 后，运行模型就像呼吸一样简单。以 deepseek-r1 8b 为例：


bash
ollama run deepseek-r1:8b

模型名称/系列	常见参数规模	典型文件大小 (估算)	备注 (类型, 近期更新, 特定来源日期)
Llama 4	Scout (例如 16x17B), Maverick (例如 128x17B)	大型	Meta, 多模态, 视觉。(2025 年 5 月)
Llama 3.3	70B	~43GB	Meta, 高性能。(2025 年 6 月前的数月发布)
Llama 3.2	1B, 3B	1B: ~1.3GB, 3B: ~2.0GB	Meta, 更小更高效的模型。
Llama 3.2 Vision	11B, 90B	11B: ~7.9GB, 90B: ~55GB	Meta, 视觉能力。(2024 年 11 月 / 2025 年 5 月)
Llama 3.1	8B, 70B, 405B	8B: ~4.7GB, 405B: ~231GB	Meta, 多功能尺寸。
Qwen3 (通义千问 3)	0.6B, 1.7B, 4B, 8B, 14B, 30B, 32B, 235B	多样	阿里巴巴, 最新一代, 密集 & MoE。
Qwen2.5-coder	0.5B, 1.5B, 3B, 7B, 14B, 32B	多样	阿里巴巴, 代码专用。
Qwen2.5vl	3B, 7B, 32B, 72B	多样	阿里巴巴, 视觉语言。
Gemma 3	1B, 4B, 12B, 27B	1B: ~815MB, 27B: ~17GB	谷歌, 通过新引擎支持视觉。(2025 年 5 月)
Phi 4	14B

模型参数规模	量化级别	估算模型文件/权重内存 (GB)	推荐最小系统 RAM (GB)	备注
~1B - 3B	`q4_K_M`	~0.6 - 1.8	8	适合轻量级任务，可在较低配置硬件上运行。
	`q8_0`	~1.0 - 3.0	8 - 16
~7B - 8B	`q4_K_M`	~3.8 - 5.0	8 - 16	平衡性能与资源消耗的常见选择。
	`q5_K_M`	~4.5 - 5.5	16	略高质量，内存需求稍高。
	`q8_0`	~7.0 - 8.0	16 - 32	更高质量，但需要更多内存。
~13B-15B	`q4_K_M`	~7.0 - 9.0	16 - 32	更复杂的任务，需要较好硬件。
	`q5_K_M`	~8.5 - 10.0	32
	`q8_0`	~13.0 - 15.0	32 - 64

json

{ "models": [ { "title": "Ollama", "provider": "ollama", "model": "AUTODETECT" } ], "tabAutocompleteModel": { "title": "qwen2.5-coder:7b", "provider": "ollama", "model": "qwen2.5-coder:7b" }, "tabAutocompleteOptions": { "debounceDelay": 1000, "maxPromptTokens": 1500 // "disableInFiles": ["*.md"] } }

Ollama 指南：本地运行、模型选择、UI 增强及 Copilot 替代方案

全面了解 Ollama，从常用命令到支持的模型，再到第三方用户界面 (UI) 提升体验，以及将其打造成 GitHub Copilot 的本地替代品

为什么选择 Ollama？

Ollama 安装方法

macOS

Linux

Windows (预览版)

验证安装

运行模型

Ollama 常用命令

Ollama 支持的模型：你的本地模型库

模型精度与内存占用计算

什么是量化？

内存占用计算方式

参数与内存占用关系的大致表格

第三方 UI 支持：让 Ollama 更易用、更美观

Github Copilot 替代

使用 Continue 实现本地代码辅助

本地化优势:

什么是 Continue？

配置 Ollama 与 Continue

性能优化建议

参考链接