在过去,AI 辅助编程工具(如 Cursor Agent、Claude Code 等)往往高度依赖云端 API。这不仅产生了高昂的 Token 费用,也让大型项目的代码分析与自动化处理变得昂贵且受制于网络环境。

随着最新版 Ollama (v0.24) 的发布,情况发生了质变。Ollama 现已正式支持接入 Codex App,允许开发者直接在本地运行大模型,实现无需联网、零 Token 消耗的自动化 AI 编程 Agent。


本地 AI Agent 的核心优势

与传统的聊天机器人不同,本地 AI Agent 具备任务执行能力,而非仅仅局限于对话。在本地算力支持下,Agent 可直接操作文件系统,实现以下核心功能:

  • 项目全流程扫描: 自动分析复杂项目结构。
  • 智能诊断与修复: 定位逻辑漏洞,自动修改代码并修复 Bug。
  • 自动化构建: 创建完整项目骨架,自动配置前端 UI 与逻辑。
  • 离线工作流: 完全在本地 GPU 完成推理,保障代码隐私与零运行成本。

环境准备与部署指南

要搭建这套本地 AI 编程环境,请确保你的系统满足以下配置要求,并按照步骤操作:

1. 安装核心组件

  • Codex App: 下载地址 (macOS 用户请根据芯片架构选择 Intel 或 M 系列版本)。
  • Ollama (v0.24+): 请确保已更新至最新版本以兼容插件,前往下载

2. 模型下载与配置

推荐使用 Qwen3.6Gemma 4,这两款模型在代码编写、逻辑推理及中文理解方面表现优异,适合 4B-40B 显存的消费级硬件。

Qwen3.6 开源模型

安装命令:

1
2
3
4
5
6
7
# 安装 Qwen3.6
ollama run qwen3.6
ollama run qwen3.6:27b

# 安装 Gemma 4
ollama run gemma4
ollama run gemma4:26b

注:macOS 用户请优先选择带有 mlx 后缀的适配版本以获得更好性能。

Qwen 3.6 其它尺寸的模型 【获取链接

Qwen 3.6 越狱版模型: 【点击下载

Gemma 4 开源模型

安装命令:

1
2
3
4
5
ollama run gemma4

ollama run gemma4:26b

ollama run gemma4:31b

mac 电脑可选模型

1
2
3
4
5
ollama run gemma4:e2b-mlx

ollama run gemma4:e4b-mlx

ollama run gemma4:26b-mlx

Gemma 4 其它尺寸模型:【获取链接

Gemma 4 越狱版模型:【点击下载

3. 对接 Codex

安装完成后,通过以下命令将 Ollama 与 Codex 进行关联:

1
ollama launch codex-app

进阶玩法:通过 llama.cpp 加载自定义模型

对于追求更高自由度或使用“越狱版”模型的高阶用户,可以通过 llama.cpp 进行深度配置。

配置文件修改 (Codex Config)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
model = "Qwen3.6-27B-UD-Q5_K_XL.gguf"
model_reasoning_effort = "low"
profile = "llamacpp-codex"

model_provider = "llamacpp"

[profiles.llamacpp-codex]
model = "Qwen3.6-27B-UD-Q5_K_XL.gguf"
model_provider = "llamacpp"
model_reasoning_effort = "low"

[profiles.llamacpp-codex.windows]
sandbox = "elevated"

[model_providers.llamacpp]
name = "llama.cpp"
base_url = "http://127.0.0.1:8080/v1/"
wire_api = "responses"

[windows]
sandbox = "elevated"

启动 llama-server

使用以下命令启动本地服务,确保 API 端口映射正确:

1
2
3
4
5
6
7
8
9
llama-server.exe ^
-m "models\Qwen3.6-27B-UD-Q5_K_XL.gguf" ^
-ngl 999 ^
-c 16384 ^
-n 2048 ^
-fa on ^
--jinja ^
--host 127.0.0.1 ^
--port 8080

总结

AI 的演进方向正在从“对话”转向“执行”。Ollama 与本地 Agent 工具的结合,极大地降低了开发者的算力与经济门槛。对于追求高效、隐私及零成本自动化的开发者而言,将 AI 工作流迁回本地,已成为提升生产力的必然选择。