随着 AI Agent 技术的快速发展,越来越多的用户希望能够脱离云端 API 的限制,在本地实现自动化办公。近期发布的 Holo 3.1 模型凭借其卓越的性能与对本地 Agent 框架(如 OpenClaw)的完美支持,成为目前本地部署的首选方案。
本文将为您提供一份从模型部署到 Agent 接入的详细技术指南,助您实现“无限 Token、零订阅费用”的 AI 办公自由。
核心优势 完全本地化 :无需付费 API,没有 Token 消耗限制,隐私安全更有保障。Agent 专用 :针对任务执行、工具调用进行了深度优化,性能超越 Qwen 3.5 35B A3B 模型。部署灵活 :支持多种显存配置,无论是中高端显卡还是 Apple Silicon,都能找到适配的版本。第一步:部署运行环境 (Llama.cpp) 为了获得最佳的运行效率,我们推荐使用 llama.cpp 进行本地部署。
下载与准备 :前往 GitHub 下载【点击前往 】、或【备用下载 】、【网盘下载 】 内含启动脚本 llama.cpp。创建目录 :解压后,在根目录下创建一个名为 models 的文件夹,用于存放模型文件。第二步:选择并下载模型 根据您的硬件配置,请下载对应尺寸的 GGUF 格式模型(必须包含主模型文件与视觉模型文件):
硬件配置 推荐模型版本 RTX 4090/3090 (24GB) 35B-A3B Q4_K_M RTX 5070Ti/4060Ti (16GB) 9B Apple Silicon (Mac) 9B GGUF
模型合集下载:【链接直达 】或 【打包下载 】或 【 备用下载 】
不同分类尺寸
35B:【点击前往 】或 【打包下载 】、【 备用下载 】
9B :【点击前往 】或 【打包下载 】、【 备用下载 】
4B :【点击前往 】或 【打包下载 】、【 备用下载 】
0.8 :【点击前往 】或 【打包下载 】、【 备用下载 】
因为我们使用Llama.cpp来加载本地模型,所有必须选择GGUF格式的模型文件,模型文件含主模型和视觉模型,都需要下载下来
第三步:配置启动脚本 将下方的启动脚本另存为一个bat批处理文件,或者【直接下载 】【 备用下载 】脚本文件
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 @echo off chcp 65001 >nul title Holo 3.1 VLM 一键启动器 set LLAMA=llama-server.exe :MENU cls echo ========================================== echo Holo 3.1 VLM 启动器 echo ========================================== echo. echo 1. 8GB显卡推荐(0.8B) echo 2. 12GB显卡推荐(4B) echo 3. 16GB显卡推荐(9B) echo 4. 24GB显卡推荐(35B-A3B) echo. echo 5. CPU模式(4B) echo. echo 0. 退出 echo. set /p CHOICE=请选择: if "%CHOICE%"=="1" goto GPU8 if "%CHOICE%"=="2" goto GPU12 if "%CHOICE%"=="3" goto GPU16 if "%CHOICE%"=="4" goto GPU24 if "%CHOICE%"=="5" goto CPU if "%CHOICE%"=="0" exit goto MENU :: ========================================== :: RTX 8GB :: ========================================== :GPU8 "%LLAMA%" ^ -m models\Holo-3.1-0.8B.i1-Q6_K.gguf ^ -ngl 999 ^ -c 8192 ^ -fa ^ --cache-type-k q4_0 ^ --cache-type-v q4_0 ^ --temp 0.2 ^ --top-p 0.9 ^ --host 127.0.0.1 ^ --port 1234 pause goto MENU :: ========================================== :: RTX 12GB :: ========================================== :GPU12 "%LLAMA%" ^ -m models\Holo-3.1-4B.Q8_0.gguf ^ --mmproj models\Holo-3.1-4B.mmproj-Q8_0.gguf ^ -ngl 999 ^ -c 16384 ^ -fa ^ --cache-type-k q4_0 ^ --cache-type-v q4_0 ^ --temp 0.2 ^ --top-p 0.9 ^ --host 127.0.0.1 ^ --port 1234 pause goto MENU :: ========================================== :: RTX 16GB :: ========================================== :GPU16 "%LLAMA%" ^ -m models\Holo-3.1-9B.Q8_0.gguf ^ --mmproj models\Holo-3.1-9B.mmproj-q8_0.gguf ^ -ngl 999 ^ -c 24576 ^ -fa ^ --cache-type-k q8_0 ^ --cache-type-v q8_0 ^ --temp 0.2 ^ --top-p 0.9 ^ --host 127.0.0.1 ^ --port 1234 pause goto MENU :: ========================================== :: RTX 24GB :: ========================================== :GPU24 "%LLAMA%" ^ -m models\q4_k_m.gguf ^ --mmproj models\mmproj.f16.gguf ^ -ngl 999 ^ -c 65536 ^ --flash-attn on ^ --cache-type-k q8_0 ^ --cache-type-v q8_0 ^ --temp 0.2 ^ --top-p 0.9 ^ --repeat-penalty 1.05 ^ --host 127.0.0.1 ^ --port 1234 pause goto MENU :: ========================================== :: CPU模式 :: ========================================== :CPU "%LLAMA%" ^ -m models\Holo-3.1-0.8B.i1-Q6_K.gguf ^ -ngl 0 ^ -c 4096 ^ --threads 16 ^ --temp 0.2 ^ --host 127.0.0.1 ^ --port 1234 pause goto MENU
注意:脚本的模型文件名称还有路径,你可以自定义修改,相关的启动参数优化已经帮你设置好,当然也可以根据需要进行修改。启动以后会安装Node.js环境等,启动后会看到如下界面,最后选择适合自己的模型大小启动即可
第四步:接入 OpenClaw 自动化框架 部署好 Holo 3.1 模型服务后,即可接入 OpenClaw 实现浏览器自动化操作。
安装命令 :
Windows: powershell -c "irm https://openclaw.ai/install.ps1 | iex" macOS/Linux: curl -fsSL https://openclaw.ai/install.sh | bash 配置连接 :在 OpenClaw 设置中,将 API Base URL 设置为 http://127.0.0.1:1234/v1,密钥留空。
安装浏览器技能 :
1 2 openclaw skills install agent-browser-cli openclaw skills install use-my-browser
重启服务 :运行 openclaw gateway 重启,即可开始使用。
总结 Holo 3.1 结合 OpenClaw 的方案,是当前实现本地 AI Agent 最为高效的路径之一。它不仅大幅降低了重度用户的成本,还在浏览器自动化等任务中展现出了极高的执行速度。对于追求生产力效率与隐私保护的开发者及重度用户而言,这套方案极具参考价值。