Holo 3.1 本地 Agent 部署指南：打造零成本自动化办公环境

随着 AI Agent 技术的快速发展，越来越多的用户希望能够脱离云端 API 的限制，在本地实现自动化办公。近期发布的 Holo 3.1 模型凭借其卓越的性能与对本地 Agent 框架（如 OpenClaw）的完美支持，成为目前本地部署的首选方案。

本文将为您提供一份从模型部署到 Agent 接入的详细技术指南，助您实现“无限 Token、零订阅费用”的 AI 办公自由。

核心优势

完全本地化：无需付费 API，没有 Token 消耗限制，隐私安全更有保障。
Agent 专用：针对任务执行、工具调用进行了深度优化，性能超越 Qwen 3.5 35B A3B 模型。
部署灵活：支持多种显存配置，无论是中高端显卡还是 Apple Silicon，都能找到适配的版本。

第一步：部署运行环境 (Llama.cpp)

为了获得最佳的运行效率，我们推荐使用 llama.cpp 进行本地部署。

下载与准备：前往 GitHub 下载【点击前往】、或【备用下载】、【网盘下载】内含启动脚本 llama.cpp。
创建目录：解压后，在根目录下创建一个名为 models 的文件夹，用于存放模型文件。

第二步：选择并下载模型

根据您的硬件配置，请下载对应尺寸的 GGUF 格式模型（必须包含主模型文件与视觉模型文件）：

硬件配置	推荐模型版本
RTX 4090/3090 (24GB)	35B-A3B Q4_K_M
RTX 5070Ti/4060Ti (16GB)	9B
Apple Silicon (Mac)	9B GGUF

模型合集下载：【链接直达】或【打包下载】或【备用下载】

不同分类尺寸

35B：【点击前往】或【打包下载】、【备用下载】

9B ：【点击前往】或【打包下载】、【备用下载】

4B ：【点击前往】或【打包下载】、【备用下载】

0.8 ：【点击前往】或【打包下载】、【备用下载】

因为我们使用Llama.cpp来加载本地模型，所有必须选择GGUF格式的模型文件，模型文件含主模型和视觉模型，都需要下载下来

第三步：配置启动脚本

将下方的启动脚本另存为一个bat批处理文件，或者【直接下载】【备用下载】脚本文件

@echo off
chcp 65001 >nul
title Holo 3.1 VLM 一键启动器

set LLAMA=llama-server.exe

:MENU
cls

echo ==========================================
echo         Holo 3.1 VLM 启动器
echo ==========================================
echo.
echo 1. 8GB显卡推荐（0.8B）
echo 2. 12GB显卡推荐（4B）
echo 3. 16GB显卡推荐（9B）
echo 4. 24GB显卡推荐（35B-A3B）
echo.
echo 5. CPU模式（4B）
echo.
echo 0. 退出
echo.

set /p CHOICE=请选择：

if "%CHOICE%"=="1" goto GPU8
if "%CHOICE%"=="2" goto GPU12
if "%CHOICE%"=="3" goto GPU16
if "%CHOICE%"=="4" goto GPU24
if "%CHOICE%"=="5" goto CPU
if "%CHOICE%"=="0" exit

goto MENU

:: ==========================================
:: RTX 8GB
:: ==========================================

:GPU8

"%LLAMA%" ^
-m models\Holo-3.1-0.8B.i1-Q6_K.gguf ^
-ngl 999 ^
-c 8192 ^
-fa ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--temp 0.2 ^
--top-p 0.9 ^
--host 127.0.0.1 ^
--port 1234

pause
goto MENU

:: ==========================================
:: RTX 12GB
:: ==========================================

:GPU12

"%LLAMA%" ^
-m models\Holo-3.1-4B.Q8_0.gguf ^
--mmproj models\Holo-3.1-4B.mmproj-Q8_0.gguf ^
-ngl 999 ^
-c 16384 ^
-fa ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--temp 0.2 ^
--top-p 0.9 ^
--host 127.0.0.1 ^
--port 1234

pause
goto MENU

:: ==========================================
:: RTX 16GB
:: ==========================================

:GPU16

"%LLAMA%" ^
-m models\Holo-3.1-9B.Q8_0.gguf ^
--mmproj models\Holo-3.1-9B.mmproj-q8_0.gguf ^
-ngl 999 ^
-c 24576 ^
-fa ^
--cache-type-k q8_0 ^
--cache-type-v q8_0 ^
--temp 0.2 ^
--top-p 0.9 ^
--host 127.0.0.1 ^
--port 1234

pause
goto MENU

:: ==========================================
:: RTX 24GB
:: ==========================================

:GPU24


"%LLAMA%" ^
-m models\q4_k_m.gguf ^
--mmproj models\mmproj.f16.gguf ^
-ngl 999 ^
-c 65536 ^
--flash-attn on ^
--cache-type-k q8_0 ^
--cache-type-v q8_0 ^
--temp 0.2 ^
--top-p 0.9 ^
--repeat-penalty 1.05 ^
--host 127.0.0.1 ^
--port 1234

pause
goto MENU

:: ==========================================
:: CPU模式
:: ==========================================

:CPU

"%LLAMA%" ^
-m models\Holo-3.1-0.8B.i1-Q6_K.gguf ^
-ngl 0 ^
-c 4096 ^
--threads 16 ^
--temp 0.2 ^
--host 127.0.0.1 ^
--port 1234

pause
goto MENU

注意：脚本的模型文件名称还有路径，你可以自定义修改，相关的启动参数优化已经帮你设置好，当然也可以根据需要进行修改。启动以后会安装Node.js环境等，启动后会看到如下界面，最后选择适合自己的模型大小启动即可

第四步：接入 OpenClaw 自动化框架

部署好 Holo 3.1 模型服务后，即可接入 OpenClaw 实现浏览器自动化操作。

安装命令：
- Windows: powershell -c "irm https://openclaw.ai/install.ps1 | iex"
- macOS/Linux: curl -fsSL https://openclaw.ai/install.sh | bash
配置连接：在 OpenClaw 设置中，将 API Base URL 设置为 http://127.0.0.1:1234/v1，密钥留空。

安装浏览器技能：