拒绝 Token 焦虑！Hermes + Qwen3.6 本地最强 Agent 组合落地指南

如果现在让我推荐一套最适合折腾、且能兼顾日常实用性的本地 AI + Agent 方案，我会毫不犹豫地掏出这套全开源组合：Hermes Agent + Qwen3.6。

理由很简单：零成本、无限 Token、数据全本地、隐私完全自主。

无论你是想让 AI 帮你跑自动化脚本，还是辅助写代码、搞中文推理，Qwen3.6 的本地表现已经足够应付绝大多数日常场景。加上 Hermes Agent 的调度能力，你相当于在自己电脑里塞进了一个 24 小时待命的赛博打工人。

今天这篇博文就带大家从零开始，把这套最强本地 Agent 组合跑起来。

🛠️ 第一步：环境配置与 WSL2 准备

搞本地大模型，Linux 环境是第一生产力。Windows 用户直接上 WSL2（Ubuntu 24.04）。

以管理员身份打开 PowerShell，两行命令搞定：

第一步：确认环境并安装WSL

1
2
3

# PowerShell 管理员运行
wsl --install           # 装 Ubuntu 24.04
wsl --set-default-version 2

重启后再执行安装Ubuntu 24.04系统

1	wsl --install -d Ubuntu-24.04

装完会自动重启，重启后会弹出 Ubuntu 窗口让你设置用户名和密码（随便设，记住就行）。

Ubuntu 24.04 装好并登录成功，现在先验证 GPU 是否直通正常：

1	nvidia-smi

💡 显卡驱动避坑： 如果这里报错，大概率是你的 Windows 显卡驱动太旧了。不用在 WSL 里瞎折腾，直接去 Windows 官网升级最新的 NVIDIA 驱动，WSL2 会自动继承。

顺手把 Python 环境也装了：

1	sudo apt update && sudo apt install -y python3-pip python3-venv

升级 Windows NVIDIA 驱动【点击前往】去 Windows 下载最新驱动，WSL2 会自动继承；

🚀 第二步：编译 llama.cpp（CUDA 加速版）

为了让显存利用率最大化，拒绝爆显存，我们抛弃 vLLM，采用更稳健的 llama.cpp 方案。

1. 安装基础依赖

sudo apt install -y cmake build-essential git
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=89
cmake --build build -j$(nproc)

2. 配置 CUDA Toolkit

由于编译需要 CUDA 环境，WSL2 需要单独拉一下工具链（约 2GB，耐心等待）：

Bash

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install -y cuda-toolkit-12-8

3. 写入环境变量并编译

export PATH=/usr/local/cuda-12.8/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH
echo 'export PATH=/usr/local/cuda-12.8/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc

cd ~/llama.cpp
rm -rf build
cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=89
cmake --build build -j$(nproc)

📦 第三步：下载 Qwen3.6 模型并启动服务

模型尺寸请根据你的显存大小量力而行。如果是 24G 显存（如 RTX 3090/4090），闭眼上 27B；如果是 8G-16G 显存，建议降级选择 Qwen3.5 或更小参数的版本。

1. 下载 GGUF 模型

这里推荐使用 Unsloth 优化的版本：

1
2
3

hf download unsloth/Qwen3.6-27B-GGUF \
  Qwen3.6-27B-UD-Q4_K_XL.gguf \
  --local-dir ~/models/

(如果国内下载龟速，请自行切换到 ModelScope 镜像源。)

2. 一键启动后端 API 服务

~/llama.cpp/build/bin/llama-server \
  --model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
  --n-gpu-layers 99 \
  --ctx-size 32768 \
  --flash-attn on \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --presence-penalty 1.5 \
  --port 8080

现在，打开 Windows 浏览器访问 http://localhost:8080，你就能看到内置的 WebUI，可以直接跟本地的 Qwen3.6 对话了！

🧠 关于 Thinking 模式的小提示：
默认启动会开启深度思考（Thinking）。如果你只想用来写简单的脚本、做日常问答，可以在启动命令里加上 --chat-template-kwargs '{"enable_thinking":false}'。关闭思考模式后，**生成速度能提升 20%-30%**。

~/llama.cpp/build/bin/llama-server \
  --model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
  --n-gpu-layers 99 \
  --ctx-size 32768 \
  --flash-attn on \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --presence-penalty 1.5 \
  --chat-template-kwargs '{"enable_thinking":false}' \
  --port 8080

🤖 第四步：合体！对接 Hermes Agent

大模型底座有了，现在赋予它“执行力”。保持刚才的 llama-server 窗口别关，新开一个 WSL2 终端。

1. 一键安装 Hermes Agent

1	curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh \| bash

安装程序会自动帮你把 Node.js、ffmpeg 等依赖全部打包搞定。

2. 配置自定义端点（Custom Endpoint）

在配置向导中，一路下翻，选择 **Custom endpoint (enter URL manually)**：

URL: http://localhost:8080/v1
API Key: 随便填（例如 123456）
Model: 会自动识别

3. 连接外设（以 Telegram 为例）

接下来你可以根据提示，将 Agent 接入 Telegram、Discord 甚至微信。配置完成后，你就可以在手机上随时随地给家里的电脑发指令，让 Hermes 帮你调动本地的 Qwen3.6 去查资料、写代码、跑自动化任务。

🛠️ 进阶：优雅极客的自动化脚本

每次开机都要手动敲一大堆命令太不优雅了。我们写个自动化脚本，让它常驻后台。

创建 ~/start-llm.sh：

cat > ~/start-llm.sh << 'EOF'
#!/bin/bash
echo "Starting Qwen3.6-27B llama-server..."
~/llama.cpp/build/bin/llama-server \
  --model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
  --n-gpu-layers 99 \
  --ctx-size 65536 \
  --flash-attn on \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --presence-penalty 1.5 \
  --port 8080 \
  --host 0.0.0.0 &

echo "llama-server started, PID: $!"
echo "API: http://localhost:8080/v1"
echo "Chat UI: http://localhost:8080"
EOF
chmod +x ~/start-llm.sh

将它塞进 ~/.bashrc，这样每次你打开 WSL2 时，服务就会静默自启，绝不重复运行：

echo '# Auto-start llama-server' >> ~/.bashrc
echo 'if ! pgrep -f "llama-server" > /dev/null 2>&1; then' >> ~/.bashrc
echo '    ~/start-llm.sh' >> ~/.bashrc
echo 'fi' >> ~/.bashrc