如果现在让我推荐一套最适合折腾、且能兼顾日常实用性的本地 AI + Agent 方案,我会毫不犹豫地掏出这套全开源组合:Hermes Agent + Qwen3.6

理由很简单:零成本、无限 Token、数据全本地、隐私完全自主。

无论你是想让 AI 帮你跑自动化脚本,还是辅助写代码、搞中文推理,Qwen3.6 的本地表现已经足够应付绝大多数日常场景。加上 Hermes Agent 的调度能力,你相当于在自己电脑里塞进了一个 24 小时待命的赛博打工人。

今天这篇博文就带大家从零开始,把这套最强本地 Agent 组合跑起来。


🛠️ 第一步:环境配置与 WSL2 准备

搞本地大模型,Linux 环境是第一生产力。Windows 用户直接上 WSL2(Ubuntu 24.04)。

以管理员身份打开 PowerShell,两行命令搞定:

第一步:确认环境并安装WSL

1
2
3
# PowerShell 管理员运行
wsl --install # 装 Ubuntu 24.04
wsl --set-default-version 2

重启后再执行安装Ubuntu 24.04系统

1
wsl --install -d Ubuntu-24.04

装完会自动重启,重启后会弹出 Ubuntu 窗口让你设置用户名和密码(随便设,记住就行)。

Ubuntu 24.04 装好并登录成功,现在先验证 GPU 是否直通正常:

1
nvidia-smi

💡 显卡驱动避坑: 如果这里报错,大概率是你的 Windows 显卡驱动太旧了。不用在 WSL 里瞎折腾,直接去 Windows 官网升级最新的 NVIDIA 驱动,WSL2 会自动继承。

顺手把 Python 环境也装了:

1
sudo apt update && sudo apt install -y python3-pip python3-venv

升级 Windows NVIDIA 驱动 【点击前往】去 Windows 下载最新驱动,WSL2 会自动继承;

🚀 第二步:编译 llama.cpp(CUDA 加速版)

为了让显存利用率最大化,拒绝爆显存,我们抛弃 vLLM,采用更稳健的 llama.cpp 方案。

1. 安装基础依赖

1
2
3
4
5
sudo apt install -y cmake build-essential git
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=89
cmake --build build -j$(nproc)

2. 配置 CUDA Toolkit

由于编译需要 CUDA 环境,WSL2 需要单独拉一下工具链(约 2GB,耐心等待):

Bash

1
2
3
4
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install -y cuda-toolkit-12-8

3. 写入环境变量并编译

1
2
3
4
5
6
7
8
9
export PATH=/usr/local/cuda-12.8/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH
echo 'export PATH=/usr/local/cuda-12.8/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc

cd ~/llama.cpp
rm -rf build
cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=89
cmake --build build -j$(nproc)

📦 第三步:下载 Qwen3.6 模型并启动服务

模型尺寸请根据你的显存大小量力而行。如果是 24G 显存(如 RTX 3090/4090),闭眼上 27B;如果是 8G-16G 显存,建议降级选择 Qwen3.5 或更小参数的版本。

1. 下载 GGUF 模型

这里推荐使用 Unsloth 优化的版本:

1
2
3
hf download unsloth/Qwen3.6-27B-GGUF \
Qwen3.6-27B-UD-Q4_K_XL.gguf \
--local-dir ~/models/

(如果国内下载龟速,请自行切换到 ModelScope 镜像源。)

2. 一键启动后端 API 服务

1
2
3
4
5
6
7
8
9
10
~/llama.cpp/build/bin/llama-server \
--model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
--n-gpu-layers 99 \
--ctx-size 32768 \
--flash-attn on \
--temp 1.0 \
--top-p 0.95 \
--top-k 20 \
--presence-penalty 1.5 \
--port 8080

现在,打开 Windows 浏览器访问 http://localhost:8080,你就能看到内置的 WebUI,可以直接跟本地的 Qwen3.6 对话了!

🧠 关于 Thinking 模式的小提示:

默认启动会开启深度思考(Thinking)。如果你只想用来写简单的脚本、做日常问答,可以在启动命令里加上 --chat-template-kwargs '{"enable_thinking":false}'。关闭思考模式后,**生成速度能提升 20%-30%**。

1
2
3
4
5
6
7
8
9
10
11
~/llama.cpp/build/bin/llama-server \
--model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
--n-gpu-layers 99 \
--ctx-size 32768 \
--flash-attn on \
--temp 1.0 \
--top-p 0.95 \
--top-k 20 \
--presence-penalty 1.5 \
--chat-template-kwargs '{"enable_thinking":false}' \
--port 8080

🤖 第四步:合体!对接 Hermes Agent

大模型底座有了,现在赋予它“执行力”。保持刚才的 llama-server 窗口别关,新开一个 WSL2 终端

1. 一键安装 Hermes Agent

1
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

安装程序会自动帮你把 Node.js、ffmpeg 等依赖全部打包搞定。

2. 配置自定义端点(Custom Endpoint)

在配置向导中,一路下翻,选择 **Custom endpoint (enter URL manually)**:

  • URL: http://localhost:8080/v1
  • API Key: 随便填(例如 123456
  • Model: 会自动识别

3. 连接外设(以 Telegram 为例)

接下来你可以根据提示,将 Agent 接入 Telegram、Discord 甚至微信。配置完成后,你就可以在手机上随时随地给家里的电脑发指令,让 Hermes 帮你调动本地的 Qwen3.6 去查资料、写代码、跑自动化任务。


🛠️ 进阶:优雅极客的自动化脚本

每次开机都要手动敲一大堆命令太不优雅了。我们写个自动化脚本,让它常驻后台。

创建 ~/start-llm.sh

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
cat > ~/start-llm.sh << 'EOF'
#!/bin/bash
echo "Starting Qwen3.6-27B llama-server..."
~/llama.cpp/build/bin/llama-server \
--model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
--n-gpu-layers 99 \
--ctx-size 65536 \
--flash-attn on \
--temp 1.0 \
--top-p 0.95 \
--top-k 20 \
--presence-penalty 1.5 \
--port 8080 \
--host 0.0.0.0 &

echo "llama-server started, PID: $!"
echo "API: http://localhost:8080/v1"
echo "Chat UI: http://localhost:8080"
EOF
chmod +x ~/start-llm.sh

将它塞进 ~/.bashrc,这样每次你打开 WSL2 时,服务就会静默自启,绝不重复运行:

1
2
3
4
echo '# Auto-start llama-server' >> ~/.bashrc
echo 'if ! pgrep -f "llama-server" > /dev/null 2>&1; then' >> ~/.bashrc
echo ' ~/start-llm.sh' >> ~/.bashrc
echo 'fi' >> ~/.bashrc

📝 总结

本地跑 Agent 的爽点就在于自由度。你不用看 OpenAI 或 Anthropic 的脸色,不用绑定海外信用卡,更不用担心敏感数据泄露。Hermes 的灵活性加上 Qwen3.6 的本土化语言能力,基本上是目前开源生态里最能打的落地组合之一。

你的显卡这次顶住了吗?折腾过程中卡在了哪一步?欢迎在评论区留言交流!


大家如果对这种本地 AI 部署感兴趣,后续我会分享更多关于硬件调优和更高级 Agent 玩法。