拒绝 Token 焦虑!Hermes + Qwen3.6 本地最强 Agent 组合落地指南
如果现在让我推荐一套最适合折腾、且能兼顾日常实用性的本地 AI + Agent 方案,我会毫不犹豫地掏出这套全开源组合:Hermes Agent + Qwen3.6。
理由很简单:零成本、无限 Token、数据全本地、隐私完全自主。
无论你是想让 AI 帮你跑自动化脚本,还是辅助写代码、搞中文推理,Qwen3.6 的本地表现已经足够应付绝大多数日常场景。加上 Hermes Agent 的调度能力,你相当于在自己电脑里塞进了一个 24 小时待命的赛博打工人。
今天这篇博文就带大家从零开始,把这套最强本地 Agent 组合跑起来。
🛠️ 第一步:环境配置与 WSL2 准备
搞本地大模型,Linux 环境是第一生产力。Windows 用户直接上 WSL2(Ubuntu 24.04)。
以管理员身份打开 PowerShell,两行命令搞定:
第一步:确认环境并安装WSL
1 | # PowerShell 管理员运行 |
重启后再执行安装Ubuntu 24.04系统
1 | wsl --install -d Ubuntu-24.04 |
装完会自动重启,重启后会弹出 Ubuntu 窗口让你设置用户名和密码(随便设,记住就行)。
Ubuntu 24.04 装好并登录成功,现在先验证 GPU 是否直通正常:
1 | nvidia-smi |
💡 显卡驱动避坑: 如果这里报错,大概率是你的 Windows 显卡驱动太旧了。不用在 WSL 里瞎折腾,直接去 Windows 官网升级最新的 NVIDIA 驱动,WSL2 会自动继承。
顺手把 Python 环境也装了:
1 | sudo apt update && sudo apt install -y python3-pip python3-venv |
升级 Windows NVIDIA 驱动 【点击前往】去 Windows 下载最新驱动,WSL2 会自动继承;
🚀 第二步:编译 llama.cpp(CUDA 加速版)
为了让显存利用率最大化,拒绝爆显存,我们抛弃 vLLM,采用更稳健的 llama.cpp 方案。
1. 安装基础依赖
1 | sudo apt install -y cmake build-essential git |
2. 配置 CUDA Toolkit
由于编译需要 CUDA 环境,WSL2 需要单独拉一下工具链(约 2GB,耐心等待):
Bash
1 | wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb |
3. 写入环境变量并编译
1 | export PATH=/usr/local/cuda-12.8/bin:$PATH |
📦 第三步:下载 Qwen3.6 模型并启动服务
模型尺寸请根据你的显存大小量力而行。如果是 24G 显存(如 RTX 3090/4090),闭眼上 27B;如果是 8G-16G 显存,建议降级选择 Qwen3.5 或更小参数的版本。
1. 下载 GGUF 模型
这里推荐使用 Unsloth 优化的版本:
1 | hf download unsloth/Qwen3.6-27B-GGUF \ |
(如果国内下载龟速,请自行切换到 ModelScope 镜像源。)
2. 一键启动后端 API 服务
1 | ~/llama.cpp/build/bin/llama-server \ |
现在,打开 Windows 浏览器访问 http://localhost:8080,你就能看到内置的 WebUI,可以直接跟本地的 Qwen3.6 对话了!
🧠 关于 Thinking 模式的小提示:
默认启动会开启深度思考(Thinking)。如果你只想用来写简单的脚本、做日常问答,可以在启动命令里加上
--chat-template-kwargs '{"enable_thinking":false}'。关闭思考模式后,**生成速度能提升 20%-30%**。
1 | ~/llama.cpp/build/bin/llama-server \ |
🤖 第四步:合体!对接 Hermes Agent
大模型底座有了,现在赋予它“执行力”。保持刚才的 llama-server 窗口别关,新开一个 WSL2 终端。
1. 一键安装 Hermes Agent
1 | curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash |
安装程序会自动帮你把 Node.js、ffmpeg 等依赖全部打包搞定。
2. 配置自定义端点(Custom Endpoint)
在配置向导中,一路下翻,选择 **Custom endpoint (enter URL manually)**:
- URL:
http://localhost:8080/v1 - API Key: 随便填(例如
123456) - Model: 会自动识别
3. 连接外设(以 Telegram 为例)
接下来你可以根据提示,将 Agent 接入 Telegram、Discord 甚至微信。配置完成后,你就可以在手机上随时随地给家里的电脑发指令,让 Hermes 帮你调动本地的 Qwen3.6 去查资料、写代码、跑自动化任务。
🛠️ 进阶:优雅极客的自动化脚本
每次开机都要手动敲一大堆命令太不优雅了。我们写个自动化脚本,让它常驻后台。
创建 ~/start-llm.sh:
1 | cat > ~/start-llm.sh << 'EOF' |
将它塞进 ~/.bashrc,这样每次你打开 WSL2 时,服务就会静默自启,绝不重复运行:
1 | echo '# Auto-start llama-server' >> ~/.bashrc |
📝 总结
本地跑 Agent 的爽点就在于自由度。你不用看 OpenAI 或 Anthropic 的脸色,不用绑定海外信用卡,更不用担心敏感数据泄露。Hermes 的灵活性加上 Qwen3.6 的本土化语言能力,基本上是目前开源生态里最能打的落地组合之一。
你的显卡这次顶住了吗?折腾过程中卡在了哪一步?欢迎在评论区留言交流!
大家如果对这种本地 AI 部署感兴趣,后续我会分享更多关于硬件调优和更高级 Agent 玩法。






