显存自由:本地部署 Qwen3.6-35B-A3B 终极无审查多模态大模型
对于喜欢折腾本地大模型的同学来说,官方开源模型虽然聪明,但往往带有层层安全限制,稍微涉及敏感或激进的长文本指令,就会高频触发“抱歉,我无法回答”。
今天分享的 Qwen3.6-35B-A3B Uncensored HauhauCS Aggressive 则是目前社区热度极高的硬核“越狱版”模型。它彻底移除了系统提示词限制与输出过滤。更难得的是,由于采用了 MoE(专家混合架构),虽然总参数高达 35B,但每次运行仅激活约 3B 参数,配合 GGUF 量化,最低 6G/8G 显存 的主流游戏显卡就能流畅跑起来。
本文将手把手带你在本地用 llama.cpp 搭建这套无审查、带多模态视觉(Vision)能力的私有 AI 中心。
一、 核心文件准备
在部署之前,我们需要下载对应的模型量化文件与高效的后端推理引擎:
大模型下载:前往 Hugging Face 仓库 搜索并下载
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive的 GGUF 版本。模型下载【huggingface 下载】、【网盘打包下载】
- 24G 显存(如 RTX 4090):推荐下载
Q4_K_P或Q4_K_M体验版。 - 6G/8G 显存:推荐下载
IQ2_M或IQ3_M高压缩版本。
- 24G 显存(如 RTX 4090):推荐下载
多模态组件下载:同时需要下载对应的视觉投影文件
mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf,用于开启图片识别功能。推理引擎:下载最新版的
llama.cpp下载方式:【Github下载】、【网盘下载】或 【整合包下载】。相比于 Ollama 或 LM Studio,原生的
llama.cpp在多模态支持和长上下文表现上更稳定、速度更快。
二、 编写一键启动脚本(Windows 批处理)
为了方便在多版本量化模型之间切换,并在启动时准确挂载多模态和核心优化参数,建议在 llama.cpp 根目录下创建一个 start_qwen.bat 文件(保存时务必选择 UTF-8 编码),嫌麻烦直接【点击下载】打包版
1 | @echo off |
推荐 llama.cpp 参数
推荐启动参数:
1 | llama-server.exe ^ |
⚠️ 脚本关键参数解析:
--mmproj:必须挂载,否则前端的上传图片按钮会直接置灰,无法进行 OCR 或图片分析。--jinja:新版 Qwen 模型的核心必带参数。不加的话极易触发本地推理无限重复、格式错乱或中文乱码的 Bug。-ngl 999:强制将所有模型层全切给显存进行加速。
三、 对接 AI Agent 工具(以 OpenClaw 为例)
当后台脚本运行并成功映射出本地端口 http://127.0.0.1:8080 后,配合前端 Agent 框架才能完全释放其作为“本地生产力工具”的价值。
- 启动本地 API 网关:脚本运行后,它将以完全兼容 OpenAI API 规范的形式在本地跑起服务。
- 在 OpenClaw / Hermes 中接入:
- 打开你的 Agent 客户端,在模型提供商(Provider)中选择 Custom(自定义) 或 OpenAI 兼容模式。
- API Base 地址 填写:
http://127.0.0.1:8080/v1 - API Key 随意输入任意字符占位或留空即可。
- 完成对接:此时你就拥有了一个彻底本地化运转、无需消耗 Token、支持长记忆自动写代码、甚至可以自动识图并调用本地工具链的无限制级 AI 助手。
总结
Qwen3.6-35B-A3B 的激进越狱版可以说是目前中文体验、长文本推理、多模态识图三者结合最好的本地开源模型之一。通过 llama.cpp + 简单的批处理脚本,在不需要昂贵服务器的前提下,低配置游戏本也可以轻松体验到媲美闭源商业 AI 的自由度。建议有相关需求的同学尽快将模型 GGUF 文件下载本地做持久化备份。





