显存自由：本地部署 Qwen3.6-35B-A3B 终极无审查多模态大模型

对于喜欢折腾本地大模型的同学来说，官方开源模型虽然聪明，但往往带有层层安全限制，稍微涉及敏感或激进的长文本指令，就会高频触发“抱歉，我无法回答”。

今天分享的 Qwen3.6-35B-A3B Uncensored HauhauCS Aggressive 则是目前社区热度极高的硬核“越狱版”模型。它彻底移除了系统提示词限制与输出过滤。更难得的是，由于采用了 MoE（专家混合架构），虽然总参数高达 35B，但每次运行仅激活约 3B 参数，配合 GGUF 量化，最低 6G/8G 显存 的主流游戏显卡就能流畅跑起来。

本文将手把手带你在本地用 llama.cpp 搭建这套无审查、带多模态视觉（Vision）能力的私有 AI 中心。

一、核心文件准备

在部署之前，我们需要下载对应的模型量化文件与高效的后端推理引擎：

大模型下载：前往 Hugging Face 仓库搜索并下载 Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive 的 GGUF 版本。
模型下载【huggingface 下载】、【网盘打包下载】
- 24G 显存（如 RTX 4090）：推荐下载 Q4_K_P 或 Q4_K_M 体验版。
- 6G/8G 显存：推荐下载 IQ2_M 或 IQ3_M 高压缩版本。
多模态组件下载：同时需要下载对应的视觉投影文件 mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf，用于开启图片识别功能。
推理引擎：下载最新版的 llama.cpp
下载方式：【Github下载】、【网盘下载】或【整合包下载】。相比于 Ollama 或 LM Studio，原生的 llama.cpp 在多模态支持和长上下文表现上更稳定、速度更快。

二、编写一键启动脚本（Windows 批处理）

为了方便在多版本量化模型之间切换，并在启动时准确挂载多模态和核心优化参数，建议在 llama.cpp 根目录下创建一个 start_qwen.bat 文件（保存时务必选择 UTF-8 编码），嫌麻烦直接【点击下载】打包版

@echo off
chcp 65001 >nul
title Qwen3.6-35B-A3B 越狱版

cd /d "%~dp0"

:menu
cls
echo ==========================================
echo      Qwen3.6-35B-A3B 越狱版+多模态模型
echo               零度优化版
echo ==========================================
echo.
echo 1. Q4_K_P（4090 推荐）
echo 2. Q4_K_M（稳定版）
echo 3. IQ4_NL（高压缩高质量）
echo 4. IQ2_M（6G/8G 显卡）
echo.
echo ==========================================

set /p choice=请输入数字：

if "%choice%"=="1" (
    llama-server.exe ^
    -m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf" ^
    --mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
    -ngl 999 ^
    -c 131072 ^
    -n 8192 ^
    --host 127.0.0.1 ^
    --port 8080
)

if "%choice%"=="2" (
    llama-server.exe ^
    -m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf" ^
    --mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
    -ngl 999 ^
    -c 131072 ^
    -n 8192 ^
    --host 127.0.0.1 ^
    --port 8080
)

if "%choice%"=="3" (
    llama-server.exe ^
    -m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_NL.gguf" ^
    --mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
    -ngl 999 ^
    -c 131072 ^
    -n 8192 ^
    --host 127.0.0.1 ^
    --port 8080
)

if "%choice%"=="4" (
    llama-server.exe ^
    -m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf" ^
    --mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
    -ngl 999 ^
    -c 8192 ^
    -n 4096 ^
    --host 127.0.0.1 ^
    --port 8080
)

pause

三、对接 AI Agent 工具（以 OpenClaw 为例）

当后台脚本运行并成功映射出本地端口 http://127.0.0.1:8080 后，配合前端 Agent 框架才能完全释放其作为“本地生产力工具”的价值。

启动本地 API 网关：脚本运行后，它将以完全兼容 OpenAI API 规范的形式在本地跑起服务。
在 OpenClaw / Hermes 中接入：
- 打开你的 Agent 客户端，在模型提供商（Provider）中选择 Custom（自定义） 或 OpenAI 兼容模式。
- API Base 地址 填写：http://127.0.0.1:8080/v1
- API Key 随意输入任意字符占位或留空即可。
完成对接：此时你就拥有了一个彻底本地化运转、无需消耗 Token、支持长记忆自动写代码、甚至可以自动识图并调用本地工具链的无限制级 AI 助手。

总结

Qwen3.6-35B-A3B 的激进越狱版可以说是目前中文体验、长文本推理、多模态识图三者结合最好的本地开源模型之一。通过 llama.cpp + 简单的批处理脚本，在不需要昂贵服务器的前提下，低配置游戏本也可以轻松体验到媲美闭源商业 AI 的自由度。建议有相关需求的同学尽快将模型 GGUF 文件下载本地做持久化备份。