对于喜欢折腾本地大模型的同学来说,官方开源模型虽然聪明,但往往带有层层安全限制,稍微涉及敏感或激进的长文本指令,就会高频触发“抱歉,我无法回答”。

今天分享的 Qwen3.6-35B-A3B Uncensored HauhauCS Aggressive 则是目前社区热度极高的硬核“越狱版”模型。它彻底移除了系统提示词限制与输出过滤。更难得的是,由于采用了 MoE(专家混合架构),虽然总参数高达 35B,但每次运行仅激活约 3B 参数,配合 GGUF 量化,最低 6G/8G 显存 的主流游戏显卡就能流畅跑起来。

本文将手把手带你在本地用 llama.cpp 搭建这套无审查、带多模态视觉(Vision)能力的私有 AI 中心。


一、 核心文件准备

在部署之前,我们需要下载对应的模型量化文件与高效的后端推理引擎:

  1. 大模型下载:前往 Hugging Face 仓库 搜索并下载 Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive 的 GGUF 版本。

    模型下载【huggingface 下载】、【网盘打包下载

    • 24G 显存(如 RTX 4090):推荐下载 Q4_K_PQ4_K_M 体验版。
    • 6G/8G 显存:推荐下载 IQ2_MIQ3_M 高压缩版本。
  2. 多模态组件下载:同时需要下载对应的视觉投影文件 mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf,用于开启图片识别功能。

  3. 推理引擎:下载最新版的 llama.cpp

    下载方式:【Github下载】、【网盘下载】或 【整合包下载】。相比于 Ollama 或 LM Studio,原生的 llama.cpp 在多模态支持和长上下文表现上更稳定、速度更快。


二、 编写一键启动脚本(Windows 批处理)

为了方便在多版本量化模型之间切换,并在启动时准确挂载多模态和核心优化参数,建议在 llama.cpp 根目录下创建一个 start_qwen.bat 文件(保存时务必选择 UTF-8 编码),嫌麻烦直接【点击下载】打包版

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
@echo off
chcp 65001 >nul
title Qwen3.6-35B-A3B 越狱版

cd /d "%~dp0"

:menu
cls
echo ==========================================
echo Qwen3.6-35B-A3B 越狱版+多模态模型
echo 零度优化版
echo ==========================================
echo.
echo 1. Q4_K_P(4090 推荐)
echo 2. Q4_K_M(稳定版)
echo 3. IQ4_NL(高压缩高质量)
echo 4. IQ2_M(6G/8G 显卡)
echo.
echo ==========================================

set /p choice=请输入数字:

if "%choice%"=="1" (
llama-server.exe ^
-m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf" ^
--mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
-ngl 999 ^
-c 131072 ^
-n 8192 ^
--host 127.0.0.1 ^
--port 8080
)

if "%choice%"=="2" (
llama-server.exe ^
-m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf" ^
--mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
-ngl 999 ^
-c 131072 ^
-n 8192 ^
--host 127.0.0.1 ^
--port 8080
)

if "%choice%"=="3" (
llama-server.exe ^
-m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_NL.gguf" ^
--mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
-ngl 999 ^
-c 131072 ^
-n 8192 ^
--host 127.0.0.1 ^
--port 8080
)

if "%choice%"=="4" (
llama-server.exe ^
-m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf" ^
--mmproj "models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
-ngl 999 ^
-c 8192 ^
-n 4096 ^
--host 127.0.0.1 ^
--port 8080
)

pause

推荐 llama.cpp 参数

推荐启动参数:

1
2
3
4
5
6
7
8
9
llama-server.exe ^
-m "模型路径.gguf" ^
--mmproj "mmproj.gguf" ^
-ngl 999 ^
-c 131072 ^
-n 8192 ^
--host 127.0.0.1 ^
--port 8080 ^
--jinja

⚠️ 脚本关键参数解析

  • --mmproj:必须挂载,否则前端的上传图片按钮会直接置灰,无法进行 OCR 或图片分析。
  • --jinja新版 Qwen 模型的核心必带参数。不加的话极易触发本地推理无限重复、格式错乱或中文乱码的 Bug。
  • -ngl 999:强制将所有模型层全切给显存进行加速。

三、 对接 AI Agent 工具(以 OpenClaw 为例)

当后台脚本运行并成功映射出本地端口 http://127.0.0.1:8080 后,配合前端 Agent 框架才能完全释放其作为“本地生产力工具”的价值。

  1. 启动本地 API 网关:脚本运行后,它将以完全兼容 OpenAI API 规范的形式在本地跑起服务。
  2. 在 OpenClaw / Hermes 中接入
    • 打开你的 Agent 客户端,在模型提供商(Provider)中选择 Custom(自定义)OpenAI 兼容模式
    • API Base 地址 填写:http://127.0.0.1:8080/v1
    • API Key 随意输入任意字符占位或留空即可。
  3. 完成对接:此时你就拥有了一个彻底本地化运转、无需消耗 Token、支持长记忆自动写代码、甚至可以自动识图并调用本地工具链的无限制级 AI 助手。

总结

Qwen3.6-35B-A3B 的激进越狱版可以说是目前中文体验、长文本推理、多模态识图三者结合最好的本地开源模型之一。通过 llama.cpp + 简单的批处理脚本,在不需要昂贵服务器的前提下,低配置游戏本也可以轻松体验到媲美闭源商业 AI 的自由度。建议有相关需求的同学尽快将模型 GGUF 文件下载本地做持久化备份。