8G显存逆天逆袭！老神卡 RTX 3070 强啃 Qwen3.6-35B 多模态大模型，附硬核优化脚本！

兄弟们，好久不见！最近后台和群里天天有兄弟私信我：“博主 out 了吧？现在大模型动不动就 35B（350亿参数），没个 24G 显存的显卡连碰都不敢碰，咱们手里的老硬件是不是只能看戏了？”

今天我就用实际行动给各位“云股东”们开开眼！谁说 8G 显存不能玩大模型？今天咱就用一张老当益壮的 RTX 3070 8G，把最新的 Qwen3.6-35B-A3B 多模态大模型 给哥们儿硬跑起来！不仅能跑，而且长上下文、Flash Attention、本地网页 UI 全都安排上，甚至连视觉识图（多模态）都顺畅无比。

别急着说不可能，华强北背包客从不玩虚的，直接看底层逻辑和硬核干货！

为什么 8G 显存能硬啃 35B 参数？

很多兄弟对大模型有误解，觉得 35B 参数就必须把 35B 的权重全部塞进显存。

其实这次我们玩的 Qwen3.6-35B-A3B 采用了 MoE（混合专家模型）架构：

核心原理： 别看它总参数有 35B，但由于 MoE 机制，每次激活运行的参数其实只有 3B 左右！
配合最新版 llama.cpp 的 CPU Offload 技术，我们可以让显卡（GPU）去跑核心的注意力层，而把庞大的专家层甩给内存（RAM）去扛。这就叫好钢用在刀刃上！

搞机准备：我的测试配置

为了让兄弟们有个参考，先把我的工作台配置贴出来。大家根据自己的机器对号入座：

CPU： Intel i7-12700
显卡（GPU）： RTX 3070 8GB
内存（RAM）： 32GB × 2（显存不够，内存来凑，玩 MoE 架构内存一定要大！）
系统： Windows 11
推理框架： llama.cpp (CUDA 12.4/13.1)

第一步：核心物资下载（全套工具链）

搞机第一步，先备齐家伙什儿：

推理引擎： 下载最新版的 llama.cpp。现在的 llama.cpp 简直无敌，不仅 N 卡起飞，A 卡、Intel 显卡甚至纯 CPU 都能跑。
https://github.com/ggml-org/llama.cpp
https://pan.quark.cn/s/4c9a7547159b#/list/share
https://pan.cloudeop.com/s/55038F2FB7450D9F
显卡驱动： N 卡用户建议把 CUDA 驱动升级到较新版本（如 CUDA 12.4 或 13.1）。
https://developer.nvidia.com/cuda-13-1-0-download-archive
https://pan.quark.cn/s/9e48dc99be51#/list/share
大模型本体： 认准量化格式 Qwen3.6-35B-A3B-UD-Q4_K_M.gguf。这个 Q4_K_M 是我反复测试下来，在精度、显存占用、推理速度三者之间平衡得最好的一版。
https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF/tree/main
https://pan.quark.cn/s/a73edf858ba4#/list/share
多模态组件（重点）： 想让大模型长眼睛认图，必须额外下载对应的视觉组件 mmproj-BF16.gguf！不装这个，本地 UI 的图片上传按钮就是灰色的，直接变“瞎子”。

第二步：硬核调优，一键启动脚本

废话不多说，直接上针对 8G 显存优化过的批处理（.bat）脚本。兄弟们在本地新建个文本，把代码拷进去，名字改成 启动.bat 就能用。

⚠️ 避坑提示： 记得把第三行 cd /d 后面的路径换成你本地 llama.cpp 的实际解压路径！

代码段

@echo off
chcp 65001 > nul
:: 换成你自己的 llama.cpp 文件夹路径
cd /d C:\Users\YourOwnerPath\Desktop\llama-cuda-bin-x64

llama-server.exe ^
-m "models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" ^
--mmproj "models\mmproj-BF16.gguf" ^
-ngl 99 ^
--n-cpu-moe 999 ^
--flash-attn on ^
--jinja ^
-c 32768 ^
-t 12 ^
-b 512 ^
-ub 128 ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--mlock ^
--host 127.0.0.1 ^
--port 8080

pause