8G显存逆天逆袭!老神卡 RTX 3070 强啃 Qwen3.6-35B 多模态大模型,附硬核优化脚本!
兄弟们,好久不见!最近后台和群里天天有兄弟私信我:“博主 out 了吧?现在大模型动不动就 35B(350亿参数),没个 24G 显存的显卡连碰都不敢碰,咱们手里的老硬件是不是只能看戏了?”
今天我就用实际行动给各位“云股东”们开开眼!谁说 8G 显存不能玩大模型?今天咱就用一张老当益壮的 RTX 3070 8G,把最新的 Qwen3.6-35B-A3B 多模态大模型 给哥们儿硬跑起来!不仅能跑,而且长上下文、Flash Attention、本地网页 UI 全都安排上,甚至连视觉识图(多模态)都顺畅无比。
别急着说不可能,华强北背包客从不玩虚的,直接看底层逻辑和硬核干货!
为什么 8G 显存能硬啃 35B 参数?
很多兄弟对大模型有误解,觉得 35B 参数就必须把 35B 的权重全部塞进显存。
其实这次我们玩的 Qwen3.6-35B-A3B 采用了 MoE(混合专家模型)架构:
核心原理: 别看它总参数有 35B,但由于 MoE 机制,每次激活运行的参数其实只有 3B 左右!
配合最新版
llama.cpp的 CPU Offload 技术,我们可以让显卡(GPU)去跑核心的注意力层,而把庞大的专家层甩给内存(RAM)去扛。这就叫好钢用在刀刃上!
搞机准备:我的测试配置
为了让兄弟们有个参考,先把我的工作台配置贴出来。大家根据自己的机器对号入座:
- CPU: Intel i7-12700
- 显卡(GPU): RTX 3070 8GB
- 内存(RAM): 32GB × 2(显存不够,内存来凑,玩 MoE 架构内存一定要大!)
- 系统: Windows 11
- 推理框架:
llama.cpp(CUDA 12.4/13.1)
第一步:核心物资下载(全套工具链)
搞机第一步,先备齐家伙什儿:
推理引擎: 下载最新版的
llama.cpp。现在的llama.cpp简直无敌,不仅 N 卡起飞,A 卡、Intel 显卡甚至纯 CPU 都能跑。https://github.com/ggml-org/llama.cpp
显卡驱动: N 卡用户建议把 CUDA 驱动升级到较新版本(如 CUDA 12.4 或 13.1)。
大模型本体: 认准量化格式
Qwen3.6-35B-A3B-UD-Q4_K_M.gguf。这个Q4_K_M是我反复测试下来,在精度、显存占用、推理速度三者之间平衡得最好的一版。https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF/tree/main
多模态组件(重点): 想让大模型长眼睛认图,必须额外下载对应的视觉组件
mmproj-BF16.gguf!不装这个,本地 UI 的图片上传按钮就是灰色的,直接变“瞎子”。
第二步:硬核调优,一键启动脚本
废话不多说,直接上针对 8G 显存优化过的批处理(.bat)脚本。兄弟们在本地新建个文本,把代码拷进去,名字改成 启动.bat 就能用。
⚠️ 避坑提示: 记得把第三行
cd /d后面的路径换成你本地llama.cpp的实际解压路径!
代码段
1 | @echo off |
💡 专属参数解析(为什么这么调?):
-ngl 99:能切到显存里的层数全切过去,榨干 3070 的最后一滴血。--n-cpu-moe 999:强制 MoE 专家层在 CPU/内存中调度,这是 8G 显卡不爆显存的免死金牌。--flash-attn on:开启闪光注意力机制,大幅降低显存占用并提升生成速度。-c 32768:直接拉满 32K 上下文,长文本对话、看长代码毫无压力。--cache-type-k q4_0 / --cache-type-v q4_0:把 KV 缓存进行量化压缩,进一步省出显存空间。
第三步:收工,本地享用!
双击运行 启动.bat,看到黑窗口里刷刷刷闪过加载信息、没有报错之后 outline 成功,直接打开浏览器输入:
1 | http://127.0.0.1:8080 |
属于你自己的本地、私密、无审查的 35B 多模态大模型网页端就搞定了!把你想测试的图片、复杂代码或者奇葩问题丢给它,看看这速度,是不是直接起飞?
总结
谁说数码科技必须年年追新?在技术大牛和神级优化框架面前,合理的参数调优直接能让老硬件再战三年。这次 3070 8G 越级强杀 35B 大模型就是最好的证明。
兄弟们如果在部署过程中踩了坑,或者有什么参数不懂的,直接在评论区留言,或者在咱们交流群里轰炸我。觉得这波干货给力的,别忘了点赞、分享、给个一键三连,咱们下期搞机视频/博文再见!





