兄弟们,好久不见!最近后台和群里天天有兄弟私信我:“博主 out 了吧?现在大模型动不动就 35B(350亿参数),没个 24G 显存的显卡连碰都不敢碰,咱们手里的老硬件是不是只能看戏了?”

今天我就用实际行动给各位“云股东”们开开眼!谁说 8G 显存不能玩大模型?今天咱就用一张老当益壮的 RTX 3070 8G,把最新的 Qwen3.6-35B-A3B 多模态大模型 给哥们儿硬跑起来!不仅能跑,而且长上下文、Flash Attention、本地网页 UI 全都安排上,甚至连视觉识图(多模态)都顺畅无比。

别急着说不可能,华强北背包客从不玩虚的,直接看底层逻辑和硬核干货!


为什么 8G 显存能硬啃 35B 参数?

很多兄弟对大模型有误解,觉得 35B 参数就必须把 35B 的权重全部塞进显存。

其实这次我们玩的 Qwen3.6-35B-A3B 采用了 MoE(混合专家模型)架构

核心原理: 别看它总参数有 35B,但由于 MoE 机制,每次激活运行的参数其实只有 3B 左右

配合最新版 llama.cppCPU Offload 技术,我们可以让显卡(GPU)去跑核心的注意力层,而把庞大的专家层甩给内存(RAM)去扛。这就叫好钢用在刀刃上!


搞机准备:我的测试配置

为了让兄弟们有个参考,先把我的工作台配置贴出来。大家根据自己的机器对号入座:

  • CPU: Intel i7-12700
  • 显卡(GPU): RTX 3070 8GB
  • 内存(RAM): 32GB × 2(显存不够,内存来凑,玩 MoE 架构内存一定要大!)
  • 系统: Windows 11
  • 推理框架: llama.cpp (CUDA 12.4/13.1)

第一步:核心物资下载(全套工具链)

搞机第一步,先备齐家伙什儿:

  1. 推理引擎: 下载最新版的 llama.cpp。现在的 llama.cpp 简直无敌,不仅 N 卡起飞,A 卡、Intel 显卡甚至纯 CPU 都能跑。

    https://github.com/ggml-org/llama.cpp

    https://pan.quark.cn/s/4c9a7547159b#/list/share

    https://pan.cloudeop.com/s/55038F2FB7450D9F

  2. 显卡驱动: N 卡用户建议把 CUDA 驱动升级到较新版本(如 CUDA 12.4 或 13.1)。

    https://developer.nvidia.com/cuda-13-1-0-download-archive

    https://pan.quark.cn/s/9e48dc99be51#/list/share

  3. 大模型本体: 认准量化格式 Qwen3.6-35B-A3B-UD-Q4_K_M.gguf。这个 Q4_K_M 是我反复测试下来,在精度、显存占用、推理速度三者之间平衡得最好的一版。

    https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF/tree/main

    https://pan.quark.cn/s/a73edf858ba4#/list/share

  4. 多模态组件(重点): 想让大模型长眼睛认图,必须额外下载对应的视觉组件 mmproj-BF16.gguf!不装这个,本地 UI 的图片上传按钮就是灰色的,直接变“瞎子”。


第二步:硬核调优,一键启动脚本

废话不多说,直接上针对 8G 显存优化过的批处理(.bat)脚本。兄弟们在本地新建个文本,把代码拷进去,名字改成 启动.bat 就能用。

⚠️ 避坑提示: 记得把第三行 cd /d 后面的路径换成你本地 llama.cpp 的实际解压路径!

代码段

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
@echo off
chcp 65001 > nul
:: 换成你自己的 llama.cpp 文件夹路径
cd /d C:\Users\YourOwnerPath\Desktop\llama-cuda-bin-x64

llama-server.exe ^
-m "models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" ^
--mmproj "models\mmproj-BF16.gguf" ^
-ngl 99 ^
--n-cpu-moe 999 ^
--flash-attn on ^
--jinja ^
-c 32768 ^
-t 12 ^
-b 512 ^
-ub 128 ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--mlock ^
--host 127.0.0.1 ^
--port 8080

pause

💡 专属参数解析(为什么这么调?):

  • -ngl 99:能切到显存里的层数全切过去,榨干 3070 的最后一滴血。
  • --n-cpu-moe 999:强制 MoE 专家层在 CPU/内存中调度,这是 8G 显卡不爆显存的免死金牌。
  • --flash-attn on:开启闪光注意力机制,大幅降低显存占用并提升生成速度。
  • -c 32768:直接拉满 32K 上下文,长文本对话、看长代码毫无压力。
  • --cache-type-k q4_0 / --cache-type-v q4_0:把 KV 缓存进行量化压缩,进一步省出显存空间。

第三步:收工,本地享用!

双击运行 启动.bat,看到黑窗口里刷刷刷闪过加载信息、没有报错之后 outline 成功,直接打开浏览器输入:

1
http://127.0.0.1:8080

属于你自己的本地、私密、无审查的 35B 多模态大模型网页端就搞定了!把你想测试的图片、复杂代码或者奇葩问题丢给它,看看这速度,是不是直接起飞?

总结

谁说数码科技必须年年追新?在技术大牛和神级优化框架面前,合理的参数调优直接能让老硬件再战三年。这次 3070 8G 越级强杀 35B 大模型就是最好的证明。

兄弟们如果在部署过程中踩了坑,或者有什么参数不懂的,直接在评论区留言,或者在咱们交流群里轰炸我。觉得这波干货给力的,别忘了点赞、分享、给个一键三连,咱们下期搞机视频/博文再见!