Google DeepMind 近期发布了 Gemma 4 系列模型，其中 12B 版本凭借其优化的参数规模、原生多模态支持以及超长上下文能力，成为当前本地部署 AI 的热门选择。本文将介绍该模型的核心亮点及在消费级显卡上的高效部署方案。

核心特性：为何选择 Gemma 4 12B？

Gemma 4 12B 在模型体积与推理效能之间取得了理想平衡，特别适合个人开发者及本地 AI 爱好者：

多模态推理： 支持文本、图片与音频内容的联合理解，可直接分析图片内容或总结音频信息。
超长上下文： 官方支持最高 256K Context Window，能够从容应对长篇 PDF 文档、书籍或大规模代码库。
硬件兼容性： 经过量化后，可在 8GB 至 24GB 显存的消费级 GPU（如 RTX 3060/4090）上流畅运行。

部署方案：环境准备

我们推荐使用 llama.cpp【点击前往】或【打包下载】作为推理引擎。它具备极高的灵活性，支持视觉模型加载及各种自定义 Agent 对接。

1. 模型获取

请根据您的显存容量选择合适的量化版本（GGUF 格式）：

8GB 显存： 建议使用 IQ2_XS 量化版本。
12GB 显存： 推荐 Q4_K_M 量化版本。
16GB 显存： 推荐 Q6_K 量化版本。
24GB 显存： 推荐 Q8_0 量化版本（效果最接近 BF16 原版）。

注意： 若需启用图片理解功能，请务必同步下载对应的 mmproj 视觉投影模型文件。

可以前往【点击前往】或【备用下载】或【整合包下载】。

当然如果你的显存比较小，想在4G、6G显存上跑这个开源模型，那么可以下载更小更细分的量化模型，你可以去下载由 Unsloth 提供的更多的量化模型

量化模型下载：【点击获取】或【网盘下载】

2. 自动化启动脚本

为简化启动流程，建议在 llama.cpp 根目录下创建 models 文件夹存放模型，并编写如下 .bat 启动脚本（需存为 UTF-8 编码）：

@echo off
chcp 65001 >nul
title Gemma 4 启动器

:menu
cls

echo.
echo ==========================================
echo           Gemma 4 智能启动菜单
echo ==========================================
echo.
echo 【纯文本模式】
echo.
echo 1. 6GB显存   (Gemma 4 4B Q4)
echo 2. 8GB显存   (Gemma 4 12B IQ2)
echo 3. 12GB显存  (Gemma 4 12B Q4)
echo 4. 16GB显存  (Gemma 4 12B Q6)
echo 5. 24GB显存  (Gemma 4 12B Q8)
echo.
echo 【图片理解模式】
echo.
echo 6. 12GB显存 + 图片理解
echo 7. 16GB显存 + 图片理解
echo 8. 24GB显存 + 图片理解
echo.
echo 【极限模式】
echo.
echo 9. BF16视觉模式 (4090/5090推荐)
echo.
echo 0. 退出
echo.

set /p choice=请选择模式：

if "%choice%"=="1" goto VRAM6
if "%choice%"=="2" goto VRAM8
if "%choice%"=="3" goto VRAM12
if "%choice%"=="4" goto VRAM16
if "%choice%"=="5" goto VRAM24
if "%choice%"=="6" goto MM12
if "%choice%"=="7" goto MM16
if "%choice%"=="8" goto MM24
if "%choice%"=="9" goto BF16
if "%choice%"=="0" exit

goto menu

:VRAM6
cls
echo 启动 Gemma 4 4B Q4...
llama-server ^
-m models\gemma-4-4B-it-Q4_K_M.gguf ^
-ngl 999 ^
-c 8192 ^
--host 127.0.0.1
goto end

:VRAM8
cls
echo 启动 Gemma 4 12B IQ2...
llama-server ^
-m models\gemma-4-12B-it-IQ2_XS.gguf ^
-ngl 999 ^
-c 8192 ^
--host 127.0.0.1
goto end

:VRAM12
cls
echo 启动 Gemma 4 12B Q4...
llama-server ^
-m models\gemma-4-12B-it-Q8_0.gguf ^
-ngl 999 ^
-c 186753 ^
--host 127.0.0.1
goto end

:VRAM16
cls
echo 启动 Gemma 4 12B Q6...
llama-server ^
-m models\gemma-4-12B-it-Q6_K.gguf ^
-ngl 999 ^
-c 32768 ^
--host 127.0.0.1
goto end

:VRAM24
cls
echo 启动 Gemma 4 12B Q8...
llama-server ^
-m models\gemma-4-12B-it-Q8_0.gguf ^
-ngl 999 ^
-c 186753 ^
--host 127.0.0.1
goto end

:MM12
cls
echo 启动 Gemma 4 12B Q4 多模态...
llama-server ^
-m models\gemma-4-12B-it-Q8_0.gguf ^
--mmproj models\mmproj-gemma-4-12B-it-Q8_0.gguf ^
-ngl 999 ^
-c 186753 ^
--host 127.0.0.1
goto end

:MM16
cls
echo 启动 Gemma 4 12B Q6 多模态...
llama-server ^
-m models\gemma-4-12B-it-Q6_K.gguf ^
--mmproj models\mmproj-F16.gguf ^
-ngl 999 ^
-c 32768 ^
--host 127.0.0.1
goto end

:MM24
cls
echo 启动 Gemma 4 12B Q8 多模态...
llama-server ^
-m models\gemma-4-12B-it-Q8_0.gguf ^
--mmproj models\mmproj-gemma-4-12B-it-Q8_0.gguf ^
-ngl 999 ^
-c 186753 ^
--host 127.0.0.1
goto end

:BF16
cls
echo 启动 Gemma 4 BF16 视觉模式...
llama-server ^
-m models\gemma-4-12B-it-BF16.gguf ^
--mmproj models\mmproj-gemma-4-12B-it-bf16.gguf ^
-ngl 999 ^
-c 186753 ^
--host 127.0.0.1
goto end

:end

echo.
echo ==========================================
echo 服务启动完成
echo.
echo 浏览器打开：
echo http://127.0.0.1:8080
echo ==========================================
echo.

pause

优化建议

显存管理： llama-server 参数中的 -ngl 999 表示将所有层卸载至 GPU 显存。若显存不足，请根据实际报错情况适当减小该数值，或更换更低量化版本。
上下文设置： 虽然模型支持 256K 上下文，但在显存受限时，建议通过 -c 参数（如 32768）合理控制并发窗口，以保持推理速度。
交互访问： 服务启动后，请在浏览器访问 http://127.0.0.1:8080 进入 Web UI 进行测试。