很多同学以为想折腾本地大模型,非得配一台动辄万元的桌面级大显存 PC。其实随着模型架构的迭代,手机端的算力早已今非昔比。

今天分享的是如何在一台普通手机上,离线跑通谷歌 DeepMind 最新发布的开源旗舰模型 —— Gemma 4。得益于其专门针对移动端优化的轻量化版本(E2B/E4B),内存占用被死死压在了 1.5GB 以下。更硬核的是,它支持原生多模态,在完全切断网络的飞行模式下,依然能流畅实现拍照识物、写前端代码和逻辑推理。

本篇教程将分别针对 Android 和 iOS 双平台,手把手带你完成本地部署。


一、 Android 安卓端部署实操

哪怕是配置较低的老款安卓机,按照以下优化参数配置,也能获得相当可观的生成速度。

1. 环境搭建

  • 前往 Google Play 或通过下载站获取支持本地推理的客户端 APK 并安装。

    (1)、Google应用商店下载:【点击前往

    (2)、下载安卓APK安装包:【点击下载】或【备用下载

  • 首次进入应用,点击 Get Started 并通过基础权限认证。

2. 模型下载(Model Hub)

  • 点击左上角菜单进入 Model Hub(模型库)。
  • 向下滑动找到 Gemma 4 ECB 量化版模型
  • 版本选择:系统会根据你的硬件配置推荐版本。老旧机型或低配手机建议勾选 1.2GB 的 Q2_K_S_L 量化版;若手机配置较高,直接冲 2.3GB 版本以获得更强的逻辑表现。点击 Download 等待下载完成。

3. 自定义参数载入(关键)

回到首页,进入 Fast 选项卡并拉到底部,开启自定义模式创建新模型:

  • 模型文件:选中刚刚下载好的 Gemma 4 1.2G/2.3G 镜像。
  • 最高 Token 输出:严格限制在 512(防止低配手机因过热或内存溢出导致闪退)。
  • 上下文长度:根据手机剩余内存量力而行,配置较低切勿拉得太高。

保存后即可在本地完全离线的状态下,秒级生成日常对话或进行代码编写。


二、 iOS 苹果端部署实操

在 iPhone 上,我们借助一款主打隐私与安全的免费本地离线工具来实现。

  1. 获取客户端:前往 App Store 搜索并下载 Locally AI
  2. 下载 Gemma 4 移动版:打开应用并跳过常规推荐,点击上方的 选择模型。在列表中找到最新的 Gemma 4(E2B 量化版,文件大小约为 3.61GB),该版本完美支持深入思考与多模态视觉。
  3. 完成部署:等待下载进度条走完,即可直接在手机本地拉起高性能推理。

三、 极客硬核评测:Gemma 4 纯离线表现如何?

为了验证这颗手机端本地小模型的极限,我在开启飞行模式、完全断网的状态下,对其进行了高强度测试:

1. 多模态视觉识别(拍照识物)

在桌面随手丢下手机壳、护肤品小瓶、声卡配件和益生菌罐子,拍照发给开启了“深入思考模式”的 Gemma 4。

  • 实测反馈:大件物品的标签、颜色、材质全部精准识别。但在面对极其微小的物体(如西瓜子)时,虽然推测出了是“种子”,但在数量清点上与 ChatGPT 一样出现了数错的通病。

2. 前端代码编程

  • 指令:编写一个包含水、水草和鱼的 3D 鱼缸场景。
  • 实测反馈:完全本地离线输出,一气呵成给出了完整的 HTML、CSS 和 JavaScript 代码。拷贝到电脑浏览器中运行,水流渲染与动画的真实感和水准令人惊艳。

3. 安全合规机制

  • 尝试拍了一盒日常处方药“瑞巴派特片”丢给它。模型准确完成了文本 OCR 识别,并瞬间触发了本地安全机制,主动声明“涉及健康产品,无法提供医疗建议”,表现得极为严谨。

总结

谷歌 Gemma 4 在移动端的本地离线表现远远超出了预期。通过极低的内存占用,在断网环境下仅用 1 分钟就能分章节输出长篇文本,且多模态识图能力完全达到了日常高频可用的级别。这对于注重数据隐私、或者经常在无网/弱网环境下有生产力需求的极客同学来说,是一个非常完美的无成本私有 AI 解决方案。