Gemma 4 12B: 开源无编码器多模态新标杆

Adrian Cole

2026年6月12日

113

original

Google DeepMind 发布 Gemma 4 12B，一款统一架构、无编码器（encoder-free）的多模态模型，直接处理像素级图像与文本，在多项视觉语言基准上达到同级最优。模型支持128K上下文，开源可商用，为研究者和开发者提供高效的多模态基础模型新选择。

多模态模型领域又迎来一位有力的竞争者。Google DeepMind 正式发布了 Gemma 4 12B，这是一款参数量为 12B 的轻量级开源模型，最大的特点在于它采用 无编码器（encoder-free） 设计，直接将原始图像像素与文本序列对齐，而不是像传统多模态模型那样依赖一个独立的视觉编码器。这种设计不仅能减少推理时的计算开销，也让模型更容易在个人设备上部署。

架构革新：去掉视觉编码器意味着什么？

过去几年，主流的多模态模型（如 LLaVA、Qwen-VL）通常使用预训练的视觉编码器（如 CLIP 或 SigLIP）来提取图像特征，再与文本 token 拼接输入语言模型。而 Gemma 4 12B 选择了更激进的路线——用像素级的 patch embedding 取代编码器，让语言模型自己学会从原始像素中提取视觉信息。DeepMind 在博客中表示，这种统一架构使得模型在图像理解、文档分析和多轮对话等任务上表现稳定，尤其在高分辨率场景下，避免了编码器带来的信息损失。

性能表现：小模型的大潜力

尽管只有 12B 参数，Gemma 4 12B 在多个视觉语言基准（如 MMMU、MathVista、ChartQA）上取得了与更大模型接近的成绩。它在图表解读、科学图文推理和文档解析方面表现尤为突出。官方公布的数据显示，在 MMMU 测试集上，它的准确率超越了许多同尺寸的闭源模型。同时，模型支持 128K 上下文窗口，可以处理长文档与高分辨率图片的组合输入，这对需要分析大型表格或整页 PDF 的用户来说非常实用。

统一架构：无需额外视觉编码器，降低部署复杂度
原生像素理解：直接处理原始图像，避免编码器瓶颈
128K 上下文：支持长文本与高分辨率图像的联合推理
开源可商用：模型权重在 Hugging Face 以 Gemma 许可证发布，支持商业使用

对行业的影响：开源多模态的实用化转向

Gemma 4 12B 的发布，反映了多模态模型的一个新趋势：从“堆参数、拼编码器”转向追求 架构简洁与部署友好。无编码器的设计意味着开发者不再需要维护额外的视觉模型组件，代码和推理链路都更简单。对于预算有限的初创团队或学术实验室来说，这降低了不少门槛。同时，Google 强调该模型经过 安全微调，在减少有害输出和偏见方面做了不少工作。

典型使用场景包括自动解析图片中的表格数据、为文档生成摘要、辅助视觉问答系统等。比如，一个金融分析工具可以直接将股价走势图的截图输入 Gemma 4 12B，让它解读趋势并生成文字报告，整个过程无需调用专门的对象检测模型。这种端到端的处理方式，让多模态能力更容易嵌入现有工作流。