Gemma 4 12B: 開源無編碼器多模態新標杆

Adrian Cole

2026年6月12日

113

original

Google DeepMind 釋出 Gemma 4 12B，一款統一架構、無編碼器（encoder-free）的多模態模型，直接處理畫素級影象與文字，在多項視覺語言基準上達到同級最優。模型支援128K上下文，開源可商用，為研究者和開發者提供高效的多模態基礎模型新選擇。

多模態模型領域又迎來一位有力的競爭者。Google DeepMind 正式釋出了 Gemma 4 12B，這是一款引數量為 12B 的輕量級開源模型，最大的特點在於它採用 無編碼器（encoder-free） 設計，直接將原始影象畫素與文字序列對齊，而不是像傳統多模態模型那樣依賴一個獨立的視覺編碼器。這種設計不僅能減少推理時的計算開銷，也讓模型更容易在個人裝置上部署。

架構革新：去掉視覺編碼器意味著什麼？

過去幾年，主流的多模態模型（如 LLaVA、Qwen-VL）通常使用預訓練的視覺編碼器（如 CLIP 或 SigLIP）來提取影象特徵，再與文字 token 拼接輸入語言模型。而 Gemma 4 12B 選擇了更激進的路線——用畫素級的 patch embedding 取代編碼器，讓語言模型自己學會從原始畫素中提取視覺資訊。DeepMind 在部落格中表示，這種統一架構使得模型在影象理解、文件分析和多輪對話等任務上表現穩定，尤其在高解析度場景下，避免了編碼器帶來的資訊損失。

效能表現：小模型的大潛力

儘管只有 12B 引數，Gemma 4 12B 在多個視覺語言基準（如 MMMU、MathVista、ChartQA）上取得了與更大模型接近的成績。它在圖表解讀、科學圖文推理和文件解析方面表現尤為突出。官方公佈的資料顯示，在 MMMU 測試集上，它的準確率超越了許多同尺寸的閉源模型。同時，模型支援 128K 上下文視窗，可以處理長文件與高解析度圖片的組合輸入，這對需要分析大型表格或整頁 PDF 的使用者來說非常實用。

統一架構：無需額外視覺編碼器，降低部署複雜度
原生畫素理解：直接處理原始影象，避免編碼器瓶頸
128K 上下文：支援長文字與高解析度影象的聯合推理
開源可商用：模型權重在 Hugging Face 以 Gemma 許可證釋出，支援商業使用

對行業的影響：開源多模態的實用化轉向

Gemma 4 12B 的釋出，反映了多模態模型的一個新趨勢：從「堆引數、拼編碼器」轉向追求 架構簡潔與部署友好。無編碼器的設計意味著開發者不再需要維護額外的視覺模型元件，程式碼和推理鏈路都更簡單。對於預算有限的初創團隊或學術實驗室來說，這降低了不少門檻。同時，Google 強調該模型經過 安全微調，在減少有害輸出和偏見方面做了不少工作。

典型使用場景包括自動解析圖片中的表格資料、為文件生成摘要、輔助視覺問答系統等。比如，一個金融分析工具可以直接將股價走勢圖的截圖輸入 Gemma 4 12B，讓它解讀趨勢並生成文字報告，整個過程無需呼叫專門的對象檢測模型。這種端到端的處理方式，讓多模態能力更容易嵌入現有工作流。