Gemma 4 12B完全解説:Googleが切り拓くEncoder-Free統一マルチモーダルの新時代

Google DeepMindが2026年6月3日、Gemma 4ファミリの中量級モデル「Gemma 4 12B」を公開した。Apache 2.0ライセンス、11.95Bパラメータのdense構成、16GBのVRAM/ユニファイドメモリでノートPC上に完全ローカル動作する。本モデルはGemma 4として初めてネイティブ音声入力を備え、しかもvision/audioエンコーダを一切使わないencoder-free統一アーキテクチャを採用した。本記事では、そのアーキテクチャ革新、制限事項、競合モデルとの定量比較、Gemma Skillsリポジトリの使い方、日本市場での業務適用シナリオまで、実装視点で詳細に解説する。 1. リリースの位置付け Gemma 4 12Bは2026年4月2日にリリースされたGemma 4ファミリ(E2B/E4B/26B MoE/31B dense)の中量級を埋める位置付けのモデルである。エッジ向けE4Bと26B MoEの間で、26Bに近い性能をより小さいメモリで実現することを狙う。Gemma 4ファミリ全体では1.5億ダウンロードを突破し、150M+ milestoneを記録している。 モデルの配布物は3種類: gemma-4-12B — ベース(pre-trained) gemma-4-12B-it — チャット調整(instruction-tuned) gemma-4-12B-it-assistant — MTP(Multi-Token Prediction)投機的デコーディング用のドラフトモデル 3番目のドラフトモデルが同梱される点が特徴で、Gemma 4ファミリの中でもMTPがout-of-the-boxで付属する初のモデルとなる。 2. Encoder-Free統一アーキテクチャの革新 従来のマルチモーダルモデルは、視覚情報と音声情報をそれぞれ別のエンコーダで処理してからLLMバックボーンに渡す構成が一般的であった。Gemma 4 12Bはこの設計を全面的に見直した。 Vision(画像・動画)の処理: 従来のvision encoderを、軽量な埋め込みモジュールに置換 中身は単一の行列乗算 + 位置埋め込み + 正規化のみの約3,500万パラメータのモジュール 以降の視覚処理は全てLLMバックボーンが直接担当 Audio(音声)の処理: Audio encoderを完全削除 生の音声波形を、テキストトークンと同じ次元空間に直接射影 この結果、エンコーダ分のメモリ・レイテンシが削減され、16GBユニファイドメモリという厳しい制約下でもテキスト・画像・動画・音声を同時に扱える。Google DeepMindのOlivier LacombeとGus Martinsは「Gemma 4 12B is designed to bring high-performance multimodal intelligence directly to your laptop, combining mobile-first efficiency with advanced reasoning」と説明している。 ...

June 4, 2026 · 20 min · 3955 words · Appwright