エージェント

Google DeepMindが2026年6月3日、Gemma 4ファミリの中量級モデル「Gemma 4 12B」を公開した。Apache 2.0ライセンス、11.95Bパラメータのdense構成、16GBのVRAM/ユニファイドメモリでノートPC上に完全ローカル動作する。本モデルはGemma 4として初めてネイティブ音声入力を備え、しかもvision/audioエンコーダを一切使わないencoder-free統一アーキテクチャを採用した。本記事では、そのアーキテクチャ革新、制限事項、競合モデルとの定量比較、Gemma Skillsリポジトリの使い方、日本市場での業務適用シナリオまで、実装視点で詳細に解説する。 1. リリースの位置付け Gemma 4 12Bは2026年4月2日にリリースされたGemma 4ファミリ（E2B/E4B/26B MoE/31B dense）の中量級を埋める位置付けのモデルである。エッジ向けE4Bと26B MoEの間で、26Bに近い性能をより小さいメモリで実現することを狙う。Gemma 4ファミリ全体では1.5億ダウンロードを突破し、150M+ milestoneを記録している。モデルの配布物は3種類： gemma-4-12B — ベース（pre-trained） gemma-4-12B-it — チャット調整（instruction-tuned） gemma-4-12B-it-assistant — MTP（Multi-Token Prediction）投機的デコーディング用のドラフトモデル 3番目のドラフトモデルが同梱される点が特徴で、Gemma 4ファミリの中でもMTPがout-of-the-boxで付属する初のモデルとなる。 2. Encoder-Free統一アーキテクチャの革新従来のマルチモーダルモデルは、視覚情報と音声情報をそれぞれ別のエンコーダで処理してからLLMバックボーンに渡す構成が一般的であった。Gemma 4 12Bはこの設計を全面的に見直した。 Vision（画像・動画）の処理：従来のvision encoderを、軽量な埋め込みモジュールに置換中身は単一の行列乗算 + 位置埋め込み + 正規化のみの約3,500万パラメータのモジュール以降の視覚処理は全てLLMバックボーンが直接担当 Audio（音声）の処理： Audio encoderを完全削除生の音声波形を、テキストトークンと同じ次元空間に直接射影この結果、エンコーダ分のメモリ・レイテンシが削減され、16GBユニファイドメモリという厳しい制約下でもテキスト・画像・動画・音声を同時に扱える。Google DeepMindのOlivier LacombeとGus Martinsは「Gemma 4 12B is designed to bring high-performance multimodal intelligence directly to your laptop, combining mobile-first efficiency with advanced reasoning」と説明している。 ...