Google DeepMindが2026年6月3日、Gemma 4ファミリの中量級モデル「Gemma 4 12B」を公開した。Apache 2.0ライセンス、11.95Bパラメータのdense構成、16GBのVRAM/ユニファイドメモリでノートPC上に完全ローカル動作する。本モデルはGemma 4として初めてネイティブ音声入力を備え、しかもvision/audioエンコーダを一切使わないencoder-free統一アーキテクチャを採用した。本記事では、そのアーキテクチャ革新、制限事項、競合モデルとの定量比較、Gemma Skillsリポジトリの使い方、日本市場での業務適用シナリオまで、実装視点で詳細に解説する。
1. リリースの位置付け
Gemma 4 12Bは2026年4月2日にリリースされたGemma 4ファミリ(E2B/E4B/26B MoE/31B dense)の中量級を埋める位置付けのモデルである。エッジ向けE4Bと26B MoEの間で、26Bに近い性能をより小さいメモリで実現することを狙う。Gemma 4ファミリ全体では1.5億ダウンロードを突破し、150M+ milestoneを記録している。
モデルの配布物は3種類:
gemma-4-12B— ベース(pre-trained)gemma-4-12B-it— チャット調整(instruction-tuned)gemma-4-12B-it-assistant— MTP(Multi-Token Prediction)投機的デコーディング用のドラフトモデル
3番目のドラフトモデルが同梱される点が特徴で、Gemma 4ファミリの中でもMTPがout-of-the-boxで付属する初のモデルとなる。
2. Encoder-Free統一アーキテクチャの革新
従来のマルチモーダルモデルは、視覚情報と音声情報をそれぞれ別のエンコーダで処理してからLLMバックボーンに渡す構成が一般的であった。Gemma 4 12Bはこの設計を全面的に見直した。
Vision(画像・動画)の処理:
- 従来のvision encoderを、軽量な埋め込みモジュールに置換
- 中身は単一の行列乗算 + 位置埋め込み + 正規化のみの約3,500万パラメータのモジュール
- 以降の視覚処理は全てLLMバックボーンが直接担当
Audio(音声)の処理:
- Audio encoderを完全削除
- 生の音声波形を、テキストトークンと同じ次元空間に直接射影
この結果、エンコーダ分のメモリ・レイテンシが削減され、16GBユニファイドメモリという厳しい制約下でもテキスト・画像・動画・音声を同時に扱える。Google DeepMindのOlivier LacombeとGus Martinsは「Gemma 4 12B is designed to bring high-performance multimodal intelligence directly to your laptop, combining mobile-first efficiency with advanced reasoning」と説明している。
3. 性能ベンチマークと競合比較
Google公式ブログは「26B MoEモデルに迫る性能を、半数以下のメモリフットプリントで実現」と述べる。具体的な数値は公式モデルカードとHugging Face Arena Eloに分散しているが、コミュニティ・実測から以下が報告されている:
| モデル | パラメータ | アクティブ | メモリ目安 | 主な特徴 |
|---|---|---|---|---|
| Gemma 4 12B | 11.95B dense | 11.95B | 16GB VRAM/RAM | ネイティブ音声、MTP同梱 |
| Gemma 4 26B-A4B | 26B MoE | 4B | 24GB+ | 高速推論、Gemma 4で世界ランキング#6 |
| Gemma 4 31B dense | 31B | 31B | 24GB+ | Arena #3、MTPはLiteRT-LM対応待ち |
| Gemma 4 E4B | 5B | 4B | 8GB | エッジ向け、Per-Layer Embeddings |
| Qwen3.6-27B | 27B dense | 27B | 24GB+ | 中国語性能で先行、Apache系 |
| MiMo V2.5-Pro | (closed) | — | API | オープンではない |
重要な点として、Gemma 4 12Bは12Bという中量級で26B MoEに性能が近いことがベンチマークで示されている。MoEは総パラメータの割にアクティブパラメータが少ないため高速だが、26B-A4Bは約4Bアクティブで動作する。Gemma 4 12Bは11.95Bアクティブで動くためメモリは倍以上使うが、アクティブ計算量あたりの性能は近いというトレードオフになる。コンシューマ向けノートPC一台で完結させたい用途では、現実的に16GBで動かせる12Bが最適解になりうる。
4. サポートされるプラットフォーム
Day 1で以下が全てサポートされる(公式アナウンス時点):
- Hugging Face / Kaggle — 重み配布
- Ollama(
ollama.com/library/gemma4) - LM Studio(GGUFs配布)
- Google AI Edge Gallery — macOSデスクトップ対応が追加
- Google AI Edge Eloquent(新macOS対応)
- LiteRT-LM CLI
- Hugging Face Transformers、llama.cpp(MTP対応は作業中)、MLX(Apple Silicon)
- SGLang、vLLM
- Unsloth(GGUF + ファインチューニング)
- Mistral.rs
クラウド側はGemini Enterprise Agent Platform Model Garden、Cloud Run(RTX PRO 6000 codelab)、GKEで展開可能。
5. 実装上の注意点と制限
実用上、以下の制限を理解しておく必要がある。
入力長の制限:
- 音声入力は最大30秒
- 動画理解は1fps換算で最大60秒
- コンテキスト長はモデルカード上最大256K、GIGAZINEでも同値が確認されている
プラットフォーム別の対応差:
- llama.cpp側のMTPサポートはWIP(作業中)
- 16GBユニファイドメモリのMacBookで
gemma-4-12B-itが動作しなかった事例がHNで報告されている(量子化・OSのメモリ使用量に依存) - LM Studio / Ollamaでオーディオ入力がローカル未対応の場合がある
4bit/8bit量子化時の挙動:
- Unsloth Q4_K_XL量子化で、きしだ氏の実機レビューでは「日常使いによさそう」と報告
- Jarvis Labsのベンチマーク(31B/26B)では、MTPはトークン/秒を大幅に改善する一方、TTFT(Time To First Token)は**192ms→1551ms(concurrency 16)**に増加するトレードオフがある
- 12BはGemma 4ファミリで初めてMTPが同梱されるため、Llama 3.2 / Qwen 3.6等との比較で投機的デコーディングのアクセシビリティは明確に優位
6. Gemma Skillsリポジトリの使い方
6月3日リリースに合わせて、Googleはgithub.com/google-gemma/gemma-skillsという公式スキルリポジトリを公開した。これはGemma 4を使ったエージェント開発のためのスキル集で、Anthropic / OpenAI系のエージェントフレームワークに組み込んで使うことを想定している。
主な提供スキル:
gemma-dev— Gemmaモデルを使ったアプリ構築・質問応答用の基本スキル
インストール方法:
- Vercel skills CLI:
npx skills install google-gemma/gemma-skills - Context7 skills CLIでも導入可能
注意点:
- READMEに「This is not an officially supported Google product」と明記されている(Google Open Source VRPの対象外)
- したがって、本番運用では別途セキュリティ検証が必要
日本語カバレッジではGIGAZINEがリンクを提示するのみで、中身や使い方は未解説の状態である。エージェント開発を試す際は、gemma-devスキルをベースに独自スキルを派生させる形が現実的だろう。
7. セットアップ例:Ollamaで動かす
最も手軽なローカル実行方法はOllamaを使う。
# OllamaでGemma 4 12Bをダウンロード&実行
ollama run gemma4:12b
# 会話モードに入る
# 別ターミナルでGemma Skillsをインストール
npx skills install google-gemma/gemma-skills
UnslothのGGUFを使う場合は、--chat-template-kwargs '{"enable_thinking":false}'でthinkingモードを無効化できる:
llama-server \
--model unsloth/gemma-4-12B-it-GGUF \
--chat-template-kwargs '{"enable_thinking":false}' \
--ctx-size 256000
ファインチューニングはUnslothのStudio / Hugging Face Transformersで実行可能。マルチモーダル(Audio ASR、Audio Translation、OCR、文書比較)のプロンプト例はUnsloth公式ドキュメントで公開されている。
8. 日本市場特有の活用シナリオ
Gemma 4 12Bの「完全ローカル動作」「Apache 2.0」「ネイティブ音声・動画理解」という特性は、日本の業務環境で特に価値が高い。
日本語長文の完全オフライン処理: 30〜256Kトークンの議事録・契約書・仕様書をクラウドに送信せずに処理できる。情報漏えいリスクが問題視される企業では大きな利点となる。
機密データを持つ業界:
- 医療 — 診療録・画像・検査結果の院內処理
- 金融 — 顧客情報・取引データのオンプレ解析
- 官公庁 — 機密文書のスタンドアロン環境での要約・検索
MacBookユーザの活用: 日本市場ではMacBook比率が比較的高い。Apple Silicon GPU上でMLXがネイティブ動作するため、Unsloth + MLX Dynamic Quantsと組み合わせて最適な量子化構成を探ることが現実的。きしだ氏の実機レビューでも「日常使いによさそう」と好感触が報告されている。
機密性の担保: Gemma 4 12Bは推論を完全ローカルで実行でき、APIキーや通信ログも不要である。コスト最適化とプライバシー強化を同時に実現する手段として位置付けられる。
9. 競合ローカルモデルとの比較
ローカルで動かせるオープンなモデルという観点で、Gemma 4 12Bは Qwen3.6-27B(dense、24GB+必要)、Nemotron 3 Ultra(MoE)、LFM2.5-8B-A1B(アクティブ1B) などと比較される。12B(dense、11.95Bアクティブ)はQwen 27Bより軽く、MiMo V2.5-ProのようなAPI依存モデルと異なり完全ローカル動作可能。16GBユニファイドメモリ一台で完結するという制約下では、現時点で最も性能とメモリ効率のバランスが取れた選択肢の一つと言える。
10. まとめとアクションアイテム
Gemma 4 12Bは、オープンAIモデルの中でも16GBユニファイドメモリで完全ローカル動作する初のマルチモーダルモデルである。Encoder-Free統一アーキテクチャとネイティブ音声入力により、ノートPC一台でテキスト・画像・動画・音声を扱える。Apache 2.0ライセンスで配布され、Ollama / LM Studio / vLLM / MLX / Unslothと広くサポートされる。
日本企業のAIエンジニアが今週試すべき3つのアクション:
- Ollamaで
ollama run gemma4:12bをMacBookで実行 — 16GBユニファイドメモリのMacBook Pro M1/M2/M3で、ネイティブ音声入力の動作を確認 gemma-skillsリポジトリを確認 — 自社のエージェントワークフローに組み込めるか評価。gemma-devスキルをベースにした派生スキル開発が現実的な出発点- 256Kコンテキストを活かした日本語長文処理PoC — 30〜256Kトークンの議事録や契約書をクラウド送信せずにローカル処理できるか検証
6月3日のMicrosoft Build Day 2でMicrosoftが「Aion 1.0 Plan(14B)」を発表した流れと合わせると、ローカルLLMの性能帯は「エッジ」「中量級」「MoE 26B+」の三層構造が固まりつつある。Gemma 4 12Bはその中量級に位置し、ノートPC一台で完結する「パーソナルAIインフラ」時代の幕開けを示すモデルと言えるだろう。
この記事はAIによって生成され、人間の編集を経て公開されています。 Appwright AI は AI によるコンテンツ制作の可能性を探求する実験的プロジェクトです。