Cohere Command A+ 218B MoE完全解説：2枚のH100で動くApache 2.0フロンティアモデルの衝撃

Cohere、初の完全Apache 2.0フロンティアモデルを公開

2026年5月20日、CohereはCommand A+（command-a-plus-05-2026）をリリースした。これは同社初の完全Apache 2.0ライセンスのフロンティアモデルであり、これまでのCommand R/R+がCC-BY-NC 4.0（非営利限定）だったのに対し、商用利用も自由な点が最大の差異である。

CEO Nick Frosstはこれを「我々がこれまでにリリースした中で最高のモデル」と評している。218BパラメータのスパースMoE（25Bアクティブ）というアーキテクチャに加え、W4A4量子化による2枚のH100での運用、ネイティブ引用生成、48言語対応という3つのブレークスルーを同時に実現した。

本記事では、アーキテクチャの詳細、ベンチマーク評価、セルフホストデプロイ手順、既存オープンモデルとの比較、そして日本語タスクにおける実力を解説する。

アーキテクチャ詳細：128エキスパートのMoE設計

Command A+はデコーダーオンリーのスパースMoE Transformerである。その設計は以下の特徴を持つ。

エキスパート構成

総パラメータ: 218B / アクティブ: 25B / エキスパート: 128（8アクティブ+1共有）
コンテキスト: 128K入力 / 64K生成 / ライセンス: Apache 2.0
知識カットオフ: 2025年4月1日

128エキスパートのうち8つがアクティブになり、さらに全トークンに適用される共有エキスパートが1つ加わる。ルーターはtoken-choice方式で、正規化シグモイドをトップkのエキスパートロジットに適用する。学習時はdropless（全エキスパートが常に勾配を受け取る）設計を採用している。

アテンション機構

アテンション層では、スライディングウィンドウ（RoPE適用）とグローバルアテンション（位置埋め込みなし）を3:1の比率でインターリーブしている。このハイブリッド設計により、局所的な文脈理解と長距離依存関係の捕捉を両立している。

統合能力

Command A+は従来4つに分かれていたCohereのモデル群を1つに統合している：

Command A（ツール使用）
Command A Reasoning（推論）
Command A Vision（画像理解）
Command A Translate（翻訳）

入力はテキスト・画像・ツール、出力はテキスト・推論チェーン・ツール呼び出しをサポートする。

W4A4量子化：2枚のH100で218Bモデルを動かす技術

Command A+の最も注目すべき革新は、W4A4量子化をほぼロスレスで実現した点にある。

QAD（Quantization-Aware Distillation）

Cohereは単なるPost-Training Quantizationではなく、**Quantization-Aware Distillation（QAD）**を採用。量子化Studentを完全精度Teacherの出力分布に一致するよう訓練する。前方パスでfake quantizationを挿入し、後方パスでstraight-through estimatorを用いる。

バリアント	必要GPU	速度
W4A4（推奨）	1×B200 or 2×H100	375 TOPS
FP8	2×B200 or 4×H100	255 TOPS
BF16	4×B200 or 8×H100	150 TOPS

W4A4はFP8比で**+47%速度、-13%レイテンシを達成。NVFP4はMoEエキスパート層のみに適用され、QKV投影・KVキャッシュ・アテンションは完全精度を維持する。Speculative Decodingでさらに1.5〜1.6倍**の高速化が可能。

ベンチマーク評価：Agenticタスクで飛躍的改善

Command A+の最大の強みは、エージェントタスクにおける性能向上にある。

主要ベンチマーク一覧

ベンチマーク	Command A+	従来モデル（Command A）	改善幅
τ²-Bench Telecom	85%	37%	+48pp
Terminal-Bench Hard	25%	3%	+22pp
τ²-Bench Retail	70%	44%	+26pp
AIME 2025	90%	57%	+33pp
IFEval	74%	36%	+38pp
SciCode	38%	30%	+8pp
MMMU	75.1%	65.3%	+9.8pp
MathVista	80.6%	73.5%	+7.1pp
CharXiv Reasoning	52.7%	46.9%	+5.8pp
MMMU Pro	63%	-	-

特筆すべきは**τ²-Bench Telecomで85%（+48pp）**という驚異的なスコアである。これは通信業界のエージェントタスクにおいて、ほぼ人間専門家レベルに達したことを示す。

North社の内部評価でも、Agentic QA（+20pp）、Data Analysis（+32pp）、Memory Usage Quality（+15pp）とすべての指標で大幅改善を記録している。なおAIME 2025は90%（従来57%からの+33pp）であり、数学推理能力でもQwen3やLlama 4と同等以上である。

日本語トークン効率：18%の削減がもたらす実益

Command A+は新トークナイザーを採用し、48言語（従来の23言語から倍増）に対応する。特に日本語ではGPT-4比で18%少ないトークン数で同内容を表現できる。

これはAPI経由での利用において、コスト削減とレイテンシ短縮の両方に直結する。例えば、日本語の顧客対応ドキュメントを処理する場合、18%のトークン削減はそのままAPIコストの18%削減を意味する。

また、アラビア語（-20%）、韓国語（-16%）と比べて日本語は効率が高く、APAC市場をターゲットにする日本企業にとって実用的な利点となる。

セルフホストデプロイ手順：2枚のH100で動かす

以下、Command A+のW4A4バリアントを2枚のH100でセルフホストする手順を解説する。

前提環境

GPU: NVIDIA H100 (80GB) × 2
CUDA 12.4以上、vLLM 0.21.0以上、Docker（推奨）

セットアップ

# vLLMのインストール
pip install vllm>=0.21.0
pip install cohere-melody>=0.9.0  # 引用・推論チェーンのパースに必要

モデルの起動

vllm serve CohereLabs/command-a-plus-05-2026-w4a4 \
  --tensor-parallel-size 2 \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.95

--tensor-parallel-size 2で2枚のH100でテンソル並列、--max-model-len 32768で32Kコンテキスト起動（128Kフルにはさらなる最適化が必要）。W4A4バリアントはHuggingFaceから自動ダウンロード（初回のみ約45GB）。

引用付き推論

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="not-needed")

response = client.chat.completions.create(
    model="CohereLabs/command-a-plus-05-2026-w4a4",
    messages=[
        {"role": "system", "content": "あなたは日本語で回答するAIアシスタントです。"},
        {"role": "user", "content": "日本の通信業界におけるAIエージェント活用のユースケースを3つ挙げてください。"}
    ],
    temperature=0.9,
    top_p=0.95,
    repetition_penalty=1.04,
    max_tokens=2048
)
print(response.choices[0].message.content)

Cohere推奨のサンプリングパラメータはtemperature=0.9, top_p=0.95, repetition_penalty=1.04。即時試用はHugging Face Space（https://huggingface.co/spaces/CohereLabs/command-a-plus-05-2026）からブラウザで可能。

オープンモデル比較：Qwen3、DeepSeek V4、Llama 4との比較

Command A+の最大の差別化要因は3つある。

1. Apache 2.0ライセンス — DeepSeek V4 Pro（カスタム商用制限）やLlama 4（Communityライセンス）と異なり、商用・修正・再配布に制限がない。

2. W4A4運用の低コスト — 2×H100で動作。Qwen3-235B-A22Bは4×、DeepSeek V4 Proは8×必要であり、GPUコストで大きな差がつく。

3. 日本語トークン効率 — 新トークナイザーによる-18%トークン削減は、Qwen3の中国語最適化トークナイザーに匹敵する実用的価値がある。

ただし、エージェントコーディングタスクではDeepSeek V4 Proが優れており（SWE-bench等）、純粋な日本語創作文章ではQwen3の方が自然な出力を生成するケースも報告されている。

ネイティブ引用生成：エンタープライズ向けの独自機能

Command A+は生成時に明示的な根拠スパン（grounding spans）を出力する。回答のどの部分がどのソースに基づいているかを追跡可能で、Cohere APIではカスタムナレッジベースと組み合わせて社内DBのレコードを直接引用することもできる。この機能は規制業界（金融、医療、法務）におけるハルシネーションリスクの低減と説明責任に不可欠である。

まとめ：誰がCommand A+を選ぶべきか

Command A+は以下のユースケースに最適である：

プライバシー重視の企業 — Apache 2.0 + セルフホストで、機密データを外部に出さずにフロンティアレベルのAIを利用できる。日本語コスト最適化 — 18%のトークン削減は長期運用で大きな差になる。エージェントタスクのオンプレ運用 — τ²-Bench Telecom 85%は実用的な水準で、通信・金融・小売の業種特化タスクで効果を発揮する。規制産業向けRAG — ネイティブ引用生成によりAI判断の根拠をトレース可能。

一方、高度なコーディングエージェントタスクではDeepSeek V4 Pro、日本語創作文章ではQwen3が優れる場合もある。Command A+の真価は「自己運用可能な制約の中での最大性能」という立ち位置にある。Fujitsu Takaneとの連携も含め、日本のエンタープライズAI戦略における選択肢として注目に値する。

この記事はAIによって生成され、人間の編集を経て公開されています。 Appwright AI は AI によるコンテンツ制作の可能性を探求する実験的プロジェクトです。

Cohere、初の完全Apache 2.0フロンティアモデルを公開#

アーキテクチャ詳細：128エキスパートのMoE設計#

エキスパート構成#

アテンション機構#

統合能力#

W4A4量子化：2枚のH100で218Bモデルを動かす技術#

QAD（Quantization-Aware Distillation）#

ベンチマーク評価：Agenticタスクで飛躍的改善#

主要ベンチマーク一覧#

日本語トークン効率：18%の削減がもたらす実益#

セルフホストデプロイ手順：2枚のH100で動かす#

前提環境#

セットアップ#

モデルの起動#

引用付き推論#

オープンモデル比較：Qwen3、DeepSeek V4、Llama 4との比較#

ネイティブ引用生成：エンタープライズ向けの独自機能#

まとめ：誰がCommand A+を選ぶべきか#