Command A+

Cohere、初の完全Apache 2.0フロンティアモデルを公開 2026年5月20日、CohereはCommand A+（command-a-plus-05-2026）をリリースした。これは同社初の完全Apache 2.0ライセンスのフロンティアモデルであり、これまでのCommand R/R+がCC-BY-NC 4.0（非営利限定）だったのに対し、商用利用も自由な点が最大の差異である。 CEO Nick Frosstはこれを「我々がこれまでにリリースした中で最高のモデル」と評している。218BパラメータのスパースMoE（25Bアクティブ）というアーキテクチャに加え、W4A4量子化による2枚のH100での運用、ネイティブ引用生成、48言語対応という3つのブレークスルーを同時に実現した。本記事では、アーキテクチャの詳細、ベンチマーク評価、セルフホストデプロイ手順、既存オープンモデルとの比較、そして日本語タスクにおける実力を解説する。アーキテクチャ詳細：128エキスパートのMoE設計 Command A+はデコーダーオンリーのスパースMoE Transformerである。その設計は以下の特徴を持つ。エキスパート構成総パラメータ: 218B / アクティブ: 25B / エキスパート: 128（8アクティブ+1共有）コンテキスト: 128K入力 / 64K生成 / ライセンス: Apache 2.0 知識カットオフ: 2025年4月1日 128エキスパートのうち8つがアクティブになり、さらに全トークンに適用される共有エキスパートが1つ加わる。ルーターはtoken-choice方式で、正規化シグモイドをトップkのエキスパートロジットに適用する。学習時はdropless（全エキスパートが常に勾配を受け取る）設計を採用している。アテンション機構アテンション層では、スライディングウィンドウ（RoPE適用）とグローバルアテンション（位置埋め込みなし）を3:1の比率でインターリーブしている。このハイブリッド設計により、局所的な文脈理解と長距離依存関係の捕捉を両立している。統合能力 Command A+は従来4つに分かれていたCohereのモデル群を1つに統合している： Command A（ツール使用） Command A Reasoning（推論） Command A Vision（画像理解） Command A Translate（翻訳）入力はテキスト・画像・ツール、出力はテキスト・推論チェーン・ツール呼び出しをサポートする。 W4A4量子化：2枚のH100で218Bモデルを動かす技術 Command A+の最も注目すべき革新は、W4A4量子化をほぼロスレスで実現した点にある。 QAD（Quantization-Aware Distillation） Cohereは単なるPost-Training Quantizationではなく、**Quantization-Aware Distillation（QAD）**を採用。量子化Studentを完全精度Teacherの出力分布に一致するよう訓練する。前方パスでfake quantizationを挿入し、後方パスでstraight-through estimatorを用いる。バリアント必要GPU 速度 W4A4（推奨） 1×B200 or 2×H100 375 TOPS FP8 2×B200 or 4×H100 255 TOPS BF16 4×B200 or 8×H100 150 TOPS W4A4はFP8比で**+47%速度、-13%レイテンシを達成。NVFP4はMoEエキスパート層のみに適用され、QKV投影・KVキャッシュ・アテンションは完全精度を維持する。Speculative Decodingでさらに1.5〜1.6倍**の高速化が可能。 ...