投機的デコード

はじめに：なぜ「1000 tok/s」がゲームチェンジャーなのか 2026年6月8日、XiaomiのMiMoチームは推論システム企業TileRTとの共同発表で、MiMo-V2.5-Pro-UltraSpeedを公開した。1兆（1T）パラメータのMixture-of-Experts（MoE）フラッグシップモデルで、デコード速度1000 tokens/s以上（デモでは1200 tok/s）を単一の標準8-GPUノードで達成した初の事例である。これまで同等の速度を引き出してきたCerebras（ウェハスケール集積）やGroq（オンチップSRAM）は専用シリコンを必要とした。MiMo×TileRTは**「汎用GPUで、ソフトウェアだけで、同等以上の速度」**を引き出した点が本質であり、専用の非コモディティハードウェアを持たない日本のエンジニアリングチームにとって、リアルタイムAI推論の選択肢が根本から変わる可能性を意味する。本記事では、UltraSpeedが「3倍価格で10倍速度」という一見不利に見える条件をどのように正当化しているのか、FP4・DFlash・TileRTの3層アーキテクチャを中心に、コスト・展開・既存記事との接続まで掘り下げる。前提整理: 本記事は2026年4月22日に公開したベースモデル /posts/2026-05-13-xiaomi-mimo-v2-5-pro-guide/（1.02T MoE / 42B active / 1M context）の後継解説である。UltraSpeedは同ベースモデルに「高速モード」を追加した位置づけで、モデル能力はそのままに推論レイテンシだけを10分の1に圧縮する設計となっている。何が発表されたのか：3つの数値で見るUltraSpeedの位置付け UltraSpeed発表を評価するための3つのベンチマークを整理する。指標 MiMo-V2.5-Pro（ベース） MiMo-V2.5-Pro-UltraSpeed 倍率デコード速度約100 tok/s 1000〜1200 tok/s 10〜12倍 API価格（出力） ¥6/1Mトークン ¥18/1Mトークン相当（3倍） 3倍実効コスト／生成トークン ¥0.00006 ¥0.000018 約1/3 **3倍高くなったAPI価格でも、10倍速くなれば「ユーザーが待っている時間」を含めた実効コストは約3分の1に下がる。**これがUltraSpeedの経済的ロジックである。バッチ処理や埋め込み用途では割高になるが、リアルタイム性が価値を生むワークロード（後述）では明確に有利に振れる。重要: UltraSpeedはAPI限定で提供される。Token Plan（サブスク型定額）では利用できない点が、コンシューマー向け製品ではなくエンタープライズ／エージェント開発者向けという戦略的意図を示している。 3層アーキテクチャ詳解：FP4×DFlash×TileRT 「1Tモデルで1000 tok/s」を成立させた3つの技術を順に分解する。第1層：FP4量子化（モデル側）通常のLLM推論はFP8やFP16を使う。1Tモデルでは重みのメモリフットプリントと帯域幅が律速になるため、精度を落とせば速度は上がる。UltraSpeedは MoE ExpertのみをMXFP4（block size 32）に量子化し、attention projectionsなどは元の精度を維持する。注目すべきは o_proj（出力射影）がFP4から除外されている点だ。量子化の品質劣化が出力に影響しないよう、外科的に精度を保っている。Quantization-Aware Training（QAT）を組み合わせることで、能力低下を最小限に抑えている。 Hugging Face公開モデルカードに記載されたFP8→MXFP4の能力変化を、ベンチマークで確認する。ベンチマーク FP8 MXFP4 差分 Claw-Eval（pass^3） 63.8 67.8 +6.27% Humanity’s Last Exam 48.0 47.0 -2.08% Humanity’s Last Exam（tool無し） 34.0 33.0 -2.94% SWE-Bench Pro 57.2 58.8 +2.80% SWE-bench Verified 78.9 77.4 -1.90% 直感に反して、Claw-EvalではFP4が6.27%向上している。これは量子化によりExpertのルーティング特性が変化し、エージェント系のベンチマークで有利に働いた結果と推測される。一方、推論・コードの厳密性が問われるベンチマークでは1〜2%の低下が見られる。**「ほぼ無損失」ではなく「タスクによって最大6%改善も3%悪化もする」**ことが正確な表現だ。 ...