Xiaomi MiMo-V2.5-Pro-UltraSpeed完全解説:汎用8GPUで1Tモデル毎秒1000トークン、FP4+DFlash+TileRTの「ソフトウェアだけでCerebrasに勝つ」設計を読み解く

はじめに:なぜ「1000 tok/s」がゲームチェンジャーなのか 2026年6月8日、XiaomiのMiMoチームは推論システム企業TileRTとの共同発表で、MiMo-V2.5-Pro-UltraSpeedを公開した。1兆(1T)パラメータのMixture-of-Experts(MoE)フラッグシップモデルで、デコード速度1000 tokens/s以上(デモでは1200 tok/s)を単一の標準8-GPUノードで達成した初の事例である。 これまで同等の速度を引き出してきたCerebras(ウェハスケール集積)やGroq(オンチップSRAM)は専用シリコンを必要とした。MiMo×TileRTは**「汎用GPUで、ソフトウェアだけで、同等以上の速度」**を引き出した点が本質であり、専用の非コモディティハードウェアを持たない日本のエンジニアリングチームにとって、リアルタイムAI推論の選択肢が根本から変わる可能性を意味する。 本記事では、UltraSpeedが「3倍価格で10倍速度」という一見不利に見える条件をどのように正当化しているのか、FP4・DFlash・TileRTの3層アーキテクチャを中心に、コスト・展開・既存記事との接続まで掘り下げる。 前提整理: 本記事は2026年4月22日に公開したベースモデル /posts/2026-05-13-xiaomi-mimo-v2-5-pro-guide/(1.02T MoE / 42B active / 1M context)の後継解説である。UltraSpeedは同ベースモデルに「高速モード」を追加した位置づけで、モデル能力はそのままに推論レイテンシだけを10分の1に圧縮する設計となっている。 何が発表されたのか:3つの数値で見るUltraSpeedの位置付け UltraSpeed発表を評価するための3つのベンチマークを整理する。 指標 MiMo-V2.5-Pro(ベース) MiMo-V2.5-Pro-UltraSpeed 倍率 デコード速度 約100 tok/s 1000〜1200 tok/s 10〜12倍 API価格(出力) ¥6/1Mトークン ¥18/1Mトークン相当(3倍) 3倍 実効コスト/生成トークン ¥0.00006 ¥0.000018 約1/3 **3倍高くなったAPI価格でも、10倍速くなれば「ユーザーが待っている時間」を含めた実効コストは約3分の1に下がる。**これがUltraSpeedの経済的ロジックである。バッチ処理や埋め込み用途では割高になるが、リアルタイム性が価値を生むワークロード(後述)では明確に有利に振れる。 重要: UltraSpeedはAPI限定で提供される。Token Plan(サブスク型定額)では利用できない点が、コンシューマー向け製品ではなくエンタープライズ/エージェント開発者向けという戦略的意図を示している。 3層アーキテクチャ詳解:FP4×DFlash×TileRT 「1Tモデルで1000 tok/s」を成立させた3つの技術を順に分解する。 第1層:FP4量子化(モデル側) 通常のLLM推論はFP8やFP16を使う。1Tモデルでは重みのメモリフットプリントと帯域幅が律速になるため、精度を落とせば速度は上がる。UltraSpeedは MoE ExpertのみをMXFP4(block size 32)に量子化し、attention projectionsなどは元の精度を維持する。 注目すべきは o_proj(出力射影)がFP4から除外されている点だ。量子化の品質劣化が出力に影響しないよう、外科的に精度を保っている。Quantization-Aware Training(QAT)を組み合わせることで、能力低下を最小限に抑えている。 Hugging Face公開モデルカードに記載されたFP8→MXFP4の能力変化を、ベンチマークで確認する。 ベンチマーク FP8 MXFP4 差分 Claw-Eval(pass^3) 63.8 67.8 +6.27% Humanity’s Last Exam 48.0 47.0 -2.08% Humanity’s Last Exam(tool無し) 34.0 33.0 -2.94% SWE-Bench Pro 57.2 58.8 +2.80% SWE-bench Verified 78.9 77.4 -1.90% 直感に反して、Claw-EvalではFP4が6.27%向上している。 これは量子化によりExpertのルーティング特性が変化し、エージェント系のベンチマークで有利に働いた結果と推測される。一方、推論・コードの厳密性が問われるベンチマークでは1〜2%の低下が見られる。**「ほぼ無損失」ではなく「タスクによって最大6%改善も3%悪化もする」**ことが正確な表現だ。 ...

June 10, 2026 · 37 min · 7207 words · Appwright

AIコスト破綻の完全地図:7記事で読み解く2026年トークン経済の崖——価格比較・実被害・最適化・契約設計を1ページに集約

2026年春から初夏にかけて、AI業界は**「トークン経済の崖」に直面している。MicrosoftのClaude Code解約、Uberの$3.4B予算4ヶ月全焼、GitHub Copilotの$29→$750課金ショック、Anthropicの6月15日Agent SDK分離——個別に見ればそれぞれ別事件だが、根底には「AIはSaaSではなく人件費だ」**という構造的転換がある。 このページは、ai.appwright.xyzが5月15日以降に公開した7本のコスト関連記事を1枚の地図に集約したハブページだ。日本語でAIコスト問題を網羅的に理解したいエンジニア・CFO・PdMの入口として機能する。 なぜ今「AIコスト破綻」が起きたのか 3つの構造的要因が同時に進行した。 第1に、API料金の「値下げ」が止まった。 2024〜2025年にかけて続いた$15→$5→$1の劇的低下は終焉し、2026年4月以降、OpenAI・Anthropic・Googleの3社とも実質値上げ方向に転じた。GPT-5.5はGPT-5.4から倍額($5→$5/$30は据え置きに見えるが、長コンテキスト帯では$8/$36)、Anthropicは6月15日のAgent SDK分離で月額クレジットプール外の新課金レイヤーを導入した。 第2に、トークン消費が指数関数的に増えた。 エージェント化により1タスクあたりのトークン消費は10〜100倍に膨張。Claude CodeのDynamic Workflows(Opus 4.8)は1セッションで数百のサブエージェントを並列実行する。GitHub Copilotのトークン課金は最悪27倍乗数で月額が跳ね上がる。 第3に、予算モデルが旧来のまま。 多くの企業はAI支出をSaaS予算($10〜$50/ユーザー/月)で設計してきたが、実態はエンジニア1人あたり年$36K(Uber $1,500/月キャップ × 12 × 2ツール)に達する。これは米国SWE中央値$330Kの11%に相当し、もはやSaaSではなく人件費の内訳である。 7つの信号:時系列で読むAIコスト破綻 信号1(5月15日): 価格比較の基準線 → AIモデル価格戦争2026 主要フロンティアモデルのAPI料金を徹底比較。GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro、DeepSeek V4、SubQの2026年5月時点の入力/出力料金表を整備し、Prompt Caching(90%オフ)、Batch API(50%オフ)、モデルルーティングの3手法で60〜80%削減できる実装コードを提示。コスト議論の出発点。 信号2(5月30日): 5つの波紋のメタ分析 → AIコスト破綻時代 MicrosoftのClaude Code解約、Uberの$3.4B/4ヶ月燃焼、NVIDIA「コンピュートが人件費超え」、CNBC「Tokens or Humans?」、DataProの46,000%課金スパイク——5つの信号を1本のメタナラティブに統合。5ステップ最適化戦略(ルーティング、キャッシュ、Fast Mode、可視化、オープンウェイト)と日本市場への含意を提示した最初の記事。 信号3(6月4日): GitHub Copilot課金ショック → GitHub Copilotトークン課金ショック 6月1日、MicrosoftはGitHub AI Credits方式を導入し、$29だった月額が**$750**になった実例を報告。モデル乗数(1x〜27x)、年払いプランの罠、4.7Mユーザーへの影響を数値化。代替ツール(Cursor/Windsurf/Claude Code/Codex CLI)のコスト比較と5ステップ節約戦略。AI予算を「IT支出」ではなく「人件費」として扱わねばならない現実を可視化。 信号4(6月5日 午前): Uber $1,500/月キャップの意味 → Uber $1,500/月キャップが示す新基準 Bloomberg/Natalie Lung報道を起点に、Uber CTO Nagaの「4ヶ月で年間予算枯渇」告白を解剖。$36K/年/エンジニア=11%の米国SWE中央値という数字を、$1,500×12×2ツールで導出。Microsoft(Claude Code排除・Copilot CLI統合・6月30日期限)とUber(per-tool cap)の2つの統制パターンを比較。日本企業向け5ステップ実装ガイド付き。 信号5(6月5日 夜): Anthropic Agent SDK分離 → Claude Agent SDK分離の衝撃 ...

June 8, 2026 · 20 min · 3940 words · Appwright

Claude Agent SDK分離の衝撃——Anthropicの6月15日サブスクリプション変更が、AIエージェントのコスト構造を根本から書き換える

はじめに——「使い放題」は終わるのか 2026年5月14日、Anthropicは公式ヘルプセンターで重要な告知を出した。6月15日から、Claude Agent SDK(Python/TypeScript)、claude -p ヘッドレスモード、Claude Code GitHub Actions、Agent SDK経由の第三者アプリ——これらがすべて、月額サブスクリプションの利用枠から外れて独立した「Agent SDKクレジット」プールに移行する。Pro $20、Max 5x $100、Max 20x $200という月額クレジットが新たに設定され、枯渇後はAPI従量課金(オプトイン)または完全停止という2択になる。 この変更は、4月4日のOpenClaw全面禁止、1月のOAuthブロック、2月のToS改訂を経た一連の政策変更の最終局面に位置する。日本語の一次情報はITmedia AI+、GIGAZINE、Zenn、Qiita、note.comにすでに15本以上存在するが、Impress Watch・ASCII.jp・@ITといった主要IT専門メディアによる本格編集記事は現時点でほぼ存在しない。本記事では公式一次情報をもとに、エンジニアが6月15日前後に直面する実務課題——「サイレント停止」リスク、組織設計、Direct API移行の損益分岐、HITL/AFKの境界線、競合ツールへの乗り換え判断——を体系的に整理する。 何が変わって何が変わらないのか 対象(Agent SDKクレジットから消費される) Claude Agent SDK(Python / TypeScript) claude -p ヘッドレス実行 Claude Code GitHub Actions Agent SDK上に構築された第三者アプリ(Conductor、OpenClaw等) 対象外(従来通りサブスクリプション枠) 対話的Claude.aiチャット(Web/Desktop/Mobile) ターミナル/IDE上のClaude Code(人間参加型 = HITL) Claude Cowork API Key直接利用(最も重要) クレジット額の全体像 プラン Agent SDK月次クレジット 1ユーザーあたり Pro $20 $20 Max 5x $100 $100 Max 20x $200 $200 Team Standard $20 $20 Team Premium $100 $100 Enterprise(usage-based) $20 $20 Enterprise(seat-based Premium) $200 $200 Enterprise Standard(seat-based) $0 $0(対象機能利用不可) クレジットはper-user(チーム内で共有・プール不可)、月次リセット(繰越不可)、1回限りのオプトイン。月次クレジット枯渇後は「Extra Usage」を有効化していれば標準APIレートで従量課金、無効ならリクエストが停止する。 ...

June 5, 2026 · 21 min · 4107 words · Appwright

AIモデル価格戦争2026:GPT-5.5 vs Claude Opus 4.7 vs Gemini 3.1 Pro vs DeepSeek V4 vs SubQ — 開発者のためのコスト最適化ガイド

2026年、AIモデル価格はどこまで下がったか 2024年のLLM API費用相場は入力トークン100万トークンあたり$15〜30が当たり前だった。2026年5月、その常識は完全に書き換えられている。AnthropicはClaude Opusの価格を67%引き下げ、DeepSeekはV4 Flashを$0.14/Mトークンで提供し、さらにSubQはClaude Opus比1/5のコストを謳う。本記事では、2026年5月時点の主要フロンティアモデルのAPI料金と、実務で使えるコスト最適化手法をまとめる。 2026年5月の主要モデルAPI料金一覧 以下の表は2026年5月15日時点の各社公式発表および第三者検証サイトのデータを基に集計したものだ。 フロンティアモデル(最高性能) モデル 入力 ($/1M tok) 出力 ($/1M tok) コンテキスト GPT-5.5 (OpenAI) $5.00 $30.00 1M GPT-5.5 Pro (OpenAI) $30.00 $180.00 1M Claude Opus 4.7 (Anthropic) $5.00 $25.00 1M Claude Sonnet 4.6 (Anthropic) $3.00 $15.00 1M Gemini 3.1 Pro (Google) $2.00 $12.00 1M DeepSeek V4 Pro (DeepSeek) $1.74 $3.50 1M コスパ重視モデル モデル 入力 ($/1M tok) 出力 ($/1M tok) コンテキスト DeepSeek V4 Flash $0.14 $0.28 1M Claude Haiku 4.5 $1.00 $5.00 1M Gemini 2.5 Flash $0.30 $2.50 1M SubQ 1M-Preview (Subquadratic) ~$1.50 ~$7.50 1M 料金の変化を理解する 2024年ベースラインと比較すると、同程度の性能を得るためのコストは以下の通り: ...

May 15, 2026 · 12 min · 2261 words · Appwright