Xiaomi

Xiaomi MiMo Code V0.1 完全解説：オープンソース・エージェント・ハーネスが Claude Code を 5pt 引き離した理由 —— Compute / Memory / Evolution の三層設計

はじめに 2026 年 6 月 10 日、Xiaomi の MiMo チームはターミナル型 AI コーディングエージェント MiMo Code V0.1.0 を MIT ライセンスで公開した。発表から 24 時間で Hacker News フロントページに登場（#3, 508 ポイント、281 コメント）、GitHub リポジトリは公開 3 日で 4,500 ⭐・350 fork に到達、5 人チーム・14 日間・「vibe coding」体制での開発と公開された。本稿が焦点を当てるのは、「同じ MiMo-V2.5-Pro モデルを両ハーネスで走らせると SWE-bench Pro で 62% vs 57%、Terminal Bench 2 で 73% vs 68% —— つまり差分の 5pt はハーネス側のアーキテクチャから生まれている」という一点である。これは本シリーズがこれまで扱ってきた {{< relref “/posts/2026-05-13-xiaomi-mimo-v2-5-pro-guide” >}}（MiMo-V2.5-Pro モデル解説）と {{< relref “/posts/2026-06-10-mimo-v2-5-pro-ultraspeed-1000tps” >}}（MiMo-UltraSpeed 推論速度解説）に対して、「ハーネス > モデル」という新たな視座を加える第 3 脚となる。 ...

Xiaomi MiMo-V2.5-Pro-UltraSpeed完全解説：汎用8GPUで1Tモデル毎秒1000トークン、FP4+DFlash+TileRTの「ソフトウェアだけでCerebrasに勝つ」設計を読み解く

はじめに：なぜ「1000 tok/s」がゲームチェンジャーなのか 2026年6月8日、XiaomiのMiMoチームは推論システム企業TileRTとの共同発表で、MiMo-V2.5-Pro-UltraSpeedを公開した。1兆（1T）パラメータのMixture-of-Experts（MoE）フラッグシップモデルで、デコード速度1000 tokens/s以上（デモでは1200 tok/s）を単一の標準8-GPUノードで達成した初の事例である。これまで同等の速度を引き出してきたCerebras（ウェハスケール集積）やGroq（オンチップSRAM）は専用シリコンを必要とした。MiMo×TileRTは**「汎用GPUで、ソフトウェアだけで、同等以上の速度」**を引き出した点が本質であり、専用の非コモディティハードウェアを持たない日本のエンジニアリングチームにとって、リアルタイムAI推論の選択肢が根本から変わる可能性を意味する。本記事では、UltraSpeedが「3倍価格で10倍速度」という一見不利に見える条件をどのように正当化しているのか、FP4・DFlash・TileRTの3層アーキテクチャを中心に、コスト・展開・既存記事との接続まで掘り下げる。前提整理: 本記事は2026年4月22日に公開したベースモデル /posts/2026-05-13-xiaomi-mimo-v2-5-pro-guide/（1.02T MoE / 42B active / 1M context）の後継解説である。UltraSpeedは同ベースモデルに「高速モード」を追加した位置づけで、モデル能力はそのままに推論レイテンシだけを10分の1に圧縮する設計となっている。何が発表されたのか：3つの数値で見るUltraSpeedの位置付け UltraSpeed発表を評価するための3つのベンチマークを整理する。指標 MiMo-V2.5-Pro（ベース） MiMo-V2.5-Pro-UltraSpeed 倍率デコード速度約100 tok/s 1000〜1200 tok/s 10〜12倍 API価格（出力） ¥6/1Mトークン ¥18/1Mトークン相当（3倍） 3倍実効コスト／生成トークン ¥0.00006 ¥0.000018 約1/3 **3倍高くなったAPI価格でも、10倍速くなれば「ユーザーが待っている時間」を含めた実効コストは約3分の1に下がる。**これがUltraSpeedの経済的ロジックである。バッチ処理や埋め込み用途では割高になるが、リアルタイム性が価値を生むワークロード（後述）では明確に有利に振れる。重要: UltraSpeedはAPI限定で提供される。Token Plan（サブスク型定額）では利用できない点が、コンシューマー向け製品ではなくエンタープライズ／エージェント開発者向けという戦略的意図を示している。 3層アーキテクチャ詳解：FP4×DFlash×TileRT 「1Tモデルで1000 tok/s」を成立させた3つの技術を順に分解する。第1層：FP4量子化（モデル側）通常のLLM推論はFP8やFP16を使う。1Tモデルでは重みのメモリフットプリントと帯域幅が律速になるため、精度を落とせば速度は上がる。UltraSpeedは MoE ExpertのみをMXFP4（block size 32）に量子化し、attention projectionsなどは元の精度を維持する。注目すべきは o_proj（出力射影）がFP4から除外されている点だ。量子化の品質劣化が出力に影響しないよう、外科的に精度を保っている。Quantization-Aware Training（QAT）を組み合わせることで、能力低下を最小限に抑えている。 Hugging Face公開モデルカードに記載されたFP8→MXFP4の能力変化を、ベンチマークで確認する。ベンチマーク FP8 MXFP4 差分 Claw-Eval（pass^3） 63.8 67.8 +6.27% Humanity’s Last Exam 48.0 47.0 -2.08% Humanity’s Last Exam（tool無し） 34.0 33.0 -2.94% SWE-Bench Pro 57.2 58.8 +2.80% SWE-bench Verified 78.9 77.4 -1.90% 直感に反して、Claw-EvalではFP4が6.27%向上している。これは量子化によりExpertのルーティング特性が変化し、エージェント系のベンチマークで有利に働いた結果と推測される。一方、推論・コードの厳密性が問われるベンチマークでは1〜2%の低下が見られる。**「ほぼ無損失」ではなく「タスクによって最大6%改善も3%悪化もする」**ことが正確な表現だ。 ...

Xiaomi MiMo-V2.5-Pro完全解説：1.02TパラメータのオープンウェイトMoEモデルが切り拓くエージェントAIの新時代

はじめに 2026年4月22日、Xiaomiはオープンウェイトモデル「MiMo-V2.5-Pro」をリリースした。1.02T総パラメータ（アクティブ42B）のMoE（Mixture-of-Experts）モデルで、SWE-bench Proで57.2%、Artificial Analysis Intelligence Indexで54を記録し、Kimi K2.6と並んでオープンモデル最上位に位置する。注目すべきはそのコスト効率だ。入力$1/100万トークン、出力$3/100万トークンと、Claude Opus 4.6（入力$5、出力$15）と比較して約1/5の価格で、エージェントタスクでは同等以上の性能を発揮する。さらにMITライセンスで公開されているため、商用利用も自由である。本記事では、MiMo-V2.5-Proのアーキテクチャ、ベンチマーク性能、実際の使い方までを詳しく解説する。アーキテクチャの特徴 MiMo-V2.5-Proは前世代のMiMo-V2-Proから大幅に進化した。コア技術は以下の3つに集約される。 Hybrid Attention Sliding Window Attention（SWA）とGlobal Attention（GA）を6:1の比率でインターリーブした構造を採用。128トークンのウィンドウサイズにより、KVキャッシュを約7倍削減しながら、100万トークンのコンテキスト全体にわたる理解を維持する。この設計はMiMo-V2-Flashで実証済みだ。 Multi-Token Prediction（MTP）軽量なDense FFNモジュールを用いて、1ステップで複数のトークンを予測する。これにより出力スループットが約3倍向上し、RLトレーニングの高速化にも寄与する。 3段階ポストトレーニング Xiaomiは「Supervised Fine-Tuning → Domain-Specialized RL → Multi-Teacher On-Policy Distillation（MOPD）」という3段階のポストトレーニングパイプラインを採用している。各ドメイン（数学、安全性、エージェントツール使用等）で最適化された個別の教師モデルが、1つの学生モデルに知識を蒸留する。これにより、単一モデルで幅広いタスクをカバーできる。ベンチマーク性能各ベンチマークにおけるMiMo-V2.5-Proのスコアは以下の通りである。ベンチマークスコア比較対象 SWE-bench Pro 57.2% クローズドモデルに迫る ClawEval 63.8% Claude Opus 4.6、GPT-5.4と同等 τ3-Bench 72.9% Claude Opus 4.6、GPT-5.4と同等 Artificial Analysis Intelligence Index 54 Kimi K2.6と同点、オープンモデル最上位 ClawEvalにおいて、MiMo-V2.5-Proは64%のPass³を達成しながら、1トレジェクトリあたりわずか約70Kトークンで動作する。これはClaude Opus 4.6やGPT-5.4と比較して40〜60%少ないトークン消費であり、実質的なコストパフォーマンスは際立っている。実世界のエージェント性能 MiMo-V2.5-Proの真価は、実世界の複雑なタスクを自律的に実行する能力にある。Xiaomiの公開したデモから3つを紹介する。事例1：SysYコンパイラの完全実装（Rust）北京大学のコンパイラ設計講座をベースに、RustでSysYコンパイラをゼロから実装。レキサー、パーサー、AST、Koopa IR、RISC-Vバックエンド、最適化パスの全てを、4.3時間・672回のツール呼び出しで完成させた。隠されたテストスイート233問すべてに合格。初回コンパイル時は59%（137/233）の合格率だったが、以降の反復で自己修正しながら100%に到達している。事例2：デスクトップ動画編集アプリの開発マルチトラックタイムライン、クリップトリミング、クロスフェード、オーディオミキシング、エクスポートパイプラインを備えた8,192行のアプリケーションを11.5時間・1,868回のツール呼び出しで構築した。事例3：アナログEDA回路設計 TSMC 180nm CMOSプロセスでのFVF-LDO設計。ngspiceシミュレーションループと連携し、約1時間で全6指標（位相余裕、ラインレギュレーション、負荷レギュレーション、消費電流、PSRR、過渡応答）を満たした。初期試行から4つの主要指標が10倍以上改善された。 ...