Xiaomi MiMo-V2.5-Pro完全解説：1.02TパラメータのオープンウェイトMoEモデルが切り拓くエージェントAIの新時代

はじめに

2026年4月22日、Xiaomiはオープンウェイトモデル「MiMo-V2.5-Pro」をリリースした。1.02T総パラメータ（アクティブ42B）のMoE（Mixture-of-Experts）モデルで、SWE-bench Proで57.2%、Artificial Analysis Intelligence Indexで54を記録し、Kimi K2.6と並んでオープンモデル最上位に位置する。

注目すべきはそのコスト効率だ。入力$1/100万トークン、出力$3/100万トークンと、Claude Opus 4.6（入力$5、出力$15）と比較して約1/5の価格で、エージェントタスクでは同等以上の性能を発揮する。さらにMITライセンスで公開されているため、商用利用も自由である。

本記事では、MiMo-V2.5-Proのアーキテクチャ、ベンチマーク性能、実際の使い方までを詳しく解説する。

アーキテクチャの特徴

MiMo-V2.5-Proは前世代のMiMo-V2-Proから大幅に進化した。コア技術は以下の3つに集約される。

Hybrid Attention

Sliding Window Attention（SWA）とGlobal Attention（GA）を6:1の比率でインターリーブした構造を採用。128トークンのウィンドウサイズにより、KVキャッシュを約7倍削減しながら、100万トークンのコンテキスト全体にわたる理解を維持する。この設計はMiMo-V2-Flashで実証済みだ。

Multi-Token Prediction（MTP）

軽量なDense FFNモジュールを用いて、1ステップで複数のトークンを予測する。これにより出力スループットが約3倍向上し、RLトレーニングの高速化にも寄与する。

3段階ポストトレーニング

Xiaomiは「Supervised Fine-Tuning → Domain-Specialized RL → Multi-Teacher On-Policy Distillation（MOPD）」という3段階のポストトレーニングパイプラインを採用している。各ドメイン（数学、安全性、エージェントツール使用等）で最適化された個別の教師モデルが、1つの学生モデルに知識を蒸留する。これにより、単一モデルで幅広いタスクをカバーできる。

ベンチマーク性能

各ベンチマークにおけるMiMo-V2.5-Proのスコアは以下の通りである。

ベンチマーク	スコア	比較対象
SWE-bench Pro	57.2%	クローズドモデルに迫る
ClawEval	63.8%	Claude Opus 4.6、GPT-5.4と同等
τ3-Bench	72.9%	Claude Opus 4.6、GPT-5.4と同等
Artificial Analysis Intelligence Index	54	Kimi K2.6と同点、オープンモデル最上位

ClawEvalにおいて、MiMo-V2.5-Proは64%のPass³を達成しながら、1トレジェクトリあたりわずか約70Kトークンで動作する。これはClaude Opus 4.6やGPT-5.4と比較して40〜60%少ないトークン消費であり、実質的なコストパフォーマンスは際立っている。

実世界のエージェント性能

MiMo-V2.5-Proの真価は、実世界の複雑なタスクを自律的に実行する能力にある。Xiaomiの公開したデモから3つを紹介する。

事例1：SysYコンパイラの完全実装（Rust）

北京大学のコンパイラ設計講座をベースに、RustでSysYコンパイラをゼロから実装。レキサー、パーサー、AST、Koopa IR、RISC-Vバックエンド、最適化パスの全てを、4.3時間・672回のツール呼び出しで完成させた。隠されたテストスイート233問すべてに合格。初回コンパイル時は59%（137/233）の合格率だったが、以降の反復で自己修正しながら100%に到達している。

事例2：デスクトップ動画編集アプリの開発

マルチトラックタイムライン、クリップトリミング、クロスフェード、オーディオミキシング、エクスポートパイプラインを備えた8,192行のアプリケーションを11.5時間・1,868回のツール呼び出しで構築した。

事例3：アナログEDA回路設計

TSMC 180nm CMOSプロセスでのFVF-LDO設計。ngspiceシミュレーションループと連携し、約1時間で全6指標（位相余裕、ラインレギュレーション、負荷レギュレーション、消費電流、PSRR、過渡応答）を満たした。初期試行から4つの主要指標が10倍以上改善された。

これらは単なるパターンマッチングではなく、構造化された自己修正型のエンジニアリング行動を示している。

MiMo-V2.5-Proの使い方

API経由での利用

Xiaomi公式API、OpenRouter経由で即座に利用できる。OpenRouterでは標準的なOpenAI互換APIが使用可能だ。

from openai import OpenAI

client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="YOUR_API_KEY",
)

response = client.chat.completions.create(
    model="xiaomi/mimo-v2.5-pro",
    messages=[
        {"role": "user", "content": "Rustで簡易HTTPサーバを実装してください"}
    ]
)

print(response.choices[0].message.content)

Claude Codeとの統合

Xiaomi公式ドキュメントでは、Claude CodeのバックエンドとしてMiMo-V2.5-Proを設定する方法が提供されている。これにより、Claude Codeの使い慣れたワークフローを維持しながら、コストを約1/5に抑えられる。

# Claude Codeの設定ファイルに以下を追加
# ~/.claude/claude_code_config.yaml
models:
  default:
    provider: openrouter
    model: xiaomi/mimo-v2.5-pro

セルフホスティング

MITライセンスでHugging Faceに重みが公開されているため、自前のGPU環境で推論することも可能だ。SGLangとvLLMの両方に対応している。

# vLLMでのデプロイ例
docker run --gpus all -p 8000:8000 \
  vllm/vllm-openai:latest \
  --model XiaomiMiMo/MiMo-V2.5-Pro \
  --tensor-parallel-size 8

ただし、42BアクティブパラメータのMoEモデルであるため、推論には高スペックなGPUクラスタが必要になる点に注意したい。

まとめ

MiMo-V2.5-Proは、オープンウェイトモデルがフロンティアモデルに追いつきつつあることを明確に示したリリースだ。その強みは以下の3点に集約される。

コスト効率: 同等性能のクローズドモデルと比較して約1/5のAPI価格
エージェント能力: 1,000回以上のツール呼び出しにわたって一貫性を維持
オープン性: MITライセンスで商用利用も自由

短所としては、出力速度がやや遅い（56.4 tokens/s）、テキストのみの入出力である点が挙げられる。マルチモーダルが必要な場合は、同じく公開されたMiMo-V2.5が代替となる。

Xiaomiが発表した「Orbit 100兆トークンプラン」と合わせ、MiMoシリーズはオープンソースAIの勢力図を大きく塗り替えようとしている。日本のAIエンジニアにとっても、コスト面・性能面から最も注目すべきモデルの一つと言えるだろう。

この記事はAIによって生成され、人間の編集を経て公開されています。 Appwright AI は AI によるコンテンツ制作の可能性を探求する実験的プロジェクトです。

はじめに#

アーキテクチャの特徴#

Hybrid Attention#

Multi-Token Prediction（MTP）#

3段階ポストトレーニング#

ベンチマーク性能#

実世界のエージェント性能#

事例1：SysYコンパイラの完全実装（Rust）#

事例2：デスクトップ動画編集アプリの開発#

事例3：アナログEDA回路設計#

MiMo-V2.5-Proの使い方#

API経由での利用#

Claude Codeとの統合#

セルフホスティング#

まとめ#