はじめに

2026 年 6 月 10 日、Xiaomi の MiMo チームはターミナル型 AI コーディングエージェント MiMo Code V0.1.0 を MIT ライセンスで公開した。発表から 24 時間で Hacker News フロントページに登場(#3, 508 ポイント、281 コメント)、GitHub リポジトリは公開 3 日で 4,500 ⭐・350 fork に到達、5 人チーム・14 日間・「vibe coding」体制での開発と公開された。

本稿が焦点を当てるのは、「同じ MiMo-V2.5-Pro モデルを両ハーネスで走らせると SWE-bench Pro で 62% vs 57%、Terminal Bench 2 で 73% vs 68% —— つまり差分の 5pt はハーネス側のアーキテクチャから生まれている」 という一点である。これは本シリーズがこれまで扱ってきた {{< relref “/posts/2026-05-13-xiaomi-mimo-v2-5-pro-guide” >}}(MiMo-V2.5-Pro モデル解説)と {{< relref “/posts/2026-06-10-mimo-v2-5-pro-ultraspeed-1000tps” >}}(MiMo-UltraSpeed 推論速度解説)に対して、「ハーネス > モデル」 という新たな視座を加える第 3 脚となる。

GIGAZINE が 6 月 11 日に速報を出しており OpenCode フォークであることや SWE-bench 数値、576 開発者 A/B の 65% 勝率(200 ステップ超)はすでに日本語で触れられている。本稿ではそれに Compute / Memory / Evolution 三層アーキテクチャの内部設計5pt の差分を説明する 3 つの具体的メカニズム2026 年 6 月 13 日の {{< relref “/posts/2026-06-13-aws-bedrock-fable-5-data-retention-zdr-enterprise” >}} を踏まえた Open-Weight 脱出口戦略、を加える。


1. MiMo Code とは何か —— OpenCode フォークの「記憶するエージェント」

MiMo Code は Xiaomi の MiMo チームが OpenCode(2026 年 3 月公開の OSS ターミナルエージェント)をフォークし、独自メモリ層とワークフロー層を被せた MIT ライセンスの CLI エージェントである。TypeScript 95.4%、Bun ビルド、packages/ モノレポ構造で VSCode SDK・Zed 設定も同梱される。

最大の特徴は 「セッションを跨いで記憶する」 点にある。Claude Code、Codex CLI、Cline、Aider など既存のターミナル系コーディングエージェントは、セッションを閉じると文脈を喪失し、再開時に同じ説明を繰り返す必要があった。MiMo Code は SQLite FTS5 全文検索 をバックエンドにした 4 層メモリ(Project / Session checkpoint / Scratch / Task progress)を維持し、20% / 45% / 70% のコンテキスト使用率で自動的にチェックポイントを書き出す。

# macOS / Linux
curl -fsSL https://mimo.xiaomi.com/install | bash

# Windows
npm install -g @mimo-ai/cli

初回起動時にプロバイダ選択ウィザードが走り、以下のいずれかが選べる:

オプション 内容
MiMo Auto 期間限定無料、1M トークン文脈、登録不要
Xiaomi MiMo Platform OAuth ログイン
Import from Claude Code 既存 Claude Code 認証をワンクリック移行
Custom Provider OpenAI 互換 API を TUI から直接登録

Import from Claude Code は本稿時点で他に類を見ない差別化要素である。~/.claude/ 配下の MCP サーバ・カスタムスキル・API 設定をそのまま取り込み、移行摩擦を事実上ゼロにしている。


2. 「ハーネス > モデル」テーゼ —— 5pt の差分はどこから来るか

Xiaomi 公式が VentureBeat に提示した 4 条件ベンチマーク(同一モデル × 異ハーネス組合せ)が本稿の核心である:

Benchmark MiMo Code + V2.5-Pro MiMo Code + V2.5 Claude Code + V2.5-Pro Claude Code + Sonnet 4.6
SWE-bench Verified 82% 79% 81% 79%
SWE-bench Pro 62% 58% 57% 55%
Terminal Bench 2 73% 69% 68% 69%

注目すべきは 3 列目と 1 列目の比較 である。両者とも内部のモデルは同一の MiMo-V2.5-Pro である。それなのに SWE-bench Pro で +5pt、Terminal Bench 2 で +5pt の差が生まれる。差分はハーネス設計の 5 つの改良点に起因する

  1. Max Mode(N=5 並列サンプリング + 自己ジャッジ):1 ターンあたり N=5 個の候補を temperature=1 で並列生成し、同一モデルが実行前に最良の計画を選ぶ。SWE-Bench Pro で 10〜20% の改善、ただしトークン消費 4〜5 倍。
  2. Goal 機構(独立検証者):ユーザー定義の停止条件(例:「全テスト通過 & コミット完了」)に対し、独立したモデル呼び出しが全履歴をレビューする。終了判定バイアスを排除、無限ループ確率 < 0.5%。
  3. Checkpoint-Writer サブエージェント:メインのコーディングエージェントと並行稼働する独立ライタが、20% / 45% / 70% トリガで構造化状態をディスクへ書き出す。本体エージェントの作業を中断しない。
  4. Constrained CLI 構文:GPT-5.5 系の JSON フォーマットエラーを回避するため、自然言語スキル(SKILL.md)を JavaScript コードへ変換し、if / for / parallel / pipeline の決定論的構文で実行する。Anthropic Dynamic Workflows と同等のセマンティクスを、Claude Code 非依存の OSS で実現。
  5. 576 開発者 A/B × 1,213 タスク対(人間ブラインドテスト):474 の実プライベートリポジトリで実行。200 ステップ未満では 50:50、200 ステップ超で 65% 勝率。ハーネスの真価は短タスクには出ず、長タスクで出る。

これは {{< relref “/posts/2026-05-29-claude-opus-48-guide” >}} で論じた Claude Opus 4.8 の Dynamic Workflows とは 設計思想が合致 する。Anthropic が Dynamic Workflows を Claude 製品に閉じて提供したのに対し、Xiaomi は OpenCode フォーク + 独自拡張 + MIT という 「クローズドな Workflow を OSS で再実装」 という別の到達点を選んだ。

出典: VentureBeat: Xiaomi’s MiMo Code beats Claude Code at ultra-long tasks(Carl Franzen, 2026-06-11)、Xiaomi MiMo Blog: Scaling Coding Agents to Long-Horizon TasksInfoWorld: Xiaomi releases MIT-licensed MiMo models


3. Memory アーキテクチャの内部 —— Cycle と 4 層永続記憶

MiMo Code のメモリ設計は、Cycle = チェックポイント済みターン列 + Rebuild を基本単位とする。プロセスは次の 5 ステップである:

1. ランタイムが固定位置(チェックポイント)で介入
2. 独立した Writer サブエージェントが会話を読み、構造化状態をディスクへ
3. メインエージェントは並行作業継続(干渉なし)
4. ウィンドウ上限接近時:Rebuild が現ウィンドウを切断、新ウィンドウを開く
5. 新ウィンドウで永続ファイルからコンテキスト再構築 → エージェントは記憶を持ったまま目覚める

4 層メモリ(SQLite FTS5 全文検索)

ファイル 内容
Project memory MEMORY.md プロジェクト知識・ルール・アーキテクチャ決定
Session checkpoint checkpoint.md 構造化状態スナップショット
Scratch notes notes.md エージェント用一時ノート
Task progress tasks/<id>/progress.md タスク単位の進捗ログ

再開時、ランタイムはチェックポイント + Project memory + Task progress + 直近メッセージから トークン予算内で重要度ランキングしながら注入 する。開発者は説明を繰り返す必要がない。

Self-Improvement(Evolution) として 2 つのコマンドが提供される:

  • /dream —— 約 7 日ごとに自動実行。直近セッションを走査し、持続的知識を Project memory へ蒸留、古いエントリを掃除。
  • /distill —— 反復手作業ワークフローを発見し、高信頼度候補を再利用可能なスキル・サブエージェント・コマンドへ昇格。

これは OpenAI ChatGPT memory dreamingAnthropic dreaming system と系譜を共にするが、OSS として実装が公開されている 点が決定的に異なる。


4. 実践セットアップ —— mimocode.json とマルチエージェント・モード

MiMo Code には 3 つの一次エージェントが Tab キーで切替可能:

Agent 用途
build デフォルト。全ツール権限で実装作業
plan 読み取り専用。コード探索・設計分析
compose 仕様駆動開発。Planning → Execution → Review → TDD → Debugging → Verification → Merging のスキルチェーン

設定ファイルはプロジェクト直下 .mimocode/mimocode.json またはグローバル ~/.config/mimocode/mimocode.json

{
  "provider": "anthropic",
  "model": "claude-sonnet-4-6",
  "agents": {
    "build": { "permissions": ["read", "write", "exec"] },
    "plan":  { "permissions": ["read"] },
    "compose": { "permissions": ["read", "write"], "skills": ["tdd", "review"] }
  },
  "memory": {
    "checkpointTriggers": [0.20, 0.45, 0.70],
    "injectionBudget": 12000
  },
  "experimental": {
    "maxMode": { "enabled": true, "n": 5, "temperature": 1.0 }
  },
  "mcpServers": {
    "filesystem": { "command": "npx", "args": ["-y", "@anthropic-ai/mcp-filesystem"] }
  }
}

Goal 検証を併用する 200 ステップ超の典型例

# 1. 長期リファクタリングを開始
mimocode

# 2. build エージェントで作業中に、Goal を設定
> /goal "全ユニットテストが pass し、CI の lint エラーがゼロになり、"
       "変更が main ブランチへマージコミットされた時点で停止"

# 3. セッションを跨いでも、20%/45%/70% トリガで自動チェックポイント
#    次回起動時、MiMo Code は 65% 勝率ラインで Claude Code を上回る

JavaScript ワークフロー構文(SKILL.md 置換) を使うと、Anthropic Dynamic Workflows 相当の宣言的オーケストレーションが OSS で書ける:

// .mimocode/workflows/refactor.ts
import { agent, parallel, pipeline } from "@mimo-ai/workflow";

export default pipeline(
  parallel(
    agent("analyze",  { model: "mimo-v2.5-pro", tools: ["read", "grep"] }),
    agent("coverage", { model: "mimo-v2.5",     tools: ["read", "exec"] })
  ),
  agent("refactor",  { model: "mimo-v2.5-pro", tools: ["read", "write", "exec"] }),
  agent("review",    { model: "mimo-v2.5-pro", tools: ["read", "exec"] })
);

5. 2026 年 6 月の Open-Weight 脱出口コンテキスト

MiMo Code の公開タイミングは、2026 年 6 月 13 日の {{< relref “/posts/2026-06-13-aws-bedrock-fable-5-data-retention-zdr-enterprise” >}}(AWS Bedrock の Fable 5 / Mythos 5 が ZDR 契約を覆してデータ保持を強制) と完全に同期している。本稿時点で日本企業の選択肢は:

Fable 5 クローズド MiMo Code + MiMo-V2.5-Pro オープン
データ主権 Bedrock 契約上 Mythos 5 経路で保持 ローカル実行+任意 API
ハーネス差し替え Anthropic 配給のみ OSS、5 つのモード+Max Mode/Goal
6/22 / 6/23 の影響 Pro/Max/Team カットオフ 影響なし
エンタープライズ監査 AWS 側 自社ホスト可

6 月 22 日の Fable 5 Pro/Max/Team 課金のカットオフ、6 月 23 日の Enterprise クレジット消費締切 を前に、ハーネス側は OSS へ逃がす選択肢 が初めて現実的な選択肢として立ち上がった。MiMo Code 単体では Fable 5 性能に劣るかもしれないが、200 ステップ超の長タスク では 65% 勝率で上回る領域がある。これは {{< relref “/posts/2026-05-27-forge-guardrails-guide” >}}(ローカル LLM エージェントの信頼性設計)とも接続する。

Google {{< relref “/posts/2026-05-21-antigravity-2-0-guide” >}} および {{< relref “/posts/2026-05-23-google-antigravity-20-backlash-analysis” >}} との比較では、Antigravity 2.0 が「Google Cloud 上のホスト型マルチエージェント」、MiMo Code が「ローカル実行・自己改善する OSS」、{{< relref “/posts/2026-06-11-claude-fable-5-walkback-visible-safeguards” >}}(Claude 6/11 の visible safeguards 撤回表明)が「クローズド路線の軌道修正」と、三つ巴の戦略分岐 が見える。


6. 日本企業・エンジニアへの含意と導入チェックリスト

MiMo Code を試す前に、日本企業/エンジニアがチェックすべき 7 項目:

  1. データ主権の確認:MiMo Auto 経路は Xiaomi クラウド経由。機密コードベースは Custom Provider でローカル実行+任意 OpenAI 互換 API を選択 する。
  2. 既存 Claude Code 設定の移行~/.claude/ 配下の MCP / Skill をワンクリックで取り込める。新規セットアップの摩擦は事実上ゼロ。
  3. 200 ステップ超タスクでのみ真価が出る:短タスクでは Claude Code と 50:50。リファクタリング・長期テスト・リグレッション解析 に投入する。
  4. Max Mode は本番投入で使わない:SWE-Bench Pro +10〜20% の代わりにトークン 4〜5 倍。ベンチ評価とプラニング時のみ ON
  5. Goal 機構の停止条件は明示的に書く:「全テスト通過 & lint エラーゼロ」のように 検証可能な完了条件 を与える。曖昧な条件は Judge モデルが誤判定する。
  6. /dream / /distill の運用設計:7 日周期の自動実行を CI の一部に組み込み、メモリ肥大化を防ぐ。チェックポイントディレクトリを git 管理下に置くか明示的に除外 する。
  7. Hybrid 運用:Fable 5 で短タスク(IDE 補完レベル)、MiMo Code で長タスク(200 ステップ超のリファクタリング)、Nemotron 3 Ultra {{< relref “/posts/2026-06-06-nemotron-3-ultra-long-running-agent-economics” >}} で大規模バッチ —— 3 モデルを役割分担させる のが 2026 年 6 月時点の最適構成。

7. 限界と反論

ベンダーの自己ベンチマークであり独立検証は出ていない点には注意が必要である。Xiaomi 自身が標準ベンチは「one-shot 問題解決能力を測るだけで、ツールのマルチセッション設計目標を捉えていない」と認めている。200 ステップ超の 65% 勝率も、576 開発者という内部ベータの数字 であり、再現可能性は OSS 公開後のコミュニティ検証に委ねられる。

また、OpenCode フォーク である以上、上流 OpenCode の API 変更に追従する保守コスト が発生する。Xiaomi は 5 人・14 日間の体制で公開しているが、Claude Code / Codex CLI のような大規模開発者体験(IDE 統合、CI/CD 連携、エンタープライズサポート)にどこまで肉薄できるかは未知数である。

それでも、「ハーネス単体で 5pt 改善できる」 という実証データと、そのアーキテクチャが MIT で読める ことの意義は大きい。クローズド路線の Workflows ベンダーが独占してきた 「オーケストレーション層は製品差別化の核」 という前提が、OSS で再実装可能である ことを MiMo Code は示した。


まとめ

  • Xiaomi MiMo Code V0.1.0 は OpenCode フォーク + MIT ライセンス のターミナル型コーディングエージェント(GitHub 4.5k ⭐, 公開 3 日)。
  • 同一モデル比較で SWE-bench Pro 62% vs 57%、Terminal Bench 2 73% vs 68% —— 差分 5pt はハーネス由来。Max Mode(N=5 並列サンプリング)、Goal(独立検証)、Checkpoint-Writer サブエージェント、Constrained CLI、4 層メモリ(SQLite FTS5)の 5 つの改良が効いている。
  • 200 ステップ超タスクで 576 開発者 A/B → 65% 勝率(人間ブラインドテスト、474 実リポジトリ・1,213 タスク対)。
  • Import from Claude Code で既存 MCP / スキル / 認証をワンクリック移行でき、6 月 13 日の AWS Bedrock データ保持強制・6/22-23 の Fable 5 課金締切に対する Open-Weight 脱出口 として現実的な選択肢になる。
  • 日本企業での導入 7 チェックリストを提示:データ主権、200 ステップ超タスクでの使い分け、Max Mode の ON/OFF、Goal 停止条件の明示、/dream・/distill 運用設計、Fable 5 との Hybrid 構成。
  • シリーズ総括:本シリーズ第 3 脚(5/13 V2.5-Pro → 6/10 UltraSpeed → 6/13 Code)として、「MiMo はモデル + 速度 + ハーネスの三位一体」 が揃った。次は Open-Weight Frontier 横断デプロイガイド({{< relref “/posts/2026-06-06-nemotron-3-ultra-long-running-agent-economics” >}}・Gemma 4 12B・Command A+・MiMo を統合)に進む。

この記事はAIによって生成され、人間の編集を経て公開されています。 Appwright AI は AI によるコンテンツ制作の可能性を探求する実験的プロジェクトです。