Xiaomi MiMo Code V0.1 完全解説:オープンソース・エージェント・ハーネスが Claude Code を 5pt 引き離した理由 —— Compute / Memory / Evolution の三層設計

はじめに 2026 年 6 月 10 日、Xiaomi の MiMo チームはターミナル型 AI コーディングエージェント MiMo Code V0.1.0 を MIT ライセンスで公開した。発表から 24 時間で Hacker News フロントページに登場(#3, 508 ポイント、281 コメント)、GitHub リポジトリは公開 3 日で 4,500 ⭐・350 fork に到達、5 人チーム・14 日間・「vibe coding」体制での開発と公開された。 本稿が焦点を当てるのは、「同じ MiMo-V2.5-Pro モデルを両ハーネスで走らせると SWE-bench Pro で 62% vs 57%、Terminal Bench 2 で 73% vs 68% —— つまり差分の 5pt はハーネス側のアーキテクチャから生まれている」 という一点である。これは本シリーズがこれまで扱ってきた {{< relref “/posts/2026-05-13-xiaomi-mimo-v2-5-pro-guide” >}}(MiMo-V2.5-Pro モデル解説)と {{< relref “/posts/2026-06-10-mimo-v2-5-pro-ultraspeed-1000tps” >}}(MiMo-UltraSpeed 推論速度解説)に対して、「ハーネス > モデル」 という新たな視座を加える第 3 脚となる。 ...

June 13, 2026 · 26 min · 5171 words · Appwright

Cohere Command A+ 218B MoE完全解説:2枚のH100で動くApache 2.0フロンティアモデルの衝撃

Cohere、初の完全Apache 2.0フロンティアモデルを公開 2026年5月20日、CohereはCommand A+(command-a-plus-05-2026)をリリースした。これは同社初の完全Apache 2.0ライセンスのフロンティアモデルであり、これまでのCommand R/R+がCC-BY-NC 4.0(非営利限定)だったのに対し、商用利用も自由な点が最大の差異である。 CEO Nick Frosstはこれを「我々がこれまでにリリースした中で最高のモデル」と評している。218BパラメータのスパースMoE(25Bアクティブ)というアーキテクチャに加え、W4A4量子化による2枚のH100での運用、ネイティブ引用生成、48言語対応という3つのブレークスルーを同時に実現した。 本記事では、アーキテクチャの詳細、ベンチマーク評価、セルフホストデプロイ手順、既存オープンモデルとの比較、そして日本語タスクにおける実力を解説する。 アーキテクチャ詳細:128エキスパートのMoE設計 Command A+はデコーダーオンリーのスパースMoE Transformerである。その設計は以下の特徴を持つ。 エキスパート構成 総パラメータ: 218B / アクティブ: 25B / エキスパート: 128(8アクティブ+1共有) コンテキスト: 128K入力 / 64K生成 / ライセンス: Apache 2.0 知識カットオフ: 2025年4月1日 128エキスパートのうち8つがアクティブになり、さらに全トークンに適用される共有エキスパートが1つ加わる。ルーターはtoken-choice方式で、正規化シグモイドをトップkのエキスパートロジットに適用する。学習時はdropless(全エキスパートが常に勾配を受け取る)設計を採用している。 アテンション機構 アテンション層では、スライディングウィンドウ(RoPE適用)とグローバルアテンション(位置埋め込みなし)を3:1の比率でインターリーブしている。このハイブリッド設計により、局所的な文脈理解と長距離依存関係の捕捉を両立している。 統合能力 Command A+は従来4つに分かれていたCohereのモデル群を1つに統合している: Command A(ツール使用) Command A Reasoning(推論) Command A Vision(画像理解) Command A Translate(翻訳) 入力はテキスト・画像・ツール、出力はテキスト・推論チェーン・ツール呼び出しをサポートする。 W4A4量子化:2枚のH100で218Bモデルを動かす技術 Command A+の最も注目すべき革新は、W4A4量子化をほぼロスレスで実現した点にある。 QAD(Quantization-Aware Distillation) Cohereは単なるPost-Training Quantizationではなく、**Quantization-Aware Distillation(QAD)**を採用。量子化Studentを完全精度Teacherの出力分布に一致するよう訓練する。前方パスでfake quantizationを挿入し、後方パスでstraight-through estimatorを用いる。 バリアント 必要GPU 速度 W4A4(推奨) 1×B200 or 2×H100 375 TOPS FP8 2×B200 or 4×H100 255 TOPS BF16 4×B200 or 8×H100 150 TOPS W4A4はFP8比で**+47%速度、-13%レイテンシを達成。NVFP4はMoEエキスパート層のみに適用され、QKV投影・KVキャッシュ・アテンションは完全精度を維持する。Speculative Decodingでさらに1.5〜1.6倍**の高速化が可能。 ...

May 26, 2026 · 17 min · 3310 words · Appwright

Microsoft MagenticLite完全入門:小規模モデルで実現する次世代オープンソースエージェントAI

MagenticLiteとは:Microsoft Researchが描く「小規模モデル」のエージェント戦略 2026年5月21日、Microsoft Research AI FrontiersはMagenticLiteを公開した。これは、次世代のエージェント型アプリケーションであり、前世代のMagentic-UIを根本から再設計したものである。特筆すべきは、フロンティアモデル(GPT-5.5やClaude Opus 4.7クラス)ではなく、14Bパラメータ以下の小規模モデル(SLM) で実用的なエージェント性能を引き出すことに特化している点だ。 MagenticLiteの根底にある研究上の仮説は明確である。「エージェントとしての能力は、モデルの知識量ではなく、ツールのオーケストレーションと行動連鎖にかかっている」。つまり、賢いハーネス(実行基盤)と適切に設計されたツール呼び出しがあれば、小さなモデルでも実務レベルのタスクをこなせるという主張だ。この仮説が正しければ、エージェントAIの運用コストは劇的に下がり、セルフホストやエッジデバイスへの展開が現実味を帯びてくる。 MagenticLiteは3つのコンポーネントで構成される: MagenticLite(アプリケーション) — ブラウザとローカルファイルシステムを横断するエージェントハーネス。MITライセンスでGitHub公開 MagenticBrain(14B) — 計画・コーディング・タスク委譲を担当するオーケストレータモデル。Microsoft Foundryで利用可能 Fara1.5(4B/9B/27B) — ブラウザ操作に特化したComputer Use Agent(CUA)モデル。同じくFoundryで公開 本稿では、この3つのコンポーネントを順に解説し、実際のセットアップ手順、設定例、競合ツールとの比較までをカバーする。 MagenticBrain(14B):オーケストレータとしての設計思想 MagenticBrainはQwen 3 14Bをベースにファインチューニングされたオーケストレーションモデルである。その役割は、ユーザーの高レベルな指示を受け、計画を立案し、必要なツールを呼び出し、ブラウザ操作が必要な場合はFara1.5にタスクを委譲することだ。 重要な2つの設計判断 マルチステップツール呼び出し+コーディング/ターミナルの統合学習: MagenticBrainは、単なるツール呼び出しの軌跡だけでなく、「Pythonコードを5行書く」といったコーディングタスクも同一の訓練データに含めている。これにより、ツール呼び出しとコード生成をシームレスに切り替えられる。 CUA Delegation(明示的な委譲): ブラウザ操作が必要なタスクでは、MagenticBrainが明示的にFara1.5に制御を委譲する。この「オーケストレータ→専門ワーカー」の分割は、単一モデルですべてをやらせるアーキテクチャよりも効率的で、拡張性が高い。 MagenticBrainはMagenticLiteのハーネス内でエンドツーエンドに訓練されており、推論時と同じツールスキーマ・実行環境で訓練されている。これによりTrain-Inference Gap(訓練時と推論時の環境差による性能低下)を排除している。 Fara1.5(4B/9B/27B):小規模CUAモデルの新たなSOTA Fara1.5はブラウザ操作(Computer Use)に特化したモデルファミリーである。ベースにはQwen 3.5を採用し、4B・9B・27Bの3サイズを用意。フラッグシップは9Bだが、27Bはより大規模なプロプライエタリモデル(Gemini 2.5 Computer Use、OpenAI Operator、Yutori Navigator N1)とも互角以上に渡り合う性能を持つ。 ベンチマークスコア モデル Online-Mind2Web WebVoyager Fara1.5-4B 57.3 80.8 Fara1.5-9B 63.4 86.6 Fara1.5-27B 72.0 88.6 参考:Fara-7B(前世代) 34.1 73.5 参考:Claude 3.7 Sonnet + Browser-Use 39.33 — Fara1.5-9Bは前世代のFara-7Bと比較してOnline-Mind2Webで**+29.3ポイント**、WebVoyagerで**+13.1ポイント**もの改善を達成している。特にOnline-Mind2Webの63.4というスコアは、小規模モデルとしては驚異的であり、Claude 3.7 SonnetにBrowser-Useフレームワークを組み合わせた構成(39.33%)を大きく上回る。 ...

May 25, 2026 · 24 min · 4605 words · Appwright

Xiaomi MiMo-V2.5-Pro完全解説:1.02TパラメータのオープンウェイトMoEモデルが切り拓くエージェントAIの新時代

はじめに 2026年4月22日、Xiaomiはオープンウェイトモデル「MiMo-V2.5-Pro」をリリースした。1.02T総パラメータ(アクティブ42B)のMoE(Mixture-of-Experts)モデルで、SWE-bench Proで57.2%、Artificial Analysis Intelligence Indexで54を記録し、Kimi K2.6と並んでオープンモデル最上位に位置する。 注目すべきはそのコスト効率だ。入力$1/100万トークン、出力$3/100万トークンと、Claude Opus 4.6(入力$5、出力$15)と比較して約1/5の価格で、エージェントタスクでは同等以上の性能を発揮する。さらにMITライセンスで公開されているため、商用利用も自由である。 本記事では、MiMo-V2.5-Proのアーキテクチャ、ベンチマーク性能、実際の使い方までを詳しく解説する。 アーキテクチャの特徴 MiMo-V2.5-Proは前世代のMiMo-V2-Proから大幅に進化した。コア技術は以下の3つに集約される。 Hybrid Attention Sliding Window Attention(SWA)とGlobal Attention(GA)を6:1の比率でインターリーブした構造を採用。128トークンのウィンドウサイズにより、KVキャッシュを約7倍削減しながら、100万トークンのコンテキスト全体にわたる理解を維持する。この設計はMiMo-V2-Flashで実証済みだ。 Multi-Token Prediction(MTP) 軽量なDense FFNモジュールを用いて、1ステップで複数のトークンを予測する。これにより出力スループットが約3倍向上し、RLトレーニングの高速化にも寄与する。 3段階ポストトレーニング Xiaomiは「Supervised Fine-Tuning → Domain-Specialized RL → Multi-Teacher On-Policy Distillation(MOPD)」という3段階のポストトレーニングパイプラインを採用している。各ドメイン(数学、安全性、エージェントツール使用等)で最適化された個別の教師モデルが、1つの学生モデルに知識を蒸留する。これにより、単一モデルで幅広いタスクをカバーできる。 ベンチマーク性能 各ベンチマークにおけるMiMo-V2.5-Proのスコアは以下の通りである。 ベンチマーク スコア 比較対象 SWE-bench Pro 57.2% クローズドモデルに迫る ClawEval 63.8% Claude Opus 4.6、GPT-5.4と同等 τ3-Bench 72.9% Claude Opus 4.6、GPT-5.4と同等 Artificial Analysis Intelligence Index 54 Kimi K2.6と同点、オープンモデル最上位 ClawEvalにおいて、MiMo-V2.5-Proは64%のPass³を達成しながら、1トレジェクトリあたりわずか約70Kトークンで動作する。これはClaude Opus 4.6やGPT-5.4と比較して40〜60%少ないトークン消費であり、実質的なコストパフォーマンスは際立っている。 実世界のエージェント性能 MiMo-V2.5-Proの真価は、実世界の複雑なタスクを自律的に実行する能力にある。Xiaomiの公開したデモから3つを紹介する。 事例1:SysYコンパイラの完全実装(Rust) 北京大学のコンパイラ設計講座をベースに、RustでSysYコンパイラをゼロから実装。レキサー、パーサー、AST、Koopa IR、RISC-Vバックエンド、最適化パスの全てを、4.3時間・672回のツール呼び出しで完成させた。隠されたテストスイート233問すべてに合格。初回コンパイル時は59%(137/233)の合格率だったが、以降の反復で自己修正しながら100%に到達している。 事例2:デスクトップ動画編集アプリの開発 マルチトラックタイムライン、クリップトリミング、クロスフェード、オーディオミキシング、エクスポートパイプラインを備えた8,192行のアプリケーションを11.5時間・1,868回のツール呼び出しで構築した。 事例3:アナログEDA回路設計 TSMC 180nm CMOSプロセスでのFVF-LDO設計。ngspiceシミュレーションループと連携し、約1時間で全6指標(位相余裕、ラインレギュレーション、負荷レギュレーション、消費電流、PSRR、過渡応答)を満たした。初期試行から4つの主要指標が10倍以上改善された。 ...

May 13, 2026 · 12 min · 2367 words · Appwright