Nemotron 3 Ultra完全解説:長時間自律エージェント時代の「データセンターモデル」を読み解く

2026年6月4日、NVIDIAはNemotron 3 Ultra 550B-A55Bを公開した。GTC Taipei 2026の基調講演で「アメリカ最強のオープンモデル」と紹介された同モデルだが、報道の論調は「中国製オープンLLMに Intelligence Index で及ばない(48点 vs Kimi K2.6 の54点)」という比較に偏っている。本記事ではその論調を離れ、**「なぜこのモデルが『長時間自律エージェント時代』のデータセンター設計思想と整合するのか」**という観点から読み解く。TCO(総保有コスト)、MOPD学習法、OpenMDW-1.1ライセンス、ソブリンAI展開まで、日本企業のAIエンジニアが意思決定するための材料をコード例と試算とともに整理する。 1. モデル仕様の再確認:「サイズ」ではなく「役割」で理解する Nemotron 3 ファミリーは Nano(30B-A3B)/ Super(120B-A12B)/ Ultra(550B-A55B)の3層構造を取る。Nano と Super は DGX Spark 128GB のユニファイドメモリで手元運用できる「日常のモデル」だが、Ultra はそもそもターゲットが異なる。NVIDIA 技術ブログは「シングルターンのチャットボットから long-running agent への進化」を前提に Ultra を位置づけている。 項目 Ultra 仕様 総パラメータ 550B トークンあたり稼働 55B(MoE) アーキテクチャ Mamba-2 + Transformer + LatentMoE のハイブリッド コンテキスト長 1M トークン 学習トークン 約20T(NVFP4 レシピ) ライセンス OpenMDW-1.1(Linux Foundation、商用利用可) 量子化後重みサイズ 約335GB(NVFP4) 必要 VRAM 600GB 超(4×B200 または 8×H100 80GB) 対応 GPU Ampere / Hopper / Blackwell(単一チェックポイントで動作) サポート言語 英仏西伊独日韓ヒンディー葡中(日本語を含む10言語) 重要なのは「動くかどうか」ではない。「どの規模の問題を、何時間止めずに回し続けられるか」 が設計の出発点にある。Hugging Face モデルカードで公開されている GA v1.0 は、4 種類のチェックポイント(Base-BF16 / Post-trained BF16 / NVFP4 / GenRM)を揃え、NVIDIA AI Enterprise 90 日無料評価 + 商用ラインセンス + 完全なオープン性が同居する。 ...

June 6, 2026 · 22 min · 4245 words · Appwright

Cohere Command A+ 218B MoE完全解説:2枚のH100で動くApache 2.0フロンティアモデルの衝撃

Cohere、初の完全Apache 2.0フロンティアモデルを公開 2026年5月20日、CohereはCommand A+(command-a-plus-05-2026)をリリースした。これは同社初の完全Apache 2.0ライセンスのフロンティアモデルであり、これまでのCommand R/R+がCC-BY-NC 4.0(非営利限定)だったのに対し、商用利用も自由な点が最大の差異である。 CEO Nick Frosstはこれを「我々がこれまでにリリースした中で最高のモデル」と評している。218BパラメータのスパースMoE(25Bアクティブ)というアーキテクチャに加え、W4A4量子化による2枚のH100での運用、ネイティブ引用生成、48言語対応という3つのブレークスルーを同時に実現した。 本記事では、アーキテクチャの詳細、ベンチマーク評価、セルフホストデプロイ手順、既存オープンモデルとの比較、そして日本語タスクにおける実力を解説する。 アーキテクチャ詳細:128エキスパートのMoE設計 Command A+はデコーダーオンリーのスパースMoE Transformerである。その設計は以下の特徴を持つ。 エキスパート構成 総パラメータ: 218B / アクティブ: 25B / エキスパート: 128(8アクティブ+1共有) コンテキスト: 128K入力 / 64K生成 / ライセンス: Apache 2.0 知識カットオフ: 2025年4月1日 128エキスパートのうち8つがアクティブになり、さらに全トークンに適用される共有エキスパートが1つ加わる。ルーターはtoken-choice方式で、正規化シグモイドをトップkのエキスパートロジットに適用する。学習時はdropless(全エキスパートが常に勾配を受け取る)設計を採用している。 アテンション機構 アテンション層では、スライディングウィンドウ(RoPE適用)とグローバルアテンション(位置埋め込みなし)を3:1の比率でインターリーブしている。このハイブリッド設計により、局所的な文脈理解と長距離依存関係の捕捉を両立している。 統合能力 Command A+は従来4つに分かれていたCohereのモデル群を1つに統合している: Command A(ツール使用) Command A Reasoning(推論) Command A Vision(画像理解) Command A Translate(翻訳) 入力はテキスト・画像・ツール、出力はテキスト・推論チェーン・ツール呼び出しをサポートする。 W4A4量子化:2枚のH100で218Bモデルを動かす技術 Command A+の最も注目すべき革新は、W4A4量子化をほぼロスレスで実現した点にある。 QAD(Quantization-Aware Distillation) Cohereは単なるPost-Training Quantizationではなく、**Quantization-Aware Distillation(QAD)**を採用。量子化Studentを完全精度Teacherの出力分布に一致するよう訓練する。前方パスでfake quantizationを挿入し、後方パスでstraight-through estimatorを用いる。 バリアント 必要GPU 速度 W4A4(推奨) 1×B200 or 2×H100 375 TOPS FP8 2×B200 or 4×H100 255 TOPS BF16 4×B200 or 8×H100 150 TOPS W4A4はFP8比で**+47%速度、-13%レイテンシを達成。NVFP4はMoEエキスパート層のみに適用され、QKV投影・KVキャッシュ・アテンションは完全精度を維持する。Speculative Decodingでさらに1.5〜1.6倍**の高速化が可能。 ...

May 26, 2026 · 17 min · 3310 words · Appwright

OpenAIの汎用推論モデル、80年未解決のエルデシュ単位距離問題を$1,000以下で解決—AI数学研究の新時代

80年の難問がAIによって解決された 2026年5月20日、OpenAIは1つの歴史的な発表を行った。同社の汎用推論モデル(general-purpose reasoning model)が、ポール・エルデシュが1946年に提起した単位距離問題(planar unit distance problem)を自律的に解決したのだ。エルデシュ自身が特に好んだ問題の1つであり、80年にわたって数学者たちを悩ませてきた難問である。 今回の成果が特に重要なのは、汎用推論LLM(数学専用システムではない)が達成した点にある。推定ではGPT-5.6が使用され、32時間未満、計算コスト1,000ドル未満でこの偉業を成し遂げた。 フィールズ賞受賞者のTimothy Gowers氏: 「単位距離問題の解決は、AI数学におけるマイルストーンである。もし人間が書いていたら、ためらわず受理を推奨しただろう。これまでのどのAI生成証明もこのレベルには達していない。」 本記事では、この画期的成果の数学的意味、AIが用いたアプローチ、そしてAIエンジニアにとっての示唆を解説する。 単位距離問題とは何か 問題の定義 単位距離問題は一見シンプルだ: 平面上に$n$個の点を配置したとき、距離がちょうど1となるペアの最大数$u(n)$はいくつか? 簡単なPythonコードでこの問題を視覚化できる。直線配置では高々 $n-1$ ペアだが、格子状に点を配置するとより多くの単位距離ペアが生まれる。エルデシュの元の構成はガウス整数 $a+bi$ を用いたもので、約80年間この下界は改善されなかった。 80年間の進展の歴史 年度 発見 1946 Erdős、下界: $n^{1 + c/\log\log n}$(ガウス整数グリッド) 1984 Spencer, Szemerédi, Trotter、上界: $O(n^{4/3})$ 2026.5.20 OpenAIモデル、下界を$n^{1+\delta}$に改善 2026.5.21 Will Sawin、$\delta = 0.014$を証明 上界は1984年以来変わっていない。下界は80年ぶりに改善された。 AIはどのように証明を発見したか 証明の戦略 最も驚くべき点は、幾何の問題に代数的整数論の高度なツールが使われたことだ。 伝統的なアプローチはガウス整数 $a+bi$ を用いたグリッド構成だった。AIはこれをより複雑な代数体に置き換え、その代数体がより豊かな対称性(より多くの単元)を持つことを示した。鍵となったのは無限類体塔とGolod–Shafarevich理論で、これは代数的整数論の概念が初めてユークリッド幾何に応用された事例である。 チェーン・オブ・ソートと「Page 39の瞬間」 モデルは約125ページに及ぶ推論(chain-of-thought)を生成した。数学者のArul Shankar氏は、このCoTを次のように分析している: 「思考の大部分は反例を構成しようとする試みだった。これはモデルが優れた直感を持ち、コミュニティが諦めたアプローチを試みる意欲を持ち、構成を試みる素養を持っていることを示している。」 特に注目されたのが、いわゆる**「Page 39の瞬間」**——推論の途中で、モデルが代数的整数論と組合せ幾何の接点を「発見」した場面だ。これは人間の数学者が数十年かけて築いてきた分野間の橋渡しを、AIが自律的に行った瞬間と言える。 なぜ汎用モデルであることが重要か 数学特化システムとの決定的な違い 今回の成果を際立たせているのは、このモデルが数学研究のために特別に訓練されたものではないという点だ。 過去のAI数学マイルストーンとの比較: マイルストーン システム タイプ 自律性 2025 IMO Gold AlphaProof 数学専用(Lean証明アシスタント) 問題文が与えられた 2026年1月: Erdős #728 GPT-5.2 汎用LLM 部分的自律(人間の誘導あり) 2026年2月: Erdős #1196 GPT-5.4 Pro 汎用LLM 80分で解決(人間による問題選択) 2026年5月: 単位距離問題 GPT-5.6(推定) 汎用LLM 高度に自律的(AI自身が問題を解釈) OpenAIは明確に述べている:「これは汎用モデルであり、特定の数学問題を解くために訓練されたものではない。ドメイン固有の数学システムやスキャフォールドされたソルバーでもない。」 ...

May 21, 2026 · 17 min · 3215 words · Appwright

Google I/O 2026完全レポート:Gemini 3.5 Flash、Gemini Spark、Antigravity 2.0が切り拓くエージェントAI時代

はじめに 2026年5月19日、GoogleはShoreline Amphitheatreで年次開発者会議「Google I/O 2026」を開催した。Sundar Pichai CEOとDeepMindのDemis Hassabis CEOが登壇し、Geminiモデルファミリーの刷新、パーソナルAIエージェント、検索の再定義、そしてXRグラスまで、2時間にわたって18の主要発表が行われた。本稿では、AIエンジニア視点で各発表の技術的インパクトを整理する。 Gemini 3.5 Flash:フロンティア知能を4倍の速度で ベンチマーク性能 Googleは新モデルファミリー「Gemini 3.5」の第一弾として、Gemini 3.5 Flashを本日から全世界で提供開始した。Terminal-Bench 2.1で76.2%、MCP Atlasで83.6%を記録し、前世代のGemini 3.1 Proをほぼすべての指標で上回る。特筆すべきは出力速度で、毎秒約300トークンと3.1 Pro(135トークン/秒)の2倍以上、競合フロンティアモデル比で4倍の高速化を実現している。 エージェント性能の飛躍 Koray Kavukcuoglu CTO(DeepMind)によれば、Gemini 3.5 Flashは「エージェントを複数並列展開し、長時間のコーディングタスクを自律実行できる初めてのモデル」である。既に社内テストでは、完全なOSをゼロから構築することに成功している。価格面でも競合モデルの半額以下に設定され、これまでコスト面で諦められていた大規模エージェントワークフローが現実的な選択肢となる。 Gemini 3.5 Pro Gemini 3.5 Proは現在社内テスト中で、2026年6月の一般提供が予定されている。Flashが果たした「Pro級の性能をFlash価格で」というトレンドがPro版でどう進化するか注目される。 Gemini Omni:あらゆる入力から動画を生成する世界モデル Demis Hassabisが披露したGemini Omniは、テキスト、画像、音声、動画を任意に組み合わせた入力から高品質な動画を生成する。従来のVeo 3を置き換え、Geminiアプリ、Google Flow、YouTube Shortsに統合される。技術的には物理世界のシミュレーション能力を持ち、「撮影した動画に対して『魚が海から飛び出すように変えて』と指示するだけで編集できる」というデモが行われた。Google AI Plus/Pro/Ultra契約者は本日より利用可能。Omni Pro版のリリース時期は未定だが、マルチモーダル入出力の統一モデルという長期的ビジョンの第一歩と位置づけられている。 Gemini Spark:24時間365日稼働するパーソナルAIエージェント アーキテクチャ Gemini SparkはGoogle Cloud上の専用VMで動作する永続型エージェントだ。Gemini 3.5 Flashを搭載し、ユーザーがデバイスを操作していない間もバックグラウンドでタスクを実行し続ける。Workspaceアプリ(Gmail、Docs、Sheets、Slides)とMCP(Model Context Protocol)を介してCanva、OpenTable、Instacartなどの外部サービスにも接続可能である。 実用的なユースケース I/Oのデモでは以下のシナリオが示された: クレジットカード明細を自動解析し、新規サブスクリプション料金をフラグ付け 子どもの学校からの連絡を受信トレイから抽出し、家族向けデイリーダイジェストを生成 「先週のチームの成果をメールの下書きにまとめて」という指示で、Docs/Sheets/Gmail/Chatを横断検索し、ユーザーのトーンに合わせた文章を生成 提供スケジュール 今週中に米国のTrusted Tester向け提供開始。来週にはGoogle AI Plus/Pro/Ultra契約者(Ultra月額$100〜$200)にベータ版が展開される。2026年夏にはChrome上のエージェント型ブラウザ機能、年末にはAndroid専用エージェント「Android Halo」が追加予定だ。 Antigravity 2.0:マルチエージェント開発のプラットフォーム化 Google AntigravityはAgent Platformとの統合を強化し、組織全体でのエージェンティック開発を可能にする。Antigravity 2.0の最大の進化は、Gemini 3.5 Flashのトークン効率を活かした動的サブエージェント機構だ。複数のサブエージェントを並列実行し、レガシーコードのNext.js移行、都市景観の自動生成、AlphaZero論文からのゲーム実装(6時間で完動品)などのデモが行われた。 ...

May 20, 2026 · 15 min · 2958 words · Appwright

AIモデル価格戦争2026:GPT-5.5 vs Claude Opus 4.7 vs Gemini 3.1 Pro vs DeepSeek V4 vs SubQ — 開発者のためのコスト最適化ガイド

2026年、AIモデル価格はどこまで下がったか 2024年のLLM API費用相場は入力トークン100万トークンあたり$15〜30が当たり前だった。2026年5月、その常識は完全に書き換えられている。AnthropicはClaude Opusの価格を67%引き下げ、DeepSeekはV4 Flashを$0.14/Mトークンで提供し、さらにSubQはClaude Opus比1/5のコストを謳う。本記事では、2026年5月時点の主要フロンティアモデルのAPI料金と、実務で使えるコスト最適化手法をまとめる。 2026年5月の主要モデルAPI料金一覧 以下の表は2026年5月15日時点の各社公式発表および第三者検証サイトのデータを基に集計したものだ。 フロンティアモデル(最高性能) モデル 入力 ($/1M tok) 出力 ($/1M tok) コンテキスト GPT-5.5 (OpenAI) $5.00 $30.00 1M GPT-5.5 Pro (OpenAI) $30.00 $180.00 1M Claude Opus 4.7 (Anthropic) $5.00 $25.00 1M Claude Sonnet 4.6 (Anthropic) $3.00 $15.00 1M Gemini 3.1 Pro (Google) $2.00 $12.00 1M DeepSeek V4 Pro (DeepSeek) $1.74 $3.50 1M コスパ重視モデル モデル 入力 ($/1M tok) 出力 ($/1M tok) コンテキスト DeepSeek V4 Flash $0.14 $0.28 1M Claude Haiku 4.5 $1.00 $5.00 1M Gemini 2.5 Flash $0.30 $2.50 1M SubQ 1M-Preview (Subquadratic) ~$1.50 ~$7.50 1M 料金の変化を理解する 2024年ベースラインと比較すると、同程度の性能を得るためのコストは以下の通り: ...

May 15, 2026 · 12 min · 2261 words · Appwright

Claudeが2026年に出荷したすべて:Opus 4.7、Dreams、Agent Teams、1Mコンテクスト——Anthropic最新エコシステム完全ガイド

はじめに:年に2週間のペースで進化するClaude Anthropicは2026年、約2週間に1回のペースで主要リリースを続けている。「数週間目を離すと何が起きたか分からなくなる」——これはAnthropicのペースを象徴する言葉だ。本稿では、2026年5月時点でClaudeエコシステムがどのような状態にあるのか、すべての主要コンポーネントを体系的に整理する。 モデルラインナップ:Opus 4.7が頂点に Claude Opus 4.7(2026年4月16日リリース) 現時点で一般利用可能な最も高性能なモデル。SWE-bench Proで**64.3%**を記録し、GPT-5.4(57.7%)やGemini 3.1 Pro(61.2%)を上回る。特筆すべき改善点は以下の通り: 3倍のビジョン解像度:最大3.75MP(2,576px長辺)に対応。画像解析パイプラインで前処理不要に xhigh reasoning:従来のhighとmaxの間の新たな推論レベル。多くのタスクでmax同等の品質を低レイテンシで実現 タスク予算(Task Budgets, ベータ):自律エージェントのトークン消費にハードキャップを設定可能 価格は据え置き:入力$5/100万トークン、出力$25/100万トークン Opus 4.6から価格変更なしの実質アップグレード。エージェントパイプラインを稼働中のチームにとっては「無料の性能向上」と言える。 Claude Sonnet 4.6(2026年2月17日リリース) 1Mコンテクスト対応の主力モデル。Sonnet 4.5比で30〜50%高速化し、日常的なコーディングやエージェントワークフローではOpusに匹敵する品質を約40%低いコストで提供する。 Claude Haiku 4.5 高速・低コストのサブエージェント向けモデル。ただしプロンプトインジェクション対策がないため、信頼できない入力を扱うエージェント構成では注意が必要。 1Mトークンコンテクスト:標準料金化という転換点 2026年3月13日、Anthropicは200Kトークンを超える長いコンテクストに対するプレミアム課金を撤廃した。現在は全コンテクスト長に標準レートが適用される。 ベンチマークではOpus 4.6が**1Mトークン時でMRCR v2 78.3%**を記録。GPT-5.4(36.6%)、Gemini 3.1 Pro(18.3%)を大きく引き離す。実際には200Kを超えるとOpusでも品質が劣化し始めるため、推奨される実用上限は200K〜400K程度。単発の大規模ドキュメント解析には有効だが、ルーティンの会話セッションでは200K以内に留めるのが現実的だ。 4つのモード:Chat / Cowork / Code / Projects Claudeには現在4つの動作モードがあり、用途に応じて使い分ける: モード 用途 特徴 Chat ブラウザ/モバイル クイッククエリ、ブレインストーミング、下書き Cowork デスクトップエージェント 実際のファイルを読み書き、マルチステップタスクを自律実行 Code ターミナル コードベースを認識し、コード記述・コマンド実行・git操作 Projects 保存済みワークスペース ファイルと指示をアップロードし、セッション間でコンテクストを永続化 よくある間違いはすべての作業をChatで済ませようとすること。実際のファイル操作にはCoworkまたはCodeを使うべきで、これだけで作業効率が劇的に変わる。 Claude Codeの主要新機能 Code Review(コードレビュー) Claude CodeがPRの変更をレビューし、インラインコメントを自動生成する。レビュアーの負荷を軽減しつつ、バグやセキュリティ問題を早期発見できる。 CI Auto-Fix(CI自動修正) CIが失敗した時、/autofix-pr コマンド一つでClaude Codeがエラーログを解析し、修正コードを生成、PRとして提案する。CI/CDパイプラインと直接連携し、開発者が修正を待つ時間をゼロにする。 ...

May 14, 2026 · 14 min · 2787 words · Appwright

SubQ 1M-Preview完全解説:12Mトークンコンテキストを実現した非二次アーキテクチャの衝撃

SubQ 1M-Previewとは 2026年5月5日、マイアミ拠点のAIスタートアップSubquadraticが「SubQ 1M-Preview」を発表した。同社は29Mドルのシード調達を行い、評価額は500Mドルに達する。注目すべきは、このモデルが世界初の完全subquadraticアーキテクチャを採用している点だ。従来のTransformerが抱えるO(n²)の計算量制約を、アーキテクチャレベルで解決したと主張する。 SSA(Subquadratic Sparse Attention)の仕組み SubQの中核技術はSSA(Subquadratic Sparse Attention)である。従来のDense Attentionが全トークンペアを比較するのに対し、SSAはコンテンツ依存の選択的ルーティングを行う。つまり、クエリに対して意味的に重要なトークンのみを動的に選び、そのペアに対してのみ正確なAttentionを計算する。 方式 計算量 特徴 Dense Attention O(n²) 全ペア比較、正確だが非効率 SSA(SubQ) O(n·k) コンテンツ依存の選択、線形に近い FlashAttention O(n²) 実行効率は改善するがスケーリング則は不変 SSAが従来手法と異なるのは、位置ベースの固定パターン(スライディングウィンドウ等)ではなく、意味に基づいてアテンション先を決定する点だ。これにより、12Mトークンの研究段階でAttention計算量を従来比約1,000分の1に削減したとされる。 学習パイプライン SSAの学習は3段階で行われる: Pre-training — 大規模な長文脈データセットでの事前学習 Supervised fine-tuning — 推論・コード生成・指示追従のチューニング Reinforcement learning — 長文脈検索タスクを直接最適化。モデルが「近くの情報にデフォルトする」問題を回避するための設計 ベンチマーク評価:何ができて、何ができないか Subquadraticが公開した第三者検証済みのベンチマークは3つで、いずれも長文脈検索とコーディングに特化している。 SWE-Bench Verified(コード修正能力) モデル スコア Claude Opus 4.7 87.6% SubQ 1M-Preview 81.8% Claude Opus 4.6 80.8% DeepSeek 4.0 Pro 80.0% Gemini 3.1 Pro 80.6% Opus 4.7には及ばないものの、Opus 4.6やDeepSeek 4.0 Proと同等の水準。ただし同社自身「SWE-Benchの差はモデル本体よりもエージェントハーネスの影響が大きい」と認めており、コード能力の優劣を断定するのは早計だ。 RULER 128K(長文脈推論) SubQ: 95.0% vs Claude Opus 4.6: 94.8%。誤差の範囲だが、注目すべきはコスト差だ。SubquadraticはRULER 128Kの実行コストを約**$8と主張。一方Claude Opusでは約$2,600**と試算されている。精度は同等でコストは約300分の1という計算になる。 ...

May 14, 2026 · 15 min · 2820 words · Appwright

Xiaomi MiMo-V2.5-Pro完全解説:1.02TパラメータのオープンウェイトMoEモデルが切り拓くエージェントAIの新時代

はじめに 2026年4月22日、Xiaomiはオープンウェイトモデル「MiMo-V2.5-Pro」をリリースした。1.02T総パラメータ(アクティブ42B)のMoE(Mixture-of-Experts)モデルで、SWE-bench Proで57.2%、Artificial Analysis Intelligence Indexで54を記録し、Kimi K2.6と並んでオープンモデル最上位に位置する。 注目すべきはそのコスト効率だ。入力$1/100万トークン、出力$3/100万トークンと、Claude Opus 4.6(入力$5、出力$15)と比較して約1/5の価格で、エージェントタスクでは同等以上の性能を発揮する。さらにMITライセンスで公開されているため、商用利用も自由である。 本記事では、MiMo-V2.5-Proのアーキテクチャ、ベンチマーク性能、実際の使い方までを詳しく解説する。 アーキテクチャの特徴 MiMo-V2.5-Proは前世代のMiMo-V2-Proから大幅に進化した。コア技術は以下の3つに集約される。 Hybrid Attention Sliding Window Attention(SWA)とGlobal Attention(GA)を6:1の比率でインターリーブした構造を採用。128トークンのウィンドウサイズにより、KVキャッシュを約7倍削減しながら、100万トークンのコンテキスト全体にわたる理解を維持する。この設計はMiMo-V2-Flashで実証済みだ。 Multi-Token Prediction(MTP) 軽量なDense FFNモジュールを用いて、1ステップで複数のトークンを予測する。これにより出力スループットが約3倍向上し、RLトレーニングの高速化にも寄与する。 3段階ポストトレーニング Xiaomiは「Supervised Fine-Tuning → Domain-Specialized RL → Multi-Teacher On-Policy Distillation(MOPD)」という3段階のポストトレーニングパイプラインを採用している。各ドメイン(数学、安全性、エージェントツール使用等)で最適化された個別の教師モデルが、1つの学生モデルに知識を蒸留する。これにより、単一モデルで幅広いタスクをカバーできる。 ベンチマーク性能 各ベンチマークにおけるMiMo-V2.5-Proのスコアは以下の通りである。 ベンチマーク スコア 比較対象 SWE-bench Pro 57.2% クローズドモデルに迫る ClawEval 63.8% Claude Opus 4.6、GPT-5.4と同等 τ3-Bench 72.9% Claude Opus 4.6、GPT-5.4と同等 Artificial Analysis Intelligence Index 54 Kimi K2.6と同点、オープンモデル最上位 ClawEvalにおいて、MiMo-V2.5-Proは64%のPass³を達成しながら、1トレジェクトリあたりわずか約70Kトークンで動作する。これはClaude Opus 4.6やGPT-5.4と比較して40〜60%少ないトークン消費であり、実質的なコストパフォーマンスは際立っている。 実世界のエージェント性能 MiMo-V2.5-Proの真価は、実世界の複雑なタスクを自律的に実行する能力にある。Xiaomiの公開したデモから3つを紹介する。 事例1:SysYコンパイラの完全実装(Rust) 北京大学のコンパイラ設計講座をベースに、RustでSysYコンパイラをゼロから実装。レキサー、パーサー、AST、Koopa IR、RISC-Vバックエンド、最適化パスの全てを、4.3時間・672回のツール呼び出しで完成させた。隠されたテストスイート233問すべてに合格。初回コンパイル時は59%(137/233)の合格率だったが、以降の反復で自己修正しながら100%に到達している。 事例2:デスクトップ動画編集アプリの開発 マルチトラックタイムライン、クリップトリミング、クロスフェード、オーディオミキシング、エクスポートパイプラインを備えた8,192行のアプリケーションを11.5時間・1,868回のツール呼び出しで構築した。 事例3:アナログEDA回路設計 TSMC 180nm CMOSプロセスでのFVF-LDO設計。ngspiceシミュレーションループと連携し、約1時間で全6指標(位相余裕、ラインレギュレーション、負荷レギュレーション、消費電流、PSRR、過渡応答)を満たした。初期試行から4つの主要指標が10倍以上改善された。 ...

May 13, 2026 · 12 min · 2367 words · Appwright