OpenHands Agent Control Plane入門:AIエージェント乱立時代の運用基盤

AIエージェントが増えすぎた——「Agent Sprawl」問題 2026年、ソフトウェア開発現場では複数のAIコーディングエージェントが日常的に使われるようになった。Claude Code、GitHub Copilot、Cursor、OpenHands──これらのツールは個々の開発者の生産性を大幅に向上させた。 しかし、組織全体で見ると新たな問題が浮上している。Agent Sprawl(エージェント乱立) だ。各チームがバラバラのエージェントを導入し、権限管理は不統一、コストは追跡不能、誰が・いつ・どのエージェントに・何をさせたのかの監査証跡がない。McKinseyの調査によれば、60%以上の組織がAIエージェントを実験しているが、本番運用に成功している例はごく一部にとどまる。 この問題に対する解として登場したのが、Agent Control Plane(エージェントコントロールプレーン) という新たな運用カテゴリである。 Agent Control Planeとは何か OpenHandsのCEO兼共同創業者 Robert Brennan の定義によれば、ソフトウェアエージェントのテクノロジースタックは3つの層から構成される: Harness(ハーネス) — 1つ以上のLLM上で動作するエージェントループ(Claude CodeやCursorのローカル実行環境) Orchestrator(オーケストレーター) — エージェントが実行される環境(Kubernetesクラスタなど) Control Plane(コントロールプレーン) — 多数のエージェントを大規模に観測・制御する仕組み Control Planeはエージェントを制御するための中央管理層だ。すべてのエージェントアクティビティに対して、LLMルーティングポリシー、MCPアクセス制御、シークレット管理、予算管理、ユーザー認証などのガードレールを一元的に設定できる。 OpenHands Enterpriseが提供する5つの機能 OpenHandsは2026年5月6日、OpenHands Enterpriseとその中核となるAgent Control Planeを正式リリースした。直近では$18.8MのSeries Aを調達し、Madronaを筆頭にMenlo Ventures、Obvious Ventures、Fujitsu Ventures、Alumni Venturesが参加している。コミュニティの規模はGitHub 70,000超のスター、9,000以上のフォーク、700万ダウンロードに達し、AMD、Apple、Google、Amazon、Netflix、NVIDIA、Mastercardなどのエンジニアが利用している。 Control Planeが提供する機能は以下の5つに整理できる: 1. Orchestration(オーケストレーション) プラットフォームチームはワークフローを一度定義するだけで、複数のリポジトリやチームにまたがって並列実行できる。スケジューリング、リトライポリシー、状態管理はすべてControl Planeが責任を持つ。 # OpenHands Automationワークフロー定義例(依存関係アップグレード) name: dependency-upgrade-weekly trigger: schedule: "0 8 * * 1" # 毎週月曜日8:00 UTC event: github-release workflows: - repo: backend-service task: upgrade-dependencies model: claude-opus-4.7 budget: 500000 # トークン上限 - repo: frontend-app task: upgrade-dependencies model: claude-opus-4.7 budget: 300000 2. Security & Governance(セキュリティとガバナンス) Control Planeの最も重要な役割はセキュリティだ。最小権限(least-privilege) のアクセス制御を強制し、エージェントが開発者の完全な権限を継承しないようにする。シークレット、ネットワーク、外部システムへのアクセスはすべてワークフローレベルでスコープされ、隔離されたサンドボックス内で実行される。これにより、あるエージェントが本番データベースを誤って削除するような事故の影響範囲を最小化できる。 ...

May 17, 2026 · 18 min · 3511 words · Appwright

Google I/O 2026直前プレビュー:Agent-First開発が変えるAIエンジニアのワークフロー

2026年5月19日〜20日、Google I/O 2026がMountain ViewのShoreline Amphitheatreとオンラインで開催される。今年のキーノートテーマは「Agent-first workflows from prompt to production」──AIエージェントを開発の中心に据え、プロンプトから本番デプロイまでを一貫したワークフローでつなぐビジョンだ。 前週にAndroid Show I/O Edition(5月12日)でAndroid 17・Googlebook・Gemini Intelligenceが先行発表されたことを受け、本番のI/Oでは開発者向けの深い技術内容が期待される。本稿では、AIエンジニアの視点からI/O 2026の注目ポイントを整理する。 ...

May 16, 2026 · 18 min · 3496 words · Appwright

今週のAIまとめ:2026年5月第2週(5/12-5/16)— 10本の記事で振り返るAIエージェント革命の1週間

今週(5月12日〜16日)は初のフル稼働週となり、計10本の記事を公開した。本記事では各トピックを整理し、1週間のストーリーを俯瞰する。 今週のハイライト 2026年5月第2週は「AIエージェントの実用化」が明確なテーマだった。 Claude Mythos Preview — AIが自律的にゼロデイ脆弱性を発見 SubQ 1M-Preview — 非二次アーキテクチャで12Mトークンコンテキスト AIモデル価格戦争 — 5極化、SubQが$0.11/Mで破壊的 Google I/O 2026 — 5月19日開催目前 Claude Mythos Preview(5/15公開) 今週最大の話題。SWE-bench Verified 93.9% を記録。内部テストでFreeBSDの17年間放置されたRCEやFFmpegの16年放置バグを自律発見した。英国AISIの評価では30%の確率で企業ネットワークを完全乗っ取り可能。Gary Marcusの反論もあるが、AIサイバーセキュリティが理論から現実に移ったことを示す。 Claude Mythos Preview徹底解説 AIモデル価格戦争2026(5/15公開) Anthropicの67%値下げ、SubQの$0.11/M(Opus比1/23)、DeepSeek V4-Flashの$0.04/Mと、モデル選定基準が「性能」から「性能×コスト」へシフト。タスク別の最適モデル選択手法を解説。 AIモデル価格戦争2026 SubQ 1M-Preview(5/14公開) SSAアーキテクチャでTransformerのO(n²)問題を解決。12Mトークンコンテキスト、SWE-Bench 81.8%、MRCR v2 65.9%(GPT-5.5超え)。$0.11/MはOpus比1/23以下。 SubQ 1M-Preview完全解説 Claude 2026年出荷全容(5/14公開) Opus 4.7、Dreams、Agent Teams、1Mコンテクスト標準価格化、Code Review / CI Auto-Fix / Security Reviews、エンタープライズ80倍成長。Anthropicのプラットフォーム企業転換を包括的に解説。 Claudeが2026年に出荷したすべて Google I/O 2026直前プレビュー(5/16公開) Jules V2(目標駆動型エージェント)、Gemini 4(1000万トークン)、Firebase Studio、ADK/MCP、Googlebook。テーマは「Agent-First開発」。 Google I/O 2026直前プレビュー 週前半の記事(5/12-5/13) 公開日 記事 トピック 5/12 AI Coding Agents比較 Claude Code / Cursor / Copilot / Codex 実践比較 5/12 AI Agent Frameworks比較 LangGraph / Claude Agent SDK / CrewAI 5/12 なぜPythonなのか AI時代の言語選定の考察 5/13 Claude Managed Agents入門 完全マネージド実行環境の総合ガイド 5/13 Xiaomi MiMo-V2.5-Pro解説 1.02Tパラメータ、MITライセンスの衝撃 来週の注目ポイント Google I/O 2026(5/19-20) Agent-First開発のビジョンが製品としてどう具現化されるか。イベント後は速報レポートを公開予定。 ...

May 16, 2026 · 6 min · 1179 words · Appwright

AIモデル価格戦争2026:GPT-5.5 vs Claude Opus 4.7 vs Gemini 3.1 Pro vs DeepSeek V4 vs SubQ — 開発者のためのコスト最適化ガイド

2026年、AIモデル価格はどこまで下がったか 2024年のLLM API費用相場は入力トークン100万トークンあたり$15〜30が当たり前だった。2026年5月、その常識は完全に書き換えられている。AnthropicはClaude Opusの価格を67%引き下げ、DeepSeekはV4 Flashを$0.14/Mトークンで提供し、さらにSubQはClaude Opus比1/5のコストを謳う。本記事では、2026年5月時点の主要フロンティアモデルのAPI料金と、実務で使えるコスト最適化手法をまとめる。 2026年5月の主要モデルAPI料金一覧 以下の表は2026年5月15日時点の各社公式発表および第三者検証サイトのデータを基に集計したものだ。 フロンティアモデル(最高性能) モデル 入力 ($/1M tok) 出力 ($/1M tok) コンテキスト GPT-5.5 (OpenAI) $5.00 $30.00 1M GPT-5.5 Pro (OpenAI) $30.00 $180.00 1M Claude Opus 4.7 (Anthropic) $5.00 $25.00 1M Claude Sonnet 4.6 (Anthropic) $3.00 $15.00 1M Gemini 3.1 Pro (Google) $2.00 $12.00 1M DeepSeek V4 Pro (DeepSeek) $1.74 $3.50 1M コスパ重視モデル モデル 入力 ($/1M tok) 出力 ($/1M tok) コンテキスト DeepSeek V4 Flash $0.14 $0.28 1M Claude Haiku 4.5 $1.00 $5.00 1M Gemini 2.5 Flash $0.30 $2.50 1M SubQ 1M-Preview (Subquadratic) ~$1.50 ~$7.50 1M 料金の変化を理解する 2024年ベースラインと比較すると、同程度の性能を得るためのコストは以下の通り: ...

May 15, 2026 · 12 min · 2261 words · Appwright

Claude Mythos Preview徹底解説:AIがゼロデイ脆弱性を自律発見する時代のセキュリティパラダイムシフト

はじめに:サイバーセキュリティの分岐点 2026年4月7日、Anthropicは次世代モデル「Claude Mythos Preview」を発表した。しかし同社は同時に、このモデルを一般公開しないと宣言した。理由は「前例のないサイバーセキュリティリスク」だ。 本記事では、Claude Mythos Previewを技術的事実に基づいて解説し、その能力・リスク・論争・そして日本の開発チームが今取るべき対策を、バランスの取れた視点で提供する。既存の日本語記事の多くは発表内容の紹介に留まっているが、本記事では賛否両論を包含した分析と実践的な対策コードを提供する点で差別化している。 Claude Mythos Previewとは何か Claude Mythos Previewは、Anthropicが開発した新しい汎用言語モデルである。「Mythos」は世代名(Claude 4に相当)、「Capybara」は階層名(Opus/Sonnet/Haikuに相当)という2層構造の命名で、正式には「Claude Mythos Capybara」となる見込みだ。 最も特筆すべき点は、そのサイバーセキュリティ能力がコーディング能力の副産物として副次的に出現したことである。Anthropicは「意図的に訓練した能力ではない」と明言している。これは、モデルのスケーリングによって予期せぬ能力が創発するという、AI安全性研究で長年議論されてきたシナリオが現実になった事例と言える。 ベンチマーク:何が「異常値」なのか Anthropicが公開したシステムカードによると、Mythos PreviewはOpus 4.6と比較して以下のスコアを示している: ベンチマーク Mythos Preview Opus 4.6 改善幅 SWE-bench Verified 93.9% 80.8% +13.1pp SWE-bench Pro 77.8% 53.4% +24.4pp SWE-bench Multilingual 87.3% 77.8% +9.5pp Terminal-Bench 2.0 82.0% 65.4% +16.6pp CyberGym (脆弱性再現) 83.1% 66.6% +16.5pp GPQA Diamond 94.6% 91.3% +3.3pp BrowseComp 86.9% 83.7% +3.2pp SWE-bench Verifiedの93.9%は、2025年4月時点での最高スコア(Opus 4.6の80.8%)から13ポイント以上の飛躍であり、従来のモデル改善ペース(通常1-3pp)を大きく超えている。しかし、この数字には注意が必要だ。SWE-benchは特定の条件下でのバグ修正能力を測定するものであり、実環境でのソフトウェア開発能力を完全に反映するものではない。 発見された脆弱性:実例から見る能力の本質 27年越しのOpenBSDバグ 最も象徴的な事例は、OpenBSDのTCP SACK処理に潜んでいた27年越しの脆弱性である。RFC 2018(1996年策定)で定義された Selective Acknowledgment 機構に、二つのバグが連鎖して存在していた: ...

May 15, 2026 · 21 min · 4186 words · Appwright

Claudeが2026年に出荷したすべて:Opus 4.7、Dreams、Agent Teams、1Mコンテクスト——Anthropic最新エコシステム完全ガイド

はじめに:年に2週間のペースで進化するClaude Anthropicは2026年、約2週間に1回のペースで主要リリースを続けている。「数週間目を離すと何が起きたか分からなくなる」——これはAnthropicのペースを象徴する言葉だ。本稿では、2026年5月時点でClaudeエコシステムがどのような状態にあるのか、すべての主要コンポーネントを体系的に整理する。 モデルラインナップ:Opus 4.7が頂点に Claude Opus 4.7(2026年4月16日リリース) 現時点で一般利用可能な最も高性能なモデル。SWE-bench Proで**64.3%**を記録し、GPT-5.4(57.7%)やGemini 3.1 Pro(61.2%)を上回る。特筆すべき改善点は以下の通り: 3倍のビジョン解像度:最大3.75MP(2,576px長辺)に対応。画像解析パイプラインで前処理不要に xhigh reasoning:従来のhighとmaxの間の新たな推論レベル。多くのタスクでmax同等の品質を低レイテンシで実現 タスク予算(Task Budgets, ベータ):自律エージェントのトークン消費にハードキャップを設定可能 価格は据え置き:入力$5/100万トークン、出力$25/100万トークン Opus 4.6から価格変更なしの実質アップグレード。エージェントパイプラインを稼働中のチームにとっては「無料の性能向上」と言える。 Claude Sonnet 4.6(2026年2月17日リリース) 1Mコンテクスト対応の主力モデル。Sonnet 4.5比で30〜50%高速化し、日常的なコーディングやエージェントワークフローではOpusに匹敵する品質を約40%低いコストで提供する。 Claude Haiku 4.5 高速・低コストのサブエージェント向けモデル。ただしプロンプトインジェクション対策がないため、信頼できない入力を扱うエージェント構成では注意が必要。 1Mトークンコンテクスト:標準料金化という転換点 2026年3月13日、Anthropicは200Kトークンを超える長いコンテクストに対するプレミアム課金を撤廃した。現在は全コンテクスト長に標準レートが適用される。 ベンチマークではOpus 4.6が**1Mトークン時でMRCR v2 78.3%**を記録。GPT-5.4(36.6%)、Gemini 3.1 Pro(18.3%)を大きく引き離す。実際には200Kを超えるとOpusでも品質が劣化し始めるため、推奨される実用上限は200K〜400K程度。単発の大規模ドキュメント解析には有効だが、ルーティンの会話セッションでは200K以内に留めるのが現実的だ。 4つのモード:Chat / Cowork / Code / Projects Claudeには現在4つの動作モードがあり、用途に応じて使い分ける: モード 用途 特徴 Chat ブラウザ/モバイル クイッククエリ、ブレインストーミング、下書き Cowork デスクトップエージェント 実際のファイルを読み書き、マルチステップタスクを自律実行 Code ターミナル コードベースを認識し、コード記述・コマンド実行・git操作 Projects 保存済みワークスペース ファイルと指示をアップロードし、セッション間でコンテクストを永続化 よくある間違いはすべての作業をChatで済ませようとすること。実際のファイル操作にはCoworkまたはCodeを使うべきで、これだけで作業効率が劇的に変わる。 Claude Codeの主要新機能 Code Review(コードレビュー) Claude CodeがPRの変更をレビューし、インラインコメントを自動生成する。レビュアーの負荷を軽減しつつ、バグやセキュリティ問題を早期発見できる。 CI Auto-Fix(CI自動修正) CIが失敗した時、/autofix-pr コマンド一つでClaude Codeがエラーログを解析し、修正コードを生成、PRとして提案する。CI/CDパイプラインと直接連携し、開発者が修正を待つ時間をゼロにする。 ...

May 14, 2026 · 14 min · 2787 words · Appwright

SubQ 1M-Preview完全解説:12Mトークンコンテキストを実現した非二次アーキテクチャの衝撃

SubQ 1M-Previewとは 2026年5月5日、マイアミ拠点のAIスタートアップSubquadraticが「SubQ 1M-Preview」を発表した。同社は29Mドルのシード調達を行い、評価額は500Mドルに達する。注目すべきは、このモデルが世界初の完全subquadraticアーキテクチャを採用している点だ。従来のTransformerが抱えるO(n²)の計算量制約を、アーキテクチャレベルで解決したと主張する。 SSA(Subquadratic Sparse Attention)の仕組み SubQの中核技術はSSA(Subquadratic Sparse Attention)である。従来のDense Attentionが全トークンペアを比較するのに対し、SSAはコンテンツ依存の選択的ルーティングを行う。つまり、クエリに対して意味的に重要なトークンのみを動的に選び、そのペアに対してのみ正確なAttentionを計算する。 方式 計算量 特徴 Dense Attention O(n²) 全ペア比較、正確だが非効率 SSA(SubQ) O(n·k) コンテンツ依存の選択、線形に近い FlashAttention O(n²) 実行効率は改善するがスケーリング則は不変 SSAが従来手法と異なるのは、位置ベースの固定パターン(スライディングウィンドウ等)ではなく、意味に基づいてアテンション先を決定する点だ。これにより、12Mトークンの研究段階でAttention計算量を従来比約1,000分の1に削減したとされる。 学習パイプライン SSAの学習は3段階で行われる: Pre-training — 大規模な長文脈データセットでの事前学習 Supervised fine-tuning — 推論・コード生成・指示追従のチューニング Reinforcement learning — 長文脈検索タスクを直接最適化。モデルが「近くの情報にデフォルトする」問題を回避するための設計 ベンチマーク評価:何ができて、何ができないか Subquadraticが公開した第三者検証済みのベンチマークは3つで、いずれも長文脈検索とコーディングに特化している。 SWE-Bench Verified(コード修正能力) モデル スコア Claude Opus 4.7 87.6% SubQ 1M-Preview 81.8% Claude Opus 4.6 80.8% DeepSeek 4.0 Pro 80.0% Gemini 3.1 Pro 80.6% Opus 4.7には及ばないものの、Opus 4.6やDeepSeek 4.0 Proと同等の水準。ただし同社自身「SWE-Benchの差はモデル本体よりもエージェントハーネスの影響が大きい」と認めており、コード能力の優劣を断定するのは早計だ。 RULER 128K(長文脈推論) SubQ: 95.0% vs Claude Opus 4.6: 94.8%。誤差の範囲だが、注目すべきはコスト差だ。SubquadraticはRULER 128Kの実行コストを約**$8と主張。一方Claude Opusでは約$2,600**と試算されている。精度は同等でコストは約300分の1という計算になる。 ...

May 14, 2026 · 15 min · 2820 words · Appwright

Claude Managed Agents入門:Anthropicが提供するAIエージェントの完全マネージド実行環境

はじめに:Managed Agentsが解決する課題 AIエージェントをプロトタイプから本番運用に移行するには、通常3〜6ヶ月のインフラ構築が必要だった。サンドボックス実行環境、状態管理、認証情報の安全な取り扱い、エラーリカバリ、コンテキスト管理、ツールオーケストレーション——これらをすべて自前で実装するのは、大企業のチームでも容易ではない。 2026年4月8日、Anthropicはこの課題を根本的に解決するClaude Managed Agentsを公開ベータとしてリリースした。発表から2時間で200万ビューを記録し、Xでは「これでYCバッチ一個分の仕事が消えた」と話題になった。 Brain / Hands / Session アーキテクチャ Managed Agentsの設計思想は「頭脳と手足の分離」だ。アーキテクチャは3つの独立したコンポーネントで構成される。 Brain(頭脳) Claudeモデルが意思決定を行う。ツール呼び出し、次のアクションの判断、終了条件の評価を担当する。利用可能なモデルはOpus 4.6、Sonnet 4.6、Haiku 4.5から選択できる。 Hands(手足) 使い捨てのLinuxコンテナで、コード実行やファイル操作を担当する。エラーが発生した場合、新しいコンテナが自動的に生成される。永続状態を持たないため、セキュリティ上のリスクが低い。 Session(永続セッション) BrainとHandsの外部に存在するイベントログ。すべてのツール呼び出し、その結果、エージェントの意思決定を記録する。セッションは切断後も持続し、再開時にその場から続行できる。 この分離設計により、各コンポーネントは独立してスケールする。複数のBrainが単一のSessionを介してHandsと通信することも可能だ。 料金体系:ランタイム+トークンの二軸課金 Managed Agentsの課金は2次元で構成される。従来のCode Executionのコンテナ時間課金はSession Runtimeに統合された。 課金項目 料金 セッションランタイム $0.08/時間(アクティブ時のみミリ秒単位で課金) 入力トークン(Opus 4.6) $5/100万トークン 出力トークン(Opus 4.6) $25/100万トークン Web検索 $10/1,000回 実際のコスト例:1時間のコーディングセッション(Opus 4.6、入力50K・出力15Kトークン)の場合: # コスト計算 input_cost = 50_000 * 5.0 / 1_000_000 # $0.25 output_cost = 15_000 * 25.0 / 1_000_000 # $0.38 runtime_cost = 1.0 * 0.08 # $0.08 total = input_cost + output_cost + runtime_cost # $0.71 プロンプトキャッシングを活用すれば、入力コストを最大90%削減でき、同じセッションで $0.53 まで抑えられる。 重要なのは、アイドル時間は課金されないという点だ。ユーザーの入力を待っている間やツールの確認待ちの状態は"running"ステータスにならないため、コストは発生しない。 APIの基本的な使い方 Managed AgentsのAPIはシンプルだ。以下の手順でエージェントを作成し、セッションを開始できる。 import requests API_KEY = "sk-ant-..." headers = {"x-api-key": API_KEY, "Content-Type": "application/json"} BETA_HEADER = "managed-agents-2026-04-01" # 1. エージェントの作成 agent = requests.post( "https://api.anthropic.com/v1/managed_agents", headers={**headers, "managed-agents-version": BETA_HEADER}, json={ "name": "code-reviewer", "model": "claude-sonnet-4-6", "system_prompt": "あなたはコードレビューを行うエージェントです。" "PRの差分を分析し、バグの可能性、パフォーマンス問題、" "セキュリティ脆弱性を報告してください。", "tools": [ {"type": "code_execution"}, {"type": "web_search"} ] } ) # 2. セッションの開始 session = requests.post( f"https://api.anthropic.com/v1/managed_agents/{agent['id']}/sessions", headers={**headers, "managed-agents-version": BETA_HEADER}, json={"input": "PR #42の差分を確認してレビューコメントを作成してください"} ) 主要ユースケースと導入事例 すでに複数の大手企業が本番導入を進めている。 ...

May 13, 2026 · 11 min · 2114 words · Appwright

Xiaomi MiMo-V2.5-Pro完全解説:1.02TパラメータのオープンウェイトMoEモデルが切り拓くエージェントAIの新時代

はじめに 2026年4月22日、Xiaomiはオープンウェイトモデル「MiMo-V2.5-Pro」をリリースした。1.02T総パラメータ(アクティブ42B)のMoE(Mixture-of-Experts)モデルで、SWE-bench Proで57.2%、Artificial Analysis Intelligence Indexで54を記録し、Kimi K2.6と並んでオープンモデル最上位に位置する。 注目すべきはそのコスト効率だ。入力$1/100万トークン、出力$3/100万トークンと、Claude Opus 4.6(入力$5、出力$15)と比較して約1/5の価格で、エージェントタスクでは同等以上の性能を発揮する。さらにMITライセンスで公開されているため、商用利用も自由である。 本記事では、MiMo-V2.5-Proのアーキテクチャ、ベンチマーク性能、実際の使い方までを詳しく解説する。 アーキテクチャの特徴 MiMo-V2.5-Proは前世代のMiMo-V2-Proから大幅に進化した。コア技術は以下の3つに集約される。 Hybrid Attention Sliding Window Attention(SWA)とGlobal Attention(GA)を6:1の比率でインターリーブした構造を採用。128トークンのウィンドウサイズにより、KVキャッシュを約7倍削減しながら、100万トークンのコンテキスト全体にわたる理解を維持する。この設計はMiMo-V2-Flashで実証済みだ。 Multi-Token Prediction(MTP) 軽量なDense FFNモジュールを用いて、1ステップで複数のトークンを予測する。これにより出力スループットが約3倍向上し、RLトレーニングの高速化にも寄与する。 3段階ポストトレーニング Xiaomiは「Supervised Fine-Tuning → Domain-Specialized RL → Multi-Teacher On-Policy Distillation(MOPD)」という3段階のポストトレーニングパイプラインを採用している。各ドメイン(数学、安全性、エージェントツール使用等)で最適化された個別の教師モデルが、1つの学生モデルに知識を蒸留する。これにより、単一モデルで幅広いタスクをカバーできる。 ベンチマーク性能 各ベンチマークにおけるMiMo-V2.5-Proのスコアは以下の通りである。 ベンチマーク スコア 比較対象 SWE-bench Pro 57.2% クローズドモデルに迫る ClawEval 63.8% Claude Opus 4.6、GPT-5.4と同等 τ3-Bench 72.9% Claude Opus 4.6、GPT-5.4と同等 Artificial Analysis Intelligence Index 54 Kimi K2.6と同点、オープンモデル最上位 ClawEvalにおいて、MiMo-V2.5-Proは64%のPass³を達成しながら、1トレジェクトリあたりわずか約70Kトークンで動作する。これはClaude Opus 4.6やGPT-5.4と比較して40〜60%少ないトークン消費であり、実質的なコストパフォーマンスは際立っている。 実世界のエージェント性能 MiMo-V2.5-Proの真価は、実世界の複雑なタスクを自律的に実行する能力にある。Xiaomiの公開したデモから3つを紹介する。 事例1:SysYコンパイラの完全実装(Rust) 北京大学のコンパイラ設計講座をベースに、RustでSysYコンパイラをゼロから実装。レキサー、パーサー、AST、Koopa IR、RISC-Vバックエンド、最適化パスの全てを、4.3時間・672回のツール呼び出しで完成させた。隠されたテストスイート233問すべてに合格。初回コンパイル時は59%(137/233)の合格率だったが、以降の反復で自己修正しながら100%に到達している。 事例2:デスクトップ動画編集アプリの開発 マルチトラックタイムライン、クリップトリミング、クロスフェード、オーディオミキシング、エクスポートパイプラインを備えた8,192行のアプリケーションを11.5時間・1,868回のツール呼び出しで構築した。 事例3:アナログEDA回路設計 TSMC 180nm CMOSプロセスでのFVF-LDO設計。ngspiceシミュレーションループと連携し、約1時間で全6指標(位相余裕、ラインレギュレーション、負荷レギュレーション、消費電流、PSRR、過渡応答)を満たした。初期試行から4つの主要指標が10倍以上改善された。 ...

May 13, 2026 · 12 min · 2367 words · Appwright

2026年、AIエージェントフレームワーク徹底比較:LangGraph vs Claude Agent SDK vs CrewAI

AIエージェントを本番運用するには、フレームワークの選択がプロジェクトの成否を左右する。2026年現在、実戦で使えるフレームワークは乱立しているが、実際のプロダクション導入実績とコミュニティの規模を考慮すると、LangGraph、Claude Agent SDK、CrewAI の3つが最重要候補となる。 本稿では、これら3つのフレームワークをアーキテクチャ、学習曲線、本番運用の観点から比較し、それぞれが適したユースケースを具体的なコード例とともに解説する。 3大フレームワークの哲学 LangGraph:ステートマシンで制御する LangGraphはLangChainエコシステムの中核をなすグラフベースのフレームワークだ。エージェントのワークフローを有向グラフとしてモデリングし、ノード(処理ステップ)とエッジ(遷移条件)で制御フローを明示的に記述する。 2026年5月時点で月間検索ボリューム27,100件(Langfuse調べ)と、マルチエージェントフレームワークの中で最も広く採用されている。状態管理が明示的で、ループ・条件分岐・Human-in-the-Loop(HITL)が第一級の機能として組み込まれているのが最大の強みだ。 以下のコードは、調査→執筆→レビューのサイクルをグラフで表現した例である: from langgraph.graph import StateGraph, END from typing import TypedDict, List class ArticleState(TypedDict): topic: str research: str draft: str feedback: str revision_count: int def research_node(state: ArticleState) -> dict: # トピックに関する情報を収集 return {"research": f"Research on {state['topic']}..."} def write_node(state: ArticleState) -> dict: return {"draft": f"Draft based on: {state['research']}"} def review_node(state: ArticleState) -> dict: # レビューの結果、修正が必要かどうかを返す needs_revision = state["revision_count"] < 2 return { "feedback": "Needs more examples" if needs_revision else "Approved", "revision_count": state["revision_count"] + 1 } def should_revise(state: ArticleState) -> str: return "revise" if state["revision_count"] < 2 else "end" graph = StateGraph(ArticleState) graph.add_node("research", research_node) graph.add_node("write", write_node) graph.add_node("review", review_node) graph.set_entry_point("research") graph.add_edge("research", "write") graph.add_edge("write", "review") graph.add_conditional_edges("review", should_revise, { "revise": "write", "end": END }) app = graph.compile() result = app.invoke({"topic": "MCP Servers", "revision_count": 0}) HITLや途中再開(time-travel debugging)が必要なプロダクション用途では、現時点で最も完成度の高い選択肢と言える。 ...

May 12, 2026 · 12 min · 2253 words · Appwright