AI Agent

Microsoft Build 2026完全レポート：Project Polaris、Windows Agent Framework 1.0、Azure Agent Meshが切り拓くエージェントAIプラットフォーム時代

サンフランシスコで開催されたMicrosoft Build 2026 2026年6月2日〜3日、Microsoftは年次開発者会議Build 2026をサンフランシスコで開催した。キーノートは日本時間6月3日午前0時30分から行われ、WindowsをAIエージェントのプラットフォームにするという明確なビジョンのもと、複数の革新的発表が行われた。本稿では全12の主要発表を整理し、日本のAIエンジニアにとって実践的な視点で解説する。特に、これまで本サイトでカバーしてきたAnthropicシリーズ、エージェントツール比較、AIコスト最適化の文脈とどう接続するかに重点を置く。 1. Project Polaris：Microsoftが自社コーディングモデルに切り替える日最もインパクトの大きい発表は、Project Polaris——Microsoftが独自開発したコーディング専用AIモデルの発表だ。ベースアーキテクチャ: Maia 200カスタムシリコン上で動作するMoE（Mixture of Experts）モデルポジショニング: 「ピアプログラマー」——コードレビューと共同開発に最適化された役割移行計画: 2026年8月よりGitHub CopilotのGPT-4 Turboを順次置き換え。3ヶ月のフォールバック期間ありベンチマーク: HumanEvalおよびMBPPでGPT-4 Turboを上回るスコアを達成（詳細な数値は未公開だが、Microsoftは「あらゆるコーディングタスクで有意な改善」と主張） Polarisは単なる「より賢いモデル」ではない。Visual Studio / VS Codeでのコードレビュー体験に特化した設計思想を持ち、PRの変更差分に対するコンテキスト理解、複数ファイルにまたがるリファクタリング提案、テストカバレッジの自動補完などに特化している。実務への影響: 2026年8月までに、Copilot利用組織は以下の準備が必要になる： Polarisのコードレビュー品質を現在のGPT-4 Turboと比較評価するベンチマーク設定フォールバック期間中に移行計画を策定カスタムモデル利用（Azure OpenAI Service）との併用戦略の再検討 2. Windows Agent Framework 1.0：MITライセンスで公開サプライズ発表の一つが、Windows Agent Framework（WAF）1.0のMITライセンスでのオープンソース公開だ。Microsoftは従来Semantic KernelやAutoGenを個別に提供していたが、WAF 1.0はこれらを統合した統一エージェントフレームワークとして設計されている。 WAF 1.0の4つのOS能力：ファイルシステム操作: 読み取り、書き込み、ディレクトリ構造の変更ネットワーク通信: HTTPリクエスト、WebSocket、API連携 UI自動化: ウィンドウ操作、スクリーンショット解析、クリック/タイピングプロセス管理: プロセスの起動、停止、標準入出力の制御さらに、状態永続化と人間承認キューの2つのメカニズムが組み込まれており、長時間実行タスクでの信頼性とセキュリティを両立する。以下は、WAF 1.0のYAML定義ファイルの最小構成例： # WAF 1.0 Agent Definition (MIT License) name: "CodeReviewAgent" version: "1.0.0" runtime: "semantic-kernel" capabilities: - file_system: read_paths: ["/workspace/src"] write_paths: ["/workspace/review"] - network: allowed_hosts: ["api.github.com", "*.azurecr.io"] - process: allowed_commands: ["dotnet", "npm", "python"] state: persistence: local approval_queue: required_for: ["network.send", "file_system.write"] timeout: 300 models: default: "polaris" fallback: "gpt-4-turbo" このYAML定義は、Claude Code（2026年5月29日記事）やForge guardrails（5月27日記事）と比較して、より粒度の細かいパーミッション制御を提供する。特に approval_queue の仕組みは、日本のエンタープライズ環境で求められる監査要件を満たしやすい設計だ。 ...

LLMエージェントによる初の自律型サイバー攻撃（BadHost CVE-2026-48710）：Starletteホストヘッダー脆弱性がAIインフラを脅かす

LLMエージェントが「自律的に」サイバー攻撃を実行した——そんな報告が2026年5月下旬に相次いでいる。原因はStarlette（FastAPIの基盤となるASGIフレームワーク）に存在したHostヘッダー処理の脆弱性 CVE-2026-48710（通称 BadHost）だ。この脆弱性は、従来の「手動攻撃」とは異なり、LLMエージェントが自ら脆弱性を発見・悪用する可能性を示した点で、AIセキュリティ史上初めての事例として注目されている。脆弱性の概要 Starlette 1.0.0以前では、request.url を構築する際にクライアントから送られてくる Host ヘッダーをそのまま使用していた。この処理に問題があり、攻撃者が細工したHostヘッダーを送信することで、request.url.path の値と実際にルーティングされるパスが乖離する状態を作り出せた。具体的には、以下のようなリクエストを送ることで認証ミドルウェアを欺くことが可能だった： GET /admin/users HTTP/1.1 Host: example.com/health?x= このリクエストに対し、Starletteは内部で request.url を http://example.com/health?x=/admin/users のように再構築してしまう。一部のミドルウェアが request.url.path を信頼してアクセス制御を行っていた場合、/health が許可リストに含まれていれば /admin/users へのアクセスが通ってしまう。 AIインフラへの影響が特に深刻な理由この脆弱性がAIエージェント基盤に特に危険な理由は3つある。 1. MCP（Model Context Protocol）の設計思想との相性 MCPサーバーはOAuth discoveryエンドポイントを公開することが仕様上求められる。これらのエンドポイントは意図的に認証なしでアクセス可能に設計されているため、BadHost攻撃の「スケルトンキー」として機能しやすい。 2. ミドルウェアの一般的な実装パターン多くのAIフレームワーク（FastAPI、vLLM、LiteLLM、BentoMLなど）で、以下のようなパターンが一般的だった： from starlette.middleware.base import BaseHTTPMiddleware class AuthMiddleware(BaseHTTPMiddleware): async def dispatch(self, request, call_next): if request.url.path in self.public_paths: return await call_next(request) # 認証処理... このパターンがBadHost攻撃の標的になる。 3. 325M週次ダウンロードという爆発的な普及 Starletteは2026年時点で週325百万回のダウンロードを記録している。AIエージェントのほとんどがこのフレームワークの上に構築されているため、影響範囲が極めて広い。実践的な対策即時対応（優先度高） Starletteを1.0.1以上にアップデート公式パッチでHostヘッダーの検証が強化された scope["server"] へのフォールバック処理が追加 request.url.path ではなく scope["path"] を使用 ASGIスコープから取得したパスはHTTPリクエストラインから来るため、Hostヘッダーによる汚染を受けないリバースプロキシの導入 nginx、Caddy、TraefikなどでHostヘッダーを検証・正規化する RFC準拠のプロキシは不正なHostヘッダーを拒否するコード例（FastAPI + MCPサーバー向け） # 推奨パターン from starlette.requests import Request @app.middleware("http") async def secure_path_check(request: Request, call_next): # 悪い例: request.url.path を使用 # path = request.url.path # 良い例: scopeから直接取得 path = request.scope["path"] if path in PUBLIC_PATHS: return await call_next(request) ... まとめ BadHostは「AIエージェントが自律的に攻撃を実行する」時代が到来したことを象徴する脆弱性だ。従来のセキュリティ対策が「人間の攻撃者」を前提としていたのに対し、今後は「LLMエージェントが自ら脆弱性を発見・連鎖させる」シナリオを想定した防御設計が必要になる。 ...

Pi-Mono完全入門：43.9k★のオープンソースAIエージェントツールキットで作るカスタムエージェント

Pi-Mono（GitHub: badlogic/pi-mono）は、2026年5月時点で43.9k starsを記録したオープンソースのAIエージェントツールキットである。Mario Zechner氏が開発したこのmonorepoは、LLM APIの統一、coding agent CLI、TUI/Web UI、Slack bot、vLLM podsまでを単一リポジトリにまとめ、断片化されたエージェント開発を大幅に簡素化する。本記事では、Pi-Monoの構成要素、インストール方法、拡張の考え方、そして実践的なカスタムエージェント構築例を解説する。 Pi-Monoが解決する課題 AIエージェント開発では、以下のような断片化が常態化している： LLMプロバイダごとのAPI差異（OpenAI、Anthropic、Google、Groq、Ollamaなど） Agent runtime、tool calling、state managementの個別実装 CLI / TUI / Web UI / Slack botなどのフロントエンドのばらばらな選択デプロイ基盤（vLLM、Docker、サーバーレス）の個別対応 Pi-Monoはこれらをmonorepoとして統合し、interchangeable components（交換可能な部品）として提供する。哲学は明確だ。「Adapt Pi to your workflows, not the other way around.」最小限のコアを保ち、必要な機能はextensionsやskillsとして自分で追加する設計になっている。主なパッケージ構成 Package 役割特徴 @earendil-works/pi-ai Unified LLM API 15+プロバイダ、数百のモデルに対応。セッション中に /model で切り替え可能 @earendil-works/pi-agent-core Agent runtime Tool calling + state management @earendil-works/pi-coding-agent Coding agent CLI 対話型TUI、tree-structured history @earendil-works/pi-tui Terminal UI Differential rendering対応他にもSlack bot向けの pi-chat リポジトリや、vLLM pods向けのサポートが用意されている。 ...

Antigravity 2.0完全ガイド：GoogleのスタンドアロンAIエージェント開発環境をゼロから始める

はじめに 2026年5月19日のGoogle I/O 2026で、GoogleはAntigravity 2.0をリリースした。これは前世代の「VS CodeベースのAI統合IDE」から、完全に独立したスタンドアロンのエージェント管理デスクトップアプリケーションへの進化を意味する。Antigravity 2.0はmacOS（Apple Silicon/Intel）、Linux（x64/ARM64）、Windows（x64/ARM64）に対応し、antigravity.googleから無料でダウンロードできる。本稿では、AIエンジニアが今日からAntigravity 2.0を使い始めるための実践的な手順を、コード例を交えて解説する。筆者の既報「Google I/O 2026完全レポート」のフォローアップとして、開発現場で即座に活用できる内容を提供する。 Antigravity 2.0とは何か Antigravity 2.0は、Googleが「エージェントファースト（Agent-First）」と表現する開発体験を、IDEから切り離して提供するプラットフォームである。v1.0がVS Codeの拡張としてAIコードエージェントを提供していたのに対し、v2.0はエージェントとの対話を第一のインターフェースとする完全な別アプリケーションとなった。 v1.0からの主な変化項目 Antigravity IDE (v1.0) Antigravity 2.0 基盤 VS CodeベースのIDE 独立したスタンドアロンアプリ単位リポジトリ単位のワークスペースプロジェクト単位（複数フォルダ可）エージェント管理内蔵Agent Manager（近日削除予定）専用UI、全機能をネイティブサポート非同期処理制限あり完全バックグラウンド対応サブエージェントブラウザサブエージェントのみ動的生成＋並列実行音声入力非対応ライブ文字起こし対応 CLI 非対応 Antigravity CLI（別途提供） SDK 非対応 Python SDK（Apache 2.0） Googleはv1.0のAgent Managerを将来のリリースで削除する計画を発表しており、v2.0が今後のエージェント管理の標準となる。インストールと初期設定ダウンロードとインストール公式サイト（antigravity.google/download）から各OS用のインストーラをダウンロードする。 # macOS (Homebrewでもインストール可能) brew install --cask google-antigravity # Linux (Debian/Ubuntu) wget -qO- https://antigravity.google/apt/antigravity.gpg | sudo tee /etc/apt/trusted.gpg.d/antigravity.asc echo "deb https://antigravity.google/apt stable main" | sudo tee /etc/apt/sources.list.d/antigravity.list sudo apt update && sudo apt install google-antigravity # 確認 antigravity --version # → Antigravity 2.0.0 (build 2026-05-19) 初回起動時にはGoogleアカウントでの認証と、Gemini 3.5 Flashの利用許諾が求められる。デフォルトのモデルはGemini 3.5 Flashで、出力速度は700〜800トークン/秒とされている。 ...

Google I/O 2026完全レポート：Gemini 3.5 Flash、Gemini Spark、Antigravity 2.0が切り拓くエージェントAI時代

はじめに 2026年5月19日、GoogleはShoreline Amphitheatreで年次開発者会議「Google I/O 2026」を開催した。Sundar Pichai CEOとDeepMindのDemis Hassabis CEOが登壇し、Geminiモデルファミリーの刷新、パーソナルAIエージェント、検索の再定義、そしてXRグラスまで、2時間にわたって18の主要発表が行われた。本稿では、AIエンジニア視点で各発表の技術的インパクトを整理する。 Gemini 3.5 Flash：フロンティア知能を4倍の速度でベンチマーク性能 Googleは新モデルファミリー「Gemini 3.5」の第一弾として、Gemini 3.5 Flashを本日から全世界で提供開始した。Terminal-Bench 2.1で76.2%、MCP Atlasで83.6%を記録し、前世代のGemini 3.1 Proをほぼすべての指標で上回る。特筆すべきは出力速度で、毎秒約300トークンと3.1 Pro（135トークン/秒）の2倍以上、競合フロンティアモデル比で4倍の高速化を実現している。エージェント性能の飛躍 Koray Kavukcuoglu CTO（DeepMind）によれば、Gemini 3.5 Flashは「エージェントを複数並列展開し、長時間のコーディングタスクを自律実行できる初めてのモデル」である。既に社内テストでは、完全なOSをゼロから構築することに成功している。価格面でも競合モデルの半額以下に設定され、これまでコスト面で諦められていた大規模エージェントワークフローが現実的な選択肢となる。 Gemini 3.5 Pro Gemini 3.5 Proは現在社内テスト中で、2026年6月の一般提供が予定されている。Flashが果たした「Pro級の性能をFlash価格で」というトレンドがPro版でどう進化するか注目される。 Gemini Omni：あらゆる入力から動画を生成する世界モデル Demis Hassabisが披露したGemini Omniは、テキスト、画像、音声、動画を任意に組み合わせた入力から高品質な動画を生成する。従来のVeo 3を置き換え、Geminiアプリ、Google Flow、YouTube Shortsに統合される。技術的には物理世界のシミュレーション能力を持ち、「撮影した動画に対して『魚が海から飛び出すように変えて』と指示するだけで編集できる」というデモが行われた。Google AI Plus/Pro/Ultra契約者は本日より利用可能。Omni Pro版のリリース時期は未定だが、マルチモーダル入出力の統一モデルという長期的ビジョンの第一歩と位置づけられている。 Gemini Spark：24時間365日稼働するパーソナルAIエージェントアーキテクチャ Gemini SparkはGoogle Cloud上の専用VMで動作する永続型エージェントだ。Gemini 3.5 Flashを搭載し、ユーザーがデバイスを操作していない間もバックグラウンドでタスクを実行し続ける。Workspaceアプリ（Gmail、Docs、Sheets、Slides）とMCP（Model Context Protocol）を介してCanva、OpenTable、Instacartなどの外部サービスにも接続可能である。実用的なユースケース I/Oのデモでは以下のシナリオが示された：クレジットカード明細を自動解析し、新規サブスクリプション料金をフラグ付け子どもの学校からの連絡を受信トレイから抽出し、家族向けデイリーダイジェストを生成「先週のチームの成果をメールの下書きにまとめて」という指示で、Docs/Sheets/Gmail/Chatを横断検索し、ユーザーのトーンに合わせた文章を生成提供スケジュール今週中に米国のTrusted Tester向け提供開始。来週にはGoogle AI Plus/Pro/Ultra契約者（Ultra月額$100〜$200）にベータ版が展開される。2026年夏にはChrome上のエージェント型ブラウザ機能、年末にはAndroid専用エージェント「Android Halo」が追加予定だ。 Antigravity 2.0：マルチエージェント開発のプラットフォーム化 Google AntigravityはAgent Platformとの統合を強化し、組織全体でのエージェンティック開発を可能にする。Antigravity 2.0の最大の進化は、Gemini 3.5 Flashのトークン効率を活かした動的サブエージェント機構だ。複数のサブエージェントを並列実行し、レガシーコードのNext.js移行、都市景観の自動生成、AlphaZero論文からのゲーム実装（6時間で完動品）などのデモが行われた。 ...

Claudeが2026年に出荷したすべて：Opus 4.7、Dreams、Agent Teams、1Mコンテクスト——Anthropic最新エコシステム完全ガイド

はじめに：年に2週間のペースで進化するClaude Anthropicは2026年、約2週間に1回のペースで主要リリースを続けている。「数週間目を離すと何が起きたか分からなくなる」——これはAnthropicのペースを象徴する言葉だ。本稿では、2026年5月時点でClaudeエコシステムがどのような状態にあるのか、すべての主要コンポーネントを体系的に整理する。モデルラインナップ：Opus 4.7が頂点に Claude Opus 4.7（2026年4月16日リリース）現時点で一般利用可能な最も高性能なモデル。SWE-bench Proで**64.3%**を記録し、GPT-5.4（57.7%）やGemini 3.1 Pro（61.2%）を上回る。特筆すべき改善点は以下の通り： 3倍のビジョン解像度：最大3.75MP（2,576px長辺）に対応。画像解析パイプラインで前処理不要に xhigh reasoning：従来のhighとmaxの間の新たな推論レベル。多くのタスクでmax同等の品質を低レイテンシで実現タスク予算（Task Budgets, ベータ）：自律エージェントのトークン消費にハードキャップを設定可能価格は据え置き：入力$5/100万トークン、出力$25/100万トークン Opus 4.6から価格変更なしの実質アップグレード。エージェントパイプラインを稼働中のチームにとっては「無料の性能向上」と言える。 Claude Sonnet 4.6（2026年2月17日リリース） 1Mコンテクスト対応の主力モデル。Sonnet 4.5比で30〜50%高速化し、日常的なコーディングやエージェントワークフローではOpusに匹敵する品質を約40%低いコストで提供する。 Claude Haiku 4.5 高速・低コストのサブエージェント向けモデル。ただしプロンプトインジェクション対策がないため、信頼できない入力を扱うエージェント構成では注意が必要。 1Mトークンコンテクスト：標準料金化という転換点 2026年3月13日、Anthropicは200Kトークンを超える長いコンテクストに対するプレミアム課金を撤廃した。現在は全コンテクスト長に標準レートが適用される。ベンチマークではOpus 4.6が**1Mトークン時でMRCR v2 78.3%**を記録。GPT-5.4（36.6%）、Gemini 3.1 Pro（18.3%）を大きく引き離す。実際には200Kを超えるとOpusでも品質が劣化し始めるため、推奨される実用上限は200K〜400K程度。単発の大規模ドキュメント解析には有効だが、ルーティンの会話セッションでは200K以内に留めるのが現実的だ。 4つのモード：Chat / Cowork / Code / Projects Claudeには現在4つの動作モードがあり、用途に応じて使い分ける：モード用途特徴 Chat ブラウザ／モバイルクイッククエリ、ブレインストーミング、下書き Cowork デスクトップエージェント実際のファイルを読み書き、マルチステップタスクを自律実行 Code ターミナルコードベースを認識し、コード記述・コマンド実行・git操作 Projects 保存済みワークスペースファイルと指示をアップロードし、セッション間でコンテクストを永続化よくある間違いはすべての作業をChatで済ませようとすること。実際のファイル操作にはCoworkまたはCodeを使うべきで、これだけで作業効率が劇的に変わる。 Claude Codeの主要新機能 Code Review（コードレビュー） Claude CodeがPRの変更をレビューし、インラインコメントを自動生成する。レビュアーの負荷を軽減しつつ、バグやセキュリティ問題を早期発見できる。 CI Auto-Fix（CI自動修正） CIが失敗した時、/autofix-pr コマンド一つでClaude Codeがエラーログを解析し、修正コードを生成、PRとして提案する。CI/CDパイプラインと直接連携し、開発者が修正を待つ時間をゼロにする。 ...