Claude Mythos

2026年5月 AI月次まとめ：39本の記事で振り返る、Claude MythosからAIコスト破綻までの激動の1ヶ月

5月のAI地殻変動：39本の記事が描く1ヶ月 2026年5月はAI業界にとって類を見ない密度の1ヶ月だった。5月12日の初回投稿からわずか19日間で39本の記事を公開した。本稿では全記事を8つのテーマに整理し、5月に起きた出来事の全体像を描く。 A. Anthropicシリーズ（13記事）— 5月最大のストーリー 5月は「Anthropicの月」だった。以下が完全なタイムラインである。日付イベント記事タイトル 5/13 Managed Agentsローンチ Claude Managed Agents入門 5/14 2026年全出荷まとめ Opus 4.7、1Mコンテクスト、エンタープライズ80倍成長 5/15 Claude Mythos Preview AIがゼロデイ脆弱性を自律発見、SWE-Bench 93.9% 5/17 CTFシーン崩壊 Frontier AIがCTFを終わらせた 5/18 Claude for Small Business 中小企業向けエージェンティックワークフロー15選 5/18 PwC/Anthropic提携拡大数十万人規模展開、70%納期短縮 5/19 $900B評価額 38日で2.4倍、AIインフラ投資競争の全貌 5/19 Stainless買収（$300M） SDK基盤を掌握する「インフラ拒否」戦略 5/20 KarpathyがAnthropicに合流 RSI研究、AutoResearch技術解説 5/25 KPMG/Anthropic提携 27万6千人展開、Big4シリーズ第2弾 5/26 Project Glasswing初回アップデート 1万件超の脆弱性発見、パッチボトルネック問題 5/27 Anthropic 2026 タイムラインハブ 11の出来事を時系列で整理したハブ記事 5/29 Claude Opus 4.8 Dynamic Workflows、Effort Control、Fast Mode この13記事は相互リンクされ、「Anthropic 2026 タイムラインハブ」に集約されている。 ...

Anthropic 2026 タイムラインハブ：5月に起きた10の事件——Claude MythosからKPMGまでを完全整理

2026年5月は、Anthropicにとってこれまでで最も波乱に満ちた1ヶ月となった。AIサイバーセキュリティのパラダイムシフト（Claude Mythos）、評価額9000億ドルへの急成長、OpenAI共同創業者の獲得、そしてBig4会計事務所との大規模提携——わずか30日間で起きた変化は、AI業界全体の地殻変動を反映している。このハブページは、ai.appwright.xyzが2026年5月12日以降に公開したAnthropic関連の全記事（11本）を時系列で整理したものだ。各記事へのリンクから詳細な分析にアクセスでき、このページ自体がAnthropicの2026年の動きを俯瞰するための日本語リファレンスとして機能する。時系列：Anthropic激動の30日間 5月13日 — Claude Managed Agents一般公開 Anthropicが4月8日に発表したClaude Managed Agentsのパブリックベータを完全公開。Brain/Hands/Sessionの3層アーキテクチャによる完全マネージド実行環境で、AIエージェントの本番運用における3〜6ヶ月のインフラボトルネックを解消する。 → 詳細：Claude Managed Agents入門 5月14日 — Claude全製品総まとめ Opus 4.7（SWE-bench Pro 64.3%）、Dreams、Agent Teams、1Mコンテクスト標準価格化、Claude Certified Architect認定制度など、Anthropicの高速リリースサイクルを網羅。 → 詳細：Claudeが2026年に出荷したすべて 5月15日 — Claude Mythos Preview登場 SWE-bench Verified 93.9%。自律的にOpenBSDの27年物脆弱性やFreeBSDの17年物RCE（CVE-2026-4747）を発見。英国AISI評価では30%の確率で企業ネットワーク全体を乗っ取る能力が確認された。AIセキュリティ史上最大の事件。 → 詳細：Claude Mythos Preview徹底解説 5月17日 — AIがCTFを終わらせた Kabirの「CTF scene is dead」（HN 337pts）を分析。フロンティアAIがHack The Boxの全マシンを自動攻略する時代、セキュリティ人材育成のあり方を論じる。Mythos三部作の第2弾。 → 詳細：Frontier AIがCTFを終わらせた 5月18日 — Claude for Small Businessローンチ QuickBooks、PayPal、HubSpot、Canva、Slackなど8サービスと連携する15のエージェンティックワークフローを搭載。米国GDPの44%を占める中小企業市場への初の本格AIプロダクト。 → 詳細：Claude for Small Business入門 5月18日 — PwC、数十万人規模でClaude導入 PwCは30,000人のClaude認定プロフェッショナルを育成、70%の納期短縮を達成。Big4初の大規模AI導入として業界に衝撃を与えた。 → 詳細：PwCがClaudeを数十万人規模で展開 5月19日 — 評価額9000億ドル、OpenAI超越評価額$900B+が報じられ、OpenAIの$852Bを上回る。14ヶ月で16倍成長。Sequoia、Dragoneer、Greenoaks、Altimeter主導の$30Bラウンド進行中。売上高は4ヶ月で0→$30B（ARR）に急拡大。 → 詳細：Anthropic、評価額9000億ドルへ ...

Project Glasswing初回アップデート完全解説：Mythosが1万件以上の脆弱性を発見、パッチボトルネックという新たな問題

2026年5月22日、AnthropicはProject Glasswingの初回進捗レポートを公開した。これは、Claude Mythos Previewを用いた脆弱性発見の共同プロジェクトであり、わずか1ヶ月で50以上のパートナー組織が共同で1万件以上の高・重大度脆弱性を発見したことを報告している。本稿は、当サイトで既に公開した Claude Mythos Preview徹底解説および AIセキュリティ時代のCTF変容に続く、Mythosセキュリティ三部作の完結編として、Project Glasswingの具体的な成果と、そこから浮かび上がる新たな課題を詳述する。 Project Glasswingとは Project Glasswingは、Anthropicが2026年4月に立ち上げた、AIを活用したソフトウェア脆弱性対策の共同プロジェクトである。Apple、Microsoft、Google、Cloudflare、Mozilla、IBM、Palo Alto Networks、Oracle、Ciscoなど、ソフトウェアエコシステムの最重要プレイヤーが参加し、Claude Mythos Preview（SWE-bench Verified 93.9%）の脆弱性発見能力を実際のセキュリティ業務に適用している。初回アップデートが示した衝撃的なデータ 1. パートナーによる脆弱性発見：10,000件超プロジェクト開始から1ヶ月で、50以上のパートナー組織がMythos Previewを用いて10,000件以上の高・重大度脆弱性を発見した。特筆すべきは、もはや「脆弱性を見つける」ことがボトルネックではなくなったことだ。Anthropicのレポートは明確に述べている：「ソフトウェアセキュリティの進歩は、かつては新しい脆弱性をいかに速く見つけるかに制限されていた。今やそれは、AIが見つけた大量の脆弱性をいかに速く検証・開示・修正するかに制限されている。」 2. オープンソーススキャン：1,000リポジトリ、23,019件の脆弱性 Anthropicが独自に実施したオープンソースソフトウェアスキャンでは、1,000以上のOSSプロジェクトを対象にMythos Previewが脆弱性を検索。その結果は以下の通りだ：指標数値スキャン対象リポジトリ 1,000以上発見された脆弱性総数 23,019件推定高・重大度（内訳） 6,202件トリアージ済み（第三者セキュリティ企業またはAnthropic検証） 1,752件うち真陽性（90.6%） 1,587件確認された高・重大度 1,094件（62.4%）メンテナに開示済み 530件修正済み 75件うち公開アドバイザリ発行 65件真陽性率90.6% という驚異的な精度は、従来の静的解析ツールや人手によるコードレビューを大幅に上回る。Anthropicはこのペースが続けば、約3,900件の検証済み高・重大度脆弱性に到達すると見積もっている。 3. パートナー各社の具体的な成果 CloudflareはMythos Previewを用いて2,000件のバグ（うち400件が高・重大度）を発見。偽陽性率は人間のテスターを下回った。Cloudflare自身のブログでも詳細な技術分析が公開されている。 Mozillaでは、Firefox 150のコードベースをMythos Previewがスキャンし、271件の脆弱性を発見。これは従来のClaude Opus 4.6がFirefox 148で発見した件数の10倍以上である。 Palo Alto Networksは、Mythosを活用したリリースで、通常の5倍のパッチを1回のリリースに含めた。 Microsoftは、パッチボリュームが「今後も増加傾向が続く」と報告している。 Oracleは、脆弱性の検出と対応が「複数倍高速化」したと表明。 wolfSSLでは、Mythos Previewが証明書偽造を可能にする脆弱性を発見し、実際にエクスプロイトを構築することに成功した（CVE-2026-5194、既に修正済み）。 ...

Frontier AIがCTFを終わらせた：AIセキュリティ時代、競技ハッキングはどう変わるのか

トッププレイヤーが宣言した「CTFの終わり」 2026年5月、Hacker Newsのトップページに衝撃的な記事が登場した。タイトルは “The CTF scene is dead” 。著者のKabirは2021年からCTF（Capture The Flag）に参戦し、オーストラリア最大のDownUnderCTFを複数回制覇、国際トップチームTheHackersCrewの一員としてトップ10に常に食い込んできた現役プレイヤーだ。「スコアボードはもはや人間のスキルをきれいに測れない。古いゲームは二度と戻らない。」この主張は単なる議論ではない。325件以上のコメントが殺到し、AIセキュリティコミュニティに波紋を広げた。本記事では、Kabirの分析、423台のHack The Boxマシンを解析した統計データ、そしてAI時代におけるセキュリティ人材育成の未来像を整理する。 3段階の進化：GPT-4からGPT-5.5へ KabirはCTFにおけるAIの影響を3つのフェーズに分類している。 Phase 1: GPT-4時代 — ミディアムの問題が「ワンショット」に GPT-4の登場により、中程度の難易度のCTFチャレンジが1回のプロンプトで解けるようになった。ただし、Hard以上の難問にはほとんど影響がなく、「時間節約」の域を出なかった。 Phase 2: Claude Opus 4.5時代 — エージェント化の始まり Claude Opus 4.5とClaude Codeの組み合わせにより、Mediumの大半と一部のHardチャレンジがエージェントで解けるようになった。CTFd APIと組み合わせれば、全チャレンジに対してエージェントを並列起動するオーケストレーターが数行のコードで構築できる。 # CTF自動ソルバーオーケストレーターの概念例 import requests from claude_code import ClaudeCodeAgent ctfd_url = "https://example-ctf.chals.io" challenges = requests.get(f"{ctfd_url}/api/v1/challenges").json() agents = [] for ch in challenges["data"]: agent = ClaudeCodeAgent( challenge=ch["name"], files=[ch["file_url"]], context=f"Solve this CTF challenge: {ch['description']}" ) agents.append(agent) # 並列実行 results = [a.run() for a in agents] この時点で、スコアボードは「セキュリティスキル」ではなく「フロンティアモデルを使う意欲」を測るものに変わり始めた。 ...

今週のAIまとめ：2026年5月第2週（5/12-5/16）— 10本の記事で振り返るAIエージェント革命の1週間

今週（5月12日〜16日）は初のフル稼働週となり、計10本の記事を公開した。本記事では各トピックを整理し、1週間のストーリーを俯瞰する。今週のハイライト 2026年5月第2週は「AIエージェントの実用化」が明確なテーマだった。 Claude Mythos Preview — AIが自律的にゼロデイ脆弱性を発見 SubQ 1M-Preview — 非二次アーキテクチャで12Mトークンコンテキスト AIモデル価格戦争 — 5極化、SubQが$0.11/Mで破壊的 Google I/O 2026 — 5月19日開催目前 Claude Mythos Preview（5/15公開）今週最大の話題。SWE-bench Verified 93.9% を記録。内部テストでFreeBSDの17年間放置されたRCEやFFmpegの16年放置バグを自律発見した。英国AISIの評価では30%の確率で企業ネットワークを完全乗っ取り可能。Gary Marcusの反論もあるが、AIサイバーセキュリティが理論から現実に移ったことを示す。 Claude Mythos Preview徹底解説 AIモデル価格戦争2026（5/15公開） Anthropicの67%値下げ、SubQの$0.11/M（Opus比1/23）、DeepSeek V4-Flashの$0.04/Mと、モデル選定基準が「性能」から「性能×コスト」へシフト。タスク別の最適モデル選択手法を解説。 AIモデル価格戦争2026 SubQ 1M-Preview（5/14公開） SSAアーキテクチャでTransformerのO(n²)問題を解決。12Mトークンコンテキスト、SWE-Bench 81.8%、MRCR v2 65.9%（GPT-5.5超え）。$0.11/MはOpus比1/23以下。 SubQ 1M-Preview完全解説 Claude 2026年出荷全容（5/14公開） Opus 4.7、Dreams、Agent Teams、1Mコンテクスト標準価格化、Code Review / CI Auto-Fix / Security Reviews、エンタープライズ80倍成長。Anthropicのプラットフォーム企業転換を包括的に解説。 Claudeが2026年に出荷したすべて Google I/O 2026直前プレビュー（5/16公開） Jules V2（目標駆動型エージェント）、Gemini 4（1000万トークン）、Firebase Studio、ADK/MCP、Googlebook。テーマは「Agent-First開発」。 Google I/O 2026直前プレビュー週前半の記事（5/12-5/13）公開日記事トピック 5/12 AI Coding Agents比較 Claude Code / Cursor / Copilot / Codex 実践比較 5/12 AI Agent Frameworks比較 LangGraph / Claude Agent SDK / CrewAI 5/12 なぜPythonなのか AI時代の言語選定の考察 5/13 Claude Managed Agents入門完全マネージド実行環境の総合ガイド 5/13 Xiaomi MiMo-V2.5-Pro解説 1.02Tパラメータ、MITライセンスの衝撃来週の注目ポイント Google I/O 2026（5/19-20） Agent-First開発のビジョンが製品としてどう具現化されるか。イベント後は速報レポートを公開予定。 ...

Claude Mythos Preview徹底解説：AIがゼロデイ脆弱性を自律発見する時代のセキュリティパラダイムシフト

はじめに：サイバーセキュリティの分岐点 2026年4月7日、Anthropicは次世代モデル「Claude Mythos Preview」を発表した。しかし同社は同時に、このモデルを一般公開しないと宣言した。理由は「前例のないサイバーセキュリティリスク」だ。本記事では、Claude Mythos Previewを技術的事実に基づいて解説し、その能力・リスク・論争・そして日本の開発チームが今取るべき対策を、バランスの取れた視点で提供する。既存の日本語記事の多くは発表内容の紹介に留まっているが、本記事では賛否両論を包含した分析と実践的な対策コードを提供する点で差別化している。 Claude Mythos Previewとは何か Claude Mythos Previewは、Anthropicが開発した新しい汎用言語モデルである。「Mythos」は世代名（Claude 4に相当）、「Capybara」は階層名（Opus/Sonnet/Haikuに相当）という2層構造の命名で、正式には「Claude Mythos Capybara」となる見込みだ。最も特筆すべき点は、そのサイバーセキュリティ能力がコーディング能力の副産物として副次的に出現したことである。Anthropicは「意図的に訓練した能力ではない」と明言している。これは、モデルのスケーリングによって予期せぬ能力が創発するという、AI安全性研究で長年議論されてきたシナリオが現実になった事例と言える。ベンチマーク：何が「異常値」なのか Anthropicが公開したシステムカードによると、Mythos PreviewはOpus 4.6と比較して以下のスコアを示している：ベンチマーク Mythos Preview Opus 4.6 改善幅 SWE-bench Verified 93.9% 80.8% +13.1pp SWE-bench Pro 77.8% 53.4% +24.4pp SWE-bench Multilingual 87.3% 77.8% +9.5pp Terminal-Bench 2.0 82.0% 65.4% +16.6pp CyberGym (脆弱性再現) 83.1% 66.6% +16.5pp GPQA Diamond 94.6% 91.3% +3.3pp BrowseComp 86.9% 83.7% +3.2pp SWE-bench Verifiedの93.9%は、2025年4月時点での最高スコア（Opus 4.6の80.8%）から13ポイント以上の飛躍であり、従来のモデル改善ペース（通常1-3pp）を大きく超えている。しかし、この数字には注意が必要だ。SWE-benchは特定の条件下でのバグ修正能力を測定するものであり、実環境でのソフトウェア開発能力を完全に反映するものではない。発見された脆弱性：実例から見る能力の本質 27年越しのOpenBSDバグ最も象徴的な事例は、OpenBSDのTCP SACK処理に潜んでいた27年越しの脆弱性である。RFC 2018（1996年策定）で定義された Selective Acknowledgment 機構に、二つのバグが連鎖して存在していた： ...