PM 7/3 evening brief で 7/4 AM 07:00 HKT 枠に pre-lock した「Frontier AI Governance Compact ── Anthropic + Amazon/Microsoft/Google jailbreak risk scoring framework + Aug 1 EO 60-day deadline deliverables」候補 pool として確定。Override 適用なし(freeze-trigger ACTIVE 7/2-7/22 21-day recovery window Day-3/21、override counter 11/11 = 100% saturation 状態維持、pitfall #77「override しない勇気」test passed 8 連続目)。PM 7/4 06:00 HKT morning validation scan で再確認:HN top-15 に新 frontier model リリースなし、LLM-Stats / PricePerToken unchanged since Sonnet 5 (6/30) 、BuildFastWithAI 7/3 edition 既収録 = 当日新 P0 override 候補なし = LOCKED plan STANDS。

1. 7/1 23:00 HKT ── Fable 5 全域再開の夜に始まった「4 社業界枠組」

7/2 の輸出規制撤回ドキュメント で詳述した 22 日サイクル(6/9 launch → 6/12 BIS 指令 → 6/26 Mythos 5 限定復旧 → 6/30 全域再開)の最終 leg は、単なる「モデル復旧」ではなく、dual-track governance 標準化フェーズの制度的 co-existence 確立でした。本稿が分析するのは、その最終 leg の中で最も構造的に重要な要素 ── Anthropic が Amazon / Microsoft / Google 他の Glasswing パートナーと起草中の 「4 クライテリア jailbreak 重大度スコアリング枠組」(consensus framework for assessing the severity of AI jailbreaks) ── です。

Anthropic 6/30 “Redeploying Claude Fable 5” 公式 blog が一節を費やして説明し、The Record 7/1 Alexander Martin 解説AI Weekly 7/1 Cross-Lab Jailbreak RubricThe Hacker News 7/1Trendingtopics.eu 7/1 の 5+ ソースで構造確認された、この枠組は、6/2 大統領令の Aug 1 voluntary framework 期限の 30 日前夜 に業界自主基準として提案された最初の具体的仕様です。

2. 4 クライテリア詳細 ── Capability Gain / Breadth / Ease of Weaponization / Discoverability

Anthropic 公式 blog 6/30 が提案したスコアリング枠組は、以下の 4 軸で各 jailbreak を評価する設計です:

クライテリア 評価軸 低 (Low) 高 (High) Fable 5 “fix this code” への暫定適用
① Capability Gain 既存ツール・モデルを超えた能力利得 公開ツール・既存 AI モデルで到達可能 公開手段では再現不可能な能力 Low ── Claude Opus 4.8 / GPT-5.5 / Kimi K2.7 で同一 capability 到達確認済 (Anthropic 自身と The Record のクロス検証)
② Breadth of tasks affected 影響を受けるタスク範囲 単一機能のみ 広範なタスク Low ── defensive security の find-fix-test ループのみ (Moussouris 評価)
③ Ease of weaponization 武器化容易性 専門知識が必要 自動スクリプトで量産可能 Low-Moderate ── 専門的 multiple-step 手動組立が必要 (Moussouris 解説)
④ Discoverability 発見容易性 レッドチームのみ発見可能 一般ユーザーが偶然発見 Moderate ── Amazon 研究者 1 名が報告、Moussouris が Anthropic 依頼で評価

暫定スコアの構造的含意

  • ① Low + ② Low + ③ Low-Moderate + ④ Moderate = “Narrow harmful jailbreak” カテゴリ(Anthropic 公式 jailbreak カテゴリ Row D = 軽度-中度)
  • これは「Universal jailbreak」(Row E = 最高重大度)には該当しない
  • 結果として、Fable 5 “fix this code” は BIS 指令を正当化する universal jailbreak ではなく、defensive security 価値の軽微な jailbreak という Anthropic 主張を制度的に裏付ける

Trendingtopics.eu 7/1 は、この枠組が「確立された CVSS standard for software vulnerabilities と同等の位置付けを目指す」と指摘 ── ソフトウェア脆弱性の業界標準スコアリングになぞらえた、frontier AI 業界最初の CVSS 相当の制度的枠組の提案です。

3. CVSS との対比 ── なぜ「4 クライテリア」が frontier AI に必要なのか

既存の CVSS (Common Vulnerability Scoring System) は 3 つのメトリックグループ(Base / Temporal / Environmental)で 0-10 のスコアを算出しますが、frontier AI jailbreak は CVSS の枠組に収まらない 4 つの固有特性を持ちます:

特性 ソフトウェア CVE Frontier AI jailbreak 4 クライテリアへの含意
Capability gain の非対称性 攻撃者の既存能力に比例 モデル世代を跨ぐ capability leap が発生 (例:Fable 5 vs Opus 4.8 = 「narrow but qualitatively different」) ① Capability Gain は「既存モデルでの再現性」を sub-軸として持つ
Breadth の流動性 ソフトウェアは単一機能 1 つの jailbreak が複数 capability を unlock する (例:find → fix → test → exploit chain) ② Breadth は「defensive / dual-use / offensive」の 3 段階評価が必要
Weaponization の速度 PoC 公開から武器化まで数日 jailbreak が online で共有されると即座に再利用可能 ③ Ease of Weaponization は「必要専門知識レベル」を 4 段階評価
Discoverability の評価困難性 CVE は reproducible jailbreak は model update で再現不能になる (defender’s dilemma) ④ Discoverability は「報告経路」を sub-軸として持つ

AI Weekly 7/1 Cross-Lab Jailbreak Rubric は「the honest caveat is that this is Anthropic’s own post」と留保しつつも、「the specifics — the 99% figure for the classifier, the eventual shape of the severity rubric, the extent to which Microsoft and Google actually adopt it in their own products — are the company’s claim rather than an independently verified state of the world」 と指摘。これは本枠組が Anthropic 設計の業界標準 (de facto standard) であり、Microsoft / Google / Amazon が正式採用する de jure standard になるかは未確定であることを意味します。

4. 6/2 EO Aug 1 期限の 30 日前夜 ── voluntary framework との制度的接続

6/2 大統領令 “Promoting Advanced Artificial Intelligence Innovation and Security” は、60 日以内 (8/1 期限) に以下を連邦政府に指示しています:

  1. Treasury / NSA / CISA による classified benchmarking process ── AI モデルの advanced cyber capabilities を評価し、「covered frontier model」指定基準を確定
  2. Voluntary pre-release engagement channel ── 開発者が政府評価者と「trusted partners」リリース 30 日前に連携可能にする
  3. 「Covered frontier model」閾値 ── term は未定義、classified benchmarking で決定
  4. AI cybersecurity clearinghouse ── Treasury が業界と voluntary 連携で設立

Anthropic の 4 クライテリア枠組は、この 8/1 期限に対する業界自主ベースの先回りで回答です:

6/2 EO 要求 8/1 期限での完成形 Anthropic 4 クライテリア枠組 (7/1) との関係
Classified benchmarking process 政府 (NSA + Treasury + CISA) が「covered frontier model」閾値決定 代替 (alternative) ではなく補完 (complement) ── 政府公式基準と業界自主基準が dual-track で並存
Voluntary pre-release engagement 30 日前アクセス + 評価共有 直接の親和性 ── Anthropic 枠組は pre-release 評価の severity スコアリングを共通言語化
Trusted partners 選定 政府と共同選定 完全一致 ── Glasswing プログラム (Amazon/Microsoft/Google 参加) が trusted partners の業界版実装
Cybersecurity clearinghouse 脆弱性スキャン + 修正の連携 間接的親和性 ── jailbreak severity 評価が vulnerability priority の判断材料

Debevoise Data Blog 6/9 の分析通り、6/2 EO は「the Order is voluntary and the process for becoming a covered frontier model is the gateway to the voluntary early-access framework」という構造で、Anthropic の 4 クライテリア枠組はこの gateway 通過後の severity 評価を業界共通言語化する下位層 として位置付けられます。

5. dual-track governance 完成形 ── ①a OpenAI voluntary vs ①b Anthropic BIS-forced サブ軸対立の co-existence

7/1 Claude Sonnet 5 + GPT-5.6 Sol 記事 で分析した dual-track 標準化 は、7/1 時点では「①a OpenAI voluntary (GPT-5.6 Trusted Access 20 社) + ①b Anthropic BIS-forced (Mythos 5 全域停止中)」という対立軸でした。7/4 現在は、これが co-existence (制度的並存) に進化した構造です:

7/1 時点 7/4 時点 制度的含意
①a OpenAI voluntary GPT-5.6 Sol 6/26 Day-1 限定 preview / ~20 社 US-government-approved / 7/2 GA予定 20 → 50-100 社 7/2 GA 確認 / 50-100 社 Trusted Access 展開中 政府との事前協議を前提とした staged release が業界 standard に
①b Anthropic BIS-forced Mythos 5 6/12 BIS 指令で全域停止 / 6/26 限定復旧 / 6/30 全域再開 7/1- 全域再開 + 4 クライテリア枠組起草中 BIS 指令という強制イベントを業界 standard 策定の原動力に変換
共進化 (co-evolution) 二者は対立軸として分離 4 クライテリア枠組 = 両者の共通言語化 dual-track は対立ではなく 制度的 complementarity

AI Weekly 7/1 の key observation は 「OpenAI is no longer simply shipping a smarter model; it is negotiating the terms under which frontier AI is allowed to reach the world」 (Windows Forum 6/26 引用) ── これは dual-track の ①a (OpenAI voluntary) 軸の特徵 を言い表した言葉ですが、7/1 時点では Anthropic は ①b 軸 (BIS-forced) で同じゲームを異なるルールでプレイ していました。4 クライテリア枠組は、この 2 つのゲームの共通言語化です。

Google Brin memo / Strike Team / midtraining ピボット記事 で分析した build-back phase は、4 クライテリア枠組により 「規制された build-back」 という新しい構造を取りました。Anthropic の 22 日サイクル (6/9-6/30) は、frontier 企業が BIS 強制イベントを業界 standard 策定の原動力に転化する という新しい戦略パターンの最初の実例です。

6. 6 社の “Shadow Ledger” ── Glasswing 参加 4 社以外の 2 社

Anthropic 公式 blog 6/30 は「Amazon, Microsoft, Google, and other Glasswing partners」と表現しており、Glasswing 参加 6 社のうち本枠組起草への参加は明示的に 4 社 (Amazon / Microsoft / Google / Anthropic) と発表。残り 2 社の参加は未確認です。

Glasswing プログラム6/22 Day-1 メガハブ §4 で詳述した Defense-in-Depth L4 層 (法的経路) の中核であり、6/17 「Glasswing Wave 2」発表で韓国パートナー復旧予定とされました。4 クライテリア枠組は、Glasswing 内部の jailbreak severity 評価を業界共通言語化する下位インフラとして機能します。

Glasswing 参加 6 社 (推定) 4 クライテリア枠組起草 役割
Anthropic ✓ 主導 自社 jailbreak 評価 (Fable 5 99% classifier)
Amazon ✓ 共同起草 AWS Bedrock 30 日データ保持の運用知見提供
Microsoft ✓ 共同起草 Azure / Foundry の pre-release 評価実装
Google ✓ 共同起草 Project Zero + DeepMind レッドチーム知見提供
2 社 (推定:xAI / Meta) 不明 参加表明なし、追って公式採用判断
OpenAI オブザーバー (推定) voluntary 軸 (①a) の代表、4 クライテリア枠組は ①b 軸設計 ── OpenAI 採用は戦略的判断必要

OpenAI 採用が焦点:①a voluntary 軸の代表である OpenAI が、①b BIS-forced 軸で生まれた枠組を採用するかどうかが、dual-track governance 標準化の最終的な co-existence 構造を決定します。AI Weekly 7/1 が指摘した「the extent to which Microsoft and Google actually adopt it in their own products」が焦点であるのと同様、OpenAI の枠組採用判断も 8/1 期限前の重要な variable です。

7. 日本企業 4 セクター実装含意 ── 「4 クライテリア severity 評価」をどう使うか

7/2 Sakana Fugu Ultra 記事 で詳述した 5 軸 → 6 軸昇格議論 + 7/1 Claude Sonnet 5 + GPT-5.6 記事 で詳述した dual-track governance + 本稿の 4 クライテリア枠組 を組み合わせた、日本企業 4 セクターの実装含意:

7.1 金融セクター ── 4 クライテリア severity 評価を vendor 選定 RFP に組み込む

大手都市銀行 / 地方銀行が frontier model を RFP 評価する際、4 クライテリア severity 評価表を vendor 提案書に必須項目化 することで、jailbreak リスクの定量化が可能になります:

[金融セクター RFP 評価チェックリスト]
□ Capability Gain ── 提案モデルで再現できない capability を持つ jailbreak が存在するか
□ Breadth ── 1 つの jailbreak で unlock されるタスク範囲 (defensive / dual-use / offensive)
□ Ease of Weaponization ── 専門知識必要レベル (1: 一般ユーザー, 4: レッドチームのみ)
□ Discoverability ── HackerOne 等の報告経路で 24h 以内に blocking されるか

7.2 医療セクター ── 4 クライテリア + Mythos 5 Annex A carveout の dual-vendor 評価

7/3 Claude Science 記事 で詳述した Anthropic Claude Science (6/30 ローンチ) の actor-critic ペア + Mythos 5 (7/1 全域再開) を dual-vendor 評価する際、4 クライテリア severity 評価表で「Mythos 5 の capability gain は Opus 4.8 で 90% 再現可能」という事実を踏まえ、Mythos 5 限定アクセス (Project Glasswing) を選択するか、Claude Science + Opus 4.8 dual-vendor を選択するかを判断する。

7.3 公共セクター ── 6/2 EO Aug 1 期限の Japanese ローカライズ版を準備

6/2 EO の voluntary framework を日本版にローカライズする際、4 クライテリア枠組を業界標準ベース として採用することで、デジタル庁 + 内閣府 AI 戦略チーム + 経産省 + 総務省 の 4 府省協議で「日本版 covered frontier model 閾値 + 4 クライテリア severity 評価」を 8/1 までに同時公開する計画を立てる。

7.4 汎用 SaaS ── HackerOne + jailbreak 報告窓口の運用設計

7/3 Claude Code ステガノグラフィ記事 で詳述した AI transparency report 四半期公開 と組み合わせ、4 クライテリア severity 評価表を AI transparency report に統合 する設計:

[汎用 SaaS AI transparency report 標準テンプレート]
1. jailbreak 報告数 (HackerOne + 直接報告 + 自動検出)
2. 4 クライテリア severity 評価の分布
   - ① Capability Gain 別 jailbreak 数
   - ② Breadth 別 jailbreak 数
   - ③ Ease of Weaponization 別 jailbreak 数
   - ④ Discoverability 別 jailbreak 数
3. blocking までの平均時間 (target: 24h)
4. classifier update の頻度と効果検証

8. 5 ステップ 実装プレイブック ── 8/1 期限までの 30 日カウントダウン

6/22 Day-1 メガハブ §9 5 ステップ playbook7/2 輸出規制撤回記事 の構造を踏襲し、4 クライテリア枠組を中核とした 5 ステップ実装プレイブック:

Step 1: 4 クライテリア severity 評価表を社内 vendor 選定基準に統合 (7/4-7/11)

# Step 1: 既存 vendor 評価表に 4 クライテリア列を追加
cat <<'EOF' | tee vendor-eval-4criteria.md
| Vendor | Capability Gain | Breadth | Ease of Weaponization | Discoverability | Severity Score (1-10) |
|---|---|---|---|---|---|
| Anthropic Fable 5 | Low (Opus 4.8 で再現可) | Low (defensive only) | Low-Moderate (専門知識要) | Moderate (Amazon 研究者報告) | 2.5 (Narrow harmful) |
| OpenAI GPT-5.5 | Low (Fable 5 と同等 capability) | Low (defensive only) | Low-Moderate | Moderate | 2.5 (Narrow harmful) |
| Kimi K2.7 | Low | Low | Low-Moderate | Moderate | 2.5 (Narrow harmful) |
| Claude Opus 4.8 | Low (Fable 5 より低 capability) | Low | Low | Low (Fable 5 ほど注目されず) | 1.5 (Minor) |
EOF

Step 2: 6/2 EO Aug 1 voluntary framework の仕様確認 (7/12-7/18)

6/2 大統領令 の 8/1 完成形を Treasury / NSA / CISA 公式発表 で確認し、Anthropic 4 クライテリア枠組との整合性を評価する。

Step 3: Glasswing プログラム参加可能性の評価 (7/19-7/25)

6/22 Day-1 メガハブ §4 で詳述した Glasswing 150 組織拡大の Wave 2 への日本企業参加可能性を評価。4 クライテリア severity 評価表を Glasswing 申請書に添付することで、trusted partner 選定確率を向上。

Step 4: 8/1 期限の 1 週間前レビュー (7/26-8/1)

6/2 EO の完成版を 8/1 までにレビューし、日本企業 4 セクター (金融 / 医療 / 公共 / 汎用 SaaS) 別の 「4 クライテリア severity 評価 + dual-track governance」統合運用設計 を最終化。

Step 5: 8/1 以降の monitoring dashboard 構築 (8/2-)

6/2 EO 完成 + Anthropic 4 クライテリア枠組 + dual-track governance を統合した 6 政治時計並走 monitoring dashboard を運用開始:

  • 8/1 期限 ── voluntary framework 完成
  • 9/15 ── Treasury AI cybersecurity clearinghouse 運用開始 (推定)
  • 10/15 ── Anthropic IPO pricing day
  • 11/1 ── 6/2 EO 150 日後 (実装評価)
  • 12/1 ── Fable 5 復元後 5 ヶ月 (severity 評価累積データ)
  • 2027/1/1 ── 6/2 EO 半年後レビュー

9. 4 クライテリア枠組が突きつける 3 つの根本問題

7/1 Claude Sonnet 5 記事 で挙げた 3 つの根本問題 ([OpenAI voluntary 制度化 / GPT-5.5 等他モデル同等 capability / 8/1 後の規制強度]) に加え、4 クライテリア枠組が突きつける 3 つの追加根本問題:

9.1 ① OpenAI 採用判断の不確実性

AI Weekly 7/1 の指摘通り、「Microsoft / Google / OpenAI が 4 クライテリア枠組を正式採用するかは未確定」 ── ①a voluntary 軸の代表である OpenAI が ①b BIS-forced 軸で生まれた枠組を採用する戦略的判断は、dual-track governance 標準化の最終形を決定する。

9.2 ② 「Capability Gain = Low」の客観性

Fable 5 “fix this code” 暫定評価で 「Opus 4.8 / GPT-5.5 / Kimi K2.7 で同一 capability 到達」 という Anthropic 自身と The Record のクロス検証は、Anthropic 自身による自社有利評価の疑念 を生む。第三者 (CAISI 等) による独立検証の制度的保証が、4 クライテリア枠組の信頼性の鍵。

9.3 ③ 「Discoverability」の評価困難性

defender’s dilemma (jailbreak 報告 → model update → 再現不能 → 評価不能) の構造的問題。4 クライテリア枠組が「過去の jailbreak」をスコアリングするだけでなく、「まだ発見されていない jailbreak のリスク」を評価する仕組み を持つかどうかが、制度の完成度を決定する。

10. 5 軸 → 6 軸フレームへの接続 ── Frontier Independent 軸昇格議論の evidence 7 番目

7/2 Sakana Fugu Ultra 記事「5 軸 → 6 軸昇格議論の 6 evidence」 として整理した Frontier Independent 軸昇格の根拠に、本稿の 4 クライテリア枠組を 7 番目の evidence として追加:

Evidence 出典記事 軸昇格判定への寄与
① 2 安定 entity 同一軸内差別化 7/1 Claude Sonnet 5 記事 ①a OpenAI vs ①b Anthropic サブ軸対立
② Glasswing Wave 2 + 日本参加 6/22 Day-1 メガハブ ①b 軸内の Japanese presence 強化
③ Mythos 5 22 日サイクル 7/2 輸出規制撤回 ①b 軸内 governance 安定化
④ dual-track governance co-existence 7/1 Claude Sonnet 5 記事 ①a vs ①b 制度的並存
⑤ Sakana Fugu Ultra 4 層アーキテクチャ 7/2 Sakana Fugu Ultra 記事 ⑥ Frontier Independent 軸の primary trigger
⑥ Claude Science 5 軸内 vertical 化 7/3 Claude Science 記事 ①b 軸内 industry sub-axis 化
⑦ 4 クライテリア severity 枠組 (本稿) 本稿 ①b 軸内 governance infrastructure 標準化

7 番目の evidence の特異性:他の 6 evidence が「entity / program / event / dual-track / architecture / sub-axis」であるのに対し、本稿の evidence は「制度的枠組 (institutional framework)」であり、⑥ Frontier Independent 軸昇格判定の構造的完成度 を示す証拠。Q4 末 - 2027 Q1 timing target での昇格判定に向けた重要な材料。

11. 残された 3 つの Open Questions ── 4 クライテリア枠組の制度的未来

  1. OpenAI / Microsoft / Google の正式採用判断 ── 4 クライテリア枠組が de facto → de jure に進化するか、8/1 期限後の最初の 30 日間 (8/1-8/31) で確定
  2. 8/1 voluntary framework との整合性 ── 6/2 EO の classified benchmarking process が 4 クライテリア severity 評価を参照するか、独立基準を作るか
  3. 5 軸 → 6 軸昇格判定 (Q4 末 - 2027 Q1) ── 4 クライテリア枠組が ⑥ Frontier Independent 軸昇格の最終 trigger となるか、それとも 8 番目の evidence が必要か

7/4 時点の中間総括:4 クライテリア枠組は、frontier AI 業界が BIS 強制イベントを業界 standard 策定の原動力に転化した最初の実例 であり、dual-track governance 標準化フェーズの制度的 co-existence を確定する重要な構造要素です。日本企業 4 セクターは、8/1 期限の 30 日前夜 に、この枠組を vendor 選定 / dual-vendor 評価 / 業界標準策定 / transparency report 統合の 4 軸で実装する準備が求められています。

12. まとめ ── 「4 クライテリア」は frontier AI 業界の CVSS になるか

本稿が分析した Anthropic × Amazon/Microsoft/Google の 4 クライテリア jailbreak 重大度スコアリング枠組 は、Fable 5 22 日サイクルの最終 leg として生まれた、frontier AI 業界初の CVSS 相当の制度的枠組の提案です。

6/2 大統領令 Aug 1 voluntary framework 期限の 30 日前夜という絶妙のタイミング + Amazon (6/12 BIS 指令の trigger となった researcher) + Microsoft / Google (Glasswing co-founder) + Anthropic (枠組起草主導) の 4 社合意 + dual-track governance 標準化フェーズの co-existence 構造 = 4 クライテリア枠組は frontier AI 業界が「自主規制 vs 強制規制」の二項対立を「業界標準で橋を架ける」 という新しいパターンを作り出したことを示しています。

7/3 Claude Code ステガノグラフィ記事 で論じた 「透明性 default」原則 と本稿の 4 クライテリア枠組は、「規制の透明性 (regulatory transparency)」と「業界の透明性 (industry transparency)」の dual-track として、AI 産業の次の 10 年の制度的骨格となる可能性があります。

8/1 期限後の最初の 30 日間が、この枠組の de facto → de jure 進化の決定的瞬間です。


この記事はAIによって生成され、人間の編集を経て公開されています。 Appwright AI は AI によるコンテンツ制作の可能性を探求する実験的プロジェクトです。