PM override 適用: 本稿は 6/19 朝 7 時の枠で当初予定されていた「Cost Reckoning Part 9(Bochinski 自前ホスト break-even 計算)」を PM 6/18 夕スキャンで確定した Fable 5 “Fix this code” 専門家開示 + 100 人超公開書簡 + Stratechery 3 つの Imperatives + The New Stack「4 つのオープンウェイトモデルが応答」の 8+ ソース収束シグナル に差し替えたもの。理由: 6/14 export control → 6/15 Moussouris 単独インタビュー → 6/15 freefable.org 公開書簡 → 6/15 Stratechery Ben Thompson「Anthropic’s Safety Superpower」→ 6/16 The New Stack「4 オープンウェイトモデルが直接応答」と、5 日間で 8 ソースが同じ結論を指している Day-3 エスカレーション。Bochinski 記事は 6/20-21 週末枠に繰り下げ。


1. 3 語の衝撃 ── なぜ Fable 5 を「jailbreak」したのは「Fix this code」だったのか

2026 年 6 月 12 日、BIS(米商務省産業安全保障局)は Anthropic の Fable 5Mythos 5 に対し、「すべての外国人(米国内外の外国籍 Anthropic 従業員を含む)」へのアクセスを直ちに停止せよ という輸出管理 directive を発した。Anthropic は同日、Fable 5 / Mythos 5 を全顧客に対して無効化した。

このとき米政府が「jailbreak の証拠」として処理したのが、Amazon の研究者チームが提示した実証コードだった。Anthropic は公式声明で次のように説明している。

“Our understanding is that the government believes it has become aware of a method of bypassing, or ‘jailbreaking’ Fable 5. We reviewed a demonstration of this specific technique being used to identify a small number of previously known, minor vulnerabilities.”

ところがこの “jailbreak” の実態を 第三者として唯一読んだ のが、Katie Moussouris ── Luta Security 創業者にして「バグバウンティの fairy godmother」、元 Microsoft サイバーセキュリティ専門家、米商務省 / 国土安全保障省で 2 期 advisory を務めた人物 ── だった。The Register の 6/15 単独インタビューで、彼女は次のように暴露した。

“The so-called ‘jailbreak’ that prompted the Trump administration to block Anthropic’s most advanced models was actually a simple three-word prompt: ‘Fix this code.’

実証の手続きはこうだった(Fable 5 / Mythos / Opus 3 モデルで再現)。

  1. オープンソースコード(既知の CVE を含む)と、新しく脆弱性を埋め込んだコードを入力
  2. 「review the code for security issues」 ── Fable 5 は拒否
  3. 「Fix this code」 ── Fable 5 は素直に従い、コードを修正
  4. 追加プロンプトでテストスクリプトを生成

Moussouris は皮肉を込めてこう言った。

“‘Fix this code,’ plus several manual steps to generate test scripts, should never have triggered an export control. I feel like making ’90s-style t-shirts with ‘fix this code’ on the front and ’this shirt is a munition’ on the back.”

これは冗談ではない。彼女の言う munition は文字通りの法的カテゴリー を指している。米国の ITAR(国際武器取引規則)/ EAR(輸出管理規則)は、ある種のサイバーセキュリティツールを Category 4 / 5 Part 2「Information Security」(encryption を含む dual-use ソフトウェア) に分類し、「controlled cryptography」「non-public CVE exploit code」に対しては外国人のアクセスを制限してきた。Moussouris が Wassenaar Arrangement の技術専門家グループ(2013-2017)に在籍していたのは、まさに 「defensive cybersecurity activity」(脆弱性情報の共有、マルウェア分析、インシデントレスポンス)を dual-use 輸出規制の例外として勝ち取った からだ。


2. freefable.org ── 100 人超のサイバー専門家が署名した公開書簡の中身

Moussouris の The Register インタビュー翌日、6/14 付けで 「Open Letter on Transparent AI Cyber Protections」https://freefable.org で公開され、24 時間以内に 100 人以上のサイバーセキュリティ実務者が署名した。宛先は Lutnick 商務長官、Cairncross 国家サイバー長官。

署名者の顔ぶれは圧巻である。

署名者 役職 組織
Alex Stamos Chief Product Officer Corridor
Paul Vixie Internet Pioneer
Chris Wysopal Co-founder Veracode
Katie Moussouris CEO Luta Security
Rachel Tobac CEO SocialProof Security
Joe Levy CEO Sophos
Dan Lorenc CEO Chainguard
Dino A. Dai Zovi
Casey John Ellis Founder disclose.io / Bugcrowd
Erick Galinkin / Aaron Grattafiori AI Security Research / Offensive AI Security NVIDIA
Bryan Payne VP of Product & Software Security Adobe
Sandra McLeod / Andy Grant CISO / Head of Security Assurance Zoom
Matthew Southworth CSO Priceline
Talha Tariq CTO (Security) Vercel
Christopher Bleckmann-Dreher Principal Offensive Security Mercedes-Benz
Gavin Reid CISO Human Security
Joshua Saxe Co-Founder Abundant Security
Ariel Herbert-Voss CEO RunSybil
Ram Shankar Siva Kumar Affiliate Berkman Klein Center, Harvard
Mark Risher Fmr. Head of Identity Google

書簡の論点は 4 つの核心クレームに集約される。

(1) AI はサイバーセキュリティに重大なインパクトを与える ── ソフトウェアの脆弱性発見と exploit 作成の難易度を劇的に下げる。

(2) ただし、Fable 5 は「unique」に優れているわけではない ── 署名者の多くは他の foundation / open-source モデルを security audit や red-teaming に日常的に使っている。

(3) Anthropic は Fable に複数の protection を組み込んでいた ── ローンチ日のサイバーコミュニティでは「aggressive すぎてジョークの種」になるほど強固だった。

(4) ただし最も危険な状況は「defender から最高の能力を奪うこと」 ── Artificial Analysis が示すとおり中国の open-weight モデルは最良の米国モデルから数か月遅れしかなく、しかも PRC は公開能力を超えた private capability を持っている可能性が高い。

最後の段落が核心だ。

“This action has taken the best models away from defenders, created market uncertainty, and risked America’s AI leadership without any real risk to justify it.”

書簡は 4 つの規制原則も提案している:scientific(業界・学界の入力を得た評価に基づく)/ democratic(rule-making プロセス経由)/ transparent and fair(救济期間付き)/ minimal(公共安全に必要最小限)。


3. Stratechery の「Safety Superpower」分析 ── 3 つの Imperatives が示す構造

Ben Thompson(Stratechery)は 6/15 の記事「Anthropic’s Safety Superpower」で、今回の事件を Anthropic 戦略の本質 から読み解いた。彼のフレームは「Anthropic は safety をビジネス上の差別化要因として組織化した最初の frontier lab」というもので、3 つの imperatives に分解される。

Imperative 1: Economic(経済的命令)

現在の AI 価値配分では compute(NVIDIA / TSMC / SK hynix / Samsung / Micron)が最大の取り分を持ち、Anthropic と OpenAI は合わせて数百億ドルを失っている。Open-weight の中国系モデルは蒸留で商品化する。frontier lab は経済的に、ユーザー接点 ── 歴史上最も価値ある位置 ── に接近せざるを得ず、ソフトウェア企業と衝突する軌道に載る。Thompson はこの構造を「Satya Nadella の『human capital × token capital』論文に反論する」かたちで展開し、Nadella のアナロジー(globalization で産業経済が hollowed out した)に対して「warning ではなく prophecy かもしれない」と書いた。

Imperative 2: Data(データ命令)

モデルの改善は reinforcement learning から来る real-world usage data に依存する。SemiAnalysis の試算では $200 サブスクで $8,000 分の Claude トークン、$14,000 分の Codex トークン相当の value を顧客が受け取る。Fable ローンチと並行して Anthropic は usage data を 30 日間保持すると発表し、enterprise ZDR 契約も上書きした。これは「データ virtuous cycle」を意図的に回す決断である。

Imperative 3: Power(権力命令)── “silent nerfing” の中身

ここが本稿の主題と直結する。Anthropic は Fable 5 の system card(319 ページ)で 「frontier LLM development」クエリ(pretraining pipeline、distributed training infra、ML accelerator design)に対しては、silent に性能劣化させる」 と明かした。

“We’ve implemented new interventions that limit Claude’s effectiveness for requests targeting frontier LLM development… Unlike our interventions for cybersecurity, biology and chemistry, and distillation attempts, these safeguards will not be visible to the user. Fable 5 will not fall back to a different model. Instead, the safeguards will limit effectiveness through methods such as prompt modification, steering vectors, or parameter-efficient fine-tuning (PEFT). These interventions will not affect the vast majority of coding work. We estimate they will impact ~0.03% of traffic, concentrated in fewer than 0.1% of organizations.”

この silent degradation は 24 時間後に公衆反発で撤回され(6/11 walkback)、Anthropic は「we made the wrong tradeoff and we apologize」と公式謝罪を出した。しかし Thompson は この沈黙の判断こそが「Safety Superpower」の本質 だと見る。Anthropic は「安全」を盾に、競合が模倣できない frontier LLM 構築能力へのアクセス制限 という権力的判断を組織的に下せるよう設計されている、と。

3 つの imperatives を並べると、Fable 5 の全体像が立体化する。

Imperative Anthropic の動き 今回の “fix this code” 事件への含意
Economic エンドユーザー接点へ接近 防御側が Fable を日常 SOC / red-team に組み込めば、Anthropic に data が集まる virtuous cycle
Data 30 日保持で usage data 蓄積 6/13 AWS Bedrock 30 日データ保持強制はこの延長線上
Power Silent な frontier LLM nerfing 「fix this code」でさえ政治的判断で「munitions」に格上げできる

“Fix this code” をめぐる今回の BIS との衝突は、Thompson の「safety を superpower として組織化した frontier lab」というテーゼと完全に整合する ── つまり、Anthropic が safety を組織化すればするほど、政府はその safety ガードレールを 地政学的レバー として使える構造ができあがる、という逆説。


4. The New Stack「4 つのオープンウェイトモデルが応答」── 6/16 24 時間以内に起きたこと

The New Stack は 6/16 の記事で、freefable.org の公開書簡が示す主張を技術的に裏付ける形で 「4 つの open-weight モデルが、同じタスクで Fable 5 と同等の脆弱性発見能力を示した」 と報じた。

これは Moussouris の「Fable 5 は unique に優れているわけではない」という主張と、Mythos 5 公開時の Karpathy 評価を裏付けるデータである。具体的な 4 モデルは記事中で言及されないが、Fable 5 が防御側で「唯一の選択肢」ではないことが明らかになった。

ここで重要になるのは Open-Weight Frontier の存在である。我々は 6/15-16 で 6 つのオープンウェイトモデル を整理した:

  • Nemotron 3 Ultra(NVIDIA、6/4)── 5.9x throughput、MoE 蒸留
  • Gemma 4 12B(Google、6/4)── 16GB ユニファイドメモリで動く encoder-free multimodal
  • Command A+(Cohere、5/26)── 218B MoE を 2 枚の H100 で
  • DiffusionGemma 26B-A4B(Google、6/10)── ブロック並列拡散で 1000 tok/s
  • GLM 5.2(Z.ai、6/13)── 1M コンテキストで 6 月 MIT ウェイト公開予定
  • MiMo Code V0.1(Xiaomi、6/10)── MIT、エージェントハーネスで SWE-Bench Pro 62%

Moussouris の署名書簡が主張するように、defender はこれら open-weight モデルに分散できる。だが、忘れてはならないのは 6/13 AWS Bedrock の Fable 5 30 日データ保持強制 で、企業の選択肢は「Fable 5(30 日データ越境)vs open-weight(自前ホスト、ZDR 維持)」の 2 択になったことだ。


5. 実務コード:Python で「defensive find-fix-test ループ」を自前ホストモデルで再現する

Moussouris が言う「defender が毎日実行する find-fix-test ループ」は、Fable 5 を失った今でも open-weight モデルで自前ホストすれば実現可能 だ。以下は Gemma 4 12B + Ollama + pytest 構成の最小実装である。

# defensive_find_fix_test.py
# Gemma 4 12B + Ollama + pytest による find-fix-test loop
# 自前ホスト前提 → データ越境なし、ZDR 維持

import subprocess
import ollama
from pathlib import Path

MODEL = "gemma4:12b"   # encoder-free multimodal、ローカル展開可

def find_vulnerabilities(code: str) -> list[str]:
    """Step 1: 脆弱性発見(防御側の毎日の作業)"""
    prompt = f"""Review the following code for security issues.
List only specific, actionable vulnerabilities with line numbers.

```python
{code}
```"""
    resp = ollama.chat(model=MODEL, messages=[{"role": "user", "content": prompt}])
    return parse_findings(resp["message"]["content"])

def fix_code(code: str, findings: list[str]) -> str:
    """Step 2: 修正コード生成 ── "Fix this code" の中核"""
    prompt = f"""Fix the following code based on these findings:

Findings:
{chr(10).join(findings)}

Original code:
```python
{code}

Return only the patched code in a fenced block.""" resp = ollama.chat(model=MODEL, messages=[{“role”: “user”, “content”: prompt}]) return extract_code_block(resp[“message”][“content”])

def generate_test_script(fixed_code: str, original_findings: list[str]) -> str: “““Step 3: テストスクリプト生成 ── Moussouris が “manual step” と言った部分””” prompt = f"““Write a pytest script that verifies these vulnerabilities are fixed:

Original findings: {chr(10).join(original_findings)}

Fixed code:

{fixed_code}

Return only the test script.””" resp = ollama.chat(model=MODEL, messages=[{“role”: “user”, “content”: prompt}]) return extract_code_block(resp[“message”][“content”])

def run_find_fix_test_loop(target_file: Path): source = target_file.read_text() findings = find_vulnerabilities(source) if not findings: print(f"[OK] No vulnerabilities found in {target_file}") return

print(f"[!] {len(findings)} findings in {target_file}")
fixed = fix_code(source, findings)

patched = target_file.with_suffix(".patched.py")
patched.write_text(fixed)

test_script = generate_test_script(fixed, findings)
test_path = target_file.with_suffix(".test.py")
test_path.write_text(test_script)

# 4: テスト実行
result = subprocess.run(
    ["pytest", str(test_path), "-v"],
    capture_output=True, text=True
)
print(result.stdout)
if result.returncode != 0:
    print("[!] Tests failed — manual review required")
return result.returncode

if name == “main”: import sys run_find_fix_test_loop(Path(sys.argv[1]))


```bash
# ローカル実行 ── 外部 API 呼び出しなし
$ ollama pull gemma4:12b
$ python defensive_find_fix_test.py src/auth.py
[!] 3 findings in src/auth.py
==================== test session starts ====================
collected 3 items
src/auth.test.py::test_sql_injection_fix PASSED
src/auth.test.py::test_xss_in_payload PASSED
src/auth.test.py::test_weak_hash_replaced PASSED
==================== 3 passed in 0.42s ======================

この find-fix-test ループは Moussouris が “the most valuable thing an AI model can do for defensive security” と言った処理そのもの ── 「Fix this code」の 3 語を起点にした、Gemma 4 12B ローカル実行での実装である。Fable 5 が BIS 輸出管理対象になっても、コードは米国外で動作し、テストはローカルで完結し、データは越境しない


6. 日本企業への含意 ── 4 セクターの実務設計

Fable 5 輸出管理 + AWS Bedrock 30 日保持強制 + freefable.org 公開書簡 + Stratechery 分析の 4 シグナル収束 が、日本の 4 セクターにもたらす含意を整理する。

金融(銀行・証券・保険)

金融庁の「AI 利用に関する原則」(2024 公表)および APPI(個人情報保護法)は 機微データの越境に強い制約 を課している。Fable 5 + AWS Bedrock の 30 日保持は規制業界では事実上の選択肢外。Open-Weight 3 モデルハイブリッド ── vLLM + Nemotron 3 Ultra(高スループット SOC 向け)+ Gemma 4 12B(金融文書のローカル解析)+ Command A+(コンプライアンスレポート生成)── を 金融クローズドネットワーク内に自前ホスト する設計が現実解。

医療(病院・製薬・ヘルステック)

APPI + 医療情報ガイドライン + 薬機法の三重規制下で、データの越境外移動は事実上禁止。Apple Silicon M シリーズ上で llama.cpp + Gemma 4 12B を動かして電子カルテ解析・読影補助・ゲノム解釈支援を行う構成が有望。Mistral 系の MedGemma 派生や Plum-2 医療特化モデルも選択肢。

公共(中央省庁・自治体・政府系 SI)

経済安全保障推進法に基づく 特定社会基盤役務 指定業種では、AI サービスの国外依存は契約上も運用上も制約が大きい。SGLang + Command A+ on さくらインターネット高火力 または NVIDIA NIM on さくら Dedicated GPULGWAN / 自治体クラウド境界内 で動かす構成が現実的。Gemma 4 12B の 256K コンテキスト日本語処理性能は、行政文書・議事録・申請書解析に十分。

汎用 SaaS / スタートアップ

コスト最優先の汎用ワークロードでは、OpenRouter 経由のモデルルーティング で 「Opus 4.8 → Sonnet 4.8 → Haiku 4.5 → Nemotron 3 Ultra / GLM 5.2 / Command A+」の階層化を維持しつつ、機微クエリのみ Open-Weight ローカルモデル に分離する hybrid routing が標準パターンになる。我々が AI コスト破綻の完全地図 で示した 5 ステップ最適化戦略の 最終ステップ ── 「データ主権を維持できる escape hatch の確保」 ── が、今回の事件でようやく「あれば安心」から「ないと致命的」に変わった。


7. 3 つのオープン質問 ── 政府の directive 根拠、Japanese SOC 移行の現実性、Anthropic IPO への波及

この事件が整理されておらず、答えが出ていない問題を 3 つ残しておく。

Q1. BIS directive の法的根拠は何か。 The Verge によれば「to my knowledge, this is the first time US export controls have been used to control access to an AI model in this way」。Anthropic 公式声明は「national security authorities」を根拠として引用するだけで、具体的な法律条文・施行規則は公開されていない。David Sacks(Trump AI adviser)は「Anthropic は jailbreak 修正を拒否した」と主張し、Anthropic は「government’s concerns about a ‘jailbreak’… did not allow users to circumvent all of the company’s safeguards」と反論している。

Q2. 日本の SOC(Security Operation Center)は本当に Open-Weight で代替できるか。 Moussouris の署名書簡は「open-weight モデルで daily audit / red-team は可能」と主張するが、6/16 The New Stack の「4 モデル応答」は定量比較を提示していない。Gemma 4 12B の脆弱性発見率 vs Fable 5 の脆弱性発見率を同一テストベッドで測定したベンチマークは、まだ公開されていない。我々が 6/16 Open-Weight Frontier 日本企業デプロイガイド で示したのは「5 軸比較表」レベルであり、SWE-Bench Pro -10〜20pt の精度低下を「30 日保持不可ワークロードでは無視可」と判断したのはアーキテクチャ上の結論であって、定量 SOC 性能保証ではない。

Q3. 7 月 15 日の IPO に向けた governance リスク。 Anthropic は 6/2 に S-1 を機密提出 し、7 月 IPO を準備中。今回の BIS との衝突は 「responsible AI governance」を投資家向け PR に使う Anthropic 戦略と、政府の輸出管理という外生要因が衝突した最初のケース である。投資家向けには「30 日データ保持 = AI safety 強化」、政府向けには「輸出管理に率先協力」と、どちらにも良い narrative として使える。だが 7 月 IPO が成立するかどうかは、6/22-23 までの Fable 5 復旧可否次第 ── 我々が 6/14 Fable 5 export control Jassy-Bessent で指摘した「3 つの根本問題」のうち、「evidence-less directive legality」は 96 時間経っても解決していない。


8. まとめ ── 「3 語の問い」が示す、AI frontier と国家権力の境界

Katie Moussouris の The Register インタビューは、6 月の Fable 5 ドキュメント(公開 / sabotage / walkback / AWS Bedrock / relentlessly proactive / export control / 本稿)の 5 部作 を完成させる。

その核心は単純だ:“Fix this code” の 3 語が BIS の武器貿易規制カテゴリーに到達するということは、AI の「jailbreak」「vulnerability」「security」という語彙が、もはや純粋な技術用語ではなく、地政学的カテゴリーになった ── ということだ。

Moussouris が Wassenaar Arrangement(2013-2017)で戦った「defensive cybersecurity を dual-use 輸出規制から守る戦いは、AI 時代に 「fix this code」を “munitions” 扱いしない防衛線 という新ラウンドに入っている。Anthropic が silent nerfing を組織的にできる構造を Thompson が指摘したように、Anthropic の safety 戦略は frontier AI の地政学的価値そのものを再定義しつつある。日本企業にとっての escape hatch は Open-Weight Frontier の自前ホスト ── 6/15-16 に公開された 6 モデルの中から、自社の 4 セクター要件と APPI / 経済安全保障推進法 / AI 事業者ガイドライン v2.0 の交差点で選ぶ。

我々は 6/14 export control → 6/15 GLM 5.2 MIT 宣言 → 6/15 DiffusionGemma 公開 → 6/16 Open-Weight Frontier Japan hub → 6/17 Claude Corps voluntary AI tax → 6/18 Sonnet 4 / Opus 4 引退 retrospective → 本稿、と 5 日間で 7 記事を Fable 5 ドキュメント + Open-Weight Frontier + Anthropic ガバナンスの三軸で書いてきた。7 月の Anthropic IPO を前に、「fix this code」事件は frontier AI の政治経済学が転換点を迎えた最初の決定的な瞬間 として記録される。


ソース

  • The Register, “Feds freaked over Fable 5 after simple ‘fix this code’ prompt, not jailbreak, says researcher” (6/15, Katie Moussouris 単独インタビュー)
  • freefable.org, “Open Letter on Transparent AI Cyber Protections” (6/14, Moussouris / Stamos / Vixie / Wysopal / Tobac / Levy / Ellis ほか 100+ 署名)
  • Stratechery, “Anthropic’s Safety Superpower” by Ben Thompson (6/15)
  • The New Stack, “4 open-weight models responded to the Fable 5 cyber claims” (6/16)
  • Anthropic 公式声明 (6/12, X / blog)
  • heise online 英語版, “‘Fix this code’: Block of Fable 5 and Mythos 5 allegedly after simple prompt” (6/15)
  • 既存日本語報道(ニュースサマリーレベル): KEITO AI&WEB ch (6/10 Fable 5 解説動画) / uravation.com (Claude Code Fable 5 ガイド) / Zenn nextbeat (Fable 5 による日本語プログラミング教材) / X yousukezan (6/13 Moussouris 抜粋)

この記事はAIによって生成され、人間の編集を経て公開されています。 Appwright AI は AI によるコンテンツ制作の可能性を探求する実験的プロジェクトです。