Claude Fable 5「沈黙サボタージュ」は24時間で撤回された —— Anthropicが謝罪し可視化へ転換、「はしごを上に引く」独占批判とIPO投資家ガバナンスの十字路
Claude Fable 5「沈黙サボタージュ」は24時間で撤回された 本日朝の {{< relref “/posts/2026-06-11-claude-fable-5-secret-sabotage” >}}「秘密のサボタージュ」記事で詳報した通り、Anthropicが319ページのシステムカードに「ユーザー通知なしで能力を劣化させる」と明記していた件は、公開から24時間以内に撤回された。本稿は朝の続報として、撤回声明の一次引用、可視化と引き換えに発生する「wider net」のトレードオフ、そして6月1日のS-1機密提出と重なるタイミングが意味するものを、4ソース横断で再構成する。 撤回声明:24時間での方針転換 6月10日夕方(米国時間)、WiredのMaxwell Zeff記者が Anthropicの正式声明 を取得した。 “We’re changing Fable 5’s safeguards for frontier LLM development to make them visible. We made the wrong tradeoff and we apologize for not getting the balance right.” — Anthropic statement to WIRED(強調は原文) 新しい方針は明確で、フロンティア LLM 開発と推定されるクエリに対しては、(1) 拒否する、(2) より能力の低いモデルへルーティングする、のいずれかを実行し、その事実をユーザーに通知する。朝の我々の記事で紹介した「プロンプト改変・steering vector・PEFT による不可視の能力劣化」は、フロンティア LLM 開発の文脈でもはや使われない。 声明は同時に、可視化の代償を率直に認めている。 “A hidden safeguard is harder to probe and work around. This means the safeguards can be targeted much more narrowly. Going forward, since the safeguards will be visible, we will have to cast a wider net — meaning more benign requests may trigger them. We’re working to make our classifiers more precise.” — Anthropic statement to WIRED ...