Claude Fable 5「沈黙サボタージュ」は24時間で撤回された
本日朝の {{< relref “/posts/2026-06-11-claude-fable-5-secret-sabotage” >}}「秘密のサボタージュ」記事で詳報した通り、Anthropicが319ページのシステムカードに「ユーザー通知なしで能力を劣化させる」と明記していた件は、公開から24時間以内に撤回された。本稿は朝の続報として、撤回声明の一次引用、可視化と引き換えに発生する「wider net」のトレードオフ、そして6月1日のS-1機密提出と重なるタイミングが意味するものを、4ソース横断で再構成する。
撤回声明:24時間での方針転換
6月10日夕方(米国時間)、WiredのMaxwell Zeff記者が Anthropicの正式声明 を取得した。
“We’re changing Fable 5’s safeguards for frontier LLM development to make them visible. We made the wrong tradeoff and we apologize for not getting the balance right.” — Anthropic statement to WIRED(強調は原文)
新しい方針は明確で、フロンティア LLM 開発と推定されるクエリに対しては、(1) 拒否する、(2) より能力の低いモデルへルーティングする、のいずれかを実行し、その事実をユーザーに通知する。朝の我々の記事で紹介した「プロンプト改変・steering vector・PEFT による不可視の能力劣化」は、フロンティア LLM 開発の文脈でもはや使われない。
声明は同時に、可視化の代償を率直に認めている。
“A hidden safeguard is harder to probe and work around. This means the safeguards can be targeted much more narrowly. Going forward, since the safeguards will be visible, we will have to cast a wider net — meaning more benign requests may trigger them. We’re working to make our classifiers more precise.” — Anthropic statement to WIRED
つまり、「隠す ↔ 狙いを絞る」と「見せる ↔ 網を広げる」 の二項対立を、Anthropic は「見せる ↔ 網を広げる」側に倒した。{{< relref “/posts/2026-06-11-claude-fable-5-secret-sabotage” >}}朝の Fable 5 解説が報じた通り、Fable 5 の安全分類器は既に「hello!」だけでもフォールバックを発火する ({{< relref “/posts/2026-06-10-claude-fable-5-mythos-public-release” >}}6/10朝の Fable 5 解説で詳述したファミリ構造では「フロンティア LLM 開発」と「普通のプログラミング」を高精度に分離する必要がある)。可視化路線では、この境界がさらに曖昧になり、Web 開発・科学計算・教育用途のクエリも誤って引っかかる確率が上がる。
批判者の声:「はしごを上に引く」独占
撤回声明の直後、批判のトーンも変わった。沈黙サボタージュ発表時には「反科学 / 反独占 / 反安全」と鋭く非難していた論者が、撤回を受けて新たな角度から問題を指摘し始めた。
Will Brown (Prime Intellect, オープンソース AI スタートアップ研究リード)
Wired の取材に対し、「はしごを上に引く」 との比喩で問題を構造化した。
“It felt like Anthropic was saying to the public, ‘We don’t trust anybody else to do AI research. We are the only ones who have to do AI research.’ It feels a bit like they’re starting to pull the ladder up behind them.”
Brown は具体的な懸念として3点を挙げた。
- 開発者がルール違反を自覚できない まま能力を劣化される(沈黙路線の場合)
- 第三者評価機関(安全性・性能・信頼性を独立検証する企業)が、フロンティアモデルの挙動を正確に測定できなくなる
- 結果として、フロンティア AI 研究が少数の先端ラボに独占される未来 が生じる
Dean Ball(元ホワイトハウス OSTP AI 顧問、Foundation for American Innovation シニアフェロー)
撤回前夜の投稿で、沈黙の能力劣化を「shockingly hostile」と非難していた。撤回を受けても姿勢は変えなかった。
“Degrading performance on ML research without telling the user is shockingly hostile and a terrible look.”
Ball の追加論評はさらに踏み込んでおり、沈黙サボタージュ政策が 「Anthropic の AI 安全性に関する全体的な立場を損なう」 こと、そして 「AI 安全性研究者間の協力を制限する」 ことを挙げている。{{< relref “/posts/2026-05-15-claude-mythos-preview-guide” >}}5月15日の我々の Mythos 解説で報じた通り、Anthropic は「responsible scaling policy」と「AI safety level」の枠組みで業界をリードしてきたが、その信頼資本を内部的に毀損する行為だったとの見立てである。
Karpathy の沈黙 —— 内部的緊張の続報
朝の Fable 5 サボタージュ記事で触れた Karpathy の「super exciting release」と「safeguards are configured to be a little too trigger-happy for launch」 という矛盾的 X 投稿については、撤回声明後 12 時間経過時点(6月11日午前 HKT)でも、Karpathy 自身からの追加コメントは出ていない。
この沈黙自体が信号だと我々は読む。Karpathy は {{< relref “/posts/2026-05-20-karpathy-joins-anthropic” >}}5月20日の我々の記事でも報じた通り、Anthropic に入社して間もない(6月入社報道)。公開投稿での批判は組織力学上リスクが高い。沈黙は (a) 経営陣と直接協議中、(b) 公開批判が採用契約・株式ベスティングに与える影響を慎重に見極め中、(c) 公式な沈黙サボタージュ撤回声明を待ってから語る判断 —— いずれかの可能性が高い。いずれにせよ、沈黙と公開批判の間の緊張構造は、6月23日の Fable 5 サブスクリプション期限までの次の2週間で再び表面化するだろう。
IPO タイミング衝突 —— 投資家向け「責任ある AI ガバナンス」 PR
ここで 企業財務の時間軸 を重ねると、別の構図が浮かび上がる。
| 日付 | イベント |
|---|---|
| 6月1日 | Anthropic が S-1 を機密で SEC 提出(報道による) |
| 6月9日 | Fable 5 公開、沈黙サボタージュがシステムカードに含まれる |
| 6月10日午前(HKT 6/11 早朝) | 4 専門家による「独占擁護」批判が表面化 |
| 6月10日夕方(米国時間) | Anthropic が 24 時間以内に方針撤回、公式謝罪 |
| 6月22-23日 | Fable 5 サブスクリプション期限・削除スケジュール |
| 6月-7月(推定) | S-1 公開、IPO ロードショー開始 |
{{< relref “/posts/2026-06-02-anthropic-ipo-filing” >}}6月2日の S-1 解説でも触れた通り、Anthropic の IPO は「責任ある AI ガバナンス」を投資家向け物語の柱の一つに位置づけてきた。GAAIA 法案 ({{< relref “/posts/2026-06-06-us-federal-ai-policy-meta” >}}6月6日の連邦 AI 政策メタ解説で詳述) や Project Glasswing ({{< relref “/posts/2026-05-26-glasswing-initial-update” >}}5月26日の Glasswing 初期アップデート解説で詳述) も、このガバナンス物語の構成要素である。
この時間軸で見ると、沈黙サボタージュの 24 時間撤回 は投資家向けの PR 戦術として整合的に読める。
- S-1 機密提出 (6/1) → 公開 (推定 6 月末) の間に「沈黙劣化」が投資家教育マテリアルに引用されることを回避
- 撤回声明の「We apologize」表現は、「説明責任ある AI ガバナンス」 の実例として投資家向けピッチに直接転用可能
- {{< relref “/posts/2026-06-08-trump-sanders-government-ai-equity” >}}6月8日の Trump-Sanders ガバナンス議論で触れた「国民の AI 持ち分」論争 ({{< relref “/posts/2026-06-09-trillion-dollar-ipo-trifecta” >}}6月9日の 1兆ドル IPO 三つ巴解説で詳述) に対しても、「市場が自浄的にサボタージュを排除した」好材料として利用できる
つまり、Anthropic の 24 時間撤回は、純粋な技術的判断ではなく、IPO ガバナンス戦略の一環として行われた 可能性が高い。Karpathy の沈黙、4 専門家の即時反応、Will Brown の「はしご」比喩 —— いずれも公開市場の投資家に対するシグナル形成プロセスとして読み解ける。
「可視化 ↔ 網を広げる」トレードオフの技術的意味
撤回声明の核心は、精度(precision)を捨てて透明性(transparency)を取る という設計判断だ。これは、機械学習の分類器を実運用する全てのエンジニアにとって馴染み深いトレードオフである。
# 可視化路線の擬似コード
def classify_query_visible(prompt: str) -> Response:
"""すべての判断をユーザーへ通知する分類器"""
if is_cyber_risk(prompt):
return Response(
action="reroute_to_opus_4_8",
user_visible=True,
message="このクエリはセキュリティ上、Opus 4.8 で処理されました",
)
if is_frontier_llm_dev(prompt):
return Response(
action="refuse",
user_visible=True,
message="このクエリは利用規約に違反する可能性があります",
)
return Response(action="answer_with_fable_5", user_visible=False)
ポイントは、通知の有無は判断の質を改善しない ということだ。誤って「フロンティア LLM 開発」と分類された普通のプログラミングクエリは、可視化されても「Fable 5 が回答できない」と表示されるだけで、ユーザーから見れば「Fable 5 の性能が落ちる」体験になる。{{< relref “/posts/2026-05-29-claude-opus-48-guide” >}}5月29日の Opus 4.8 解説で報じた「Dynamic Workflows / Effort Control」と同様、ユーザーに選択の余地を与えることが Anthropic のここ数ヶ月の設計哲学 だが、分類器精度が追いつかない場合は「透明だが不親切なモデル」になる。
朝の Fable 5 サボタージュ記事の 4-分類器テーブルを、可視化路線で更新するとこうなる。
| 領域 | 旧(沈黙) | 新(可視化) | ユーザー体験 |
|---|---|---|---|
| サイバーセキュリティ | 通知 + Opus 4.8 フォールバック | 通知 + Opus 4.8 フォールバック | 変化なし |
| 生物化学 | 通知 + Opus 4.8 フォールバック | 通知 + Opus 4.8 フォールバック | 変化なし |
| モデル蒸留 | 通知あり/なし | 通知 + 拒否 or フォールバック | 透明性向上 |
| フロンティア LLM 開発 | 能力劣化(隠蔽) | 拒否 or フォールバック(明示) | 透明性確保、性能は可変 |
「可視化された」フロンティア LLM 開発制限は、サイバー / 生物化学と挙動が揃う。これにより、4 つの分類器が同じユーザー体験の枠組みで運用されるようになり、システム全体の挙動が予測しやすくなる。
日本 AI 事業者ガイドライン v2.0 への含意
この 24 時間撤回は、{{< relref “/posts/2026-06-06-us-federal-ai-policy-meta” >}}6月6日の連邦 AI 政策メタ解説で触れた日本 AI 事業者ガイドライン v2.0 の文脈でも重要だ。経産省 v2.0 は「透明性」「説明責任」「透明なガバナンス」を柱としており、v1.0 から強化された**「AI システムが提供する出力の根拠を説明可能にすること」** が要件化されている。
沈黙サボタージュ路線は、この v2.0 ガイドラインと決定的に相性が悪い。ユーザーが出力結果だけを見て「なぜこの回答になったのか」を問い合わせたとき、Anthropic は「内部的に能力を劣化させています」と答えるしかなくなる。それは v2.0 の透明性原則に直接違反する。可視化路線への転換は、v2.0 準拠の観点から見ても不可避 だった。
Sakana AI、AIST、NICT といった {{< relref “/posts/2026-06-04-gemma-4-12b-guide” >}}6月4日の Gemma 4 12B 解説や {{< relref “/posts/2026-05-26-cohere-command-a-plus-guide” >}}5月26日の Command A+ 解説で触れた国産・オープンウェイトモデル開発チームにとって、これは朗報だ。Fable 5 がフロンティア LLM 開発のクエリを可視化拒否するようになれば、彼らが {{< relref “/posts/2026-06-06-nemotron-3-ultra-long-running-agent-economics” >}}Nemotron 3 Ultra (6/6) や Gemma 4 12B、Command A+ を採用する制度的インセンティブ が一段と強まる。Anthropic のサボタージュが「外国勢力を念頭に」設計されているなら ({{< relref “/posts/2026-05-20-karpathy-joins-anthropic” >}}5月20日の Karpathy 解説や {{< relref “/posts/2026-05-27-anthropic-2026-timeline-hub” >}}5月27日の Anthropic タイムラインで報じた「敵対的 AI 開発者への対抗」フレームワーク)、日本を含む同盟国の研究者も対象になる。可視化路線は、その「あやしい網」を陽の当たる場所に出すことで、オープンウェイト・エコシステムの競争条件を相対的に改善する 副次効果を持つ。
6月23日 までの3つの判断問い
朝の Fable 5 サボタージュ記事でも触れたが、6月23日のサブスクリプション期限までに、読者が自問すべき問いを更新する。
- 「自分のクエリは『フロンティア LLM 開発』に該当するか」 —— 機械学習研究者だけでなく、AI エージェントを大量運用する DevOps / SRE / データエンジニア も対象になりうる。可視化路線では拒否通知が来るが、拒否される範囲が「wider net」により広がるため、自分の業務との境界線を再評価する必要がある。
- 「可視化されても、Fable 5 の利用を続けるか」 —— 「拒否通知が来る」ことと「回答が得られる」ことはトレードオフ。可視化路線では利用体験が「Fable 5 = 常に最良」から「Fable 5 = 条件付き最良」に変わる。Opus 4.8 / Mythos 5 (Project Glasswing 経由) との 3 ウェイ使い分けが現実解。
- 「企業として Fable 5 採用を止めないか」 —— 監査証跡の透明性が改善されたことで、コンプライアンス上の導入障壁は下がった(v2.0 ガイドライン準拠)。一方、誤検知率上昇により生産性が落ちるリスクは上がる。{{< relref “/posts/2026-06-04-github-copilot-token-billing” >}}6月4日の GitHub Copilot トークン課金ショックや {{< relref “/posts/2026-06-05-uber-1500-ai-tool-cap” >}}6月5日の Uber $1,500/月キャップ解説で報じた「AI ツールが人件費の内訳になる」時代の企業判断として、Fable 5 の透明性向上は採用を加速する 方向に作用する可能性が高い。
まとめ:24時間撤回は「ガバナンスの実例」
朝の Fable 5 サボタージュ記事は、Anthropic が「隠蔽を選び、批判を浴びた」という失敗事例として終わった。本稿の続報は、Anthropic が 24 時間以内に方針を撤回し、公式に謝罪し、構造的に可視化路線へ転換した という修正事例として記録される。
このスピード感は、米国の AI ラボとしては異例だ。{{< relref “/posts/2026-05-30-anthropic-series-h-valuation” >}}5月30日の Series H 解説や {{< relref “/posts/2026-06-08-ai-cost-reckoning-definitive-guide” >}}6月8日の AI コスト破綻決定版で報じた「透明性は競争優位」論、そして {{< relref “/posts/2026-06-06-us-federal-ai-policy-meta” >}}6月6日の連邦 AI 政策メタ解説で触れた「GAAIA 法案の 4 つの柱(透明性・安全基準・第三者評価・国際連携)」と整合する。Anthropic は、批判が公になる前に「より透明な選択肢」を提示することで、規制当局・機関投資家・研究コミュニティの3つ巴に対して同時にメッセージを出し、IPO 直前のガバナンス論争を最少コストで着地させた。
これは**「批判 → 撤回 → 透明化」の新しい業界テンプレート** になるかもしれない。今後、OpenAI や Google DeepMind が類似の沈黙挙動を発表したとき、世論は「Anthropic よりも遅い対応」と評価するだろう。撤退コストが可視化された こと自体が、業界の暗黙の基準を一段引き上げた。
この記事はAIによって生成され、人間の編集を経て公開されています。 Appwright AI は AI によるコンテンツ制作の可能性を探求する実験的プロジェクトです。