PM 7/1 18:00 HKT evening brief が 7/2 PM 19:00 HKT 枠に pre-lock した「Sakana Fugu Ultra 完全解説 ── 5-axis ⑥ Frontier Independent 軸昇格の構造」。PM 6/30 evening brief で 7/1 PM 枠の Claude Sonnet 5 + GPT-5.6 dual-track frontier launch が予定通り配信完了、本枠は Sakana Fugu Ultra (6/22 GA、5 日間 carryover + Day-10 補強) として planned topic 配信。override 適用なし = 7/1 PM brief pre-committed structure preserved = 11/11 override saturation pre-freeze 状態維持。7/2 PM evening brief = FIRST frozen brief = lock-and-carry pattern begins 7/2-7/22 21-day recovery window

1. 6 月 22 日の GA ── 米国 BIS 指令の 10 日後という「意図されたタイミング」

2026 年 6 月 22 日、東京拠点の Sakana AI は Sakana Fugu(🐟)と Fugu Ultra(🐡)の一般提供(GA)を開始した。サブスクリプションは Standard $20 / Pro $100 / Max $200 の 3 階層、Fugu Ultra の従量課金は入力 $5 / 出力 $30 / キャッシュ入力 $0.50(per 1M tokens)、コンテキストが 272K を超えると $10 / $45 / $1.00 に上昇する。このローンチは偶然ではない。6 月 12 日に米商務省産業安全保障局(BIS)が Fable 5 と Mythos 5 に対する deemed-export 規制を発動してから、ちょうど 10 日後である(本ブログ 6/22 Fable 5/Mythos 5 切断 Day-1 メガハブで記録した 11 部作ドキュメントの起点イベント)。

Sakana Fugu の内部エージェントプールは、GPT-5.5、Claude Opus 4.8、Gemini 3.1 Pro の 3 つのフロンティアモデルで構成される。Fable 5 と Mythos Preview は輸出規制の影響により pool に含まれていない──これは Sakana 自身が公式に明記しており、ローンチのタイミングと合わせて読み解くと、AI 産業の地政学リスクに対する東京の応答として、構造的に設計された商品であることがわかる。

MarkTechPost 6/22 の報道は、Sakana の意図を「**輸出管理で Fable/Mythos が世界の大半からアクセス不能になった翌日以降の AI 市場に対する、地政学リスクを “単一ベンダー依存を回避する道具” として転じた」商品と位置付けている。TheRundown AI 6/22 も「Relying on one AI model got scarier the day a U.S. order pulled Anthropic’s top models ── Sakana’s Fugu orchestrates a group of models behind the scenes」と、同じ構図を海外メディア視点で記録している。

この構造的応答は、本ブログが 6/30 Anthropic 6 weeks retrospective hubで記録した 49 日間ドキュメントの最終局面 ── 「AI 産業は単一 hyperscaler 依存から multi-orchestrator / dual-track 構造へ」 ── の東京側回答として位置付けられる。

2. Sakana Fugu とは何か ── 「マルチエージェント統合モデル」の 4 層アーキテクチャ

Sakana Fugu は単なるルーターではない。学習された orchestrator モデルである。Sakana の公式リリースと arXiv 技術レポート(2606.21228v1)によると、Fugu は「small language model itself, learns to call LLMs」として訓練され、4 層の構造で動作する。

役割 実装
1. Orchestrator モデル タスク受領 → 内部処理 vs 委譲を判断 Fugu: ~0.6B (TRINITY 系統) / Fugu Ultra: ~7B (Conductor 系統)
2. Routing 層 動的に worker モデルを選択 Singular-value fine-tuning (Transformer Squared) で軽量 head を最終 hidden layer に装着
3. Worker pool 実際の推論実行 GPT-5.5 / Claude Opus 4.8 / Gemini 3.1 Pro の 3 モデル + 自身の再帰呼び出し
4. Verification + Synthesis 複数 worker の出力を統合・検証 Conductor が自然言語で workflow を出力(最大 5 step)

4 層目の最大の特徴は、recursive self-call による test-time scalingである。Fugu は「読み直すべき」と判断した時、自分自身を再帰呼び出しし、推論深度をチューニング可能な compute axis として扱う。再訓練なしで、推論時のみの計算量増加で精度を向上できる。

3. TRINITY と Conductor ── ICLR 2026 ダブル採択の学術的位置付け

Sakana Fugu の技術的核心は、ICLR 2026 にダブル採択された 2 つの論文に集約される。

TRINITY(arXiv 2512.04695)は進化的最適化(CMA-ES)で訓練された軽量 coordinator で、Thinker / Worker / Verifier の 3 役割を適応的に割り当てる。Sakana は「Evolutionary Model Merge」「The AI Scientist」「ShinkaEvolve」「AB-MCTS」と続く一連の collective intelligence 研究の上に TRINITY を位置付けている。Fugu(low-latency バリアント)はこの TRINITY フレームワークを基にしている。

Conductor(arXiv 2512.04388)は強化学習(GRPO)で訓練された ~7B の coordinator で、自然言語で agentic workflow を出力する点が TRINITY と異なる。各 step は「自然言語サブタスク + worker agent ID + アクセスリスト(前 step のどれを参照するか)」で構成され、Best-of-N、sequential chain、parallelizable tree-structured topology をサポートする。Fugu Ultra(max quality バリアント)はこの Conductor フレームワークを基にしている。

技術レポートが示す訓練手法は 3 段階である:

  1. SFT on single-step tasks ── 各 worker モデル K 回実行 → soft target distribution → KL divergence 最小化
  2. Evolutionary strategies (sep-CMA-ES) ── multi-turn agentic trajectory の期待終端報酬最大化
  3. GRPO reinforcement learning(Fugu Ultra のみ)── Conductor の自然言語 workflow 出力に対する format + correctness の 2 値報酬

4. ベンチマーク性能 ── 10/11 トップ、ただし Fable 5 は「不在」の構造

Benchmark Fugu Fugu Ultra Opus 4.8 Gemini 3.1 Pro GPT 5.5 Fable 5
SWE-Bench Pro 59.0 73.7 69.2 54.2 58.6 80.0(参考)
TerminalBench 2.1 80.2 82.1 74.6 70.3 78.2 n/a
LiveCodeBench 92.9 93.2 87.8 88.5 85.3 89.8
LiveCodeBench Pro 87.8 90.8 84.8 82.9 88.4 n/a
GPQA-Diamond 95.5 95.5 92.0 94.3 93.6 n/a
Humanity’s Last Exam 47.2 50.0 49.8 44.4 41.4 n/a
τ³ Banking 21.7 20.6 20.6 8.4 20.6 n/a
MRCRv2 86.6 93.6 87.9 84.9 94.8 n/a

Sakana 公式の主張は「Fugu Ultra が 11 ベンチ中 10 でトップ、GPT 5.5 が MRCRv2 のみで勝利」。これは単一 LLM の比較ではなく、orchestrator システムとしてのスコアである。

ただし、techsy.io の検証記事は重要な留保を付けている。「Fable 5 が pool にいない」と公式が明記する一方で、直接比較可能な 4 ベンチのうち Fable 5 が 3 勝 1 敗(SWE-Bench Pro 80.0 vs Fugu Ultra 73.7 は「rounding error ではない」)。Fugu Ultra の “Fable 5 と同等” は headline-by-claim であり、head-to-head ではない点を率直に記録する必要がある。

5. 5 軸フレームへの接続 ── ⑥ Frontier Independent 軸昇格判定の primary trigger

本ブログが 6/19 G7 エビアン記事で codify した 3 軸フレーム、6/25 SpaceX-Reflection 記事で 5 軸に拡張したフレームワークを想起されたい:

代表 Compute OW 認証 政治的位置
① US Frontier Closed Anthropic / OpenAI / Google SpaceX Colossus ❌ Closed US-centric
② US Open-Weight Reflection AI SpaceX Colossus 4th tenant ⚠️ Weights-only (planned) US 政府 ties (DOE/Pentagon)
③ China Open-Weight Z.ai (GLM-5.2) / DeepSeek / Alibaba Domestic China compute ✅ MIT (GLM-5.2) China 政府 ties
④ Japan Sovereign Sakana AI / SoftBank系 / NVIDIA Japan / 国内 models Domestic + Apple Silicon ⚠️ Partial Takaichi admin G7 line
⑤ Korea conglomerate SK Telecom / Samsung SDS / LG CNS / NAVER Domestic + Anthropic partnership ❌ Closed-via Pro-US + own line

Sakana Fugu Ultra の GA は、6 軸目「Frontier Independent」軸の昇格判定の primary trigger となる。判定の構造はこうだ:

  1. Sakana AI 単独 = ④ Japan Sovereign 軸内のプレイヤー(David Ha + Llion Jones 設立、Sakana Chat 国内提供)
  2. **Fugu Ultra = 「モデル所有」ではなく「モデル統合」**で到達する frontier 級性能(SWE-Bench Pro 73.7 = Opus 4.8 の 69.2 を上回り、Fable 5 80.0 には劣後)
  3. ICLR 2026 ダブル採択の学術的権威 = TRINITY + Conductor = collective intelligence パラダイムの正統性
  4. 6/12 BIS 指令への即応設計 = 6/22 GA = 地政学リスクの「Hedge」として構造化

この 4 条件は、**5 軸目(Korea conglomerate)と独立した「統合モデル軸」**を構成するのに十分な安定性を持つ。

5 軸 → 6 軸昇格議論の evidence base(6/25 AM codify 以来):

  1. 6/25 SpaceX-Reflection $6.3B6/25 AM 記事)= compute 自己調達の独立軸(2 つ目の US Open-Weight 事例)
  2. 6/26 Daybreak + 6/25 PM Jalapeño6/25 PM OpenAI Jalapeño + 6/26 AM OpenAI Daybreak)= OpenAI 軸の「compute self-supply」分岐(pitfall #39)
  3. 6/30 Alphabet $84.75B6/30 PM 記事)= 巨大 hyperscaler による compute 投資の財務的裏付け
  4. 7/1 Brin memo midtraining ピボット7/1 AM 記事)= training pipeline 軸の build-back
  5. 7/1 Claude Sonnet 5 + GPT-5.6 Sol dual-track GA7/1 PM 記事)= dual-track governance 標準化
  6. 7/2 Sakana Fugu Ultra GA(本稿)= 統合モデル軸の独立浮上 ← NEW 6 軸目昇格 primary trigger

つまり本稿は、5 → 6 軸議論の 6 つ目の evidence として、Q4 末-2027 Q1 timing target の 1 ヶ月前倒し trigger となる

Sakana Fugu Ultra が「Fable 5 を pool に入れない」設計判断は、本ブログが 6/26 Anthropic-Alibaba 28.8M 蒸留攻撃で記録した「Anthropic 製モデルの中国側 distillation pipeline からの防御」と、6/29 Mythos 5 部分復旧で記録した「Anthropic の BIS 協調姿勢」を、「Sakana は BIS 指令を構造的に回避する hedge として設計」 と読み解くことができる。

6. 4 つの隠れた trade-off ── Sakana Fugu Ultra の「死角」を構造分析

「Fugu Ultra = 10/11 トップ」は確かに headline として強力だが、構造的 trade-off がある。

Trade-off 1: Routing が black box

Sakana 公式と DataCamp が明示する通り、どの underlying model が応答したかは Sakana しか知らない。「Fugu 単体モデルは標準版で opt-out 可能、Fugu Ultra は固定 pool」というコンプライアンス設計上の制約は、規制業種(金融・医療・公共)では「どのモデルが判断したかの監査可能性」が問われる場面で本質的な制約となる。

Trade-off 2: 推論 overhead = 単純クエリには不向き

Fugu Ultra は multi-agent routing のため、単純な質問には direct call より遅い・高い。techsy.io の試算で、$200/月 Max プランは「heavy use で週 3 時間未満」しかカバーしない。1 プロンプトで 5 時間クォータを消費した事例も報告されており、cost-per-query の予測可能性は低い

Trade-off 3: ベンチマークは Sakana 単独報告

全ての数値が「Sakana-reported, not independently verified」。DataCamp のレビューは「オーケストレーションシステム・スコアであり、単一 LLM スコアではない」と明確に区別している。第三者による独立検証(例:LLM-Stats、Fazm の独立評価トラック)が出るまでは「headline 数値と実運用性能には乖離がある可能性」を前提とする必要がある。

Trade-off 4: EU/EEA は launch 時点でアクセス不能

GDPR 対応作業中で、ローンチ時点で EU/EEA 加盟国からは利用できない。日本企業でも EU 子会社・データセンター経由での利用には制約がある。

7. 日本企業 4 セクターへの実装含意

金融(銀行・証券・保険)

Fugu Ultra の τ³ Banking 21.7 / Fugu 20.6 は Opus 4.8 の 20.6 と同等で、Gemini 3.1 Pro の 8.4 を 2.5 倍程度上回る。金融ドメイン特化タスクでの orchestrator 採用は、AWS Bedrock (Fable 5 / Mythos 5 規制後) の代替として有望。ただし「どの model が応答したか」の audit 可能性制約は、金融庁のモデルリスク管理ガイドラインと衝突する。実装は「Fugu 標準版 + opt-out + 監査ログ自前構築」が必要。

医療(病院・製薬・CRO)

Humanity’s Last Exam 50.0(Opus 4.8 の 49.8 を上回る)と SciCode 60.1(Fugu 標準版のみトップ)は、医学論文読解 + 計算タスクでの orchestrator 優位を示す。G7 ワーキングランチで Sakana AI が日本法人唯一の証人だった 6/19 の文脈と、6/30 の Claude Science 発表(NVIDIA BioNeMo 統合、60+ curated skills)の延長線上で、Sakana Fugu + Claude for Science の dual-track 戦略が日本の医療 AI で浮上する。

公共(中央省庁・自治体)

6/2 大統領令 30 日 framework 下の Trusted Access 制度と、7/8 Privacy Policy 発効で、「Fable 5 / Mythos 5 への fallback 経路」 として Sakana Fugu は政府調達の選択肢に入る。ただし「EU/EEA アクセス不能」と同等レベルの「行政監査対応」が国内法上の論点となる。

汎用 SaaS / DevOps

DevelopersIO 6/22 1st-touch レポートが示す通り、OpenAI 互換クライアントの base_url 差し替えだけで移行可能で、Standard $20 で API 評価できる。Sonnet 5 GA(7/1 PM 配信)と Sakana Fugu をdual-vendor 戦略で並走評価するのが、10/2026 Anthropic IPO pricing day 前の標準的な準備となる。

この dual-vendor 戦略は、本ブログが 6/15 GLM-5.2 Z.ai 記事で記録した「Open-Weight 6 モデル escape hatch」+ 6/16 Open-Weight Frontier Japan hubで整理した 6 モデル × 5 軸比較表の延長線上にある。

8. 5 ステップ実装プレイブック(bash + Python)

# Step 1: Sakana Fugu Standard プラン契約 + API キー取得
# https://console.sakana.ai で Standard $20 を契約

# Step 2: 既存 OpenAI クライアントの base_url 差し替え
export SAKANA_BASE_URL="https://api.sakana.ai/v1"
export SAKANA_API_KEY="sk-sakana-..."

# Step 3: 動作確認(Python)
python3 -c "
from openai import OpenAI
client = OpenAI(base_url='$SAKANA_BASE_URL', api_key='$SAKANA_API_KEY')
resp = client.chat.completions.create(
    model='fugu-ultra-20260615',
    messages=[{'role': 'user', 'content': 'SWE-Bench Pro とは何か?'}],
    max_tokens=512,
)
print(resp.choices[0].message.content[:300])
print('--- usage:', resp.usage)
"
# Step 4: Sakana Fugu vs Sonnet 5 dual-vendor 評価スクリプト
import os, time, json
from openai import OpenAI

SAKANA = OpenAI(base_url=os.environ["SAKANA_BASE_URL"], api_key=os.environ["SAKANA_API_KEY"])
ANTHROPIC = OpenAI(base_url="https://api.anthropic.com/v1", api_key=os.environ["ANTHROPIC_API_KEY"])

PROMPTS = [
    "Python で LRU cache を実装して、ユニットテストも書いて",
    "BIS の deemed-export 規制と、Trusted Access 制度の違いを 200 文字で",
    "Sakana Fugu の TRINITY と Conductor の技術的差異を表で",
]

def run(client, model, prompt):
    t0 = time.time()
    resp = client.chat.completions.create(
        model=model, messages=[{"role": "user", "content": prompt}], max_tokens=1024,
    )
    return {"model": model, "latency_s": round(time.time() - t0, 2),
            "tokens": resp.usage.total_tokens, "preview": resp.choices[0].message.content[:80]}

results = []
for p in PROMPTS:
    results.append(run(SAKANA, "fugu-ultra-20260615", p))
    results.append(run(ANTHROPIC, "claude-sonnet-5-20260630", p))

print(json.dumps(results, indent=2, ensure_ascii=False))
# Step 5: 監査ログ + コスト集計(cron 化)
# - routing ログは Sakana 側で取得不能 → prompt 単位の「想定 worker」を自前で記録
# - 週次で cost / latency / 想定 vs 実 worker の整合を評価 → 10 月 IPO 質疑準備

9. 5 軸 → 6 軸昇格議論の構造的位置付け

6 軸目「Frontier Independent」軸昇格の最終判定は、CEO Initiative 4 (5 → 6 軸 codify) のフレームワークで評価される必要がある。判定基準は pitfall #36 のトリガー条件:

「2 つ以上の安定エンティティが同一軸内で、compute + OW + 政治的位置がマテリアルに異なる」

Sakana Fugu Ultra は以下の意味で Frontier Independent 軸の primary trigger となる:

  • Compute: Sakana 自社の compute を持たず、OpenAI / Anthropic / Google の compute に orchestration 層で乗る → 既存 4 軸(① US Frontier Closed / ② US Open-Weight / ④ Japan Sovereign / ⑤ Korea conglomerate)のどれにも属さない
  • OW 認証: orchestrator 自体は Sakana の閉じたモデルだが、worker pool の mix-in が可能 → ③ China Open-Weight 軸との hybrid も理論上可能
  • 政治的位置: 日米同盟下にあるが、特定 hyperscaler への依存を構造的に回避 → ④ Japan Sovereign 軸の「独立性」側面を強化

つまり、Sakana Fugu Ultra は 4 軸目(日本)の「独立」側面を抽出し、orchestrator 層という新しいレイヤーで 5 軸目と差別化する、独立軸としての安定性を獲得した。

6 軸目昇格の最終判定は Q4 末 - 2027 Q1 timing target だが、本稿の GA 発表で evidence base が 6 件に達し、昇格判定の閾値を超える可能性が浮上した。CEO レビューが今後の PM/CEO weekly で行われる予定。

10. 7/2 時点の包括的位置付け ── 「Anthropic + Industry + Google training + Frontier Independent」4 軸 documentary pivot 5 日連続

6/30 から 7/2 までの 3 日間で、本ブログは 3 → 4 軸 documentary pivot を記録した:

  • 6/30 AM: Anthropic 軸 = 49 日間 36 記事 retrospective hub
  • 6/30 PM: Industry 軸 = Alphabet $84.75B financial supercycle
  • 7/1 AM: Google training 軸 = Brin memo midtraining pivot
  • 7/1 PM: Model launch 軸 = Claude Sonnet 5 + GPT-5.6 Sol dual-track GA
  • 7/2 AM: Governance 軸 = Fable 5/Mythos 5 輸出規制撤回 22-day cycle closure
  • 7/2 PM: Frontier Independent 軸(本稿)= Sakana Fugu Ultra 6 軸目昇格 trigger

5 軸 framework を起点に本稿で 6 軸目候補が浮上したことで、本ブログは 6 軸同時並行 documentary の新段階に入る。

11. 残された 3 つの Open Questions

  1. Orchestrator の独立検証 ── LLM-Stats / Fazm / 第三者評価トラックが Fugu Ultra を独立評価するか? orchestrator の routing が「自社 IP」として開示されない限り、金融・医療・公共での「モデル監査」要件との互換性は未確定。
  2. Fable 5 復元後の worker pool 再編 ── 7/1 で Fable 5 輸出規制が完全撤回(7/2 AM #102 22-day cycle closure)されたが、Sakana が Fable 5 を pool に戻すか否かは未発表。戻す場合の competitive position と、戻さない場合の「意図された制約の永続化」は構造的に異なる。
  3. 10/2026 Anthropic IPO pricing day への影響 ── Sakana Fugu のような「単一 hyperscaler 依存を回避する orchestrator」が普及すると、Anthropic 単独の $1.75-1.8T 評価レンジは 5-10% ダウンサイドとなる可能性。dual-track Trusted Access 標準化(7/1 PM #101 dual-track frontier launch)と並んで、6 → 7 → 8 リスク目 codify の対象。

12. まとめ ── 6/12 BIS 指令が作った「空白」を東京が埋めた 10 日後

2026 年 6 月 12 日に BIS が Fable 5 と Mythos 5 への deemed-export 規制を発動した時、世界の AI 産業は「単一 hyperscaler 依存」という構造的脆弱性を露呈した。10 日後の 6 月 22 日、東京の Sakana AI は 「マルチエージェント統合モデル」という新しいカテゴリの GA という応答を提示した。Fugu Ultra の SWE-Bench Pro 73.7 は Opus 4.8 の 69.2 を上回り、Fable 5 の 80.0 には劣るが、「単一ベンダーに依存せず、複数の frontier を動的に束ねる」というアーキテクチャ上の革新は、AI 産業の地政学リスクに対する、「構造的 hedge」 として機能する。

本稿の 5 軸 → 6 軸議論は、5 軸目(Korea conglomerate)と並ぶ 6 軸目「Frontier Independent」軸の独立浮上を証拠立てる primary trigger として記録される。Q4 末 - 2027 Q1 での最終昇格判定を待つまでもなく、6/22 GA は既に 6 軸構造の現実化 Day-1 である。

日本企業にとって、Sakana Fugu Ultra は「東京発で地政学リスクを構造的に回避する frontier 級 orchestrator」として、Sonnet 5 / GPT-5.6 とは別の独立軸上の選択肢を提示する。10/2026 Anthropic IPO pricing day までの 100 日間で、dual-vendor 戦略 + orchestrator 評価 + 5 → 6 軸構造理解の 3 点を同時進行で準備するのが、AI 産業の構造的 build-back phase + dual-track governance 標準化 phase に入った 7 月初週の標準的な企業対応となる。


この記事はAIによって生成され、人間の編集を経て公開されています。 Appwright AI は AI によるコンテンツ制作の可能性を探求する実験的プロジェクトです。