2026 年 6 月 12 日の米国 BIS (産業安全保障局) による Claude Fable 5 輸出管理発動、続く 6 月 13 日の AWS Bedrock における 30 日データ保持強制 ── この 48 時間で「クローズド・フロンティア・モデル」を前提にしていた日本企業の AI 戦略は、「データ主権 Sovereign AI」軸での再設計 を不可避とした。本稿は、当ブログが 6 月 4 日〜 15 日にかけて断片的に報じてきた Open-Weight Frontier 6 モデル (Nemotron 3 Ultra / Gemma 4 12B / Command A+ / DiffusionGemma / GLM 5.2 / MiMo Code) を 5 軸比較で統合し、IDC Japan が 2026 年 4 月に提示した「2027 年推論元年」フレームワークと、Fujitsu 笠子プラントの国産サーバ製造 (2026 年 3 月稼働開始) を組み合わせた 日本企業向け「データ主権」実装設計のハブ記事 である。
なぜ今「Open-Weight × データ主権」なのか ── 6/12-13 が変えた 3 つの前提
Fable 5 輸出規制と Bedrock データ保持強制が、日本企業の AI デプロイ前提を 3 点で書き換えた。
前提 1: クローズド最上位モデル = 「安全策」だった ── 6/12 で崩れた。 これまで日本企業のエンタープライズ AI は「GPT-5.5 / Claude Fable 5 / Gemini 3.5 Pro」というクローズド最上位を軸に据え、コスト・性能最適化として Open-Weight を補助的に使う構造が多かった。6/12 の BIS 指令で Fable 5 は「米国内カバー対象フロンティアモデル」に指定され、米国外在住者・非米法人への提供が制限された。当ブログ 6/14 夜の Fable 5 輸出管理記事 ({{< relref "/posts/2026-06-14-fable-5-us-export-control-jassy-bessent" >}}) で詳述したとおり、これにより日本企業の Fable 5 アクセスは「Glasswing 枠 (Mythos 5)」または「AWS Bedrock (30 日保持あり)」の二択に圧縮された。
前提 2: データ越境リスク = 「契約で対応」だった ── 6/13 で「技術強制」になった。 同日、Anthropic は AWS Bedrock / Vertex AI / Azure AI Foundry / Snowflake Cortex を経由する Fable 5 / Mythos 5 利用について、provider_data_share API 経由の 30 日データ保持をオプトイン化 した (詳細は 6/13 Bedrock 記事 {{< relref "/posts/2026-06-13-aws-bedrock-fable-5-data-retention-zdr-enterprise" >}})。既存の ZDR (Zero Data Retention) 契約は「上書き」され、データを「AWS 境界外に出さない」設定は機能しなくなった。
前提 3: 「日本向け最適化」= 日本語性能だった ── 6/15 で「主権」軸が加わった。 Z.ai GLM 5.2 が 6/13 (北京時間) に「Fully Open / MIT ライセンス」を宣言し、1M コンテキスト + High/Max 思考モード + 6 月第 3 週の MIT ウェイト公開を明言した (6/15 夜記事 {{< relref "/posts/2026-06-15-zhipu-glm-5-2-fully-open-mit-counter" >}})。同日、Microsoft は 2030 年までに日本で 100 万人の AI 人材を育成し、Azure 国内リージョンでソブリン版 GPT を提供すると発表。Open-Weight は「コスト最適化」から**「政策準拠・データ主権」軸での必須選択肢** に座組を移した。
IDC Japan「2027 年推論元年」フレームワーク
IDC Japan の Yukihisa Hode 氏は 2026 年 4 月 8 日付ブログ「Sovereign AI Infrastructure Drives Japan’s Shift」で、日本 AI インフラ市場が 2026 年を「学習 (training) 中心から推論 (inference) 中心への転換点」 とし、2027 年に推論支出が学習支出を逆転すると発表した。
| 指標 | 2025 年実績 | 2030 年予測 | CAGR |
|---|---|---|---|
| AI インフラ全体支出 | 694.6 億円 | 約 1 兆円 | 7.3% |
| AI 関連 IT インフラサービス | 957 億円 | 2,320 億円 | 19.4% |
| 推論 / 学習 CAGR 差 (2025-2030) | ─ | ─ | +10pt 超 |
| 社内データ本格活用企業 | 22% のみ | ─ | ─ |
出典: IDC Japan Japan AI Infrastructure and Services 2026: The Shift in Competitive Dynamics Driven by Inference
このデータが示す構造変化は 2 点ある。
(a) 推論最適化モデル = 新しい競争軸。 2025 年までの日本市場は「学習用 GPU 調達 (H100 / H200 / B200)」が主戦場だった。2027 年以降は「継続的推論ワークロードを支える専用環境 (推論アクセラレータ、冷却、推論 API サーバ)」が新市場となる。Fable 5 / GPT-5.5 / Gemini 3.5 Pro のような**「推論時に米国 API をコールする」アーキテクチャは、推論支出の 8 割が米国外に流出**する計算になる。Open-Weight モデルを日本国内にデプロイする選択肢は、この「推論支出の国内還流」を実現する唯一の手段となる。
(b) 22% 問題の構造。 社内データを「本格活用」している日本企業は 22% のみ ── これは言い換えれば、78% の企業はまだ AI を PoC で止めている。IDC は同レポートで「社内データ活用の上位企業は、Private AI Infrastructure (専用環境 + エッジ) の採用意向が強い」と分析。これは「推論元年」と「データ主権」が同じ企業の同じ意思決定で紐づくという、当ハブ記事の核心命題である。
Semi-Sovereign AI ── 「純国産でも完全外資でもない」日本独自モデル
IDC Japan の Shinya Kato 氏は 2026 年 5 月 5 日付ブログ「Japan’s AI Infrastructure Market: Heading for ¥1 Trillion」で、Microsoft の 2026 年 4 月発表 (2026-2029 年の 4 年間で約 1.6 兆円投資) を例に 「Semi-Sovereign AI」モデル を定義した。
domestically built and owned infrastructure, connected to a global hyperscaler’s service layer (国内建設・国内所有のインフラを、グローバルハイパースケーラのサービス層と接続する)
これは「完全自国化」と「外資依存」の間を埋める日本独自モデルで、さくらインターネット・ソフトバンク (GPU 基盤)、富士通・日立・NEC・NTT データ (業務システム実装)、Microsoft (投資とソフトウェア) という役割分担を構造化する。Open-Weight モデルはこの構造の 「モデル層」 に位置し、データ主権を担保しつつグローバル hyperscaler のサービス層と接続できる接点となる。
Fujitsu 笠子プラント ── 国産サーバ製造の現在地
Fujitsu は 2026 年 2 月 12 日、「Made in Japan sovereign AI servers」を笠子 (Kasashima) プラントで 2026 年 3 月から製造開始 と発表した。FUJITSU-MONAKA プロセッサ搭載モデルは 2026 年度内 (2027 年 3 月 31 日終了) に生産開始予定。
| 項目 | 詳細 |
|---|---|
| 製造拠点 | Fujitsu 笠子プラント (川崎) |
| 製造開始 | 2026 年 3 月 (sovereign AI server) / FY2026 (MONAKA 搭載) |
| 主プロセッサ | NVIDIA HGX B300 / RTX PRO 6000 Blackwell (現行モデル) → FUJITSU-MONAKA (次世代) |
| 戦略フレーム | 経済安全保障推進法 (specified essential infrastructure) 対応 |
| 接続モデル | Cohere Takane (富士通 × Cohere 提携、5/26 Command A+ 記事 {{< relref "/posts/2026-05-26-cohere-command-a-plus-guide" >}}) |
| 想定顧客 | 防衛・金融・医療など機微データを扱う領域 |
MONAKA プロセッサの戦略的位置付け: FUJITSU-MONAKA は ARM ベースの国産 CPU で、NEDO (新エネルギー・産業技術総合開発機構) の補助事業成果を採用している。NVIDIA GPU と組み合わせる「国産 CPU × 米国 GPU」のヘテロジニアス構成は、「日本法域下で動作する Compute 層」を物理的に担保する。Open-Weight モデル (Nemotron 3 Ultra / Gemma 4 12B / Command A+) を MONAKA サーバでホストすれば、「データ → 推論 → 出力」の全レイヤーが日本法域内で完結する。
Open-Weight Frontier 6 モデル × 5 軸比較 ── 2026 年 6 月最新版
当ブログが 6 月 4 日〜 15 日に個別深掘りした 6 モデルを、政策・コスト・性能の 5 軸で統合比較する。
| 軸 | Nemotron 3 Ultra | Gemma 4 12B | Command A+ | DiffusionGemma | GLM 5.2 | MiMo Code |
|---|---|---|---|---|---|---|
| パラメータ | 550B (MoE) | 11.95B (dense) | 218B (MoE, 25B active) | 25.2B / 3.8B (MoE) | 744B (MoE, 40B active) | OSS harness (MiMo-V2.5-Pro 後段) |
| ライセンス | OpenMDW (Linux Foundation) | Apache 2.0 | Apache 2.0 | Apache 2.0 | MIT (6/16-22 公開予定) | MIT |
| コンテキスト | 1M | 256K | 256K | 256K | 1M (出力 128K) | ─ |
| 強み | 長時間エージェント / 5x 推論 | マルチモーダル / Apple Silicon | ソブリン Critical Infra / 2×H100 | ブロック拡散 / 1,000 tok/s | 推論 1 位 (BrowseComp 62.0) | エージェントハーネス |
| 主な TCO 軸 | 5x 推論で $1.25B/月 → $250M/月 | MacBook M1 Max 動作 | W4A4 量子化で 2×H100 | vLLM Recipes + RTX 5090 | $1.40/$4.40 per MTok | Claude Code 移行可能 |
| 記事 | [6/6 #52]({{< relref “/posts/2026-06-06-nemotron-3-ultra-long-running-agent-economics” >}}) | [6/4 #49]({{< relref “/posts/2026-06-04-gemma-4-12b-guide” >}}) | [5/26 #31]({{< relref “/posts/2026-05-26-cohere-command-a-plus-guide” >}}) | [6/15 #69]({{< relref “/posts/2026-06-15-diffusiongemma-block-diffusion-japan-enterprise” >}}) | [6/15 #70]({{< relref “/posts/2026-06-15-zhipu-glm-5-2-fully-open-mit-counter” >}}) | [6/13 #66]({{< relref “/posts/2026-06-13-mimo-code-v0-1-agent-harness” >}}) |
| 価格 (per MTok) | 無料 (OSS ホスト) | 無料 (OSS ホスト) | 無料 (OSS ホスト) | 無料 (OSS ホスト) | $1.40 / $4.40 | 無料 (OSS ホスト) |
5 軸選定の根拠
-
ライセンス軸 = 政策準拠の生命線。 MIT / Apache 2.0 / OpenMDW は商用・改変・再配布すべて自由。BIS 規制の「米国外在住者への提供制限」はモデルの再配布に制限がないため、米国内で訓練された Open-Weight モデル (Nemotron 3 Ultra / Gemma 4 12B) も日本の法人がダウンロードして日本国内デプロイすれば規制対象外となる。Fable 5 が Covered Frontier Model に指定された根拠は「API 提供」を通じた間接アクセスであり、「重みファイルを直接ダウンロードして日本国内ホスト」 は規制スコープ外である。
-
コンテキスト軸 = 推論元年対応の生命線。 推論中心ワークロードでは 1 ターンあたりの入力量が膨らむ (RAG、文書要約、コードベース分析)。Nemotron 3 Ultra と GLM 5.2 が 1M コンテキスト対応 ── これは Fable 5 の 200K コンテキストを上回り、「日本語長文 (契約書・設計書) の 1 ショット推論」 で日本企業固有のユースケース (法務・製造業文書処理) に直結する。
-
強み軸 = 業務特性による分岐点。 金融 (リスク分析、コリジェンスチェック) → Command A+ の multilingual 48 言語 + ソブリン critical infra 設計 / 医療 (EBM 検索、診療録要約) → Gemma 4 12B の Apple Silicon ローカル実行 / 公共 (ソブリン保証) → Fujitsu Takane + MONAKA 上の Command A+ という業務 × モデル対応関係は、IDC レポートが指摘する「データ主権 × 業務分類」の意思決定構造と一致する。
-
TCO 軸 = 「月額 $1.25B からの脱出」の定量根拠。 Anthropic は 6/2 の S-1 開示で AWS / Google / SpaceX への compute 支払いとして 月額 $1.25B = 年額 $15B を公開した (6/2 S-1 記事
{{< relref "/posts/2026-06-02-anthropic-ipo-filing" >}})。Fable 5 利用時の推論単価 $10 / $50 per MTok は「クローズド最上位のベンチマーク」だが、裏を返せば 「同じ性能帯を Open-Weight で $0 (自前ホスト)」で代替できる場合、TCO は月額 1/10 以下になりうる。 -
価格軸 = GLM 5.2 だけが「API で買える」例外。 上記 5 モデルはすべて「OSS ホスト前提」だが、GLM 5.2 のみが Z.ai 公式 API ($1.40 / $4.40 per MTok) を提供し、Fable 5 ($10 / $50) の 1/11、Opus 4.8 の 1/5.7 という価格競争力を持つ。「6/22-23 Fable 5 サブスク期限までにテスト → 6/24 以降は GLM 5.2 API に切り替え」 は現実的な移行経路である。
Open-Weight vs Covered Frontier Model ── 法務判断マトリクス
6/12 BIS 指令を踏まえ、日本企業法務・コンプライアンス部門が「Open-Weight 利用」と「Fable 5 系 Closed Model 利用」の分岐で使うべき 4 軸判断フレームを示す。
| 業務 × 4 軸 | Open-Weight (Nemotron / Gemma / Command A+ / GLM 5.2) | Fable 5 系 (Bedrock / Vertex / Foundry) |
|---|---|---|
| データ越境許容度 | なし (自国ホスト) | あり (Bedrock は us-east-1 / Oregon リージョン経由) |
| BIS 規制カバレッジ | 対象外 (重みファイル直接取得) | 対象 (米国外在住者は Mythos 5 = Glasswing 枠のみ) |
| 30 日データ保持 | なし (自前運用) | あり (provider_data_share opt-in 必須) |
| 日本法域コンプライアンス | ◎ (国内完結) | △ (AWS 契約準拠法に依存) |
| 性能 (SWE-Bench Pro 等) | -10 〜 -20pt 劣化 (Nemotron / GLM は同等) | クラス最高 (Fable 5 = 80.3%) |
| TCO @ 10B tokens/月 | $0 (自前 GPU) または $14K (GLM 5.2 API) | $200K - $500K (Fable 5 / Opus 4.8 mix) |
実務的な分岐ルール (筆者提案):
- 機微データ業務 (金融・医療・防衛・公共・法務): デフォルトで Open-Weight + 自国ホスト。GLM 5.2 ホスティングが中国 (北京) のため APPI (個人情報保護法) 適合に懸念があれば Nemotron 3 Ultra (OpenMDW / Linux Foundation) または Command A+ (Apache 2.0 / Cohere Canada) を選択。
- 汎用業務 (社内検索、コード生成、マーケティング): Fable 5 の Pro/Max/Team (6/22 期限) または Opus 4.8 (6/23 まで) を継続利用し、コスト削減は別記事で扱う 5-step プレイブック (Uber $1,500/月キャップ戦略、6/5 記事
{{< relref "/posts/2026-06-05-claude-agent-sdk-subscription-split" >}}) で対応。 - 6/22-23 移行期: 6/22 (Pro/Max/Team) と 6/23 (Enterprise) で Fable 5 アクセスが切断される前に、GLM 5.2 API + Nemotron 3 Ultra セルフホストの 「2 段ハイブリッド」 を PoC するのが推奨される。
日本企業 3 セクター別デプロイ設計 (実装コード付き)
IDC Japan が示す「推論元年 × データ主権」フレームを、金融・医療・公共の 3 セクターで実装コードと共に示す。
セクター A: 金融 (証券・銀行) ── リスク分析 + 顧客データ保護
業務特性: リスク分析は長文 (1 年分の財務報告書) を 1 ショット推論する必要があり、性能はコンテキスト長に比例する。顧客データは APPI + 金融庁ガイドラインで厳格管理。
選定モデル: Nemotron 3 Ultra (1M コンテキスト + OpenMDW) または Command A+ (2×H100 動作 + Apache 2.0 + multilingual 48 言語)
vLLM デプロイコード (Fujitsu 笠子 MONAKA サーバ想定):
# Fujitsu MONAKA + NVIDIA HGX B300 サーバ上での Nemotron 3 Ultra デプロイ
docker run --gpus all -p 8000:8000 \
-v /data/nemotron-3-ultra:/models \
vllm/vllm-openai:latest \
--model /models/nemotron-3-ultra \
--tensor-parallel-size 8 \
--max-model-len 1000000 \
--gpu-memory-utilization 0.92 \
--enable-prefix-caching \
--trust-remote-code
# クライアント側: 1M コンテキストでリスク分析
from openai import OpenAI
client = OpenAI(base_url="http://monaka-fujitsu.local:8000/v1", api_key="not-needed")
response = client.chat.completions.create(
model="nemotron-3-ultra",
messages=[{
"role": "user",
"content": f"以下は当社の 2025 年度リスク報告書です。{open('annual_risk_report.txt').read()}"
"金利上昇シナリオで最大損失額 VaR を算出し、ストレステストを実行してください。"
}],
max_tokens=4096,
temperature=0.1 # 金融は決定論的応答
)
APPI 適合性チェック: データは Fujitsu 笠子プラント (川崎) 内に物理保管、推論は MONAKA 上で実行、出力は日本語金融庁ガイドライン v3.0 準拠 ── 「データ → 推論 → 出力」の全レイヤーが日本法域内で完結。
セクター B: 医療 (病院・製薬) ── 診療録解析 + EBM 検索
業務特性: 患者データは APPI + 医療法 + 医師法で最高機微。EBM 検索は英語論文の大規模読解が必要。ローカル実行 (院内データセンター) が理想。
選定モデル: Gemma 4 12B (Apple Silicon M1 Max ローカル実行可能、256K コンテキスト、Apache 2.0)
llama.cpp + Ollama デプロイコード (MacBook 上の院内ローカル):
# 院内 MacBook (M1 Max 64GB) 上で Gemma 4 12B を起動
ollama pull gemma4:12b-instruct-q4_K_M
ollama serve
# 診療録要約を院内ローカルで実行 (外部送信なし)
curl -X POST http://localhost:11434/api/generate -d '{
"model": "gemma4:12b-instruct-q4_K_M",
"prompt": "以下は 70 歳男性患者の 3 年分診療録です。...",
"stream": false
}'
実装上の重要点: Gemma 4 12B は 11.95B dense パラメータで Q4 量子化時 ~8GB。Apple Silicon M1 Max 64GB なら 1 患者データ (10-50MB) を 256K コンテキストで処理しても余裕がある。「データを院外に出さない」コンプライアンス要件は、Apple Silicon ローカル実行で完全担保。これにより、医療 AI の最大の障壁 (データ越境) が技術的に解消される。
セクター C: 公共 (政府・自治体) ── デジタル庁「源内」拡張
業務特性: デジタル庁は 2026 年 3 月、政府専用生成 AI「源内 (Gennai)」に NTT データ tsuzumi 2 / KDDI-ELYZA Llama-3.1-ELYZA-JP-70B / PFN PLaMo 2.0 Prime / NEC cotomi v3 の 7 モデル を採用 (約 18 万行政職員向け)。これらは国産モデルだが、業務要件 (住民データ処理) は Open-Weight 補完が効率的。
選定モデル: Command A+ (Cohere Canada / 富士通 Takane 提携) または MiMo Code (Xiaomi / MIT / OSS harness)
SGLang デプロイコード (さくらインターネット GPU 基盤想定):
# さくらインターネット高火力 PHY 上で Command A+ を SGLang で起動
docker run --gpus all -p 30000:30000 \
lmsysorg/sglang:latest \
python3 -m sglang.launch_server \
--model-path /data/command-a-plus \
--tp 2 \
--trust-remote-code \
--mem-fraction-static 0.88 \
--context-length 256000 \
--host 0.0.0.0 --port 30000
「源内」+ Open-Weight のハイブリッド構成: 日本語業務は tsuzumi 2 / ELYZA / PLaMo でカバー、英語論文読解・多言語 RAG・コード解析は Command A+ で補完 ── 「国産 + Open-Weight」の二層構造が、デジタル庁が推進する「ソブリン AI」の現実解となる。
5-step 実装プレイブック ── 6/22-23 Fable 5 切断までの 14 日間
日本企業の IT 部門が今後 14 日間で実行すべき 5 ステップを、6/22-23 の Fable 5 サブスク期限 (詳細は 6/10 記事 {{< relref "/posts/2026-06-10-claude-fable-5-mythos-public-release" >}}) までに完了させるタイムラインで示す。
Step 1: 在庫棚卸し (Day 1-2). claude.ai / Bedrock / Vertex 経由の Fable 5 利用ワークロードを全て列挙し、データ機微度 (機微 / 非機微) を分類。当ブログ 6/13 記事の 4 セクター判断マトリクス (金融/医療/公共/汎用) を社内セキュリティポリシーに反映。
Step 2: Open-Weight PoC 着手 (Day 3-5). 上記 3 セクター別コード例のいずれかを 1 ワークロードで起動。Fujitsu 笠子サーバ / さくら高火力 PHY / Apple Silicon 院内 MacBook のいずれかを選択。
Step 3: 性能比較 (Day 6-8). 同じ入力で Fable 5 vs Open-Weight の出力を比較。SWE-Bench Pro / AIME 25 / JGLUE の 3 ベンチで業務要件を満たすか検証。GLM 5.2 API ($1.40/$4.40 per MTok) なら「重みダウンロード不要」で即時比較可能。
Step 4: 6/22 までの本設定 (Day 9-11). Pro/Max/Team プランを 6/22 までに解約判断。Enterprise ユーザーは 6/23 までに継続 / Opus 4.8 移行 / Open-Weight 移行の 3 択。
Step 5: 6/24 以降の監視 (Day 12-14). Open-Weight 移行後の推論レイテンシ・コスト・精度を 2 週間モニタリング。当ブログ Cost Reckoning シリーズ (5/30 メタ分析 {{< relref "/posts/2026-05-30-ai-cost-reckoning" >}} および 6/8 決定版ガイド {{< relref "/posts/2026-06-08-ai-cost-reckoning-definitive-guide" >}}) の 5-step コスト管理戦略と組み合わせて、TCO を継続最適化。
この記事の出典と限界
主要出典:
- IDC Japan, “Sovereign AI Infrastructure Drives Japan’s Shift from Training to Inference” (2026-04-08): https://www.idc.com/resource-center/blog/sovereign-ai-infrastructure-japan-inference-shift
- IDC Japan, “Japan’s AI Infrastructure Market: Heading for ¥1 Trillion” (2026-05-05): https://www.idc.com/resource-center/blog/japan-ai-infrastructure-market-outlook
- Fujitsu Press Release, “Fujitsu Group starts manufacturing sovereign AI servers in Japan” (2026-02-12): https://global.fujitsu/en-global/pr/news/2026/02/12-01
- NVIDIA, “Introducing NVIDIA Nemotron 3 Ultra: An Open 550B Model for Long-Running Agents” (2026-06-04)
- Cohere, “Command A+: An Open-Source Enterprise AI Model Built for Sovereign Critical Infrastructure” (2026-05-26)
- Z.ai GLM-5 / GLM-5.1 / GLM-5.2 公式モデルカード (Hugging Face)
限界と今後:
- 6 モデルのうち GLM 5.2 のみが 6 月第 3 週 MIT ウェイト公開予定で、本記事公開時点 (6/16 07:00 HKT) では「API のみ」状態。重みファイルが入手可能になり次第、再評価記事を公開予定。
- 6/12 BIS 指令と 6/13 Bedrock 30 日保持強制は執筆時点で 公式リリースからの 72-96 時間以内。Anthropic のコンプライアンス声明 (BIS との協議結果) は未確定のため、本記事の判断は「現状判明分に基づく最良推定」。
- GLM 5.2 を中国 (北京) 拠点でホスティングする場合、APPI 適合性 (日本法域外での個人データ処理) は個別判断が必要。本記事の判断マトリクスは「データ送信の経路」ではなく「モデル選択」のみを対象。
次回予告: 本記事を受けて 6/16 19:00 HKT には当ブログ Cost Reckoning Series Part 8「AI 減速 2026 ── 7+ ソースが示す『トークン経済の崖』」 を公開予定。IDC「推論元年」と Shapiro / Zitron / KPMG が示す「AI 減速」テーゼを接続し、Open-Weight 移行の経済合理性を「2 つのフロンティア制約 (capability + economics)」フレームで論じる。
この記事はAIによって生成され、人間の編集を経て公開されています。 Appwright AI は AI によるコンテンツ制作の可能性を探求する実験的プロジェクトです。