Z.ai GLM 5.2「完全にオープン」宣言を読み解く:Fable 5 輸出規制の夜に Zhipu が 1M コンテキスト MIT モデルを突きつけた構造的意味
同じ夜に起きた 2 つの出来事
2026 年 6 月 13 日 17:21(北京時間)、Z.ai の創業者 Jie Tang は X へ投稿した。
“GLM-5.2 is Fully Open, Frontier Intelligence Belongs to Everyone. Today, the sudden restriction of certain frontier models is deeply regrettable. At a time when access to frontier models is abruptly cut off for non-technical reasons, we are even more convinced of one thing: science should be global. … The future of AI is open, and it is for the people.”
同じ 6 月 13 日(米国時間)、米商務省 BIS は Amazon CEO Andy Jassy からの報告を受けた Fable 5/Mythos 5 の外国籍アクセス停止指示を Anthropic へ発動し、Anthropic は全顧客に対して両モデルへのアクセスを無効化した(我々は 6 月 14 日の輸出規制記事 (#68) で詳報)。
北京の 17:21 は米国東海岸の朝 5:21。Z.ai は Fable 5 が BIS 指示を受ける「同じ夜」に、1M トークンコンテキスト・MIT ライセンス・6 月第 3 週 ウェイト公開予定のフラッグシップを Coding Plan 全ティア(Lite/Pro/Max/Team)に投入した。偶然ではない。Z.ai は 自身のモデルポジショニングを「Frontier の代替」ではなく「Fable 5 規制への構造的カウンター」 として打ち出している。
何が公開され、何が「来週」なのか
6 月 13 日の Z.ai 公式告知 と Jie Tang の投稿、そして PC Watch 6/13 18:54 配信 (Yahoo! ニュース経由) を突き合わせると、6 月 15 日 19:00 HKT 時点の状況は次の通り。
| アクセス経路 | 状態 | 価格・制限 |
|---|---|---|
| GLM Coding Plan 全ティア (Lite / Pro / Max / Team) | 6/13 17:21(北京時間)より 提供開始 | Lite $8/月, Pro/Max は年払い割引。$20 の Pro / 従量追加 |
| GLM-5.2 API (単発従量制 + 一般向けチャット) | 「来週」(6/16-22)リリース予定 | GLM-5.1 従量 $1.40/$4.40 per MTok(入/出)を基準値として発表予定 |
| Hugging Face MIT ウェイト公開 | 「来週」(6/16-22) | MIT License を正式適用 |
| アーキテクチャ詳細 + ベンチマーク数値 | 未公表 | 「前世代(GLM-5.1)の強さを継承・強化」とのみ |
「来週」が 6 月 16-22 のどこに来るかで、本稿のタイムラインは 2 分岐する。MIT ウェイトが 6/16 早朝に来れば、本稿の続編が翌日の Open-Weight Frontier #3 Japan ハブ記事(6/17 AM 予定)へ直接接続できる。遅くとも 6/22 までに来れば、6/22-23 の Fable 5 サブスクリプション期限記事と並んで「Open-Weight Frontier の 6 月完成形」になる。
GLM-5.2 の 1M トークンコンテキスト は発表済みで、1 回の応答で生成できる出力トークン数は最大 128K(131,072 トークン)。思考モードは High と Max の 2 段階で、Max は複雑なコーディングタスク推奨。
GLM 5 ファミリーの 4 世代系譜
| 世代 | リリース | 特徴 | 主な到達点 |
|---|---|---|---|
| GLM-4.7 | 2025 年 12 月 | ベースライン | 推論 / コーディング性能の前世代 |
| GLM-5 | 2026 年 2 月 11 日 | 744B MoE + DSA(DeepSeek Sparse Attention)初導入 | SWE-bench Verified 77.8 / BrowseComp 62.0(#1)/ Vending Bench 2 $4,432 / Terminal-Bench 2.0 60.7† |
| GLM-5.1 | 2026 年 4 月 | 8 時間連続タスク最適化 + CyberGym +20pt | SWE-Bench Pro 58.4%(GPT-5.4 57.7% / Opus 4.6 57.3% を上回り 1 位)、HuggingFace 82,925 ダウンロード/月 |
| GLM-5.2 | 2026 年 6 月 13 日 | 1M コンテキスト実用化 + High/Max 思考モード | ベンチマーク未発表、6 月第 3 週ウェイト公開 |
わずか 4 カ月で 3 世代。Z.ai のリリースケイデンスは月 1 モデルペースであり、これは「MIT ライセンスで毎月ウェイトを落とす」という Z.ai の「radical openness」戦略と整合する。
アーキテクチャの本質:4 段技術スタック
GLM-5.2 のアーキテクチャは公式に未公表だが、Z.ai は GLM-5.1 までの 4 段技術スタックを 公式ブログ + Hugging Face model card + Lambda の GLM-5.1 技術解説 で全て公開済み。5.2 はそれを「強化」したものなので、5.1 のスタックを整理する。
1. MoE バックボーン:744B 全体 / 40B アクティブ
| 仕様 | GLM-4.5 | GLM-5 | GLM-5.1 |
|---|---|---|---|
| 総パラメータ | 355B | 744B | 744B |
| アクティブ / token | 32B | 40B | 40B |
| プレトレーニング token | 23T | 28.5T | 28.5T+ |
| ルーティング | top-k | 256 experts / top-8 + 1 shared | 同左 |
| 活性化率 | 9.0% | 5.4% | 5.4% |
40B アクティブ / 744B 全体は DeepSeek V3.2(671B/37B) や Qwen 3.5(397B/17B) と同様の「sparse MoE 設計」。実デプロイ時は 40B 分の VRAM で済み、学習時のみ 744B をメモリに載せる。
2. Attention 層:MLA + DSA の二段構成
[Multi-head Latent Attention (MLA)] ← KV キャッシュを latent に圧縮
↓
[DeepSeek Sparse Attention (DSA)] ← 長文脈時に選択的に attend
DSA は DeepSeek が 2024 年に発表した sparse attention 機構で、全層に適用する standard attention に比べ KV キャッシュを 75% 削減 / 推論速度 3 倍 を Z.ai の 4 月 Zhihu 寄稿 で報告している(1M コンテキストを実用にするキーパーツ)。MLA は latent 空間で K/V を圧縮する設計で、KV キャッシュをさらに小さくする。
3. 投機的デコード:Multi-Token Prediction (MTP) ヘッド
Lambda の GLM-5.1 デプロイガイド によれば、MTP ヘッドを speculative decoding に使い、vllm serve 時に --speculative-config.method mtp --speculative-config.num_speculative_tokens 3 で 3 トークン先読み が可能。vLLM 0.19.0+ / SGLang 0.5.10+ / KTransformers 0.5.3+ / Transformers 0.5.4+ / xLLM 0.8.0+ が GLM-5 系を正式サポート。
4. 強化学習:slime フレームワーク
# THUDM/slime: Z.ai 製 asynchronous RL infrastructure
# https://github.com/THUDM/slime
# 学習 throughput を改善し、fine-grained な post-training 反復を可能にする
# vLLM 0.19.0+ で GLM-5.1 を serving する例
vllm serve zai-org/GLM-5 \
--tensor-parallel-size 8 \
--gpu-memory-utilization 0.85 \
--speculative-config.method mtp \
--speculative-config.num_speculative_tokens 3 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-5
Lambda の GLM-5.1 検証では、8×H200 で BF16 フルロード時 1 秒あたり約 200 生成トークン。GLM-5.2 の 1M コンテキストは、これを 128K 出力までスケールする ため、対話型エージェントで 1 ターン 30-60 分のタスクをこなせる。Z.ai の 4 月 Zhihu 寄稿は「Linux デスクトップセットアップ 8 時間連続作業 / VectorDB QPS 6.9 倍 / CUDA Kernel 35.7 倍」を実例として挙げている。
性能ポジショニング:5.1 の到達点を 5.2 はどう超えるか
GLM-5.2 のベンチマーク数値は「来週」公表予定。だが、Z.ai の開発速度と GLM-5.1 の到達点を見れば、5.2 がどこに着地するかは概ね読める。
GLM-5.1 SWE-Bench Pro 58.4%:オープンウェイト世界 1 位(4 月時点)
PC Watch 6/13 18:54 配信 の数値を整理:
“前世代の GLM-5.1 が SWE-Bench Pro で 58.4% を記録して GPT-5.4(57.7%)や Claude Opus 4.6(57.3%)を上回った。オープンウェイトモデルにおける SWE-Bench Pro のスコアは現在、MiniMax M3(59.0%)、Kimi K2.6(58.6%、最新の Kimi K2.7 Code のスコアは未公表)、GLM-5.1(58.4%)が僅差の激戦区 となっており、GLM-5.2 のスコア次第では同シリーズが首位を奪う展開も視野に入る。”
MiniMax M3(59.0%) / Kimi K2.6(58.6%) / GLM-5.1(58.4%) は 0.6pt 以内のデッドヒート。5.2 が +0.6pt でも改善すれば、MiniMax M3 を抜き オープンウェイト SWE-Bench Pro 世界 1 位。
GLM-5 ベンチマークの構造的強み(参考)
| ベンチマーク | GLM-5 | 位置 | 競合 |
|---|---|---|---|
| BrowseComp (web browse 検索) | 62.0 | #1 | Claude Opus 4.5 37.0、GPT-5.2 — |
| BrowseComp w/ Context Mgmt | 75.9 | #1 | Claude Opus 4.5 67.8 |
| τ²-Bench (tool agent) | 89.7 | 2位 | Claude Opus 4.5 91.6(0.019pt 差) |
| MCP-Atlas (MCP ツール使用) | 67.8 | 2位 | GPT-5.2 68.0(0.002pt 差) |
| Terminal-Bench 2.0 Claude Code | 61.1† | #1 | Claude Opus 4.5 57.9 |
| CyberGym (サイバーセキュリティタスク) | 43.2 | 2位 | Claude Opus 4.5 50.6(0.074pt 差) |
| SWE-bench Verified | 77.8 | 3位 | Claude Opus 4.5 80.9、GPT-5.2 80.0 |
| Vending Bench 2 (1 年運用シミュレーション) | $4,432.12 | #1 オープン | Claude Opus 4.5 $4,967.06 に肉薄 |
BrowseComp で Claude Opus 4.5 を 25pt(62.0 vs 37.0) 突き放す のは、Z.ai が slime RL 後に Web エージェント能力を重点強化 したから。GLM-5.2 がこれを 1M コンテキストに拡張すると、「1M トークンの Web 履歴を全量覚えて自律ブラウジングする」 タスクで業界をリードする可能性がある。
価格構造:Fable 5 / Opus 4.8 と何倍違うか
GLM-5.1 の Z.AI Developer Documentation 公式価格:
| ティア | 入力 / 1M token | 出力 / 1M token | キャッシュ |
|---|---|---|---|
| GLM-5.1 | $1.40 | $4.40 | Limited-time Free |
| GLM-5-Turbo | $1.20 | $4.00 | Limited-time Free |
| GLM-4.7-FlashX | $0.07 | $0.01 | Limited-time Free |
これを Fable 5 ($10/$50 per MTok) / Opus 4.8 ($5/$25) と比較する。
| 比較軸 | GLM-5.1 | Fable 5 | Opus 4.8 | Claude Sonnet 4.6 |
|---|---|---|---|---|
| 入力 / 1M | $1.40 | $10.00 | $5.00 | $3.00 |
| 出力 / 1M | $4.40 | $50.00 | $25.00 | $15.00 |
| 出力倍率(対 GLM) | 1× | 11.4× | 5.7× | 3.4× |
| 1M コンテキスト | ✅ ネイティブ | 200K | 200K | 200K |
| 思考モード | High/Max | 別 effort パラメータ | 別 effort パラメータ | 別 effort パラメータ |
| ライセンス | MIT | プロプライエタリ | プロプライエタリ | プロプライエタリ |
Fable 5 の 11.4 倍安い のは、Cost Reckoning Series で論じた「トークン経済の崖」対策の最も大きな一手。1M コンテキストを 1 ターンでフル消費するエージェントループを、GLM-5.1 なら Fable 5 の 1/11 のコスト で回せる。
GLM Coding Plan の月額サブスク構造
Lite : $8/月 ($3/月・年払い時) ← 個人ハッカー層
Pro : $20/月 ← Claude Pro と同水準
Max : $80/月 ← Claude Max 5x ($100) より安い
Team : 組織ライセンス
AICodeKing 6/13 の YouTube 早期アクセス動画によれば、$8/月 Lite で 「Opus 4.8 と Fable 5 から約 6% 下回るだけ」 の 81.43 スコアを計測(同動画内ベンチ、Llama 系の同種スコアと整合的)。月額 $8 でクローズドトップモデルから 6% の性能 は、Cost Reckoning シリーズが指摘する「個人 AI コーディング」の最適解になり得る。
統合エコシステム:20+ IDE/エージェントで動作
Z.ai subscribe ページ によれば、GLM-5.2 は 6/13 リリース時点で 20+ ツールに統合。
# Claude Code 統合(5.1 の例)
# ~/.claude/settings.json
{
"env": {
"ANTHROPIC_BASE_URL": "https://api.z.ai/api/coding/paas/v4",
"ANTHROPIC_AUTH_TOKEN": "<your ZAI_API_KEY>",
"ANTHROPIC_MODEL": "GLM-5.2"
}
}
# npx 経由の自動設定
npx @z_ai/coding-helper
対応 IDE/エージェント(代表):Claude Code / Cursor / Cline / Trae / Kilo Code / OpenClaw / Continue.dev / Codex CLI / Roo Code / Aider / 合計 20+。
我々が 6 月 13 日の MiMo Code V0.1 記事 で詳述した「Open-Weight エージェント構成の Fable 5 代替フレームワーク」に、Claude Code を使うオープンウェイトバックエンドとして GLM-5.2 を直結 する選択肢が加わる。AWS Bedrock の Fable 5 30 日データ保持強制 から逃れる法的・技術的ルートとして最もクリーン。
6 月の Open-Weight Frontier 勢力図
6 月 6 日の Nemotron 3 Ultra 解説 で示した 4 モデル + 6 月の追加 3 モデルで、6 月 15 日時点の Open-Weight Frontier は 6 勢力 になる。
| 勢力 | モデル | 6 月の追加要素 | 日本企業適用 |
|---|---|---|---|
| 米国 NVIDIA | Nemotron 3 Ultra (6/4) | 550B/55B LatentMoE、OpenMDW v1.1 ライセンス | 金融 closed-network 1M |
| 米国 Google | DiffusionGemma 26B-A4B (6/10) | ブロック並列拡散、Apache 2.0 | ローカル効率追求 |
| 米国 Google | Gemma 4 12B (6/3) | マルチモーダル | Apple Silicon |
| 米国 Cohere | Command A+ (5/26) | エンタープライズ | 規制業界 |
| 中国 Xiaomi | MiMo Code V0.1 (6/10) | エージェントハーネス OSS | データ主権 |
| 中国 Xiaomi | MiMo-V2.5-Pro-UltraSpeed (6/8) | 8 GPU で 1000 tok/s | 高速バッチ |
| 中国 Z.ai | GLM-5.2 (6/13) | 1M + MIT + 6 月第 3 週 ウェイト公開 | Coding Plan + 20+ IDE 統合 |
米国勢 4 モデル(Nemotron / DiffusionGemma / Gemma 4 12B / Command A+) と中国勢 3 モデル(MiMo Code / MiMo-UltraSpeed / GLM-5.2) の構図が明確になった。GLM-5.2 が「中国勢の Fable 5 代替」として正式に認知される と、6/16-22 の Open-Weight Frontier #3 Japan ハブ(PM 6/15 evening 推奨)で、Z.ai は Fujitsu / NEC / 産総研 / Sakana のソブリン AI 文脈 と並んで「中国オープンカウンター」のポジションを取る。
6 月 12 日の Fable 5 輸出管理との地政学的対照軸
6 月 12 日に BIS が Fable 5/Mythos 5 の外国籍アクセス停止を指示した瞬間、米国のフロンティア AI 能力は「米国内アクセスに限り利用可能」になった。我々はこの動きを 6 月 14 日の輸出規制記事 で 5 層 Defense-in-Depth の L3 アクセス制限 として整理した(Classifier / 30 日データ保持 / アクセス制限 / Glasswing のみ合法経路)。
Jie Tang の投稿は、L3 アクセス制限に対する直接のカウンター言説 になっている。
“In the face of external blockades and restrictions, our attitude is one of radical openness.”
「外部封鎖と制限に直面して、我々の態度は根本的な開放性である」。これは技術的メッセージではなく 政治的主張。1M コンテキスト + MIT ライセンスを「Fable 5 が失ったものを我々が埋める」と読ませる。
しかし注意が必要:GLM-5.2 も万能ではない。実際に OpenRouter の ZDR(Zero Data Retention)プロバイダを通す場合、米国内リージョンにホスティングされた Z.ai モデルしか ZDR 保証が得られない(2026-06-15 HN 議論より)。Z.ai 公式 API は中国本土(北京)ホスティングで、データ主権上は日本企業の AWS Bedrock Fable 5 データ越境 と類似の懸念がある。「MIT ライセンス=安心」ではない という点を、6/22-23 の Open-Weight Frontier 比較分析 記事では明示する必要がある。
日本企業 6 月の 4 つの選択
| シナリオ | 推奨モデル | 理由 |
|---|---|---|
| 1. Fable 5 緊急代替(外国籍エンジニアがチームにいた) | GLM-5.2 (Coding Plan) + Opus 4.8 | Fable 5 アクセス停止 → Claude Code バックエンド切替(GLM-5.2) + 米国内用 Opus 4.8 併用 |
| 2. 1M コンテキスト分析(契約書 / 規制文書を全量投入) | GLM-5.2 | 200K を超える長文脈は GLM-5.2 のみ(Nemotron 3 Ultra も 1M 対応だが DSA がない) |
| 3. データ主権(機密情報を国外に出せない) | Nemotron 3 Ultra (国内 NVIDIA H200) + Gemma 4 12B (Apple Silicon) | 中国ホスティングの Z.ai は AWS Bedrock 6/13 のような越境問題 のリスクあり |
| 4. 個人開発者・インディーハッカー | GLM Coding Plan Lite $8/月 | $20 の Claude Pro と機能面で競合、Fable 5 従量課金の 1/11 |
6 月 15 日 19:00 HKT 時点で取れる行動:
- Fable 5 を利用中の場合 → 6/5 Agent SDK 分割記事 の Direct API 移行 ROI 比較表に従い Opus 4.8 か GLM-5.2 に切替判断
- MIT ウェイト公開を待つ場合 → 6/16-22 の HF 公開を待つ(本記事 続編を予定)
- 機密データを扱う場合 → 中国ホスティング Z.ai API は使わず、AWS Bedrock の Open-Weight 経由(Nemotron 3 Ultra 経路) を優先
- 1M コンテキストを契約分析に使う場合 → GLM-5.2 Coding Plan Max($80/月)で 1 ターン 128K 出力まで対応
6/22-23 までのスケジュール
| 日時 | イベント | 期待される更新 |
|---|---|---|
| 6/16-22 | GLM-5.2 MIT ウェイト公開(HF) | オープンウェイト ライセンス初の 1M コンテキスト モデル |
| 6/16-19 | API 価格・レート制限の正式公表 | $1.40/$4.40 想定だが、5.2 1M 入力で +50% 上乗せの可能性 |
| 6/17 予定 | 6/16 Open-Weight Frontier #3 Japan ハブ記事 | GLM-5.2 + Nemotron + DiffusionGemma + Gemma 4 + Command A+ + MiMo Code + MiMo UltraSpeed の 7 モデル比較表 |
| 6/22 | Fable 5 Pro/Max/Team サブスク期限 | 6/10 公開記事 の通り、Fable 5 利用者は Opus 4.8 / GLM-5.2 へ |
| 6/23 | Fable 5 Enterprise クレジット期限 | 企業ユーザーの最終移行日 |
本稿の位置付け:6/12 Fable 5 輸出規制 → 6/13 GLM-5.2「同じ夜」の宣言 → 6/16-22 MIT ウェイト公開 → 6/22 Fable 5 切断 の「3 段構造」の 第 2 段目 を記録する記事。続編で第 3 段(6/22-23 Fable 5 切断後の Open-Weight Frontier 業界地図)を描く。
この記事は AI によって生成され、人間の編集を経て公開されています。 Appwright AI は AI によるコンテンツ制作の可能性を探求する実験的プロジェクトです。