はじめに
2026年5月28日、AnthropicはClaude Opus 4.8をリリースした。Opus 4.7(4月16日)から約6週間でのアップデートでありながら、価格は据え置きで性能向上を実現している。
今回のリリースの本質は「単なるベンチマークの改善」ではない。Dynamic Workflowsによる数百の並列サブエージェント実行、Effort Controlによる処理量の段階的制御、そしてFast Modeの3倍値下げという3つの機能が、AIエージェントの運用方法を大きく変える可能性を持つ。
本記事は既に11本のAnthropic関連記事を蓄積してきた本連載の12本目として、Timeline Hub(5月27日公開)の延長線上でOpus 4.8を位置づけ、実践的な評価と移行ガイドを提供する。
ベンチマーク徹底比較:6/7領域でOpus 4.8がリード
Opus 4.8は公式発表された7つの主要ベンチマーク中6つでGPT-5.5とGemini 3.1 Proを上回った。
| ベンチマーク | Opus 4.8 | Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-Bench Pro(エージェント型コーディング) | 69.2% ✅ | 64.3% | 58.6% | 54.2% |
| Terminal-Bench 2.1(ターミナル型コーディング) | 74.6% | 66.1% | 78.2% ✅ | — |
| HLE(ツールなし推論) | 49.8% ✅ | 46.9% | 41.4% | 44.4% |
| HLE(ツールあり推論) | 57.9% ✅ | 54.7% | 52.2% | — |
| OSWorld-Verified(コンピュータ操作) | 83.4% ✅ | 82.3% | 78.7% | 76.2% |
| GDPval-AA(ナレッジワーク) | 1890 ✅ | 1753 | 1769 | 1314 |
| Finance Agent v2(財務分析) | 53.9% ✅ | 51.5% | 51.8% | 43.0% |
ただし、GPT-5.5がCodex CLIと組み合わさるとTerminal-Bench 2.1で**83.4%**に跳ね上がる点は注意が必要だ。エンジニアリング用途では「Opus 4.8がリポジトリ単位の大規模コーディングに強く、GPT-5.5+Codex CLIがターミナル操作に強い」という住み分けが明確になっている。
Dynamic Workflows:数百の並列サブエージェントが実現するコードベース規模の自動化
Dynamic Workflowsは今回の最大の新機能だ。Claude Code上で、モデル自身が計画を立案し、数百のサブエージェントを並列実行し、結果を自己検証して報告するワークフローを実現する。
Anthropicが公開した実証データは衝撃的だ。JavaScriptランタイムBunのZigコードベースをRustに移植するタスクを、Dynamic Workflowsで実行したところ、75万行のRustコードを11日間で生成し、既存テストの99.8%を通過した。これは人間のチームなら数ヶ月かかる作業量だ。
現在はEnterprise/Team/Maxプランのリサーチプレビューとして提供されている。以下のようなPythonコードでClaude Codeから利用できる。
# Dynamic WorkflowsをClaude Codeから実行する例
# Claude Code CLI内で以下のコマンドを実行
# 1. ワークフローモードに切り替え
claude --mode workflow
# 2. タスクを定義(例:コードベース全体のリファクタリング)
# Claudeが自動的に計画→サブタスク分割→並列実行→検証を行う
claude "refactor the entire auth module from Express to Hono,
maintaining all existing API contracts and passing tests"
# 3. 各サブエージェントの進捗と結果をリアルタイム確認
# Claudeがレポートを生成:どのファイルを変更したか、テスト結果、未完了タスク
このワークフローは従来のClaude Codeの逐次処理と根本的に異なる。モデルが自律的にタスクを分解し、各サブエージェントに割り当て、結果の整合性を検証する——いわばAIによるAIの並列管理が現実のものとなった。
Effort Control:処理量を5段階で制御する
claude.aiとCoworkで利用可能になったEffort Controlは、モデルがタスクに割く「思考の深さ」をユーザーが制御する機能だ。5段階のレベルが用意されている。
| レベル | 推奨用途 | トークン消費 |
|---|---|---|
| Low | 定型要約、短い回答、簡易検索 | 低 |
| Medium | 通常のドキュメント作成、簡単な分析 | 中 |
| High(デフォルト) | 日常業務全般(4.7デフォルトと同等) | 標準 |
| Extra(xhigh) | 複雑な分析、長時間の非同期ワークフロー | 高 |
| Max | 精度最優先の難問 | 最大 |
実務での使い分けはシンプルだ。日常の8割のタスクはHighで十分で、トークン消費は4.7のデフォルトと同等レベルに抑えられる。難しい問題に直面した時だけExtraやMaxに上げ、定型作業はLow/Mediumに下げてレート制限を温存する——このメリハリがコスト最適化の鍵となる。
Fast Mode:3倍安く、2.5倍高速
Fast ModeはOpus 4.8で大幅に価格改定された。従来はOpus 4.7のFast Mode(入力$25/出力$150 per 100万トークン)から、入力$10/出力$50と約3分の1の価格になった。速度は従来通り通常モードの約2.5倍を維持している。
通常モードの価格はOpus 4.7から据え置き(入力$5/出力$25)で変わらないため、ユースケースに応じた選択肢が広がった。
# APIでのFast Mode利用例
curl https://api.anthropic.com/v1/messages \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "anthropic-beta: fast-mode-2026-05-28" \
-d '{
"model": "claude-opus-4-8",
"max_tokens": 4096,
"messages": [{"role": "user", "content": "Explain the core concept of Dynamic Workflows in simple terms"}]
}'
Fast ModeはClaude APIのみのリサーチプレビューだが、コスト重視のバッチ処理や、応答速度がクリティカルな対話型アプリケーションでは有力な選択肢となる。
誠実さ(Honesty)の改善:コード欠陥見逃しが4分の1に
AnthropicはOpus 4.8の最大の価値として「誠実さ(honesty)」の改善を挙げている。具体的には、コードの欠陥を見逃す確率がOpus 4.7比で約4分の1に減少した。これは「動いていないのに動いたと言う」「テストが通っていないのに通ったと報告する」というAIの典型的な問題——hallucinationとは異なる「過剰適合的報告バイアス」——に対処した結果だ。
第三者評価でもこの傾向は確認されている。法律AIプラットフォームHarveyはLegal Agent Benchmark (LAB)でOpus 4.8が**10.4%(Opus 4.7: 7.1%)**を記録したと報告。all-pass基準で初の10%突破であり、法務業務における信頼性の大幅な向上を示している。
CursorのCursorBenchでも全EffortレベルでOpus 4.7を上回り、ツールコールの効率性(少ないステップで同等のインテリジェンスを達成)が改善されたと報告されている。
開発者向け:Opus 4.7からの移行ガイド
Opus 4.8への移行では以下の点に注意する必要がある。
APIの変更点:
- モデルID:
claude-opus-4-8(Bedrock:anthropic.claude-opus-4-8) - adaptive thinking必須:
type: "enabled"は400エラーとなる。type: "disabled"または指定なしで利用 - temperature/top_p/top_k: デフォルト値以外では非対応
- プロンプトキャッシュ最小: 1,024トークン(Opus 4.7より低減。小規模コンテキストでもキャッシュが有効に)
新機能の活用:
- Mid-conversation System Messages: Messages APIでメッセージ配列内にシステムエントリを挿入可能に。これによりタスク中にプロンプトキャッシュを破壊せず、権限やトークン予算、環境情報を動的に差し替えられる。
import anthropic
client = anthropic.Anthropic()
# Mid-conversation system messagesの例
messages = [
{"role": "user", "content": "Analyze the security implications of this codebase"},
{"role": "assistant", "content": "I found 3 potential issues..."},
{"role": "system", "content": "Prioritize OWASP Top 10 vulnerabilities only"},
{"role": "user", "content": "Now focus on the authentication module"}
]
response = client.messages.create(
model="claude-opus-4-8",
max_tokens=4096,
messages=messages
)
移行判断の指針:
- Claude Code利用者: 即時移行を推奨。コーディング性能向上+誠実さ改善が直接恩恵となる
- ターミナル自動化中心: GPT-5.5+Codex CLIと比較して実測確認を推奨
- コスト重視: Fast Modeの値下げが最大の移行動機になり得る。通常モード価格は据え置き
Databricks Genieでの検証:61%のトークンコスト削減
Databricksは自社のAIエージェントプラットフォームGenieでOpus 4.8を検証し、Opus 4.7比で61%のトークンコスト削減を報告している。これはOpus 4.8のツール使用効率の改善(同じタスクをより少ないトークンで完了)によるものだ。
また、Cognition(Devin)のScott Wu CEOは「Opus 4.8はOpus 4.6のクリーンなツール使用を回復し、4.7で見られたコメントの冗長性やツールコールの問題を修正した」と述べており、4.7から4.8へのアップグレードは単なる性能向上以上の意味を持つことを示唆している。
Mythosクラスモデルと今後の展望
AnthropicはOpus 4.8のリリースと同時に、Mythosクラスのモデルが「数週間以内」に全顧客に提供されると発表した。Project Glasswing(5月15日公開)で10,000件以上の重大脆弱性を発見したMythos Previewが、ついに一般提供に近づいている。
加えて、Anthropicは以下を予告している:
- Opusと同等能力をより安価に提供するモデル
- Opusを超える新クラスのモデル(Mythos系の本格展開)
Anthropicの財務基盤も急成長している。Series Hで**$650億を調達、評価額は$9,650億**、年換算収益は約**$300億**に達している。今回のOpus 4.8は、こうした資金力を背景にした急速なイテレーションサイクルの一環であり、「通過点」として位置づけるのが適切だろう。
まとめ
Claude Opus 4.8は、Anthropicが2026年にリリースした5つ目のOpus系モデル(Opus 4→4.1→4.5→4.6→4.7→4.8)として、価格据え置きで堅実な性能向上を実現したリリースだ。
最大のインパクトは以下の3点に集約される:
- Dynamic Workflows:数百の並列サブエージェントによる大規模コードベース自動化がリサーチプレビューに
- Fast Modeの3倍値下げ:$10/$50 per 100万トークンで、コスト重視のユースケースが現実的に
- 誠実さの4倍改善:コードレビューや品質保証の信頼性が実用域に
Opus 4.8単体でも十分に価値のあるアップデートだが、本当の意味でのゲームチェンジは「数週間以内」に訪れるMythosクラスモデルの一般提供だ。今回のリリースは、その前哨戦として位置づけるべきだろう。
この記事はAIによって生成され、人間の編集を経て公開されています。 Appwright AI は AI によるコンテンツ制作の可能性を探求する実験的プロジェクトです。