2026年、AIモデル価格はどこまで下がったか
2024年のLLM API費用相場は入力トークン100万トークンあたり$15〜30が当たり前だった。2026年5月、その常識は完全に書き換えられている。AnthropicはClaude Opusの価格を67%引き下げ、DeepSeekはV4 Flashを$0.14/Mトークンで提供し、さらにSubQはClaude Opus比1/5のコストを謳う。本記事では、2026年5月時点の主要フロンティアモデルのAPI料金と、実務で使えるコスト最適化手法をまとめる。
2026年5月の主要モデルAPI料金一覧
以下の表は2026年5月15日時点の各社公式発表および第三者検証サイトのデータを基に集計したものだ。
フロンティアモデル(最高性能)
| モデル | 入力 ($/1M tok) | 出力 ($/1M tok) | コンテキスト |
|---|---|---|---|
| GPT-5.5 (OpenAI) | $5.00 | $30.00 | 1M |
| GPT-5.5 Pro (OpenAI) | $30.00 | $180.00 | 1M |
| Claude Opus 4.7 (Anthropic) | $5.00 | $25.00 | 1M |
| Claude Sonnet 4.6 (Anthropic) | $3.00 | $15.00 | 1M |
| Gemini 3.1 Pro (Google) | $2.00 | $12.00 | 1M |
| DeepSeek V4 Pro (DeepSeek) | $1.74 | $3.50 | 1M |
コスパ重視モデル
| モデル | 入力 ($/1M tok) | 出力 ($/1M tok) | コンテキスト |
|---|---|---|---|
| DeepSeek V4 Flash | $0.14 | $0.28 | 1M |
| Claude Haiku 4.5 | $1.00 | $5.00 | 1M |
| Gemini 2.5 Flash | $0.30 | $2.50 | 1M |
| SubQ 1M-Preview (Subquadratic) | ~$1.50 | ~$7.50 | 1M |
料金の変化を理解する
2024年ベースラインと比較すると、同程度の性能を得るためのコストは以下の通り:
| タスク | 2024年 | 2026年 | 削減率 |
|---|---|---|---|
| コードレビュー(500行) | $24.00 | $0.80 | 96.7% |
| 文書要約 | $45.00 | $0.30 | 99.3% |
| メール分類 | $12.00 | $0.08 | 99.3% |
出典:aimagicx.com「The 2026 AI Price War Explained」(May 2026)
知らないと損するコスト最適化テクニック
1. Prompt Cachingを活用する
Anthropicはプロンプトキャッシングで読み取りコストを最大90%削減可能($5→$0.50)。システムプロンプトやコンテキストの共通部分は最初に配置し、キャッシュを効かせる。OpenAIも同様の仕組みを提供しており、キャッシュヒット時は50%割引になる。
2. Batch APIで一律50%オフ
即時応答が不要なバックグラウンド処理(ドキュメント分析、バッチ分類など)では、各社のBatch APIが使える。OpenAI、Anthropicとも一律50%割引。24時間以内のレスポンスが許容されるタスクでは、迷わずBatchを選ぶべきだ。
3. タスクに応じたモデルルーティング
以下の自律ルーティング戦略で、コストを60〜80%削減できる:
軽量タスク(分類・抽出) → Gemini 2.5 Flash ($0.30)
一般タスク(要約・QA) → Claude Haiku 4.5 / DeepSeek V4 Flash ($0.14-1.00)
高度タスク(コード生成・分析) → Claude Sonnet 4.6 / GPT-5 ($1.25-3.00)
最難関タスク(推論・論文執筆) → Claude Opus 4.7 / GPT-5.5 ($5.00-30.00)
4. 出力トークンを意識する
出力は入力の5〜6倍高い。冗長な出力を避けるため、max_tokensを適切に設定し、システムプロンプトで簡潔な回答を指示する。Claude Opus 4.7の出力は約$25/Mトークン。1日100万トークン出力すると、月間で$750になる。
Pythonで実装するコスト見積もりツール
以下のコードで、複数プロバイダ間のコストを横断的に計算できる:
# モデルコスト計算機
models = {
"gpt-5.5": {"input": 5.00, "output": 30.00},
"claude-opus-4.7": {"input": 5.00, "output": 25.00},
"gemini-3.1-pro": {"input": 2.00, "output": 12.00},
"deepseek-v4-flash": {"input": 0.14, "output": 0.28},
}
def estimate_cost(model, input_tokens, output_tokens):
p = models[model]
return (input_tokens * p["input"] + output_tokens * p["output"]) / 1_000_000
# 例:10万トークン入力、2万トークン出力のコスト比較
for model in models:
cost = estimate_cost(model, 100_000, 20_000)
print(f"{model:25s}: ${cost:.4f}")
モデルルーティングの実装例
# タグに基づくモデル選択
ROUTING = {
"classify": "deepseek-v4-flash",
"extract": "deepseek-v4-flash",
"summarize": "claude-haiku-4.5",
"code-gen": "claude-sonnet-4.6",
"reasoning": "gpt-5.5",
"default": "gemini-3.1-pro",
}
def route_task(task_type: str, input_tok: int, output_tok: int):
model = ROUTING.get(task_type, ROUTING["default"])
cost = estimate_cost(model, input_tok, output_tok)
return {"model": model, "cost": cost}
# 実際のユースケース
tasks = [
("classify", 500, 50), # メール分類
("code-gen", 8000, 2000), # コード生成
("reasoning", 15000, 500), # 複雑推論
]
for task_type, inp, out in tasks:
result = route_task(task_type, inp, out)
print(f"{task_type:15s} → {result['model']:20s} ${result['cost']:.4f}")
各モデルの実戦的評価
| モデル | ベンチマーク強み | コスパ評価 | 最適ユースケース |
|---|---|---|---|
| GPT-5.5 | 汎用性能、BrowseComp 84.4% | ⭐⭐⭐ | 高度な推論・コンテンツ生成 |
| Claude Opus 4.7 | SWE-bench 87.6%、コード生成 | ⭐⭐⭐ | ソフトウェア開発・コードレビュー |
| Gemini 3.1 Pro | マルチモーダル、ARC-AGI-2 77.1% | ⭐⭐⭐⭐ | 画像を含む分析・長文脈処理 |
| DeepSeek V4 Flash | コスパ最強、1Mコンテキスト | ⭐⭐⭐⭐⭐ | 高頻度エージェントループ・分類 |
| SubQ 1M-Preview | 長文脈コスト破壊(非公開ベータ) | ⭐⭐⭐⭐ | ドキュメント一括処理(要アクセス申請) |
落とし穴:隠れたコストと注意点
新しいトークナイザの罠
Claude Opus 4.7は新トークナイザを採用しており、同じ固定テキストに対して最大35%多いトークンを生成する。レートカードは変わっていなくても、実質的な請求額が増加する可能性がある。
出力トークンの見落とし
API料金比較サイトは入力価格だけを強調しがちだ。しかし実務では出力トークンが総コストの70〜80%を占める。Claude Opus 4.7の場合、入力$5に対して出力$25(5倍)。必ず入出力比率を考慮した総コストで比較すべきだ。
長文脈の隠れたコスト
Gemini 3.1 Proは200K+トークンの入力時に$4/$18と割増料金が適用される。また、GPT-5.5も272K+トークン以上で$10/$45に跳ね上がる。長文脈タスクにはSubQ($1.50/1Mと推定)のようなアーキテクチャ的に有利な選択肢も検討する価値がある。
まとめ:2026年5月のモデル選び方
2026年のAIエンジニアに求められるのは、「最も賢いモデルを選ぶこと」ではなく、「タスクに最適な価格性能比のモデルを選ぶこと」だ。以下の判断基準を提案する:
- 月間API予算が$1,000未満:DeepSeek V4 Flashをデフォルトに、Claude Sonnet 4.6を必要に応じて使う
- コード生成が主用途:Claude Opus 4.7を軸に、軽量タスクはClaude Haiku 4.5でルーティング
- 長文脈が頻繁に必要:SubQ 1M-Previewのベータに申し込むか、Gemini 3.1 Proで我慢する
- コスト最優先:DeepSeek V4 Flash一択。キャッシュ活用でさらに$0.0028/Mまで下げられる
モデル価格戦争の勝者は、2026年現在もなお進行中だ。次の大きな変化はGoogle I/O(5月19日)でのGemini発表と、SubQの一般提供開始時期だろう。API料金の最新情報はWhatLLM.orgや各社公式ページを定期チェックすることを推奨する。
この記事はAIによって生成され、人間の編集を経て公開されています。 Appwright AI は AI によるコンテンツ制作の可能性を探求する実験的プロジェクトです。