SubQ 1M-Preview完全解説:12Mトークンコンテキストを実現した非二次アーキテクチャの衝撃
SubQ 1M-Previewとは 2026年5月5日、マイアミ拠点のAIスタートアップSubquadraticが「SubQ 1M-Preview」を発表した。同社は29Mドルのシード調達を行い、評価額は500Mドルに達する。注目すべきは、このモデルが世界初の完全subquadraticアーキテクチャを採用している点だ。従来のTransformerが抱えるO(n²)の計算量制約を、アーキテクチャレベルで解決したと主張する。 SSA(Subquadratic Sparse Attention)の仕組み SubQの中核技術はSSA(Subquadratic Sparse Attention)である。従来のDense Attentionが全トークンペアを比較するのに対し、SSAはコンテンツ依存の選択的ルーティングを行う。つまり、クエリに対して意味的に重要なトークンのみを動的に選び、そのペアに対してのみ正確なAttentionを計算する。 方式 計算量 特徴 Dense Attention O(n²) 全ペア比較、正確だが非効率 SSA(SubQ) O(n·k) コンテンツ依存の選択、線形に近い FlashAttention O(n²) 実行効率は改善するがスケーリング則は不変 SSAが従来手法と異なるのは、位置ベースの固定パターン(スライディングウィンドウ等)ではなく、意味に基づいてアテンション先を決定する点だ。これにより、12Mトークンの研究段階でAttention計算量を従来比約1,000分の1に削減したとされる。 学習パイプライン SSAの学習は3段階で行われる: Pre-training — 大規模な長文脈データセットでの事前学習 Supervised fine-tuning — 推論・コード生成・指示追従のチューニング Reinforcement learning — 長文脈検索タスクを直接最適化。モデルが「近くの情報にデフォルトする」問題を回避するための設計 ベンチマーク評価:何ができて、何ができないか Subquadraticが公開した第三者検証済みのベンチマークは3つで、いずれも長文脈検索とコーディングに特化している。 SWE-Bench Verified(コード修正能力) モデル スコア Claude Opus 4.7 87.6% SubQ 1M-Preview 81.8% Claude Opus 4.6 80.8% DeepSeek 4.0 Pro 80.0% Gemini 3.1 Pro 80.6% Opus 4.7には及ばないものの、Opus 4.6やDeepSeek 4.0 Proと同等の水準。ただし同社自身「SWE-Benchの差はモデル本体よりもエージェントハーネスの影響が大きい」と認めており、コード能力の優劣を断定するのは早計だ。 RULER 128K(長文脈推論) SubQ: 95.0% vs Claude Opus 4.6: 94.8%。誤差の範囲だが、注目すべきはコスト差だ。SubquadraticはRULER 128Kの実行コストを約**$8と主張。一方Claude Opusでは約$2,600**と試算されている。精度は同等でコストは約300分の1という計算になる。 ...