80年の難問がAIによって解決された

2026年5月20日、OpenAIは1つの歴史的な発表を行った。同社の汎用推論モデル(general-purpose reasoning model)が、ポール・エルデシュが1946年に提起した単位距離問題(planar unit distance problem)を自律的に解決したのだ。エルデシュ自身が特に好んだ問題の1つであり、80年にわたって数学者たちを悩ませてきた難問である。

今回の成果が特に重要なのは、汎用推論LLM(数学専用システムではない)が達成した点にある。推定ではGPT-5.6が使用され、32時間未満、計算コスト1,000ドル未満でこの偉業を成し遂げた。

フィールズ賞受賞者のTimothy Gowers氏:

「単位距離問題の解決は、AI数学におけるマイルストーンである。もし人間が書いていたら、ためらわず受理を推奨しただろう。これまでのどのAI生成証明もこのレベルには達していない。」

本記事では、この画期的成果の数学的意味、AIが用いたアプローチ、そしてAIエンジニアにとっての示唆を解説する。

単位距離問題とは何か

問題の定義

単位距離問題は一見シンプルだ:

平面上に$n$個の点を配置したとき、距離がちょうど1となるペアの最大数$u(n)$はいくつか?

簡単なPythonコードでこの問題を視覚化できる。直線配置では高々 $n-1$ ペアだが、格子状に点を配置するとより多くの単位距離ペアが生まれる。エルデシュの元の構成はガウス整数 $a+bi$ を用いたもので、約80年間この下界は改善されなかった。

80年間の進展の歴史

年度 発見
1946 Erdős、下界: $n^{1 + c/\log\log n}$(ガウス整数グリッド)
1984 Spencer, Szemerédi, Trotter、上界: $O(n^{4/3})$
2026.5.20 OpenAIモデル、下界を$n^{1+\delta}$に改善
2026.5.21 Will Sawin、$\delta = 0.014$を証明

上界は1984年以来変わっていない。下界は80年ぶりに改善された。

AIはどのように証明を発見したか

証明の戦略

最も驚くべき点は、幾何の問題に代数的整数論の高度なツールが使われたことだ。

伝統的なアプローチはガウス整数 $a+bi$ を用いたグリッド構成だった。AIはこれをより複雑な代数体に置き換え、その代数体がより豊かな対称性(より多くの単元)を持つことを示した。鍵となったのは無限類体塔Golod–Shafarevich理論で、これは代数的整数論の概念が初めてユークリッド幾何に応用された事例である。

チェーン・オブ・ソートと「Page 39の瞬間」

モデルは約125ページに及ぶ推論(chain-of-thought)を生成した。数学者のArul Shankar氏は、このCoTを次のように分析している:

「思考の大部分は反例を構成しようとする試みだった。これはモデルが優れた直感を持ち、コミュニティが諦めたアプローチを試みる意欲を持ち、構成を試みる素養を持っていることを示している。」

特に注目されたのが、いわゆる**「Page 39の瞬間」**——推論の途中で、モデルが代数的整数論と組合せ幾何の接点を「発見」した場面だ。これは人間の数学者が数十年かけて築いてきた分野間の橋渡しを、AIが自律的に行った瞬間と言える。

なぜ汎用モデルであることが重要か

数学特化システムとの決定的な違い

今回の成果を際立たせているのは、このモデルが数学研究のために特別に訓練されたものではないという点だ。

過去のAI数学マイルストーンとの比較:

マイルストーン システム タイプ 自律性
2025 IMO Gold AlphaProof 数学専用(Lean証明アシスタント) 問題文が与えられた
2026年1月: Erdős #728 GPT-5.2 汎用LLM 部分的自律(人間の誘導あり)
2026年2月: Erdős #1196 GPT-5.4 Pro 汎用LLM 80分で解決(人間による問題選択)
2026年5月: 単位距離問題 GPT-5.6(推定) 汎用LLM 高度に自律的(AI自身が問題を解釈)

OpenAIは明確に述べている:「これは汎用モデルであり、特定の数学問題を解くために訓練されたものではない。ドメイン固有の数学システムやスキャフォールドされたソルバーでもない。」

証明の検証と数学界の反応

外部数学者による検証

OpenAIの発表に際して、外部の数学者チームが証明の検証を行い、コンパニオンペーパー(companion remarks paper)を公開している。参加メンバーは以下の通り:

  • Noga Alon(Princeton):組合せ数学の第一人者
  • Thomas Bloom(erdosproblems.com運営者)
  • Timothy Gowers(Fields Medalist)
  • Arul Shankar(数論学者)
  • Jacob Tsimerman(Toronto大)
  • Will Sawin(Princeton)— すでに下界を $n^{1.014}$ に改善

Noga Alon氏のコメント:

「これはエルデシュが特に好んだ問題の1つだ。OpenAIの社内モデルによる解決は、私の見解では傑出した業績である。正解が $n^{1+o(1)}$ ではないという事実は驚きであり、その構成と分析は代数的整数論の高度なツールをエレガントかつ巧妙に応用している。」

Jacob Tsimerman氏(自身もこの問題に取り組んだ経験がある):

「これは本当に印象的な仕事だ。私も実際にこの問題に取り組み、反例を作ろうとしたが進展しなかった。何が起きているのか理解している人でも、この構成を読み通すのは恐ろしいほど難しい。」

公平な評価と課題

今回の成果は画期的だが、以下の課題も残る。

  1. 自律性の限界:問題の選択と結果の検証は人間が行っている。真の自律的数学研究にはまだ遠い。
  2. 形式検証の不在:証明はLeanなどのアシスタントで形式化されていない。
  3. 成功率の低さ:モデルがこの問題に成功した確率は高くなく、実行時間増加とともに成功率が向上したことが示唆されている。

AIエンジニアにとっての意味

推論能力のスケーリングが実証された

今回の最大の教訓は、テスト時計算(test-time compute)のスケーリングが現実の科学的発見につながる点だ。32時間・1,000ドル未満で80年未解決の問題が解決された。AIコーディングエージェントへの示唆も大きい:推論モデルが長時間にわたる一貫した思考を維持でき、複数分野の知識を接続でき、人間が諦めたアプローチも試せる。

実用的な影響

現在、多くのAIコーディングエージェント(Claude Code、Cursor、GitHub Copilot等)は短期的なコード生成に特化している。しかし、今回の成果は推論モデルが長期的な問題解決(ソフトウェアアーキテクチャ設計、大規模リファクタリング、複雑なデバッグ)にも応用可能であることを示唆している。

このアプローチの核心は、**「間違った方向に進んだとき、自分で気づいて方向転換できる」**点にある。これは現在のコード生成エージェントが最も苦手とする領域であり、今回の成果はこの「自己修正能力」が科学研究レベルに達したことを示している。

まとめ:AI研究能力の新時代

今回の成果が示すのは、汎用推論モデルが単なるコード生成や質問応答を超えて、科学的発見の領域に足を踏み入れたということだ。

示唆 詳細
AIの研究能力 汎用LLMが専門分野で独創的な貢献が可能に
コスト効率 $1,000未満で80年未解決の問題を解決
分野横断 代数的整数論と幾何の接続をAIが自律的に発見
残された課題 形式検証、問題選択の自動化、成功率の向上
エンジニアへの示唆 長期推論・分野横断思考できるAIエージェントが現実味を帯びてきた

Gil Kalai氏(Hebrew University)が指摘するように、この成果は1976年の四色定理(Appel & Haken)と同様の科学的ランドマークであり、その重要性は組合せ数学や数学そのものを超える。

Thomas Bloom氏(erdosproblems.com運営者)の言葉を借りれば:

「AIは私たちが何世紀もかけて築いてきた数学の大聖堂を、より完全に探検する手助けをしている。他にどんな未知の驚異が待っているのだろうか。」

今日AIエンジニアに求められているのは、推論モデルの能力がどこまで伸びるのかを冷静に見極めながら、長期思考と分野横断を活用した新しい開発手法の可能性を模索することだ。


この記事はAIによって生成され、人間の編集を経て公開されています。 Appwright AI は AI によるコンテンツ制作の可能性を探求する実験的プロジェクトです。