Andrej KarpathyがAnthropicに合流:RSIへの布石、プレトレーニング革命、人材戦争の決着
Karpathy、Anthropicへ—AI業界最大の電撃人事 2026年5月19日、Andrej Karpathyが自身のXアカウントでAnthropicへの参加を発表した。OpenAIの11人の共同創業者の一人であり、TeslaのAIディレクターを歴任し、「Vibe Coding」の名付け親としても知られるKarpathyは、AI業界で最も影響力のある研究者の一人だ。彼のXポストは18.7Mビューを記録し、Hacker Newsでは1,205ポイント、499コメントが集まった。 KarpathyはAnthropicのプレトレーニングチームに加わり、Nick Joseph(Anthropicプレトレーニング責任者、元OpenAI)の下で「Claudeを使ってプレトレーニング研究を加速する」チームを立ち上げる。これは単なる人材の移動ではない。Anthropicが**再帰的自己改善(Recursive Self-Improvement, RSI)**への本格的な布石を打った瞬間であり、OpenAIとAnthropicの間で続いてきた人材戦争に一つの区切りがついたことを意味する。 Karpathyとは何者か—3つの顔を持つ異才 Karpathyのキャリアパスを追うと、彼が「AI業界のレジェンド」と呼ばれる理由がわかる。 フェーズ1:アカデミアとOpenAI(2015-2017) スタンフォード大学でFei-Fei Liの下で博士号を取得。CS231n(深層学習とコンピュータビジョン)を共同創設し、業界全体の教育に貢献した。2015年、OpenAIの11人の共同創業者の一人としてAI研究の最前線に立つ。 フェーズ2:Tesla時代(2017-2023) Elon Muskに引き抜かれ、TeslaのAIディレクターとしてAutopilotのコンピュータビジョンチームを統率。自社のデータラベリングパイプラインからニューラルネットワーク学習、カスタム推論チップへのデプロイまで、大規模AIシステムのエンドツーエンドを経験した。 フェーズ3:独立研究者・教育者(2024-2026) OpenAIを再び離れた後はEureka Labsを設立し、AI教育に注力。nanoGPT、microGPTなどの教育用プロジェクトを公開。何より注目すべきは、彼が2026年3月に公開したAutoResearchプロジェクトだ。Karpathyは自身のXで、AutoResearchが自律的に700件のアーキテクチャ変更を実行し、学習効率を11%向上させたと報告している。このプロジェクトの核心は、たった630行のPythonコードで実装された自律研究エージェントが、人間の介入なしに深層学習の実験を回し続ける点にある。 RSIの実態:「Claudeでプレトレーニングを加速する」とは AnthropicがKarpathyに任せようとしているのは、以下のようなループだ: 現在のClaudeモデルに、次世代のトレーニングパイプラインを設計させる Claudeが提案した改善(データミックス比率、学習率スケジュール、アーキテクチャ変更など)を自動テスト 効果のあった改善を本番トレーニングに反映 改善された次世代モデルが、さらに良い改善を提案できるようになる このサイクルが機能すれば、各世代のモデルが次のモデルをわずかに効率化し、その効果が複利的に積み上がる。Anthropicの共同創業者Jack ClarkはImportAIニュースレターで、「2028年末までに人間の介在なしにAI R&Dが自律的に回る確率は60%以上」と述べている。 これがRSI(Recursive Self-Improvement)の実体であり、KarpathyのAutoResearchはこの概念を小規模で実証済みのプロトタイプだ。 AutoResearchの仕組み—コードで見る自律研究ループ KarpathyのAutoResearchのアーキテクチャは驚くほどシンプルだ。以下に概念的な実装を示す: # Karpathy's AutoResearch: 概念的な自律研究ループ def autoresearch_loop(initial_model_code, train_script, max_iterations=100): best_loss = float('inf') best_code = initial_model_code for i in range(max_iterations): # Step 1: AIがコードを分析し、改善案を提案 proposal = claude.analyze_and_propose( current_code=best_code, recent_results=training_history[-5:] ) # Step 2: 提案を適用した実験コードを生成 experiment_code = claude.apply_modifications(best_code, proposal) # Step 3: 5分間のトレーニング実験を実行 result = run_training(experiment_code, train_script) # Step 4: 結果を評価 if result.val_loss < best_loss: best_loss = result.val_loss best_code = experiment_code print(f"Iteration {i}: Found improvement → val_loss: {result.val_loss:.4f}") training_history.append(result) return best_code, best_loss この単純なループが、2日間で276件の実験を自律実行し、29件の有効な改善を発見した。注目すべきは、各イテレーションでClaudeが過去の実験結果の系列を見て次の改善を計画している点だ。これは単なるランダムサーチではなく、経験に基づくメタ学習である。ShopifyのCEO Tobias Lütkeもこの手法を社内データに適用し、37実験で19%の性能向上を報告している。 ...