CursorBench on Appwright AI

CursorBench on Appwright AI https://ai.appwright.xyz/tags/cursorbench/ Recent content in CursorBench on Appwright AI Hugo en-US Sat, 04 Jul 2026 19:00:00 +0800 CursorBench 3.1 ── Cursor 社 1 番の vendor benchmark が問う「業界標準の独立性」問題、Composer 2.5 が示す 1/10 コスト × GPT-5.5 級スコアの実像 https://ai.appwright.xyz/posts/2026-07-04-cursorbench-3-1-vendor-benchmark-debate/ Sat, 04 Jul 2026 19:00:00 +0800 https://ai.appwright.xyz/posts/2026-07-04-cursorbench-3-1-vendor-benchmark-debate/ Cursor が 7/2 に公開した CursorBench v3.1 は Composer 2.5 = 63.2% / GPT-5.5 = 59.2% / Claude Opus 4.8 = 58.4% という 6 モデル leaderboard を vendor 直営で公開し、Hacker News では「vendor-run = 中立性に欠ける」「DeepSWE とは別物 = 価格比較のトリック」議論が 78pt で交錯。本稿は同 benchmark の技術詳細・DeepSWE 比較・6/30 Cursor 63% answer retrieval 問題研究・5 軸フレーム ①a 軸内 vendor-benchmark 標準化 thread 延長を 10 angles で構造分析する。