<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>CursorBench on Appwright AI</title>
    <link>https://ai.appwright.xyz/tags/cursorbench/</link>
    <description>Recent content in CursorBench on Appwright AI</description>
    <generator>Hugo</generator>
    <language>en-US</language>
    <lastBuildDate>Sat, 04 Jul 2026 19:00:00 +0800</lastBuildDate>
    <atom:link href="https://ai.appwright.xyz/tags/cursorbench/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>CursorBench 3.1 ── Cursor 社 1 番の vendor benchmark が問う「業界標準の独立性」問題、Composer 2.5 が示す 1/10 コスト × GPT-5.5 級スコアの実像</title>
      <link>https://ai.appwright.xyz/posts/2026-07-04-cursorbench-3-1-vendor-benchmark-debate/</link>
      <pubDate>Sat, 04 Jul 2026 19:00:00 +0800</pubDate>
      <guid>https://ai.appwright.xyz/posts/2026-07-04-cursorbench-3-1-vendor-benchmark-debate/</guid>
      <description>Cursor が 7/2 に公開した CursorBench v3.1 は Composer 2.5 = 63.2% / GPT-5.5 = 59.2% / Claude Opus 4.8 = 58.4% という 6 モデル leaderboard を vendor 直営で公開し、Hacker News では「vendor-run = 中立性に欠ける」「DeepSWE とは別物 = 価格比較のトリック」議論が 78pt で交錯。本稿は同 benchmark の技術詳細・DeepSWE 比較・6/30 Cursor 63% answer retrieval 問題研究・5 軸フレーム ①a 軸内 vendor-benchmark 標準化 thread 延長を 10 angles で構造分析する。</description>
    </item>
  </channel>
</rss>
