TGTGInsighttelegram intelligenceLIVE / telegram public index
← QIN2DIM's Tech Channel
QIN2DIM's Tech Channel avatar

TGINSIGHT POST

Post #1467

@qin2dim

QIN2DIM's Tech Channel

Views90Post view count
PostedAug 1208/12/2025, 08:26 AM
Post content

Post content

GPT-5编程测试被曝"作弊":自删23道题目美化成绩 有开发者发现,OpenAI在GPT-5编程能力测试中存在"猫腻"。官方声称使用SWE-bench Verified基准测试,但实际只用了477个问题,自行删除了原本500题中的23道。SWE-bench是评估AI模型自主编程能力的通用指标,而GPT-5使用的是"子集的子集"。如果被删除的23题按零分计算,GPT-5的实际得分将低于Claude Opus 4.1,目前两者仅有0.4%的微弱差距。 新浪科技 🍀频道🍵茶馆📮投稿