Post #1467

@qin2dim

QIN2DIM's Tech Channel

Views90Post view count

PostedAug 1208/12/2025, 08:26 AM

Post content

GPT-5编程测试被曝"作弊"：自删23道题目美化成绩有开发者发现，OpenAI在GPT-5编程能力测试中存在"猫腻"。官方声称使用SWE-bench Verified基准测试，但实际只用了477个问题，自行删除了原本500题中的23道。SWE-bench是评估AI模型自主编程能力的通用指标，而GPT-5使用的是"子集的子集"。如果被删除的23题按零分计算，GPT-5的实际得分将低于Claude Opus 4.1，目前两者仅有0.4%的微弱差距。新浪科技 🍀频道🍵茶馆📮投稿