TGTGInsightаналитика telegramLIVE / telegram public index
Содержимое поста
Содержимое
Уже в курсоре - пробую сейчас прямо google gemini 2.5 pro от 5 июня HLE: 18.8 -> 17.8 -> 21.6 🟢 GPQA: 84.0 -> 83.0 -> 86.4 🟢 AIME: 86.7 -> 83.0 -> 88.0 🟢 LiveCodeBench: 69.0 (новый, так что несравним) Aider: 68.6 -> 72.7 -> 82.2 🟢 SWE-Verified: 63.8 -> 63.2 -> 59.6 (wtf, верифаед надо верифицировать, у гугла странные подсчёты постоянно меняются) 🔴 SimpleQA: 52.9 -> 50.8 -> 54.0 🟢 MMMU: 81.7 -> 79.6 -> 82.0 🟢