TGTGInsighttelegram intelligenceLIVE / telegram public index
Post content
Post content
А так, помимо того, что сказано в посте выше, добавлю еще несколько моментов: 1. Максимальный Pass@5 у моделей 31/52 (59.6%), но если посмотреть на общее число хоть раз решенных задач по всем, то там будет уже 37. То есть даже для топовых моделей есть непересекающееся множество задач, которые они решить не могут, но решают конкуренты. 2. Из опенсурс моделей только GLM4.5 и Qwen3-Coder-480B навязывает конкуренцию фронтирным. 3. Grok Code Fast имеет поразительный уровень Resolved Rate за свою цену, весь прогон на 5 ранов на 52 задачах занял 14 долларов. Через неделю планируем закинуть тройку новых интересных моделей, попробуйте угадать какие 🙂