Post #1760

@ai_volution

ИИволюция 👾

Просмотры3,000Количество просмотров

Опубликован30 мар.30.03.2026, 11:20

Содержимое поста

Содержимое

AGI отменяется На прошлой неделе Дженсен Хуанг на подкасте у Фридмана заявил, что AGI уже здесь. А через день вышел бенчмарк, где все топовые модели мира набрали меньше процента. Какая ирония, тайминг просто идеален! ARC-AGI — это серия бенчмарков, которые пытаются измерить способность разбираться в новом с нуля. Первые две версии были статичными головоломками: вот тебе цветная сетка, вот паттерн, найди правило, примени к новому входу. AI к текущему моменту щёлкает их на раз-два: Opus 4.6 набирает 93% на первой версии, Gemini Deep Think 85% на второй. Казалось, вот-вот догонят людей. И тут 24 марта выходит третья версия. И отодвигает AGI куда подальше! ARC-AGI-3 — это 135 игровых окружений с тысячами уровней. Каждое окружение — отдельная игра, где ты делаешь ход, видишь результат, делаешь следующий, со своей логикой и своими правилами. Никаких инструкций и подсказок не дается. Вообще никаких намёков что вообще считается победой. Агент видит текущее состояние, делает действие, видит что изменилось, и должен сам разобраться в этом и что тут вообще происходит. Результаты: — Gemini 3.1 Pro: 0.37% — GPT-5.4: 0.26% — Claude Opus 4.6: 0.25% — Grok-4.20: 0.00%. Grok набрал ноль! Буквально не понял, что от него хотят. Люди при этом прошли все 135 окружений. Правда, тестировали не случайных прохожих, 500 человек в контролируемых условиях, и за baseline взяли не среднего игрока, а почти лучшего из группы. Плюс оценивают не просто "прошёл / не прошёл", а сколько ходов потратил. Формула жёсткая: если модель тратит в 10 раз больше ходов — ей засчитывают не 10%, а 1%. Так что цифры намеренно драматичные. Но даже без этого усиления — разрыв чудовищный. А самое обидное: пара простых алгоритмов без всяких LLM набрала 6-12%. Против 0.25% у Opus и 0.26% у GPT-5.4. Триллионы параметров проиграли алгоритмам, которые просто методично брутфорсят (перебирают) варианты. 25 игр можно пройти тут. Призовой фонд ARC Prize 2026 аж $2M. Все решения обязаны быть open-source. Дедлайн — 2 ноября. В общем, AGI отменяется. Работаем дальше 😅