Post #4093

@startupandtech

🚀 Андрей Артищев

Просмотры32Количество просмотров

Опубликован27 февр.27.02.2025, 20:18

Содержимое поста

Содержимое

ООООЧень краткое объяснение того, почему ризонеры так сильно прокачивают модели, и почему они выигрывают «модели следующего поколения», обученные на в 10-15-20 раз большем количестве мощностей: — увеличение вычислений во время инференса (предсказания) в большинстве своём сопоставимо с увеличением мощностей во время тренировки, однако связь не 1-к-1. Какая она точно — мы не знаем (я не знаю), но например в одной из работ по анализу нейросетей для настольных игр каждые x10 тренировочных мощностей были эквиваленты увеличению мощностей на инференс x15 — то есть можно тренировать и модель меньше, и сама тренировка короче, но использовать много "рассуждений" (инференса), и тогда она будет круче — чем лучше базовая модель, тем очевидно более эффективно расходуются мощности на инференсе — то есть условная o3, построенная на GPT-4o, может генерировать цепочки рассуждений в 50 раз длиннее, что условно равно увеличению мощностей на тренировку в 40 раз (цифры из головы). А поскольку GPT-4.5 тренировалась всего лишь в 15-20 раз больше, то получается, что ризонер на модели прошлого поколения как бы лучше — однако эти цифры перемножаются, и ризонер на основе новой модели <должен быть> существенно лучше. Если модель ошибается реже на каждом шаге, то все мощности будут уходить в правильное русло, а не на исправление ошибок Как итог на примере игры в Го: никто не обучил ОДНУ нейросеть, которая играет на уровне чемпионов мира. Они все хуже. Однако при добавлении времени на перебор (рассуждения) и последовательном многократном применении модели для одного хода качество прыгает до недостижимого человеком уровня — это и отражено на картинке. Больше вот тут в лекции Noam Brown