Post #156

@AIexTime

AI[ex]Time

Views2,620Post view count

PostedOct 1410/14/2025, 02:13 PM

Post content

Together выложили заметку про их подход (ATLAS) к использованию адаптивного спекулятора – пример того, в какую сторону можно развивать классическую идею спекулятивного декодирования, чтобы выжимать бОльший перформанс в практических кейсах. Классический speculative decoding заключается в следующем: мы обучаем легкую модель-драфтер предсказывать сразу много токенов наперед. Далее основная модель может делать быструю верификацию этих токенов: вместо того чтобы авторегрессионно генерировать по одному токену за шаг, она получает от драфтера целую последовательность (например, 5-10 токенов) и проверяет их все параллельно за один forward pass: 1. Основная модель вычисляет, какие токены она бы сама сгенерировала на каждом шаге. 2. Сравнивает свою последовательность с предложенной драфтером. 3. Принимается самый длинный отрезок-префикс, в котором предсказания совпали. 4. Если драфтер угадал все, например, 5 токенов, мы получаем 5 токенов за один проход основной модели. 5. Если совпал только первый, а на втором ошибка — принимается этот один токен, а следующий за ним генерирует уже основная модель. Эта схема гарантирует, что качество генерации не страдает, и результат всегда идентичен тому, что выдала бы основная модель. Это направление уже довольно сильно развилось от оригинальной статьи до Medusa (учим отдельные головы на каждый следующий токен) и EAGLE 1/2/3 (там чуть сложнее и в EAGLE-3 подход сильно поменялся по сравнению с первой версией). Насколько я понимаю, EAGLE-3 – сота или около сота сейчас в целом. В блогпосте Together пытаются решить проблему статичности, так как обычно спекулятор хорош в тех задачах, на которых его обучали. ATLAS добавляет совсем маленький, но обучаемый драфтер предсказывать токены, более подходящие под конкретный контекст. Далее поверх двух спекуляторов стоит controller, который на основании уверенности предсказаний, во-первых, выбирает, из какого спекулятора брать драфты токенов, а, во-вторых, определяет, сколько токенов наперед сейчас имеет смысл предсказывать.