Post content
Возвращаюсь с ICLR и хочу поделиться одним наблюдением, которое мне показалось интересным. Из множества разговоров с авторами и просто ребятами, делающими ресерч, вижу такой паттерн: очень большое кол-во работ и текущих исследований направлено в сторону lossy inference optimization. Под lossy имею в виду методы, которые не гарантируют сохранения качества исходной модели – то есть такого же распределения токенов. В целом вообще никаких гарантий нет: глобально мы хотим ускорить/сэкономить на памяти и не просадить качество. На другой стороне есть lossless подходы. Примеры для понимания: • Lossless: speculative decoding – мы на уровне алгоритма гарантируем, что токены получены из такого же распределения, что и большая target модель. • Lossy: routing в более слабые модели, когда нам кажется, что они справятся +- так же. Так вот, направление lossy – это большая кроличья нора: speculative decoding с ослабленными условиями верификации, компрессия KV cache, merging экспертов в MoE, всякие early exits во время forward pass, разного рода квантизации – в общем, там есть, куда разгуляться. При этом многие, занимающиеся подобными направлениями, одновременно много времени уделяют гранулярным эвалам: раз все эти методы не гарантируют сохранения качества, нужно супер детально понимать, где и когда качество падает сильно. И это тоже на самом деле нетривиальная задача. По ощущениям, эта связка становится очень большим направлением современного инференса – когда за скорость и цену приходится бороться с минимальными деградациями.