Post #11

@AIexTime

AI[ex]Time

Views718Post view count

PostedSep 509/05/2023, 08:15 AM

Post content

Совсем недавно Georgi Gerganov, создатель ggml, показал инференс 34B Llama2 со скоростью >20 токенов в секунду на M2 ultra (а потом и инференс 70B с 15 токенов в секунду). Andrej Karpathy написал в твиттере комментарий, объясняя, за счет чего это работает, советую почитать. Там все те же аспекты, связанные с flops/memory boundness, о которых я писал ранее здесь. Однако, применяется еще один очень интересный трюк - использование второй, быстрой draft модели для генерации предварительной последовательности-кандидата. В процессе инференса основной модели эта последовательность может быть обработана в батчевом режиме, что позволяет пропускать токены, совпадающие с прогнозами draft модели. Этот метод оказывается эффективным по следующим причинам: 1. Обработка батча занимает почти столько же времени, сколько и обработка одного токена (привет, memory bandwidth). 2. Большая часть токенов, предсказанных draft моделью, оказывается верной, так как они легко угадываемы (acceptance rate может быть 80-100%). 3. Если прогнозы draft модели и основной модели различаются, скорость инференса возвращается к исходной.