Post content
Отличная статья, где автор в деталях разбирает, на что уходит время во время инференса трансформеров. Если хочется понять все подробно, то можно на несколько часов уйти с головой. Рассказ строится вокруг Flops vs Memory boundness (которые зависят от модели, железа, формата инференса) и ситуаций, когда инференс упирается либо в одно, либо в другое. Автор разбирает разные ситуации (например, использование KV cache, Tensor/Pipeline parallelism, разный размер batch_size) и показывает, как и что меняется в зависимости от разных настроек. Плюс к этому дает некоторый фреймворк, по которому можно прикинуть суммарную latency LLM. Сказал бы, что статья далеко не простая, но если вы занимаетесь деплоем LLM, то советую посмотреть. В конце есть вопросы, чтобы проверить себя 💃