TGTGInsighttelegram intelligenceLIVE / telegram public index
← AI[ex]Time
AI[ex]Time avatar

TGINSIGHT POST

Post #32

@AIexTime

AI[ex]Time

Views1,020Post view count
PostedOct 1710/17/2023, 07:08 AM
Post content

Post content

Говорят ли вам о чем-то слова GGML, GGUF, GPTQ, AWQ? За последнее время появился целый ряд форматов для того, чтобы инференсить LLM с ограниченными ресурсами, будь то CPU или GPU. Наткнулся на обзор, где совсем верхнеуровнево проходят по определениям и рассказывают про юзкейсы, для ознакомления думаю подойдет. А если интересно чуть подробнее посмотреть на методы квантизации (RTN, AWQ, GPTQ), то есть еще одно видео от того же автора. GPTQ Paper AWQ Paper