TGTGInsighttelegram intelligenceLIVE / telegram public index
Post content
Post content
Говорят ли вам о чем-то слова GGML, GGUF, GPTQ, AWQ? За последнее время появился целый ряд форматов для того, чтобы инференсить LLM с ограниченными ресурсами, будь то CPU или GPU. Наткнулся на обзор, где совсем верхнеуровнево проходят по определениям и рассказывают про юзкейсы, для ознакомления думаю подойдет. А если интересно чуть подробнее посмотреть на методы квантизации (RTN, AWQ, GPTQ), то есть еще одно видео от того же автора. GPTQ Paper AWQ Paper