Post #364

@ml_baldini

ML Baldini • Nikita Boyandin

Görüntülemeler1,170Gönderi görüntüleme sayısı

Yayınlandı2 Şub02.02.2026 15:08

İçerik

Gönderi içeriği

Квантизация LLM(Часть 2) 3️⃣ GPTQ (обобщенное постобучающее квантование) GPTQ - это усовершенствованная техника постобработки данных, разработанная для достижения точности, близкой к точности QAT, с использованием только калибровочных данных. Она работает послойно, итеративно квантуя веса одного слоя и корректируя оставшиеся веса для компенсации ошибки квантования. Основная идея основана на решении задачи послойной реконструкции. Она направлена на поиск квантованных весов которые минимизируют разницу между выходными данными квантованного слоя и исходного слоя FP32, используя входные активации из калибровочного набора: GPTQ использует информацию второго порядка (приблизительную матрицу Гессе) для более эффективного решения этой задачи оптимизации, чем более простые методы, что позволяет добиться точного квантования до 3 или 4 бит. 4️⃣ AWQ (квантование весов с учетом активации) AWQ - это ещё один сложный метод постобработки с квантизацией, который учитывает, что не все веса одинаково чувствительны к квантизации. Он показывает, что веса, связанные с большими значениями активации, оказывают непропорционально большое влияние на выходные данные модели. Квантизация этих «значимых» весов может привести к значительному снижению точности. Подход AWQ заключается в выявлении этих важных весовых коэффициентов путем анализа масштабов активации в калибровочном наборе данных. Затем он избирательно сохраняет точность этих важных весовых коэффициентов, применяя масштабирующий коэффициент для каждого канала. Это масштабирование эффективно уменьшает диапазон квантования для несущественных весовых коэффициентов, позволяя более точно представить существенные весовые коэффициенты в рамках ограниченного битового бюджета. 5️⃣ SpQR SpQR выводит сжатие на новый уровень, сочетая квантование с разреженностью. Он учитывает, что LLM-модели часто содержат сильно влияющие «выбросы» в своих весах или активациях, которые трудно точно квантовать с помощью стандартных методов. Агрессивное квантование этих выбросов может серьезно ухудшить производительность модели. SpQR решает эту проблему, выявляя выбросы (значения с большими значениями) и сохраняя их в формате с более высокой точностью (например, FP16), но используя разреженное представление. Оставшиеся, более многочисленные значения, не являющиеся выбросами, затем могут быть квантованы гораздо более агрессивно (например, до 3 или 4 бит) с минимальным влиянием. Этот гибридный подход направлен на достижение высоких коэффициентов сжатия за счет использования как разреженности (хранение только важных выбросов), так и низкобитного квантования (для основной части весов). Он требует тщательного управления разреженным форматом во время вывода, но может обеспечить значительное уменьшение размера модели при сохранении точности. Полезные ссылки 1️⃣ Базовое понимание от HugginFace про квантизацию и квантизацию LLM 2️⃣Крутая статья на Хабре 3️⃣Ну и статья на английском про все виды квантизации