Post #316

@deep_school

DeepSchool

Просмотры4,790Количество просмотров

Опубликован16 мар.16.03.2024, 10:32

Содержимое поста

Содержимое

ModelSoups: варим суп из моделей Если вы когда-нибудь участвовали в хакатоне или пытались повысить качество продуктового решения — скорее всего, вы уже сталкивались с усреднением предсказаний нейронных сетей. Но что делать, если мы хотим улучшить точность решения, не потратив при этом дополнительного времени на инференс нескольких моделей? Ответ есть: усреднение весов моделей, а не их выходов. В 2022 году вышла статья, поймавшая тогда большой хайп: “Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time”. Авторы показали, как можно из нескольких моделей получить одну — лучшую по качеству модель за счет усреднения весов. В нашей статье мы подробно разобрали теорию и результаты, чтобы вы могли применять этот подход в своих задачах 🙂 Сегодня мы рассмотрим: - Model Soups подход к усреднению весов модели и его результаты - теорию подхода, а также границы применимости и сопутствующие требования - применение подхода в СV и NLP направлениях Читайте новую статью по ссылке: https://www.notion.so/deepschool-pro/ModelSoups-2a26f819d3964a61ac7bdde0e48897c8?pvs=4