Съдържание
Вот вам немного происходящего в мире нейросетей Пару месяцев назад случилось два важных события: Stability.ai выпустили провальную Stable Diffusion 3, а Black Forest Labs выпустили Flux, крайне успешную модель. Причем, Black Forest Labs - бывшая команда разработчиков оригинального Stable Diffusion. Это команда, которая изобрела технологию Latent diffusion, команда тогда была в CompVis и RunwayML. Позже они сколлаборировались с LAION и Eleuther, и создали Stable Diffusion вместе со Stability.ai. После чего по неизвестным причинам порвали со Stability.ai связь. Вкратце, таков лор нейросетей Теперь места поменялись: Stability.ai попытались выпустить новую версию Stable Diffusion 3.0 без разработчиков из Black Forest, провалились, и стали резко терять лидирующие позиции на рынке. Казалось, что компания идет к банкротству, а Black Forest Labs напротив, захватит рынок генеративных моделей. Но прямо сейчас позиции вновь меняются: Оказалось, что Flux слишком плохо поддается обучению. Разработчики выпустили в публичный доступ лишь дистиллированные версии - Flux Dev и Flux Schnell, а Pro с оригинальными весами осталась в закрытом доступе. Дистилированные модели хороши при инференсе (генерации изображений), но не подходят для обучения, попытка обучить модель на дистиллированных весах быстро приводит к деградации модели. Это главный фактор, определяющий будущий успех моделей, Парадигма публичных генеративных моделей всегда была следующей: разработчики публикуют "неплохую" модель, а сообщество дообучает ее по своим нуждам (..аниме персонажи и порнография), до действительно хорошей. Flux уже изначально была хорошей моделью, и казалось, что следом за SD 1.5 и SD XL, она станет следующим любимчиком сообщества, получив дополнительный скачок от кастомных моделей на её основе. Но дистилляция не позволила создать на её основе полноценные файнтюны, и у нас так и осталась лишь изначальная модель. Другая проблема дистилляции в схлопывании разнообразия - в какой-то момент люди заметили, что модель генерирует одинаковые лица с одинаковыми чертами. Это проблема именно дистиллированных версий, которой нет у Pro версии. Кстати (на правах выпендрежа), я исправил эту проблему с помощью Лоры. Она работает с помощью негативных весов (это круто). Я так же исправил проблемы Flux с фокусировкой, моя AntiBlur Lora - самая популярная модель на основе Flux (более полумиллиона скачиваний в HuggingFace). Теперь я рок-звезда от мира нейросетей Однако похоже, что без полноценных файнтюнов, этих исправлений недостаточно, и вскоре Flux уступит другим моделям. Как раз сегодня Stability опубликовали в открытый доступ существенно улучшенную Stable Diffusion 3.5. Она не дистиллирована, имеет более свободную лицензию, и не сильно уступает Flux в качестве. Стол снова перевернут, что круто, нынешняя ситуация похожа на сегмент LLM рынка, где новые state-of-the-art модели появляются каждую неделю