Post #2887

@phygitalcreative

PHYGITAL+CREATIVE

Viżjonijiet190Għadd ta' viżjonijiet

IppubblikatMej 202/05/2023 11:58

Kontenut

Kontenut tal-post

Немного за Дип Флойд IF Большинство юзеров, избалованных Civitai или Midjourney бросились тестировать DF, ожидая конец-глазам-качества, ибо в некоторых тележках пишут, что это "лучшая text-to-image модель на сегодняшний день". Однако. Обнаружили. 1. Генерация картинки на локальной машинке занимает около минуты-двух на картинку 1024px. 2. Нужно как минимум 3090, чтобы упихать модель в память GPU. 3. Веса на диске будут занимать почти 35 гиг. 4. Никакого порно и NSFW - по крайней мере без хаков и пританцовок. 5. Ну и самое главное - качество оказалось ну ... такое. И все такие, эт как? А вот так: 1. Это параллельный исследовательский проект от Stability AI. https://stability.ai/blog/deepfloyd-if-text-to-image-model Его выпуск можно скорее сравнить в релизом Stable Diffusion 1.0. О чем и пишет Мостак в Твитторе. it is a research only release - https://twitter.com/EMostaque/status/1652295961404645376 После сбора фидбека и дальнейшей разработки воспоследует public release. 2. Крутизна в том, что это по-прежнему open source и что на базе новой архитектуры будут разрастаться новые проекты. В треде у Мостака есть интригующие фразы. "У нас также есть команда GAN, которую мы расширяем. Это research release, мы строим собственные модели и исследуем различные архитектуры с разными командами, поскольку никто не знает, что будет оптимальным." "Эта модель архитектуры отличается от стабильной диффузии и других архитектур, которые мы имеем, и является дико расширяемой. В этом и заключается преимущество каскадных моделей, почему бы не использовать сильные стороны каждого типа модели. I этап IF, II этап Stable Diffusion, III этап GAN Я сомневаюсь, что кто-то будет использовать какие-либо из этих моделей в следующем году." То есть все это демонстрация процесса разработки будущих архитектур, которые обещают быть реальным next gen. 3. Тесты, по которым IF обзывают лучшей моделью базируются на MS-COCO FID, что является типа немного сферической вакуумной метрикой и мало соотносится с эстетической стороной генерируемых картинок, и, грубо говоря, не про красоту. См мои картинки ниже. 4. Тренировали на усеченном, дико прочищеном (примерно в пять раз) датасете LAION-A. Поэтому ждать красоты, порноты, селебов с художниками в обнику не приходится. Это тестовый релиз, не прод, разминка мышц. 5. Про fine tuning ничего не пишут, только обозначают эти вопросы в блоге (киньте в меня про это, я ничего не нашел) 6. "В качестве новой модели мы первоначально выпускаем DeepFloyd IF под исследовательской лицензией" 7. Из интересного, moving away from latent diffusion models back to pixel-level diffusion models - насколько я понимаю своим скудным умом, это путь DALLE-2. Неясно почему. В латентном пространстве было больше мистики и смыслов. В общем, ждем. P.S. Для генерации текста на картинках есть клавиатура и иллюстратор. Это, конечно, фишка, но тоже больше исследовательская. Проброс в соседнюю поляну с LLM.