Kontenut tal-post
👾 Мы DeepFloyd (Research AI Lab at StabilityAI) зарелизили лучшую Text-to-Image модель DeepFloyd IF DeepFloyd IF это новая каскадная диффузионная модель основанная на идеи Imagen от Google: — Текст кодируется T5 XXL v1.1 — Далее интерпретируется в пиксели через IF-I-XL (4.3B UNet), генерирующий изображения в 64х64 — IF-II-L (1.2B кастомный Optimal UNet) апскелит изображения 64х64 в 256х256, используя T5 — Для финальной картинки в 1024х1024, благодаря модульному подходу, можно использовать IF-III-L (пока не опенсорснут) или Stable x4 Благодаря тому, что: — Модель параметризирована сильнее чем GLIDE, DALL-E 2, Imagen, eDiff-I: 2B против 4.3B у DeepFloyd IF — Апскейлеры больше и имеют более оптимальную архитектуру в сравнение с Image и DALL-E 2 🏆 DeepFloyd IF выбивает Zero-Shot COCO@30K SOTA, тем самым являсь лучшей Text-to-Image моделью не только в опен-сорсе, но и вообще! 💻Сайт лабы DeepFloyd 🤖Страница нейроки DeepFloyd IF 👽DeepFloyd Дискорд 🖥GitHub 🤗HuggingFace 👾 Генерить тут: Demo 👈