Содержимое
Наконец-то завезли настоящую омнимодальность в GPT-4o! Теперь изображения генерируются самой моделью 4o, а не проксируются через DALL-E "под капотом", как раньше. Всё, как и обещали в 2024, но теперь оно реально работает. Что появилось: – Генерация изображения по промпту, с учётом всех нюансов (цвета, стиль, размер, композиция, до 10–20 объектов в сцене). – Отлично рендерит текст внутри изображений — можно делать меню, постеры, мемы, обложки и всё такое. – Поддерживает пошаговое улучшение — можно уточнять запрос и получать новые итерации. – Умеет удалять фон, менять стиль, добавлять/убирать объекты — почти как текстовый Photoshop. – Можно загружать свои картинки и дорабатывать их — всё происходит в контексте чата, модель “помнит”, что ты делал до этого. Немного деталей: GPT-4o обучалась на совместном распределении изображений и текста — то есть она понимает не только, как описывать картинки, но и как визуальные элементы связаны друг с другом. Это даёт ей эффект визуальной беглости — модель осмысленно работает с символами, схемами, композициями. Плюс, OpenAI закатили агрессивный посттренинг, чтобы повысить точность и связность. В итоге: 4o понимает, что рисует, не путается в деталях и может использовать свои знания для генерации полезных визуальных материалов, а не только «красивых картинок». Не всё конечно идеально: – Медленно — до минуты на одну генерацию (но оно того стоит). – Фотореализма как у Midjourney пока нет, в демо всё было скорее стилизованным. – Сложно даются мелкие надписи, графики и тексты на не-латинице — могут быть косяки. Доступ: – Уже доступно всем в ChatGPT — Plus, Pro, Team, даже Free. – В API обещают завезти на следующей неделе. – Генерация по умолчанию включена, ничего настраивать не нужно. – DALL-E по-прежнему доступен через отдельный GPT, если прям хочется (но я не понял где это искать или видимо нужно просить в запросе использовать DALL-E) В сети уже огромное кол-во примеров с генерацией, поэтому не буду ничего постить, пробуйте сами (увлекательное занятие). Официальная новость с кучей примеров: https://openai.com/index/introducing-4o-image-generation/ ИИволюция