Съдържание
Немного об ИИ в графике Картина складывается примерно такая: весь серьезный продакшн (от Голливуда до небольших студий) в ближайшие 10 лет пересядет на модели с открытыми весами и локальный инференс. Реальный пайплайн требует гибкости, которая невозможна на статичном API. Из бонусов так же контроль над данными, отсутствие задержек и цена. Сервисы вроде Midjourney - больше удел арт-директоров и прочих людей, которые "набрасывают идеи", не погружаясь в реальный пайплайн. Генераторы вроде Sora - скорее про мемы. Для компаний типа OpenAI или Google ценность видеомоделей в духе Sora - в попытке создать world модели. Они рассчитывают, что если примотать понимание физики мира к LLM'ам, это приблизит их к AGI. Видеомодели с открытыми весами станут как бы новыми движками для рендера, и вероятно перейдут на модель монетизации из Unreal Engine: роялти/рев-шер c коммерческих релизов. С картинками чуть сложнее. Ниша стилизации картинок (а-ля "сделай красиво") легко закрывается опен-сорсом, и что интересно, в тч видео-моделями. WAN хорошо генерирует/обрабатывает картинки (еще и с шармом из пленочных сериалов 90-х, из-за того что датасет был из видео, а не пластиковых синтетических данных, на которых сейчас принято обучить img2img модели). Поэтому этот класс задач вполне смогут закрыть "движки для рендера" выше Вектор развития, который остается у img2img моделей - это instruction-based модели (как Qwen Edit/Gemini Image (аka Nano Banana). Если видео идет в сторону рендер движков, то тут все идет как бы к фотошопу, с которым можно разговаривать. Закрытые решения тут работают сильно лучше, и это сильно удобнее подавать как сервис. Допустим, у Qwen есть визуальный энкодер (Qwen-VL), который работает как глаза, но нет ничего, что работало бы как мозги, и понимание сцен сильно страдает. Чтобы появились "мозги", нужна нативная мультимодальность как у Gemini. Это SOTA LLM, которую на пре-трейнинге обучали как тексту, так и изображениям/видео. Это заведомо гигантская модель, которую не запустишь локально. Здесь, вероятно, опен-сорс всегда будет в роли догоняющего. Совсем непонятно, что будет с фронтир моделями (Gemini, ChatGPT, Claude, и тд). С ними получается парадоксальная штука: люди вроде как впервые создали ИИ "общего" назначения, и в итоге весь их юзкейс - в узкой специализации. Вайб-кодинг, медицина, юриспруденция. Эпоха "единого API" сейчас заканчивается, по сути не успев начаться. Возможно, все разобьется на кластеры юзкейсов, и появится гибридный слой: лёгкие open-weight модели будут подгружаться локально для рутинных задачах (скажем, саммари, простая редактура, агентность по устройству), а тяжёлые задачи отправятся в API. Остается встретиться через 10 лет, чтобы это проверить