🚀 Emu3.5 - новая масштабная мультимодальная world-модель
Это World-модель, работающая сразу с двумя потоками - текстом и пикселями и предсказывающая их совместное состояние на каждом шаге.
- 🔥 Обучена на 10T+ чередующихся vision-language токенов и доведена RL - в результате модель демонстрирует сильное мультимодальное рассуждение и генерация
- ⚡ Новый подход DiDA (Discrete Diffusion Adaptation) —- Discrete Diffusion Adaptation переводит последовательное декодирование в параллельное двустороннее «денойзинг»-предсказание в дискретном пространстве токенов - в итоге это дает примерно 20× быстрее инференс без потери качества.
По метрикам модель превосходит Nano Banana в генерации, редактировании и интерливинговых задачах.
🟠Попробовать: Emu3.5: https://emu.world
🟠Github: https://github.com/baaivision/Emu3.5
@ai_machinelearning_big_data
#Emu3#MultimodalAI#WorldModel#NextTokenPrediction
🚀 Emu3.5 - новая масштабная мультимодальная world-модель
Это World-модель, работающая сразу с двумя потоками - текстом и пикселями и предсказывающая их совместное состояние на каждом шаге.
- 🔥 Обучена на 10T+ чередующихся vision-language токенов и доведена RL - в результате модель демонстрирует сильное мультимодальное рассуждение и генерация
- ⚡ Новый подход DiDA (Discrete Diffusion Adaptation) —- Discrete Diffusion Adaptation переводит последовательное декодирование в параллельное двустороннее «денойзинг»-предсказание в дискретном пространстве токенов - в итоге это дает примерно 20× быстрее инференс без потери качества.
По метрикам модель превосходит Nano Banana в генерации, редактировании и интерливинговых задачах.
🟠Попробовать: Emu3.5: https://emu.world
🟠Github: https://github.com/baaivision/Emu3.5
@ai_machinelearning_big_data
#Emu3#MultimodalAI#WorldModel#NextTokenPrediction
🎮 Matrix-Game 2.0 — первая опенсорс модель, которая генерирует интерактивные 3D-миры из текста в реальном времени
Неделю назад DeepMind показала Genie 3, но код не был выложен в открытый доступ.
А сегодня Skywork выложили свой генератор
Matrix-Game 2.0 миров в опенсорс 🚀
Возможности:
🟢25 кадров/с в реальном времени
🟢Генерирует минуты непрерывного геймплея
🟢Полная интерактивность: движение, повороты, исследование мира
Можно использовать несколько встроенных шаблонов: город, дикая природа, TempleRun, GTA и др.
Зачем это нужно:
🟠Создание игровых движков
🟠Тренировка AI-агентов
🟠Создание виртуальных персонажей
Заявленые требования: GPU с памятью не менее 24 ГБ (A100 и H100 протестированы).
Как работает:
• Обучена на 1350 часах видео геймлея
• Управление: движок реагирует на нажатия клавиш и движение мыши на каждом кадре
• Модель: 1,3 млрд параметров
• KV-Cache хранит контекст, чтобы окружение генерировалось без ограничений по времени
🟡Huggingface Model: https://huggingface.co/Skywork/Matrix-Game-2.0
🟡 Repo: https://matrix-game-v2.github.io
@ai_machinelearning_big_data
#AI#MatrixGame#OpenSource#DeepLearning#GameDev#InteractiveAI#WorldModel#GenerativeAI#RealtimeAI#MachineLearning