🚀🚀🚀HunyuanVideo I2V - новая версия одной из лучших опенсорс моделей преобразования изображения в видео!
Код обучения I2V здесь! 🛩️🛩️🛩️🛩️🛩️🛩️
Китайский зверь с 13B-параметрами.
Единственная модель, которая может сравниться с Runway Gen-3 и Wan 2.1.
Генерации выглядит хорошо!
▪Github: https://github.com/Tencent/HunyuanVideo-I2V
▪HF: https://huggingface.co/tencent/HunyuanVideo-I2V
@ai_machinelearning_big_data
#Imagetovideo#diffusionmodels#videogeneration#imagetovideo#generation
⚡️LongCat-Video 13.6И - мощная open-source модель для генерации видео.
Модель поддерживает:
- Текст в видео (Text-to-Video)
- Оживлять картинку (Image-to-Video)
- Продолжать существующее видео (Video Continuation)
Всё в одном фреймворке, без переключения между разными моделями.
🎬Главное преимущество модели - способность генерировать длинные видео (минуты) без потери качества и цветового дрейфа, что до сих пор остаётся слабым местом большинства аналогов.
Еще из интересного, модель позволяет создавать видео в разрешении 720p при 30 кадрах/с.
🏆 LongCat-Video конкурирует с лучшими open-source решениями и даже некоторыми коммерческими моделями, особенно в согласованности текста и изображения.
Самое приятное - полный open-source под лицензией MIT, можно использовать как в исследованиях, так и в коммерческих проектах.
▪GitHub: https://github.com/meituan-longcat/LongCat-Video
▪Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Video
▪Сайт проекта: https://meituan-longcat.github.io/LongCat-Video/
@ai_machinelearning_big_data
#LongCatVideo#TextToVideo#ImageToVideo#VideoContinuation#OpenSource#AI#GenerativeAI#VideoGeneration
🔥Превращаем фото в видео: продвинутая формула
Продолжаем делиться секретами создания впечатляющих анимаций! Сегодня разберем продвинутую формулу, которая добавит вашим роликам глубины и эмоций.
Продвинутая формула:
Динамичное видео = Главный объект + Действие + Движение камеры + Атмосфера + Эмоции
Пример промта:
The couple smiles warmly at camera, then man gently presents a spring flower bouquet to woman, camera slowly moves closer, soft spring sunlight streams through window creating warm glow.
Пара тепло улыбается в камеру, затем мужчина нежно дарит женщине весенний букет цветов, камера медленно приближается, мягкий весенний солнечный свет струится через окно, создавая теплое сияние.
Советы для идеальной анимации:
🔵Используйте детальные описания, но не перегружайте
🔵Экспериментируйте с движением камеры (zoom in/out, pan left/right)
🔵Добавьте атмосферные элементы (sparks, glow, fog, light rays)
🔵Укажите скорость движения (slowly, rapidly, gradually)
Как использовать этот инструмент уже писали в посте.
Попробуй оживить свои фотографии с помощью этой формулы в Minimax и поделись результатами в комментариях! 👇
#creativelab@gptunnel#imagetovideo@gptunnel#minimax@gptunnel
🔥Превращаем фото в видео: базовая формула
Рассказываем простой рецепт создания динамичных роликов из статичных фотографий с помощью модели Minimax.
Базовая формула:
Динамичное видео = Главный объект + Действие/Изменение
Пример промта:
The woman in red sparkly dress looks at the camera, then elegantly turns her head to the side
Результат анимации по этому запросу во вложении ☝️
Рекомендации:
• Чётко определите основной объект
• Опишите конкретное действие
• Не перегружайте деталями
В следующем посте поделимся продвинутой формулой для создания более сложных анимаций😉
#creativelab@gptunnel#imagetovideo@gptunnel#minimax@gptunnel
🪄Оживляем изображения в GPTunneL!
Мы добавили новый инструмент в Креатив.Лаб: загрузите фотографию, опишите желаемое движение или эффект — и получите динамичный ролик длительностью до 6 секунд.
Как использовать инструмент? Смотри видео📹
Результат генерации из видео в комментариях 👇
UPD: Добавили возможность не прописывать запрос. Теперь можно просто загрузить фото и запустить процесс генерации.
#creativelab@gptunnel#imagetovideo@gptunnel#minimax@gptunnel
💡 Исследователи из ByteDance и Stanford предложили новый метод для генерации длинных видео — Mixture of Contexts.
🔑 В чём проблема:
Когда видео становится длинным, внимание модели сильно «раздувается»: растёт стоимость вычислений, модель теряет детали на генерациях, забывает персонажей и «дрейфует».
⚡ Чем интересен Mixture of Contexts:
- Видео разбивается на куски (кадры, шоты, подписи).
- Каждый запрос выбирает только нужные чанки, вместо того чтобы учитывать всю историю.
- Для этого используется простая оценка релевантности: сравнение признаков чанков с текущим запросом.
- Обязательно учитываются два «якоря»: полный текстовый промпт и локальный шот для деталей видео.
- Causal mask блокирует внимание к будущим кадрам, чтобы не было зацикливаний.
- Дальше применяется Flash Attention только к выбранным чанкам — вычисления растут не с длиной всего видео, а только с полезным контекстом.
📊 Результаты:
- В 7 раз меньше FLOPs
- В 2.2 раза быстрее работа
- На длинных сценах (180k токенов) отсекается 85% ненужного внимания
🎥 Итог:
- Короткие клипы сохраняют качество
- Длинные сцены становятся более плавными, а персонажи — стабильными
- Время генерации заметно сокращается
Главное: модель учится сама понимать, на что смотреть, получая «память» на минуты видео без изменения базовой архитектуры.
🟠Подробнее
@ai_machinelearning_big_data
#AI#ML#ByteDance#Stanford#videogeneration
🎥 Новинка от ByteDance: модель Video-As-Prompt Wan2.1-14B
ByteDance выпустила модель Wan2.1-14B, специализирующуюся на задаче *video-as-prompt*, то есть использование видео или комбинации изображений и текста как входных данных для генерации нового видео.
- Работает в режимах «видео → видео» или «изображения/текст → видео».
- 14 млрд параметров — высокая детализация, плавная динамика, реалистичные движения.
- Использует исходное видео как шаблон стиля и композиции.
⚠️ Что стоит учитывать
- Модель требует мощных GPU и большого объёма памяти.
- Качество результата зависит от сложности запроса и длины видео.
🟠Github: https://github.com/bytedance/Video-As-Prompt
🟠HF: https://huggingface.co/ByteDance/Video-As-Prompt-Wan2.1-14B
@ai_machinelearning_big_data
#AI#VideoGeneration#ByteDance#Wan2#HuggingFace
✨HuMo : еще один релиз от ByteDance
Модель, ориентированная на создание видео, где главным элементом является человек, с контролем через разные модальности: текст, изображения, аудио.
> на входи модель может принимать: текст + изображение, текст + аудио, текст + аудио
> поддержка сохранения образа персонажа и синхронизации движений с аудио
> модель основана на **Wan 2.1** и Whisper Large v3
https://huggingface.co/bytedance-research/HuMo
@ai_machinelearning_big_data
#AI#ByteDance#HuMo#VideoGeneration#Multimoda