Содржина на објавата
HuMo Есть такая open-source модель от ByteDance, умеет управлять живыми персонажами сразу по трем каналам: текст, изображение и аудио. И синхронно контролировать позу, эмоции, содержание и лип-синк. На выходе ролики до 1080p при 30/60 fps с устойчивым обликом героя в разных ракурсах и сценах; можно генерировать как портреты, так и динамичные сюжеты с несколькими людьми. Липсинк и мимика идут вровень с озвучкой. Подходит для говорящих голов, рекламы и обучения, коротких креативов и танцевальных сцен, сейчас демо ограничены ~8 секундами, но обещают расширение. Репозиторий открыт на Hugging Face под Apache 2.0, есть готовые workflow для ComfyUI; внутри визуальный генератор на базе Wan2.1 и аудио-энкодер на Whisper, крупная конфигурация до 17B параметров. Если хочется управляемых персонажей без ручной анимации, то самое время попробовать. HG #videoGenerative@TochkiNadAI