Удобный сервис для генерации команд ffmpeg.
➡️https://alfg.dev/ffmpeg-commander/
Отлично подходит для изучения ffmpeg и для быстрых набросков команды.
А так же, на заметку, python-обертка
#tools#libs
И еще отличная новость.
AudioCraft, AudioLDM 2 и некоторые другие нейросетки можно установить локольно к себе на компьютер в один клик через специальный браузер Pinokio.
Устанавливаете браузер, нажимаете кнопку Discover и выбираете из доступных нейросетей.
❗️Имейте ввиду, что при установке нейросетей браузер скачает увесистые файлы, для AudioLDM 2 это 8+ Гб
Скачать Pinokio
Статья от автора устновщика на английском с инструкцией и примерами
#text2music#text2audio#tools
🌟ACE-Step v1.5: обновление локального генератора музыки.
Ace Studio в коллабе со StepFun обновили генератор музыки ACE-Step до версии 1.5.
Порог входа уронили до минимума: младшая модель требует меньше 6 ГБ видеопамяти, а, в зависимости от настроек think mode, генерация может занять от 2 до 10 секунд - это уже уровень коммерческих решений.
Разработчики собрали гибрид из языковой модели, которая превращает промпт в чертеж композиции: расписывает структуру, придумывает лирику и метаданные и DiT, который отвечает за звук. Логическое ядро всей этой системы базируется на Qwen3.
ACE-Step v1.5 может генерировать треки длиной от 10 секунд до 10 минут, причем до 8 штук одновременно. В базе больше 1000 инструментов, а тексты песен система понимает на 50 языках.
Авторы подготовили целый набор моделей под разный объем VRAM:
🟢Меньше 6 ГБ: без LM-модуля, работает только звуковой движок.
🟢6–12 ГБ: облегченная версия LM (0.6B).
🟢16 ГБ и выше: полноценная модель на 4 млрд. параметров, которая лучше всего понимает контекст и выдает максимум качества.
При запуске, ACE-Step v1.5 автоматически выбирает подходящую под железо модель и параметры. Подробную информацию по конфигурациям можно найти тут.
ACE-Step умеет гораздо больше, чем просто превращать текст в мелодию. Можно дать ей пример аудио, чтобы скопировать стиль, делать каверы, исправлять куски уже готовых треков или генерировать аккомпанемент к вокалу.
Самая интересная функция - возможность создавать LoRA. Чтобы скормить модели свой стиль, достаточно всего 8 треков. На 30-й серии RTX с 12 ГБ памяти этот процесс займет около часа.
С деплоем все в порядке, разработчики подготовили портабельную сборку, а для ComfyUI уже написали все необходимые ноды и воркфлоу.
📌Лицензирование: MIT License.
🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Demo
🟡Сообщество в Discord
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#Text2Music#AceStudio#StepFun