TGTGInsightаналитика telegramLIVE / telegram public index
← DeepSchool
DeepSchool avatar

TGINSIGHT POST

Post #556

@deep_school

DeepSchool

Просмотры5,330Количество просмотров
Опубликован11 июл.11.07.2025, 13:24
Содержимое поста

Содержимое

Как LLM научились слышать? В одной из предыдущих статей мы разобрали, какие подходы научили LLM понимать изображения и 3D-сцены. В новой статье мы поговорим о добавлении в LLM новой модальности — аудио. От идеи представления звука мел-спектрограммой до генерации музыки по текстовому описанию. Абонусомстанет краткий разбор анализа видео с помощью LLM — задачи, где нужно синхронизировать визуальные и аудиодорожки. Читайте новую статью по ссылке!