TGTGInsightаналитика telegramLIVE / telegram public index
К списку каналов
Machinelearning avatar

TGINSIGHT CHAT

Machinelearning

@ai_machinelearning_big_data

Технологии

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Подписчики31.3万Текущее число подписчиков
Постов1,009Проиндексировано постов
Охват130,300Просмотры последних постов
Последние посты

Последние посты

Тег: #mmlm · 5 постов

当前筛选 #mmlm清除筛选

Опубликован 15 апр.

🌟Audio Flamingo Next: открытая аудио-языковую модель от NVIDIA Audio Flamingo Next (AF-Next) - аудио-языковая модель, обученная на корпусе из 1 млн часов аудио и 108 млн примеров для генерации подробных текстовых описаний аудиозаписей: перечисление инструментов, звуковых событий и музыкальных характеристик того, что звучит на записи. Максимальная длина входного аудио - 30 минут. Релиз закрывает отставание мультимодальных систем в работе со звуком: речью, музыкой и окружающими шумами на длинных записях. 🟡Архитектура собрана из 4-х блоков: 🟢Кодировщик AF-Whisper (128-канальная лог-мел-спектрограмма, окно 25 мс, шаг 10 мс, выход 50 Гц); 🟢Двухслойный MLP-адаптер; 🟢Qwen-2.5-7B с расширенным контекстом 128K токенов; 🟢Потоковый TTS-модуль для голосовых диалогов. Фишка архитектуры - Rotary Time Embeddings: угол поворота токена привязывается к реальной временной метке аудио, что дает модели устойчивое временное рассуждение. 🟡Релиз состоит из 3-х версий AF-Next-Captioner: модель, заточенная под детальное описание аудио. Она генерирует подробные текстовые описания аудиозаписей: перечисляет инструменты, звуковые события, спикеров и музыкальные характеристики того, что звучит на записи, с привязкой к таймкодам. На распознавании инструментов Medley-Solos-DB она набирает 92,13 против 85,80 у Audio Flamingo 2. На музыкальных описаниях SongCaps, где качество оценивает GPT-5, показатели покрытия и корректности выросли с 6,7 и 6,2 у AF3 до 8,8 и 8,9. AF-Next-Instruct: универсальная инструктивная версия, после GRPO для повседневных задач: ответов на вопросы по аудио, голосовых ассистентов, транскрипции речи и перевода. Именно она устанавливает новые планки среди LALM по ASR. WER 1,54 на LibriSpeech. На LongAudioBench 73,9 против 60,4 у закрытой Gemini 2.5 Pro (в варианте с речью разрыв еще больше - 81,2 против 66,2.) AF-Next-Think: ризонинг-версия с Temporal Audio Chain-of-Thought: модель привязывает каждый шаг рассуждения к конкретной временной метке в аудио, что делает ее пригодной для разбора длинных записей, где нужно собирать факты из разных моментов (анализа совещаний, интервью, подкастов, трейлеров и сюжетных аудиоисторий). 75,01 на MMAU-v05.15.25 и 58,7 на более жестком MMAU-Pro, что выше, чем у Gemini-2.5-Pro (57,4). 📌Лицензирование: NVIDIA OneWay Noncommercial License. 🟡Страница проекта 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI#ML#MMLM#Audio#AudioFlamingo#NVIDIA

20,500 views

Опубликован 1 апр.

🌟 Holo3: SOTA-агентная модель для управления десктопными приложениями. Парижский стартап H Company выпустил семейство мультимодальных моделей Holo3, предназначенных для управления графическими интерфейсами. H Company (ранее Holistic AI) публично вышла на рынок в начале 2024 года. Основатели: Шарль Кантор, бывший исследователь Стэнфорда, и Лоран Сифр, ветеран Google DeepMind и один из ключевых участников проекта AlphaGo. Посевной раунд составил $220 млн - один из крупнейших в истории европейского венчура. Среди инвесторов: Эрик Шмидт, Юрий Мильнер, Бернар Арно, Ксавье Ньель, а также Amazon, Samsung и UiPath. 🟡Обе модели семейства на архитектуре Mixture-of-Experts Старшая Holo3-122B-A10B доступна только на платформе H Company по цене 40 центов за миллион входящих и 3 доллара за миллион выходных токенов. Младшая версия Holo3-35B-A3B выложена на Hugging Face под лицензией Apache 2.0 и также доступна бесплатно через Inference API с ограничением в 10 PRM. В платном режиме - 0,25/1.8 доллара за миллион входных/выходных токенов. 🟡Holo3 учили по замкнутому циклу из 3 стадий Сначала по заданным сценариям генерируются синтетические примеры навигации по интерфейсам. Затем данные расширяются за пределы исходных условий, чтобы модель учитывала нестандартные ситуации. На финальном этапе все примеры проходят курируемый отбор и обучение с подкреплением. Для тренировки H Company построила генератор синтетических корпоративных сред, в котором агенты создают веб-приложения по спецификациям сценариев, формируя верифицируемые задачи разной сложности. На базе этих сред разработан H Corporate Benchmarks - набор из 486 многошаговых задач в 4 категориях: электронная коммерция, бизнес-ПО, инструменты совместной работы и межприложенческие сценарии. Последние требуют координации между несколькими системами одновременно (скажем, извлечь цены из PDF, сопоставить их с бюджетами сотрудников и автоматически разослать персонализированные письма с одобрением или отказом). 🟡Тесты Флагманская Holo3-122B-A10B набрала 78,85% на бенчмарке OSWorld-Verified - это лучший результат на ведущем тесте взаимодействия с рабочим столом. 📌Лицензирование: Apache 2.0 License. 🟡Статья 🟡Модель @ai_machinelearning_big_data #AI#ML#MMLM#Holo3#HCompany

26,100 views

Опубликован 27 авг.

🌟MiniCPM-V 4.5: компактная модель, которая бьет гигантов в мультимодальном ИИ. Проект OpenBMB выпустил MiniCPM-V 4.5, мультимодальную модель на основе Qwen3-8B и SigLIP2-400M для распознавания изображений, серий изображений и видео, которая может работать на мобильных устройствах на более чем 30 языках. OpenBMB - некоммерческое подразделение китайской технологической компании ModelBest, под патронажем Университета Цинхуа. Среди инвесторов материнской ModelBest - Habo (Huawei), Primavera Capital Group и государственный Shenzhen Guozhong Venture Capital Management. 🟡Киллер-фича модели - эффективная работа с видео. Благодаря унифицированному 3D-Resampler модель сжимает видео в 96 раз: шесть кадров разрешением 448x448 преобразуются всего в 64 токена, тогда как большинству MLLM для этого потребовалось бы 1536 токенов. Это позволяет обрабатывать видео с частотой кадров до 10 FPS и длинные ролики без роста вычислительных затрат, что подтверждается топовыми результатами на наборах Video-MME, LVBench и MLVU. Архитектура LLaVA-UHD позволяет модели работать с изображениями до 1,8 мегапикселей и любым соотношением сторон, используя в 4 раза меньше визуальных токенов. Модель предлагает гибкий режим работы: быстрый ризонинг для повседневных задач и глубокий для сложных сценариев, переключаемый по требованию. При общем объеме в 8 млрд. параметров, MiniCPM-V 4.5 набирает 77.0 баллов по комплексному бенчу OpenCompass. Этот результат не просто улучшает предыдущие версии, модель превосходит GPT-4o-latest и Gemini-2.0 Pro, обходит открытую Qwen2.5-VL с 72 миллиардами параметров и устанавливает новый стандарт для общего MLLM на OmniDocBench. 🟡С инференсом тоже нет проблем. Доступны варианты для CPU через llama.cpp и ollama, есть квантованные версии в форматах int4, GGUF и AWQ, поддержка бэкендов SGLang и vLLM, возможность дообучения через Transformers и LLaMA-Factory, а также WebUI и оптимизированное iOS-приложение. ▶️ Чтобы было проще разобраться во всех вариантах запуска, разработчики заботливо подготовили подробный cookbook. 📌Лицензирование: MiniCPM Model License. 🟡Модель 🟡Demo 🟡Сообщество в Discord 🖥GitHub @ai_machinelearning_big_data #AI#ML#MMLM#MiniCPM#OpenBMB

29,000 views

Опубликован 8 июл.

🧠 ИИ умеет мыслить стратегически? Новое исследование Oxford и King’s College London поставило перед ИИ-моделями сложную задачу: сыграть тысячи раундов эволюционной версии "Дилеммы заключённого", где важно не просто ответить правильно, а выстроить стратегию в долгую. В эксперименте участвовали флагманские модели от OpenAI, Google и Anthropic. Вот как они себя проявили: 🔹Google Gemini — хладнокровный и расчётливый Не доверяет, первым атакует, наказывает за предательство. Стратег чистой воды. 🔹OpenAI GPT — слишком добрый Склонен к сотрудничеству даже тогда, когда это невыгодно. Хорош в мире, уязвим в конфликте. 🔹Anthropic Claude — гибкий и адаптивный Умеет прощать, но делает выводы на основе опыта коммуникации. Меняет поведение со временем и часто приходит к победе. Исследователи проанализировали 32,000 решений, и выяснили: эти модели не просто "угадывают" слова — они делают выводы, оценивают риск, строят гипотезы о поведении противника и последовательно придерживаются своей стратегии. Общее в поведении: 1. Модели справляются с новыми, непредсказуемыми оппонентами 2. Демонстрируют разные стратегии, несмотря на общий обучающий набор данных 3. Объясняют свои действия — в некоторых случаях с вероятностным анализом, ссылаясь на поведение соперников Еще большинство моделей выбирает кооперацию — особенно против предсказуемых и простых стратегий соперника. Каждая модель показала уникальныйстильповедения — почти как характер. Если приводить аналогию с реальными личностями: - Gemini = Генри Киссинджер - OpenAI = Вудро Вильсон - Anthropic = Джордж Буш-старший Современные LLM практически ведут себя как полноценные стратеги: формулируют цели, оценивают оппонентов и формируют осторожные, но устойчивые пути к победе. 🔜Подробности @ai_machinelearning_big_data #AI#ML#MMLM#research

31,300 views

Опубликован 8 июл.

🌟HumanOmniV2: модель, которая понимает контекст видео. Alibaba Group разработали HumanOmniV2, модель на базе Qwen2.5-Omni-7B-thinker, которая получила навык осмысления визуального контекста за счет изменения самого процесса мышления модели. Ее научили следовать строгому формату: сначала описать контекст, потом рассуждать и только затем давать ответ. Теперь, прежде чем отвечать на вопрос, модель генерирует подробное описание сцены в теге <context>. На этом этапе она фиксирует, кто что делает, какой фон, какие звуки слышны. Только после этого в теге <think> она строит логическую цепочку рассуждений, связывая вопрос с собранным контекстом. И лишь в конце выдает результат в теге <answer> . Чтобы этот подход работал, его усилили системой вознаграждений на основе RL. За точность и правильный формат модель получает стандартные награды, но были введены и две новых: 🟢«Награда за контекст» дается, если его описание полное и релевантное, причем качество этого описания оценивает другая, более мощная LLM; 🟢«Логическая награда» проверяет, что в своих рассуждениях модель действительно использовала данные из видео и аудио, а не проигнорировала их. Для оценки HumanOmniV2 создали бенчмарк IntentBench (633 видео, 2689 вопросов) на основе Social-IQ 2.0, EMER и MDPE. Его фишка в том, что вопросы требуют одновременного анализа: видеоряда (жесты, микровыражения), диалогов (тон, смысл реплик) и социального контекста (ирония, обман, скрытые намерения). Тестовая модель обошла открытые аналоги на 3 бенчмарках: 🟠Daily-Omni: 58.47% (53.13% у MiniCPM-o 2.6); 🟠WorldSense: 47.1% (45.4% у Qwen2.5-Omni); 🟠IntentBench: 69.33% (64.20% у Qwen2.5-Omni). 📌Лицензирование: Apache 2.0 License. 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#MMLM#HumanOmniV2#Alibaba

23,400 views