TGTGInsightаналитика telegramLIVE / telegram public index
← [404] — программирование

TGINSIGHT SIMILAR POSTS

Найти похожее

Источник @procode404 · Post #3913 · 12 янв.

​​​​🔥​​Искусственный интеллект с примерами на Python Джоши Пратик — специалист по проблемам искусственного интеллекта, автор пяти книг и постоянный докладчик на конференциях TEDx. В своей книге он разбирает следующие практические темы: — Создание интеллектуальных рекомендательных систем — Построение автоматизированных систем распознавания речи — Основы эвристического поиска и генетического программирования — Разработка игр с использованием искусственного интеллекта — Создание интеллектуальных приложений, связанных с обработкой изображений, текста и последовательных данных — Алгоритмы глубокого обучения и создание приложений на их основе Автор: Джоши Пратик Год: 2019 Скачать книгу #python#нейронки

Результаты

Найдено 1 похожих постов

Поиск: #humanomniv2

当前筛选 #humanomniv2清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #7971 · 08.07.2025, 09:01

🌟HumanOmniV2: модель, которая понимает контекст видео. Alibaba Group разработали HumanOmniV2, модель на базе Qwen2.5-Omni-7B-thinker, которая получила навык осмысления визуального контекста за счет изменения самого процесса мышления модели. Ее научили следовать строгому формату: сначала описать контекст, потом рассуждать и только затем давать ответ. Теперь, прежде чем отвечать на вопрос, модель генерирует подробное описание сцены в теге <context>. На этом этапе она фиксирует, кто что делает, какой фон, какие звуки слышны. Только после этого в теге <think> она строит логическую цепочку рассуждений, связывая вопрос с собранным контекстом. И лишь в конце выдает результат в теге <answer> . Чтобы этот подход работал, его усилили системой вознаграждений на основе RL. За точность и правильный формат модель получает стандартные награды, но были введены и две новых: 🟢«Награда за контекст» дается, если его описание полное и релевантное, причем качество этого описания оценивает другая, более мощная LLM; 🟢«Логическая награда» проверяет, что в своих рассуждениях модель действительно использовала данные из видео и аудио, а не проигнорировала их. Для оценки HumanOmniV2 создали бенчмарк IntentBench (633 видео, 2689 вопросов) на основе Social-IQ 2.0, EMER и MDPE. Его фишка в том, что вопросы требуют одновременного анализа: видеоряда (жесты, микровыражения), диалогов (тон, смысл реплик) и социального контекста (ирония, обман, скрытые намерения). Тестовая модель обошла открытые аналоги на 3 бенчмарках: 🟠Daily-Omni: 58.47% (53.13% у MiniCPM-o 2.6); 🟠WorldSense: 47.1% (45.4% у Qwen2.5-Omni); 🟠IntentBench: 69.33% (64.20% у Qwen2.5-Omni). 📌Лицензирование: Apache 2.0 License. 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#MMLM#HumanOmniV2#Alibaba