TGTGInsighttelegram intelligenceLIVE / telegram public index
← Python Заметки

TGINSIGHT SIMILAR POSTS

Најди сличен содржај

Изворен канал @pythonotes · Post #312 · 14 мар.

Из-за всем известных событий очень многие потеряли работу. Для поиска вакансий вполне можно использовать паблики в telegram. Вот несколько которые мне известны: https://t.me/django_jobs https://t.me/javascript_jobs https://t.me/workzavr https://t.me/workoo https://t.me/Workesss @g_jobbot ➡️ Чем шире о себе заявите, тем больше шансов найти нужный контакт. Поэтому предлагаю айтишникам и художникам бесплатно разместить на моём канале @pythonotes информацию о вас. Формат сообщения можно сделать примерно следующий: _______________________________ Имя Фамилия Специализация О себе - Долго думаю, быстро делаю. Кем хочу работать - Разработчик мобильных приложений Локация - Удалённо, возможен переезд в ГородНейм Знаю языки программирования - JSON - CSS - HTML Хорошо владею софтом - Maya. Ротоскопинг, трекинг - Nuke. Персонажная анимация - 3DsMax. Композитинг и кленап Где работал - Microsoft, админ лифта - Yandex, доставка пончиков - Disney, протирка шариков от мышей Контакты - Телеграм: @username - Почта: [email protected] - Полное резюме (ссылка на GoogleDoc/LinkedIn/PDF) _______________________________ Картинки не надо, смайлы без фанатизма. Текст присылайте в этот временный канал, где будем обсуждать все вопросы: ▶️@pn_work 🌼 Если найдутся желающие, вакансии тоже могу запостить 📅 Предложение актуально как минимум до лета 2022г. Если будет хоть один пост, уже не зря старался) 📌@pythonotes #offtop

Hashtags

Резултати

Пронајдени 1 слични објави

Пребарај: #humanomniv2

当前筛选 #humanomniv2清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #7971 · 08.07.2025 г., 09:01

🌟HumanOmniV2: модель, которая понимает контекст видео. Alibaba Group разработали HumanOmniV2, модель на базе Qwen2.5-Omni-7B-thinker, которая получила навык осмысления визуального контекста за счет изменения самого процесса мышления модели. Ее научили следовать строгому формату: сначала описать контекст, потом рассуждать и только затем давать ответ. Теперь, прежде чем отвечать на вопрос, модель генерирует подробное описание сцены в теге <context>. На этом этапе она фиксирует, кто что делает, какой фон, какие звуки слышны. Только после этого в теге <think> она строит логическую цепочку рассуждений, связывая вопрос с собранным контекстом. И лишь в конце выдает результат в теге <answer> . Чтобы этот подход работал, его усилили системой вознаграждений на основе RL. За точность и правильный формат модель получает стандартные награды, но были введены и две новых: 🟢«Награда за контекст» дается, если его описание полное и релевантное, причем качество этого описания оценивает другая, более мощная LLM; 🟢«Логическая награда» проверяет, что в своих рассуждениях модель действительно использовала данные из видео и аудио, а не проигнорировала их. Для оценки HumanOmniV2 создали бенчмарк IntentBench (633 видео, 2689 вопросов) на основе Social-IQ 2.0, EMER и MDPE. Его фишка в том, что вопросы требуют одновременного анализа: видеоряда (жесты, микровыражения), диалогов (тон, смысл реплик) и социального контекста (ирония, обман, скрытые намерения). Тестовая модель обошла открытые аналоги на 3 бенчмарках: 🟠Daily-Omni: 58.47% (53.13% у MiniCPM-o 2.6); 🟠WorldSense: 47.1% (45.4% у Qwen2.5-Omni); 🟠IntentBench: 69.33% (64.20% у Qwen2.5-Omni). 📌Лицензирование: Apache 2.0 License. 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#MMLM#HumanOmniV2#Alibaba