TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #310 · 21.04

Поймал себя на том, что иногда мне нравится ездить на автомобиле, а иногда нет. Понятно, что чилить на автостраде это прикольно, а пробиваться через городские пробки — нет. Но я осознал, что иногда мне в городе вполне прикольно, а иногда нет. Я даже в пробках иногда стою спокойно. Начал рефлексировать, и понял: мне приятно ездить, когда я никуда не тороплюсь. Когда можно опоздать на 5-10-15 минут, а то и на полчаса. В гости к друзьям обычно можно опоздать. В магазин можно опоздать, если ты не под закрытие едешь. А вот если едешь на какое-то мероприятие ко времени, то опаздывать нельзя, и обычно даже 10 минут неприятны. Дорожная ситуация меняется не слишком предсказуемо. Время на поиск места парковки тоже не определено. Да и постоянное искушение где-то что-то нарушить, чтобы не опоздать. Либо наоборот — выезжаешь на машине сильно заранее, и на месте просто ждёшь полчаса. В общем, машина хорошо решает задачу "Добраться куда-то в место, плохо доступное другими видами транспорта". Но не слишком хорошо решает задачу "Добраться куда-то к заданному моменту с точностью плюс-минус 5 минут". А, например, пешком + метро решает хорошо. Можно, конечно, пофантазировать на тему какого-то предсказания и правильного планирования, но на деле пара забитых перекрёстков вполне могут стоить вам 10 минут, что в контексте городской жизни довольно много. P.S. Скоро у меня отпуск, и будут очень интересные посты про дроны и мототехнику. Хотя погода в Питере как обычно норовит подвести в самое неподходящее время. С таким климатом хоть на автомобиле езди! #life

Hashtags

Резултати

Намерени 1 подобни публикации

Търсене: #humanomniv2

当前筛选 #humanomniv2清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #7971 · 08.07.2025 г., 09:01

🌟HumanOmniV2: модель, которая понимает контекст видео. Alibaba Group разработали HumanOmniV2, модель на базе Qwen2.5-Omni-7B-thinker, которая получила навык осмысления визуального контекста за счет изменения самого процесса мышления модели. Ее научили следовать строгому формату: сначала описать контекст, потом рассуждать и только затем давать ответ. Теперь, прежде чем отвечать на вопрос, модель генерирует подробное описание сцены в теге <context>. На этом этапе она фиксирует, кто что делает, какой фон, какие звуки слышны. Только после этого в теге <think> она строит логическую цепочку рассуждений, связывая вопрос с собранным контекстом. И лишь в конце выдает результат в теге <answer> . Чтобы этот подход работал, его усилили системой вознаграждений на основе RL. За точность и правильный формат модель получает стандартные награды, но были введены и две новых: 🟢«Награда за контекст» дается, если его описание полное и релевантное, причем качество этого описания оценивает другая, более мощная LLM; 🟢«Логическая награда» проверяет, что в своих рассуждениях модель действительно использовала данные из видео и аудио, а не проигнорировала их. Для оценки HumanOmniV2 создали бенчмарк IntentBench (633 видео, 2689 вопросов) на основе Social-IQ 2.0, EMER и MDPE. Его фишка в том, что вопросы требуют одновременного анализа: видеоряда (жесты, микровыражения), диалогов (тон, смысл реплик) и социального контекста (ирония, обман, скрытые намерения). Тестовая модель обошла открытые аналоги на 3 бенчмарках: 🟠Daily-Omni: 58.47% (53.13% у MiniCPM-o 2.6); 🟠WorldSense: 47.1% (45.4% у Qwen2.5-Omni); 🟠IntentBench: 69.33% (64.20% у Qwen2.5-Omni). 📌Лицензирование: Apache 2.0 License. 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#MMLM#HumanOmniV2#Alibaba