TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #1221 · 11.03

Бизнесы и некоторые блогеры сейчас кинулись делать каналы в ВК (да, такие есть). У меня практически каждый день приходит уведомление то от очередного издательства настолок, то от какого-нибудь независимого автора, что типа вот смотрите, теперь вам в личку ВК будем спамить. Я, конечно, отклоняю. Безотносительно того, что сам ВК мёртв, каналы там кажутся одной из наименее жизнеспособных идей, потому что они берут из Телеграма единственный ключевой недостаток — неструктурированную подачу информации, склонную к порождению большого числа очагов мусора (и как следствие точек контроля, если вы занимаетесь информационной гигиеной). Получается, что каналы ВК это если взять каналы в Телеграме и оставить у них только серьёзные телеграмные проблемы UX, но не добавить, например, телеграмное доверие людей к площадке и телеграмный же акцент на понятной core-функциональности, позволяющий приложению быть относительно минималистичным (с поправкой на тягу Дурова к рюшечкам для детей). Взяли только самое плохое. Зачем? Тем не менее, вопрос о том, куда переходить бизнесам, и тем людям, которым неудобен впн 24/7, остаётся. В максе, прости господи, (даже если представить, что им кто-то начал пользоваться), слишком странные правила по созданию каналов. Я, например, могу туда прийти только как ИП Пешехонов Денис, а короткий адрес канала у меня будет сгенерированным, что-то типа user12345. Пора поднимать ActivityPub-сервер, получается? #web@clockstackwheels

Hashtags

Резултати

Намерени 1 подобни публикации

Търсене: #humanomniv2

当前筛选 #humanomniv2清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #7971 · 08.07.2025 г., 09:01

🌟HumanOmniV2: модель, которая понимает контекст видео. Alibaba Group разработали HumanOmniV2, модель на базе Qwen2.5-Omni-7B-thinker, которая получила навык осмысления визуального контекста за счет изменения самого процесса мышления модели. Ее научили следовать строгому формату: сначала описать контекст, потом рассуждать и только затем давать ответ. Теперь, прежде чем отвечать на вопрос, модель генерирует подробное описание сцены в теге <context>. На этом этапе она фиксирует, кто что делает, какой фон, какие звуки слышны. Только после этого в теге <think> она строит логическую цепочку рассуждений, связывая вопрос с собранным контекстом. И лишь в конце выдает результат в теге <answer> . Чтобы этот подход работал, его усилили системой вознаграждений на основе RL. За точность и правильный формат модель получает стандартные награды, но были введены и две новых: 🟢«Награда за контекст» дается, если его описание полное и релевантное, причем качество этого описания оценивает другая, более мощная LLM; 🟢«Логическая награда» проверяет, что в своих рассуждениях модель действительно использовала данные из видео и аудио, а не проигнорировала их. Для оценки HumanOmniV2 создали бенчмарк IntentBench (633 видео, 2689 вопросов) на основе Social-IQ 2.0, EMER и MDPE. Его фишка в том, что вопросы требуют одновременного анализа: видеоряда (жесты, микровыражения), диалогов (тон, смысл реплик) и социального контекста (ирония, обман, скрытые намерения). Тестовая модель обошла открытые аналоги на 3 бенчмарках: 🟠Daily-Omni: 58.47% (53.13% у MiniCPM-o 2.6); 🟠WorldSense: 47.1% (45.4% у Qwen2.5-Omni); 🟠IntentBench: 69.33% (64.20% у Qwen2.5-Omni). 📌Лицензирование: Apache 2.0 License. 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#MMLM#HumanOmniV2#Alibaba