TGINSIGHT CHAT
Machinelearning
@ai_machinelearning_big_data
ТехнологииПогружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
Последние посты
Тег: #cv · 3 постов
🌟WildDet3D: открытая модель монокулярной 3D-детекции по одному снимку. Институт Аллена представил модель WildDet3D, которая по одному изображению строит 3D-рамки объектов: оценивает их положение, размер и ориентацию в метрических координатах. Модель принимает сразу несколько типов промптов: текстовый запрос, клик по точке или готовый 2D-бокс от внешнего детектора. 🟡Архитектура состоит из 3 блоков 2D-детектор построен на SAM3 и обрабатывает все типы запросов. Геометрическая ветка использует энкодер DINOv2 с обучаемым декодером глубины, учитывающим геометрию обзора: направления лучей камеры зашиваются через сферические гармоники, что снимает необходимость в отдельной калибровке. Третий компонент, 3D-head, объединяет через кросс-внимание 2D-детекции с признаками глубины и поднимает их в полноценные 3D-боксы. Если на инференсе доступны данные с LiDAR, ToF или стереокамеры, они подмешиваются в ту же геометрическую ветку без переобучения. 🟡Тесты На бенчмарке Omni3D модель показывает 34,2 AP с текстовыми промптами (это +5,8 пункта к прежнему лидеру 3D-MOOD). На zero-shot переносе на Argoverse 2 WildDet3D практически удваивает прежний результат: 40,3 ODS против 23,8. На редких категориях из собственного бенчмарка WildDet3D-Bench успехи, разумеется, еще лучше - 47,4 AP против 2,4 у 3D-MOOD. 🟡Вместе с моделью вышло демо-приложение для iOS. Оно использует видеопоток с камеры iPhone и данные LiDAR-сенсора, чтобы в реальном времени отрисовывать 3D-боксы поверх сцены как AR-оверлей. Это наглядная демонстрация того, как монокулярная модель усиливается, когда устройство умеет отдавать дополнительный сигнал глубины. 🟡Третья часть релиза - датасет WildDet3D-Data. Более 1 млн. изображений и 3,7 млн. верифицированных 3D-аннотаций, охватывающих свыше 13 тыс. категорий объектов. По сценам распределение получилось такое: 52% помещений, 32% городской среды и 15% природы. Он собран на основе 2D-наборов (COCO, LVIS, Objects365, V3Det): кандидаты в 3D-боксы генерировались 5 независимыми методами оценки геометрии, затем фильтровались, проверялись VLM и дополнительно отбирались людьми. 🟡Статья 🟡Модель 🟡Техотчет 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI#ML#CV#Detection#WildDet3D#Ai2
👀 Релиз SAM 3.1 - одной из самых сильных open-source моделей для компьютерного зрения. Модель понимает, что происходит на изображении или видео, и умеет находить объекты по текстовому описанию. Можно буквально написать «человек в красной футболке» и она найдёт нужных людей. Работает не только с картинками, но и с видео. Объект можно задать один раз, и дальше модель будет отслеживать его между кадрами. Ключевая идея - open-vocabulary. Модель не ограничена фиксированными классами, как старые системы. Она оперирует огромным количеством понятий и может находить практически любые объекты. Ещё важный момент можно комбинировать способы управления: текст, клики, рамки, маски. Это даёт гораздо больше контроля и точности. Под капотом новая архитектура, где отдельно решаются задачи поиска объектов и их отслеживания. За счёт этого модель лучше различает похожие вещи и стабильнее работает на видео. В репозитории уже есть всё для старта: готовые веса, код, примеры и ноутбуки. По факту это уже не просто инструмент для разметки, а полноценный vision-движок, который можно встраивать в реальные продукты от аналитики видео до автоматизации разметки данных. Теперь модель может отслеживать до 16 объектов за один проход. С multiplexing все объекты обрабатываются одновременно: • меньше лишних вычислений • нет узких мест по памяти Результат: скорость обработки видео увеличивается примерно в 2 раза с 16 до 32 FPS на одном NVIDIA H100! На новом бенчмарке SA-CO, который включает 270 тысяч уникальных концептов, SAM 3 достигает 75–80% от уровня человека. https://github.com/facebookresearch/sam3 @ai_machinelearning_big_data #ai#ml#llm#cv#python
🔥 Microsoft снова доказывает силу синтетических данных для задач компьютерного зрения! Современные модели компьютерного зрения с фокусом на человека (Human-centric CV) требуют миллиардов параметров, гигантских датасетов и дорогостоящего инференса. Но можно ли добиться такой же точности, не тратя миллионы? Исследователи показали: модели можно обучать только на синтетических данных высокого качества — и при этом достигать тех же результатов. Microsoft представили DAViD — open-source фреймворк, позволяющий создавать цифровых людей с точной геометрией лиц и текстурами. Проект демонстрирует, как можно использовать синтетические датасеты для: 🟠 Предсказания глубины изображения (Depth Prediction) 🟠 Оценки поверхностей (Normal Estimation) 🟠 Сегментации фона и людей на фото/видео (Background & Human Segmentation) Почему это круто: 🟢 Синтетические данные = пиксельная точность разметки 🟢 Почти бесконечное разнообразие сцен, ракурсов, освещения и поз 🟢 Прекрасно масштабируются для обучения моделей с нуля или дообучения Самое приятное, что Microsoft выложили всё в опенсорс: ✔️ 300 000 сэмплов ✔️ Предобученные модели ✔️ Исходный код фреймворка 🟢Проект: https://microsoft.github.io/DAViD/ 🟢Статья: https://arxiv.org/abs/2507.15365 🟢Github: https://github.com/microsoft/DAViD @ai_machinelearning_big_data Если ты работаешь с human-centric CV — это мощный старт. Даже без реальных данных. #cv#microsoft#opensource
Hashtags