TGTGInsighttelegram intelligenceLIVE / telegram public index
← GitHub Trends

TGINSIGHT SIMILAR POSTS

Find similar content

Source channel @githubtrending · Post #15607 · Apr 7

#python#ai_agents#ai_tutor#clawdbot#cli_tool#deepresearch#interactive_learning#large_language_models#multi_agent_systems#rag DeepTutor v1.0.0 is an open-source AI tutoring tool with personalized TutorBots, unified chat modes for solving problems, quizzes, research, and math animations, plus knowledge bases from your PDFs, persistent memory of your learning style, AI co-writing, and guided plans—all via easy web, Docker, or CLI setup. You benefit by getting a smart, evolving study companion that adapts to you, boosts understanding with interactive tools, and saves time on tough topics without starting over. https://github.com/HKUDS/DeepTutor

Results

1 similar post found

Search: #wilddet3d

当前筛选 #wilddet3d清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #9834 · 04/08/2026, 03:04 PM

🌟WildDet3D: открытая модель монокулярной 3D-детекции по одному снимку. Институт Аллена представил модель WildDet3D, которая по одному изображению строит 3D-рамки объектов: оценивает их положение, размер и ориентацию в метрических координатах. Модель принимает сразу несколько типов промптов: текстовый запрос, клик по точке или готовый 2D-бокс от внешнего детектора. 🟡Архитектура состоит из 3 блоков 2D-детектор построен на SAM3 и обрабатывает все типы запросов. Геометрическая ветка использует энкодер DINOv2 с обучаемым декодером глубины, учитывающим геометрию обзора: направления лучей камеры зашиваются через сферические гармоники, что снимает необходимость в отдельной калибровке. Третий компонент, 3D-head, объединяет через кросс-внимание 2D-детекции с признаками глубины и поднимает их в полноценные 3D-боксы. Если на инференсе доступны данные с LiDAR, ToF или стереокамеры, они подмешиваются в ту же геометрическую ветку без переобучения. 🟡Тесты На бенчмарке Omni3D модель показывает 34,2 AP с текстовыми промптами (это +5,8 пункта к прежнему лидеру 3D-MOOD). На zero-shot переносе на Argoverse 2 WildDet3D практически удваивает прежний результат: 40,3 ODS против 23,8. На редких категориях из собственного бенчмарка WildDet3D-Bench успехи, разумеется, еще лучше - 47,4 AP против 2,4 у 3D-MOOD. 🟡Вместе с моделью вышло демо-приложение для iOS. Оно использует видеопоток с камеры iPhone и данные LiDAR-сенсора, чтобы в реальном времени отрисовывать 3D-боксы поверх сцены как AR-оверлей. Это наглядная демонстрация того, как монокулярная модель усиливается, когда устройство умеет отдавать дополнительный сигнал глубины. 🟡Третья часть релиза - датасет WildDet3D-Data. Более 1 млн. изображений и 3,7 млн. верифицированных 3D-аннотаций, охватывающих свыше 13 тыс. категорий объектов. По сценам распределение получилось такое: 52% помещений, 32% городской среды и 15% природы. Он собран на основе 2D-наборов (COCO, LVIS, Objects365, V3Det): кандидаты в 3D-боксы генерировались 5 независимыми методами оценки геометрии, затем фильтровались, проверялись VLM и дополнительно отбирались людьми. 🟡Статья 🟡Модель 🟡Техотчет 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI#ML#CV#Detection#WildDet3D#Ai2