Post #137

@MachineLearningResearch

AML

Views28Post view count

PostedJul 707/07/2025, 10:08 AM

Post content

Исследователи протестировали GPT-4o, Claude 3.5 Sonnet, Gemini, Llama и др. на стандартных задачах компьютерного зрения: сегментация, оценка глубины и др., используя известные датасеты (COCO, ImageNet) Хотя эти модели показывают большой прогресс, их реальное понимание визуальной информации, например, геометрии объектов не такое качественное Основные итоги: 1. Мультимодальные модели — хорошие "универсалы", но уступают специализированным Они хуже решают конкретные задачи, например, сегментацию, чем узкоспециализированные модели, но всё равно показывают достойные результаты, учитывая, что обучались в основном на текстово-изображенческих данных Лучше справляются с семантикой, чем с геометрией 2. Рассуждающие модели, например, o3 лучше в геометрических задачах 3. Дегенеративные модели для изображений, например, GPT-4o Image Generation пока ненадежны для точных задач