Содержимое
🧠ByteDance показывает: моделям для рассуждений нужны не только слова, но и картинки MIRA - Multimodal Imagination for Reasoning Assessment, тест, который измеряет, как модели рассуждают, если им дать промежуточные визуальные шаги. Суть очень простая и понятная: - Там, где текст не помогает, картинки резко улучшают мышление модели. - Если дать модели рисунки промежуточных шагов, точность в среднем растёт на 33.7%. - Бенчмарк включает 546 задач в 20 категориях, где нужно «видеть», а не просто читать: кубики, зеркала, траектории, силы и тд. Как устроена проверка: - прямой вопрос - рассуждение текстом - рассуждение с визуальными шагами (скетчами) Что выяснилось: - Только текст часто делает хуже, потому что слова плохо описывают пространство. - Если дать модели картинки - результат сильно улучшается, особенно в точных науках. В бенчмарке: 546 задач по геометрии, физике, логическим головоломкам и причинным связям. Режимы тестирования: • Direct - модель отвечает напрямую • Text-CoT - текстовый chain-of-thought • Visual-CoT - модель рассуждает через рисунки и визуальные шаги Ключевые результаты: • Ни одна модель не превысила 20% точности в Direct-режиме (GPT-5 ~16.5%) • Text-CoT часто ухудшает результат (например, −18% у Gemini 2.5 Pro) • Visual-CoT даёт средний прирост +33.7%, особенно заметный в задачах по физике Главный вывод: Моделям нужен *визуальный способ думать*. Им нужно уметь читать простые схемы, понимать их и использовать в рассуждениях, иначе многие задачи просто остаются нерешаемыми. Статья: arxiv.org/abs/2511.02779 @ai_machinelearning_big_data #ByteDance