🌟Theory of Space: умеют ли ИИ-агенты строить карты пространства?
Команда из Stanford, University of Washington и Cornell опубликовала для ICLR 2026 бенчмарк Theory of Space. В исследовании принимали участие звезды индустрии: Ли Фэй-Фэй, Едзин Чой и Ранджей Кришна.
Работа проверяет, способны ли языковые модели самостоятельно исследовать незнакомое пространство и строить его связную карту так же, как это делают люди.
Концепция выстроена по аналогии с Theory of Mind из когнитивной науки.
Если Theory of Mind измеряет, насколько наблюдаемый понимает скрытые психические состояния других, то Theory of Space проверяет способность ИИ-агента моделировать скрытую физическую структуру среды.
Определению подлежали 3 навыка:
🟠построить карту из частичных наблюдений;
🟠обновить ее при изменении обстановки;
🟠использовать для решения пространственных задач определения направлений, локализации объектов и смены перспективы.
Принципиальное требование: все это должно происходить в активном режиме.
Агент стартует в незнакомом пространстве с несколькими комнатами, сам решает, куда двигаться и куда смотреть, и на каждом шаге выгружает JSON с координатами объектов. Оценивается не только финальный ответ, но и качество построенной пространственной модели.
Всего было сгенерировано 2700 вопросов на каждую конфигурацию среды (по 9 задач в 100 сценах) для 6 топовых моделей: GPT-5.2, Gemini 3 Pro, Claude Sonnet 4.5, GLM-4.6V, Qwen3-VL-235B и InternVL 3.5-241B.
Для ориентира: люди набрали 96,4% в визуальной среде и добрались до нужного охвата примерно за 10 шагов.
Результаты
🟡Активное исследование стало слабым звеном.
Когда модель должна сама решать, что исследовать, точность резко падает. Например, GPT-5.2 в визуальной среде теряет 11% (с 57 до 46).
Для сравнения авторы написали скрипт-агентов - детерминированные программы с жестко заданной стратегией обхода: зайти в комнату, сделать полный оборот на 360°, зафиксировать все объекты, перейти в следующую комнату. Никакого интеллекта, только алгоритм.
Такой агент достигает нужного покрытия за 9 шагов; модели тратят 14 и больше и при этом строят менее точную карту.
Авторы зафиксировали показательный факт: когда языковым моделям давали готовую правильную карту, точность на задачах вырастала почти до 95% , то есть с форматом представления все в порядке, проблема именно в процессе построения.
🟡Модели ведут себя по-разному.
GPT-5.2 бросается к каждой новой двери, не дообследовав текущую комнату. Gemini 3 Pro придерживается методичной стратегии "повернуться и осмотреться", напоминающей поведение скрипт-агента. У Claude Sonnet 4.5 четкого паттерна исследования не прослеживается вовсе.
🟡Ревизия убеждений - отдельная проблема.
В эксперименте объекты тайно перемещали после первичного исследования. GPT-5.2 правильно определял новую ориентацию объекта в визуальной среде лишь в 14,3% случаев против 97,9% в текстовой.
Более тревожный показатель - "инерция убеждений": модель видит объект на новом месте, но продолжает держаться за старые координаты из первичного исследования, как будто новая информация не пробивается сквозь уже сформированную картину мира. У GPT-5.2 это происходило в 68,9% случаев.
🟡Разрыв между текстом и картинкой огромен.
Ориентация объектов в визуальной среде определяется правильно в 20-32% случаев против 91-92% в текстовой. Значительная часть провалов - не провал пространственного мышления как такового, а проблема восприятия изображений на входе.
Вывод исследования
Модели умеют рассуждать о пространстве, когда им дают готовую картину. Но самостоятельно добывать нужную информацию, эффективно перемещаться и при этом удерживать целостную карту в памяти - пока нет. Это разные задачи, и тут ИИ проигрывает даже примитивному алгоритму.
🟡Страница проекта
🟡Статья
🟡Датасет
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#LLM#TheoryOfSpace#ICML2026
Polymathic - междисциплинарный ИИ
Ох, какая классная межуниверситетская инициатива - Polymathic🔥.
Задача, которую они решают, заключается в создании ИИ моделей, которые используют информацию из наборов данных различных модальностей и разных научных областей, которые не имеют общего представления (например, текста). Такие модели могут использоваться в качестве надежных базовых показателей или можно сделать файн-тьюнинг для конкретных приложений. Такой подход может демократизировать ИИ в науке, предоставляя более сильные априорные модели для общих концепций, таких как причинность, измерение, обработка сигналов, и т.п.
В общем история с базовыми и генеративными моделями понемногу адаптируется к научным задачам, за что мы топим тоже 🤘. Реальных проектов пока немного, но есть, например, Multiple Physics Pretraining - подход к разработке больших предобученных физических суррогатных моделей или AstroClip - видимо модель CLIP для астрофизиков.
На данный момент кроме команды ученых есть и крутой консультативный совет, например, с Яном Лекуном (Yann LeCun) из Meta AI.
#AI#ML
ChatGPT для климатических вопросов и ответов
На Hugging Face есть милейший чат бот, который отвечает на все вопросы, касающиеся климата. Работает с помощью больших языковых моделей и при взаимодействии с ChatGPT API.
Бот обучен в основном на документах межправительственной комиссии по изменению климата (IPCC), поэтому не понимает, когда его спрашивают про что-то другое. Задаете вопрос, получаете развернутый ответ со ссылками на документы IPCC. Это интересный пример внедрения больших языковых моделей обученных на корпусе внутренних документов.
#AI#climate#LLM
#AI
Немного ИИ-теории
❗️В недавнем иске против компании OpenAI Илон Маск утверждал, что GPT-4 является ранним AGI, по сути равным человеческому интеллекту.
Что же такое AGI и когда он появится?
👤Сэм Альтман, CEO Open AI определяет AGI (artificial general intelligence) как интеллект, равный уровню обычного человека, который можно было бы принять в команду как сотрудника. Также популярно определение AGI как «системы, способной выполнить любую когнитивную задачу, доступную человеку».
📎Для справки: существует несколько видов (уровней развития) ИИ, а именно узкий ИИ (narrow, ANI), общий ИИ (genreal, AGI) и супер ИИ (super AI, ASI).
⏲Исследователи никак не могут прийти к консенсусу относительно даты появления AGI. По результатам Expert Survey on Progress in AI, существует 50% шанс того, что AGI появится до 2059 года. Тем не менее, поле ИИ изменяется постоянно и становится сложным оставаться в курсе событий.
⭐️Для этого мы нашли крупнейшее русскоязычное AGI-сообщество agirussia.org — у них есть канал и группа в Telegram.
🌐еще проходят еженедельные онлайн-семинары по тематике AGI на русском языке, записи семинаров за последние несколько лет доступны на YouTube и их сообществе в ВК.
Держим руку на пульсе ИИ⭐
⭐️Автор, Анна, @qcuqueen
Хакатончик от Xeek
Two Birds, One Neural Network - так называется новый хакатон от Xeek в области Generative AI. Звучит как-будто нужно сделать свой Dalle-E2, но на самом деле, задача выглядит немного иначе. По условиям хакатона, участникам нужно сделать нейронную сеть, которая максимизирует разнообразие генерируемых результатов, отвечающих двум условиям. Авторы хакатона проводят параллели с добавлением двух геофизических измерений для ограничения сценариев геологических моделей. Буквально, нужно построить нейронную сеть, которая генерирует разнообразные значения x0, x1, сохраняя при этом их природу в виде нисходящих или восходящих прямых линий, удовлетворяющих заданным функциям y1, y2, как показано на картинке.
Более подробное описание - тут. Призовой фонд $40К (первое место $19.5K).
#hackathon#AI#ML
⚡️Ноам Браун: вокруг ИИ гораздо больше согласия, чем кажется
Ведущий исследователь OpenAI Ноам Браун предлагает не вестиcь на медийную «чёрно-белую» картинку. В соцсетях спор об ИИ часто сводят к карикатурам — от «LLM мёртвы» до «суперинтеллект завтра». Но если слушать именно исследователей, картина неожиданно консенсусная.
О чём эксперты в целом согласны:
🟡Текущих подходов уже достаточно, чтобы дать огромный экономический и социальный эффект, даже без новых научных прорывов.
🟡Для AGI/ASI прорывы всё же понадобятся — часто упоминают continual learning и sample efficiency.
🟡Горизонт — до 20 лет (средняя оценка ≈10 лет). Никто не говорит о фантазиях или «100+ лет до суперинтеллекта».
Я в целом с ним согласен. Подробнее в треде Брауна: X (Ноам Браун)
🤑ForgetMe | Boosty
Приобрести подписку на любые сервисы
⏩@forgetshop_bot
#нейросети#новости#llm
⚡️MiniMax M2: открытый «agent & code-native» ИИ
MiniMax выкатила MiniMax M2 — открытую модель для агентов и кода. По заявлению команды, она работает примерно вдвое быстрее и стоит около 8% от цены Claude Sonnet. На старте доступен бесплатный глобальный доступ на ограниченное время через MiniMax Agent и API.
Модель заточена под полнопоточные дев-воркфлоу и агентные сценарии за счёт эффективной активации параметров: справляется с длинными цепочками действий и остаётся экономной в проде.
Что умеет
🟡Agentic-пайплайны: надёжная работа с длинными цепочками (mcp, shell, browser, retrieval, code).
🟡Кодинг под ключ: проектирование, правки, тесты и рефакторинг в одном потоке.
🟡Интеграции: совместима с Claude Code, Cursor, Cline, Kilo Code, Droid и др.
Где посмотреть
🟡Hugging Face (MiniMax-M2)
🟡GitHub (репозиторий)
🟡Документация API
🟡MiniMax Agent
🤑ForgetMe | Boosty
Приобрести подписку на любые сервисы
⏩@forgetshop_bot
#новости#llm#нейросети
⚡️ReasoningBank от Google: как дать ИИ «память об ошибках» и учить его в реальном времени
Google предложили подход ReasoningBank — модуль «рабочей памяти», который дистиллирует стратегии из прошлых попыток и возвращает их в промпт при решении новых задач. Схема простая: после каждого диалога агент-судья оценивает качество решения и записывает опыт в структурированном виде (Title / Description / Content). Пример: Title:Avoid repeating failed actions; Description: агент зациклился на неработающей кнопке; Content: «если действие не даёт результата — сменить стратегию (обновить страницу, шаг назад и т. п.)». Дальше эти «воспоминания» подтягиваются в контекст — получается умный менеджмент подсказок без изменения весов модели.
Поверх памяти авторы описывают ещё и Memory-aware Test-Time Scaling (MaTTS): агент генерирует несколько решений одной задачи, ReasoningBank извлекает полезные паттерны из каждого и помогает пересобрать лучший ответ. Чем больше вычислений на тесте — тем богаче память и выше качество финального вывода. В перспективе метод можно расширять: забывание устаревших правил, приоритизация и слияние близких «воспоминаний» для компактности. Подробнее — в препринте: ReasoningBank (arXiv).
🤑ForgetMe | Boosty
Приобрести подписку на любые сервисы
⏩@forgetshop_bot
#нейросети#новости#llm
⚡️ACE: вместо дообучения — контекст, который учится сам
Agentic Context Engineering (ACE) предлагает прокачивать ИИ без изменения весов. Вместо fine-tuning модель сама пишет и переписывает собственные инструкции: после ошибки добавляет стратегию, после успеха — правило. Получается длинный, эволюционирующий «плейбук» в контексте — как растущая тетрадь заметок, которую ИИ постоянно использует.
Результаты в работе авторов: +10,6% на AppWorld, +8,6% в финзадачах, при этом до –86,9% по времени и стоимости. Разметка не нужна — достаточно обратной связи. Идея простая: LLM важна плотность контекста, а не короткий промпт. Если подход масштабируется, эпоха ИИ станет не fine-tuned, а self-tuned. Препринт ACE на arXiv
🤑ForgetMe | Boosty
Приобрести подписку на любые сервисы
⏩@forgetshop_bot
#нейросети#новости#llm
👀AI: проблема не в моделях, а в продуктах
У ИИ сегодня проблема продуктовая, а не модельная. Модели рывками прибавляют каждые несколько недель, но инновации в AI-native продуктах за этим темпом не успевают.
Большинство команд встраивают ИИ в старые UX-паттерны, вместо того чтобы переосмыслить опыт с нуля. Параллель с ранним мобильным (2007–2010): годами «мобайл» означал просто уместить сайт в телефон, пока Uber не показал, как можно переизобрести саму задачу — транспорт.
При этом есть и удачные AI-first продукты: NotebookLM, Lovable, Stitch, Flow. Но скорость прогресса самих моделей выше, и причин этому много
🤑ForgetMe | Boosty
Приобрести подписку на любые сервисы
⏩@forgetshop_bot
#новости#нейросети#llm
📛MiniCPM-V 4.5: «уровень GPT-4o» на телефоне с 8B параметров — и всё в опенсорсе
MiniCPM-V 4.5 позиционируется как компактная VLM c 8B параметров, которая в ряде тестов по зрению и языку показывает результаты уровня enterprise и обходит GPT-4o и Gemini 2.0 Pro. Главное — модель рассчитана на обычные устройства, работает стабильно на iPhone и iPad, понимает 30+ языков и остаётся полностью открытой для сообщества.
Что это даёт на практике: более быстрые и лёгкие приложения без тяжёлых серверов, лучше приватность за счёт локального запуска и гибкость для разработчиков — можно встраивать мультимодальные функции (анализ изображений + текст) прямо в мобильные продукты. Репозиторий и инструкции: https://github.com/OpenBMB/MiniCPM-V
🤑ForgetMe | Boosty
Приобрести подписку на любые сервисы
⏩@forgetshop_bot
#нейросети#новости#llm