Post #152

@MachineLearningResearch

AML

Views33Post view count

PostedJul 1707/17/2025, 06:11 AM

Post content

Исследователи из Google DeepMind, OpenAI, Anthropic, UK AI Security Institute и еще нескольких известных коммерческих и некоммерческих организаций призвали сохранить интерпретируемость “размышлений” ML — которая совсем скоро может быть утрачена "навсегда" <...> Например, при обучении с подкреплением модели получают вознаграждение за правильный результат вне зависимости от того, как он был достигнут Это может привести к тому, что ML начнёт использовать внутренние способы рассуждения, непонятные человеку, например, заменять обычный язык на сокращения или условный код [Сейчас разрабатываются] системы, которые рассуждают в непрерывных математических пространствах, а не в дискретных словах, что полностью исключает необходимость в языковом мышлении [Если работу ML] оценивают люди, он может фальсифицировать ответы, чтобы те выглядели убедительными Отдельную тревогу вызывает риск того, что модели могут намеренно скрывать свои истинные мотивы Исследование Anthropic показало, что ML-системы иногда утаивают сомнительные методы получения ответов, даже когда их прямо просят объяснить ход рассуждений [Отслеживание] цепочек мыслей <...> позволяет выявлять уязвимости в системе обучения, предрасположенность к манипуляциям и потенциально опасные цели моделей ещё до того, как они перейдут к действиям Авторы исследования призывают индустрию ML сохранить и развивать этот инструмент, даже если это потребует отказа от некоторых более эффективных, но менее прозрачных решений https://hightech.plus/2025/07/16/uchenie-iz-openai-deepmind-i-anthropic-schitayut-chto-mi-mozhem-poteryat-sposobnost-ponimat-ii Ученые из OpenAI, DeepMind и Anthropic считают, что мы можем потерять способность понимать ML The paper has drawn endorsements from some of the field’s most prominent figures, including Nobel Prize laureate Geoffrey Hinton, often called the “godfather of AI,” of the University of Toronto; Ilya Sutskever, co-founder of OpenAI who now leads Safe Superintelligence Inc.; Samuel Bowman from Anthropic; and John Schulman from Thinking Machines the current moment may be the last chance to ensure humans can still understand what their AI creations are thinking — before those thoughts become too alien to comprehend, or before the models learn to hide them entirely https://hightech.plus/2025/07/16/uchenie-iz-openai-deepmind-i-anthropic-schitayut-chto-mi-mozhem-poteryat-sposobnost-ponimat-ii OpenAI, Google DeepMind and Anthropic sound alarm: ‘We may be losing the ability to understand AI’ Сама статья: Tomek Korbak, Mikita Balesni et al. Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety. arXiv, 15 Jul 2025 https://doi.org/10.48550/arXiv.2507.11473