Post #622

@MachineLearningResearch

AML

Views77Post view count

PostedJan 2101/21/2026, 03:28 PM

Post content

Google исследовали модели OpenAI o1, DeepSeek-R1, QwQ-32B, которые показывают лучшие результаты на сложных задачах Дело не просто в более длинных размышлениях, а в том, что такие модели внутренне симулируют «общество мысли» В процессе цепочки мыслей возникают разные «роли» и перспективы: один «голос» задаёт вопросы, другой меняет точку зрения, третий предлагает контраргументы или выявляет противоречия, четвёртый синтезирует решение Это похоже на групповую дискуссию, а не на монолог Авторы подтверждают это тут подробнее Такие «социальные» паттерны возникают даже при RL с наградой только за правильный ответ — модель сама учится дискуссии, потому что это помогает лучше решать задачи Вывод - улучшение рассуждений частично объясняется внутренним моделированием коллективного интеллекта, похожего на человеческий