Post content
Less is More: Recursive Reasoning with Tiny Networks Alexia Jolicoeur-Martineau https://arxiv.org/abs/2510.04871 https://github.com/SamsungSAILMontreal/TinyRecursiveModels HRM продемонстрировала интересный результат с малым размером модели, при этом последующий анализ от организаторов ARC-AGI показал, что в первую очередь на результат влияет последовательное улучшение ответа (deep supervision), а рекурсия в H и L модулях добавляет не очень много Новая работа про TRM (Tiny Recursive Model) ставит под сомнение необходимость всей этой сложности и исповедует философию — «меньше значит больше» Новая модель TRM содержит 5M-19M параметров (есть нюансы), против 27M у HRM И статью, и этот разбор есть смысл читать после того, как вы уже прочитали про HRM, потому что вся статья построена как систематический разбор HRM Также постоянно следует помнить, что сравнение HRM/TRM с традиционными LLM во многом ущербно, это модели совсем разных классов LLM - довольно общие модели, обученные на всём интернете на задачах продолжения текста, включая сложные файнтюны на чат, инструкции, решение различных задач по математике и прочим дисциплинам и т.д. То, что при этом они способны _ещё_ и решать судоку, лабиринты, тесты ARC-AGI - на самом деле довольно удивительно Все современные LLM это трансформер-декодеры (есть гибриды с SSM, но здесь это не важно) HRM/TRM -- это трансформер-энкодер (как BERT), он не продолжает никакую последовательность токен за токеном, он обрабатывает все токены сразу и генерит новую последовательность той же длины, что и входная HRM/TRM (в отличие от BERT, тоже обученного примерно на всём интернете) обучается только на одну конкретную задачу из списка, ни про какую универсальность здесь речи пока нет Так что все восторженные посты в духе, что вот появилась модель в миллион раз меньшая по размеру и бьющая лучшие топовые LLM и скоро всем им кранты, дотацентры не нужны и прочее - надо делить на тот же миллион, многие из авторов вообще не разобрались, что сделано