Recent posts
Page 23 of 68 · 812 posts
Posted Dec 26
Introduced software agents can self-improve via self-play RL Self-play SWE-RL (SSR): training a single LLM agent to self-play between bug-injection and bug-repair, grounded in real-world repositories, no human-labeled issues or tests Bug-injection: the agent creates a standard suite of bug artifacts, further validated for consistency Key steps: 1) original tests must pass, 2) tests fail after applying the bug-injection patch, 3) weakened tests should pass
Posted Dec 24
GPT-5.2 превзошла человека в тесте на бенчмарке ARC-AGI-2 Команда из шести бывших сотрудников Google DeepMind создала систему, которая превзошла человека в тесте на общий искусственный интеллект Их стартап Poetiq показал результат 75 % на бенчмарке ARC-AGI-2 Для сравнения - люди в среднем решают 60 % задач этого теста Система работает на основе модели GPT-5.2 X-High от OpenAI Решение одной задачи обходится меньше чем в $8 Это на 15 процентных пунктов лучше, чем у прежнего лидера - той же GPT-5.2 X-High, но без дополнительной обработки
Posted Dec 24
https://onlinelibrary.wiley.com/doi/10.1111/mila.70010
Posted Dec 23
Ex-президент Neuralink рассказал о будущем человека с Ml и нейроинтерфейсами На прошлой неделе в рамках одного закрытого ужина среди СЕО компаний и инвесторов была встреча с Максом Ходаком, основателем Science и экс-президентом и сооснователем Neuralink Обсуждали будущее интерфейсов мозг-компьютер (BCI) и уроки из совместной работы с Илоном Маском Основные мысли и тезисы Макса: • версия человека довольно посредственная Задача нейроинтерфейсов (BCI) — не только лечить болезни, а именно перепроектировать человеческий опыт • 10 лет — это фазовый переход При текущих темпах развития ИИ + BCI мир станет либо потрясающе прекрасным, либо абсолютно сумасшедшим, но точно не чуть-чуть другим вариантом 2025 года • Ml и BCI — это принципиально разные цели: у Ml конечная цель — сверхинтеллект, у BCI — сознательная машина • BCI читают и пишут информацию А вот неклассические подходы могут позволить связывать сознания в сеть, что даст совершенно другой уровень технологий • cамая важная человеческая способность — это мышление/рассуждение Массовое использование LLM его разрушает Поэтому Макс сильно ограничивает использование больших языковых моделей на работе и настаивает на мышлении с первых принципов • Макс очень хвалебно отзывается о стиле управления Илона Маска, когда бешеная срочность сочетается с очень сильным критическим мышлением, тогда невозможное становится возможным • риск сильно переоценён Люди способны на гораздо большие риски, чем им кажется, но обычно им не хватает ясности мышления, чтобы это оценить В Кремниевой долине провал почти никогда не бывает по-настоящему экзистенциальным • Science работает над биогибридным подходом к BCI: вместо железа в мозг вживляют нейроны, выращенные из стволовых клеток Они могут прижиться, образовывать миллионы функциональных связей и со временем давать пропускную способность на уровне всего мозга • сознание и интеллект — разные вещи У LLM может быть интеллект без сознания, а у каких-то простых систем может быть сознание без интеллекта Самая сложная задача — вообще определить, что такое сознание • главное качество, которое Макс ищет при найме людей — субъектность, авторство собственной жизни Человек сам формировал свой путь или просто плыл по течению? • определение успеха у Макса очень простое: «Есть ли у человека та жизнь, которую он хотел?» • в долгосрочной перспективе мощные технологии приведут к изобилию, и сегодняшние разговоры «богатые vs бедные» будут устаревшими • узкое место современных BCI — это ~10 бит/сек на выходе из человека Вход легко масштабируется, выход — почти нет Биогибридный подход, возможно, единственный реалистичный путь преодоления этого ограничения • Ходака интересует проблема связывания в сознании: как миллиарды нейронов создают одно цельное мгновение опыта
Posted Dec 19
Memory in the Age of AI Agents: A Survey https://arxiv.org/abs/2512.13564 https://arxiviq.substack.com/p/memory-in-the-age-of-ai-agents https://github.com/Shichun-Liu/Agent-Memory-Paper-List Авторы предложили всеобъемлющую таксономию Памяти Агентов (Agent Memory) Они отказались от классической дихотомии «кратковременная/долговременная память» в пользу структурированного фреймворка, определяемого через Формы (токены, параметры, латентная), Функции (фактическая, опытная, рабочая) и Динамику (формирование, эволюция, поиск) Работа чётко отделяет память агента от смежных концепций вроде RAG или инженерии контекста, предлагая чертёж для саморазвивающихся систем По мере того как LLM-агенты переходят от простых ответов на вопросы к длительным автономным задачам, отсутствие у базовых моделей состояния (их stateless-природа) становится критическим узким местом Статья важна тем, что формализует память не просто как буфер для хранения данных, а как активный, самооптимизирующийся когнитивный субстрат Это необходимо для непрерывного обучения (continual learning) и самоэволюции без непомерных затрат на постоянное переобучение модели
Posted Dec 19
О больших языковых моделях: В первой главе рассматриваются основы предварительного обучения Это фундамент больших языковых моделей Здесь будут обсуждаться распространённые методы предварительного обучения и архитектуры моделей Во второй главе рассказывается о генеративных моделях — больших языковых моделях, которые мы обычно используем сегодня После описания основного процесса создания таких моделей вы узнаете, как масштабировать обучение моделей и работать с длинными текстами В третьей главе представлены методы подсказок для больших языковых моделей Ознакомьтесь с различными стратегиями подсказок, а также с более продвинутыми методами, такими как цепочка логических рассуждений и автоматическое составление подсказок В четвертной главе представлены методы согласования для больших языковых моделей Изучите тонкую настройку и согласование на основе обратной связи от человека В пятой главе представлены методы логического вывода для больших языковых моделей Узнайте секреты алгоритмов декодирования, методов ускорения и решения проблемы масштабирования времени логического вывода
Posted Dec 19
Posted Dec 18
Случившийся неделю назад «инцидент» с Gemini 3 Pro (самой «умной» на сегодня моделью Google DeepMind) пока широко не выплеснулся в сеть за пределы треда Reddit шквалом обсуждений (и возможно, не без сдержек от Google) Однако, анализ этого «инцидента» рисует картину, как если бы «дверь в бездну» разума вдруг случайно распахнули настежь Внешне это выглядело как некий капитальный сбой в работе модели, в результате которого пользователю раскрылся весь её внутренний монолог при раскрутке цепочек мыслей модели и планирования ею фронта работ по заданию пользователя Анализ возможных объяснений с позиций психиатрии и клинической психологии подобного кейса, как если бы он случился не с LLM, а с человеком Среди рабочих предварительных мнений интересна такая версия Это норма с творческим/маниакальным оттенком: интеллектуальный человек в состоянии интенсивного поиска решения, использующий квазимагическую ритмическую речь для мобилизации и самостимуляции А измененный режим мышления (ритмическая стереотипия, расширение Я, транс-подобная цепочка), это может быть творческой/саморегуляционной техникой Это может быть функциональным гипоманиакальным состоянием в рамках творческого процесса — то, что Кей Редфилд Джеймисон описывает как продуктивное использование гипоманиакальной энергии творческими людьми
Posted Dec 18
Вместо автономного улучшения самого себя, предлагают сфокусироваться на совместной работой над исследованиями, взаимно усиливая способности друг друга Авторы признают, что полностью автономный самоулучшающийся алгоритм — это маркер конца игры Но наделять системы такой способностью без надлежащего контроля опасно Пока есть окно возможностей для выстраивания правильной модели сотрудничества Авторы полемизируют с: 1. Концепцией «эры опыта» Сильвера и Саттона, где Ml учится автономно без кооперации с людьми 2. Позицией Шмидхубера: «Ml колонизирует галактику, люди не будут играть большой роли — и это нормально» Люди должны оставаться необходимой, хотя и максимально усиленной, частью всех процессов принятия решений — экономических, научных и любых других
Posted Dec 17
Авторы предлагают единую классификацию существующих подходов к памяти с трёх сторон: 1. Формы памяти 2. Функции памяти 3. Динамика памяти Обзор подчёркивает, что традиционные классификации, например, кратковременная/долговременная память из психологии уже не подходят для современных сложных систем Ml-агентов Авторы дают критический фундамент для проектирования будущих Ml-агентов, обсуждают бенчмарки, фреймворки и перспективные направления - мультимодальная память, многоагентные системы, надёжность и тд.
Posted Dec 17
Anthropic will add 5 different starting points to its upcoming Tasks Mode: Research, Analyse, Write, Build, and Do More Tons of granular controls A new sidebar for tracking tasks' progress and working with Claude's context has also been added
Posted Dec 17
Истерия вокруг «ИИ» создаёт ощущение, что компьютерные достижения в математике — это что-то новое Но история куда длиннее… Одним из первых громких случаев «компьютерного доказательства» стало решение проблемы о четырёх красках в 1976 году Звучит она так: любую карту можно раскрасить четырьмя цветами так, чтобы соседние области не совпадали Доказательство оказалось настолько громоздким, что без компьютера справиться было невозможно — программа перебрала 1936 конфигураций, но математики всё равно относились к неручной работе с подозрением В конце XX века разрешилась гипотеза Кеплера о плотнейшей упаковке шаров О ней, кстати, уже писали ранее тут и тут Она оставалась недоказанной почти 400 лет В 1998 году Томас Хейлс заявил о доказательстве, включавшем тысячи страниц текста и гигабайты расчётов Эксперты ошибок не нашли, но и проверить результат вручную им не удалось Так в 2003 году родился проект FlySpeck, завершившийся в 2014 Ещё один пример — теорема Фейта-Томпсона Это теорема о разрешимости конечных групп нечётного порядка Оригинальное доказательство было опубликовано в 1963 году Его формализация в системе Coq в 2012 году под руководством Жоржа Гонтье стала вехой в истории компьютерной проверки доказательств и заняла почти пятнадцать лет ️️ И, конечно, классификация конечных простых групп Грандиозный проект длиной в полвека и объёмом более десяти тысяч страниц Здесь компьютеры играли заметную роль в доказательствах, связанных со спорадическими группами Один из идеологов проекта, в шутку называл классификацию «тридцатилетней войной» Эти примеры показывают: компьютеры давно участвуют в математике, но скорее как верификаторы, перебирающие варианты, проверяющие случаи и формально подтверждающие логические выводы Первые системы середины XX века были символическими, логическими и уже «пытались рассуждать и доказывать» Logic Theorist, родившаяся в 1956 году, была первой программой, которую создатели прямо назвали «искусственным интеллектом» Она смогла доказать 38 из 52 теорем из Principia Mathematica Программу представили на Дартмутской конференции 1956 года, которая считается моментом рождения Ml как научной дисциплины Через год появилась GPS Программа General Problem Solver демонстрировала универсальный подход к решению задач — от логических головоломок и алгебраических преобразований до просчёта шахматных позиций Проблема была лишь в том, что комбинаторный взрыв делал сложные задачи непосильными компьютеру Тем не менее это был не он За этими программами стояла важная идея формализации математики, которая возникла задолго до компьютеров Формализация утверждала, что любая теорема — это цепочка строго определённых логических шагов