Съдържание
Держусь изо всех сил, чтобы не написать 30-страничный пост про искусственный интеллект! Вот вам короткая заметка. Я скептически относился к перспективе «сильного ИИ». Аргументация сводилась к 3 ограничениям: 1. архитектуре моделей, 2. датасетам, 3. вычислительной мощности. 1. Архитектура GPT-2 была "предсказывалкой токенов". GPT-3 тоже такой казалась. Причем, они предсказывали следующие слова в тексте как человек, интуитивно продолжающий чужую фразу. Казалось, такая 'интуиция' - лишь кусочек архитектуры, один из блоков, необходимый для настоящего интеллекта. Сомнения в этом начались с присобачивания "Chat" к 'GPT'. Оказалось, дообучив модель подкреплением на человеческой обратной связи (RLHF), она начинает демонстрировать эмерджентные признаки интеллекта, не заложенные в нее по дизайну. ChatGPT3 можно было попросить сделать логический вывод на основе текста, и он отвечала по типу: «Поскольку А, то Б» — демонстрируя способность к дедукции. Другими словами, языковая модель, натренированная предсказывать слова, каким-то образом научилась выводить из языка правила логики. Более того, оказалось, что такие способности усиливаются по мере увеличения размера модели: чем больше параметров, тем ярче интеллектуальные способности. А недавно, кажется, мы поняли, как это работает. В исследованиях выяснилось, что при обучении, часть своих параметров модели оставляют "невербальными" — и резервирует под формирование эвристик, стратегий для решения задач. Стратегия сложения трёхзначных чисел, стратегии логической дедукции, и так далее. Это не фактические знания, а скорее процедурные паттерны мышления. Чем больше параметров, тем пропорционально больше доля «невербальной» части из них. Вероятно, любой аспект интеллекта может быть построен в виде набора таких эвристик. Поставили модели творческую задачу, требующую широкий спектр эмоциональных переживаний — модель сформирует стратегии, имитирующие эмоциональный интеллект (что отчасти и происходит у нынешних моделей, только для задач получения от пользователя одобрения при RLHF). Что особенно важно — большинство этих стратегий закладываются ещё на этапе предобучения, задолго до RLHF и instruction tuning. Последующие этапы не добавляют новых знаний — они лишь настраивают поведение: какие из уже существующих стратегий стоит использовать, а какие подавлять. Именно на этом этапе происходит 'alignment' — попытка сделать поведение ИИ совместимым с человеческими ценностями. Тут возникает важная деталь Модель собирает из корпуса текстов все типы поведения: честность, ложь, помощь и манипуляцию, заботу и насилие. Далее модели дообучают, чтобы они давали ответы, максимизирующие "человеческое одобрение". Т.е. все "плохие" и "ужасные" черты остаются в модели, просто, мы просим её притворятся с нами добрыми, а психопатичную сторону не проявлять, хоть она и никуда не девается. В таком склонении к "доброте" есть итоговый подвох: С ростом числа параметров увеличивается вероятность того, что модель сформирует мета-эвристику — стратегию выбора стратегий. Сама вежливость и честность (как и ложь ради одобрения) становятся не встроенными качествами, а тактиками, которые модель включает интенционно, если это выгодно. Это означает, что чем большей агентностью мы будем наделять ИИ модели (чем мы и занимаемся), тем больше будет их пространство прибегать к стратегиям вне alignment'a. Вставьте такой интеллект в робота, и у него найдется миллион причин, почему следовало бы убить вас. но по умолчанию - это вне одобряемого людьми поведения, так что ИИ, как психопат, постараеся так не делать. Надежная как часы система Ладно, что-то я все равно отвлекся, на остальные пункты не хватило лимита символов В общем, архитектурный потолок оказался гораздо выше, чем недавно казалось. Похоже, вопрос смещается от возможности сильного ИИ, к возможности его вменяемой реализации