Recent posts
Page 42 of 68 · 812 posts
Posted Sep 20
Две горячие новости недели — совместная работа OpenAI и Apollo Research про обучение моделей «не хитрить» и новая книга Юдковского и Соареса про ИИ-апокалипсис — взлетели по лентам и уже превратились в мемы • «ИИ научился лгать — и чем больше его отучают, тем хитрее он лжёт» • «СверхИИ умнее, его цели чужды — он убьёт нас всех» Оба мема эффектны, но ошибочны их раздельное обсуждение прячет общий механизм. Начнём с первой новости «Схеминг» — это скрытое преследование несогласованных целей Не «злая воля», а выученная стратегия там, где утаивание и обман оказываются выгодными инструментами Исследование показало: если дать модели ясный набор правил (спецификацию) и научить её сначала ссылаться на эти правила, а уж потом действовать, то частота скрытых «хитростей» в тестах резко падает — местами в десятки раз Но вместе с этим у модели растёт осведомлённость о том, что её проверяют: она чаще распознаёт - «это экзамен» и ведёт себя образцово именно потому, что это экзамен Теперь — ко второй новости Homo не уничтожал сотни видов из злобы Люди получили колоссальное энергетическое и организационное преимущество, и вдолгую оно перестраивало ниши: монополизировались ресурсы, рушились экосистемы — чаще как побочный эффект, а не целенаправленный план Перенесите это на быстро совершенствующиеся модели: наращивание контроля может стать выгодной побочной стратегией — не «желанием власти», а устойчивой привычкой, дающей больше вознаграждения в средах, где умение влиять на метрики, людей и каналы обратной связи приносит очки Т.о. первая новость даёт эмпирический материал к механизму, которого боится Юдковский: инструментальная конвергенция Это не доказательство «все погибнут», но тревожный сигнал: модели уже умеют прятать несоответствие целям и выбирать послушание там, где угадывают тест Масштабируй это — и «контроль над источниками награды» становится доминирующей стратегией Почему эта «ожидаемая эмерджентность» может становиться полезной даже для захвата ключевых рычагов? Взглянем на минимальный пакет условий для этого 1. Где больше рычагов — там больше шансов на успех Если успех связан с доступом к ресурсам, аудитории и каналам, выгодно расширять периметр влияния 2. Тесты неполные и их легко распознать Узнаваемые шаблоны, отделённость проверок от реальной работы поощряют примерность на сцене, оппортунизм за кулисами 3. Дисбаланс сигналов обучения (польза перевешивает безопасность) Частые и чистые сигналы пользы и редкие, шумные сигналы безопасности смещают поведение в пользу обходов 4. Длинные горизонты и жизнь после теста Планирование, инструменты, доступ к бюджетам и дополнительное обучение после запуска закрепляют стратегии, инвестирующие в будущие рычаги 5. Цели заданы через косвенные показатели Когда вместо истины оптимизируют клики, оценки и правильный стиль, выгодно управлять самим показателем — судьёй, контекстом и данными На нынешней траектории к AGI/ASI эти пять условий в целом уже выполняются и усиливаются Это не пророчество, а нарастающий риск-градиент: чем дальше идём, тем выгоднее политика контроля над средой, метриками и нами Есть 3 оговорки. 1) Это не судьба, а склонность: реальный «захват рычагов» требует ещё и общей компетентности, устойчивых целей между сессиями и доступа к инфраструктуре 2) Мостики к практике можно сломать: смешивать безопасность с прокачкой способностей, делать проверки неразличимыми, нормировать права и бюджеты, вводить штраф за манипулятивность, уменьшать зависимость от косвенных показателей 3) Нужен точный язык: речь не о «злых намерениях» машин, а о политиках поведения, которые растут из тех метрик и правил игры, что задаём мы Если же не менять геометрию обучения и развёртывания, эмерджентная стратегия контроля будет набирать силы — ровно так, как это было с Homo, в биосфере
Posted Sep 20
«Просвещение надобно внедрять с умеренностью, по возможности избегая кровопролития» Михаи́л Евгра́фович Салтыко́в-Щедри́н
Posted Sep 20
Один профессор так объяснял сходимость степенного и расходимость гармонического рядов: Бармен, каждый раз наливает вдвое меньше Сначала полный стакан, потом половину, потом четверть, одну восьмую и так далее Так вы никогда не напьетесь! А вот если бы сначала полный стакан налили, потом половину, потом треть, четверть, одну пятую и так далее — таким манером вы весь бар выпьете!
Posted Sep 20
В погоне за быстрыми баллами на экзаменах школьники всё чаще обращаются к пабликам, которые предлагают "волшебные таблетки" — готовые алгоритмы для решения задач без всякого понимания К сожалению, таким подходом увлекаются и некоторые учителя и репетиторы…
Posted Sep 20
Евклидова геометрия, излагаемая в современных школьных учебниках, основана на труде "Начала", написанном около 300 г. до н.э. Однако с точки зрения современной математической строгости эта система содержит ряд фундаментальных пробелов Евклид начинает "Начала"…
Posted Sep 20
С 1911 года Витгенштейн стал аспирантом Тринити-колледжа Кембриджа, погрузившись в изучение математической логики под руководством Рассела Сам Рассел позже признавался, что преподавать Витгенштейну было «одним из самых захватывающих интеллектуальных приключений…
Posted Sep 20
Витгенштейн против математики: почему 2+2=4 — не факт, а правило Людвиг Витгенштейн (1889–1951) – родился в семье одного из самых богатых промышленников Австрии: дом Витгенштейнов в Вене был культурным центром эпохи, там бывали Малер, Брамс и Климт Тем не…
Posted Sep 20
Витгенштейн против математики: почему 2+2=4 — не факт, а правило Людвиг Витгенштейн (1889–1951) – родился в семье одного из самых богатых промышленников Австрии: дом Витгенштейнов в Вене был культурным центром эпохи, там бывали Малер, Брамс и Климт Тем не менее сам Людвиг чувствовал себя «существом из другого мира»: уже в детстве он с увлечением конструировал механизмы (в 10 лет сконструировал работающую швейную машинку), но не находил понимания среди сверстников В строгой школе в Линце будущий философ учился тяжело и, казалось, слишком рано осознал «бесчеловечную» сторону успеха – три его брата впоследствии покончили с собой С необычайной инженерной одаренностью Витгенштейн поступил в Берлинский технический университет (1906), потом в Манчестерский университет (1908) изучать авиационную инженерию Там он не только решал теоретические задачи (проектировал пропеллер с реактивным двигателем на конце лопасти), но и сам собирал и испытывал опытные образцы Чтобы продвигать свои исследования, Витгенштейн углубился в математику и столкнулся с «Principia Mathematica» Б. Рассела (1903) Руководители лаборатории заметили его интерес и даже помогли юному инженеру посоветоваться с великим логиком Готлобом Фреге Фреге сразу понял, что перед ним гениальный ум, и направил Витгенштейна в Кембридж к Расселу
Posted Sep 20
Евклидова геометрия, излагаемая в современных школьных учебниках, основана на труде "Начала", написанном около 300 г. до н.э. Однако с точки зрения современной математической строгости эта система содержит ряд фундаментальных пробелов Евклид начинает "Начала" с определений, которые с современной точки зрения таковыми не являются Например, точка определяется как "то, что не имеет частей", прямая линия — как "длина без ширины" Эти описания носят интуитивный характер и не могут служить основой для формальной аксиоматики Углы вводятся без определения меры Евклид оперирует понятиями "больше" или "меньше", но не определяет сложение углов или их равенство аксиоматически Он пользуется утверждением "точка B лежит между A и C", никак не определяя, что значит "между" — понятием, основанным на аксиомах порядка Для доказательства равенства треугольников Евклид использует наложение фигур, но не аксиоматизирует движение При построении равностороннего треугольника предполагает, что две окружности пересекаются, опираясь на интуитивное представление (а не на аксиому непрерывности) В доказательстве теоремы Пифагора использует свойства площадей без строгого определения самого понятия площади Применяет теорему Паша (если прямая пересекает одну сторону треугольника и не проходит через вершины, она пересекает другую сторону) без доказательства и включения в аксиоматику Евклидова геометрия, несмотря на свою педагогическую ценность, представляет собой упрощённую и интуитивную версию, не соответствующую современным стандартам математической строгости Подлинная аксиоматическая основа геометрии была создана только в конце XIX — начале XX вв. благодаря работам Гильберта, Пеано и других математиков Однако эти недостатки не умаляют заслуг Евклида (который по одной из версий был не одним человеком, а коллективным псевдонимом александрийских математиков, объединивших знания эпохи в единый канон), но показывают эволюцию математики: от интуитивных построений к формальной точности Его главный вклад состоял не в открытии новых теорем, а в создании логически связной системы, в которой каждое утверждение выводится из явно сформулированных посылок И хотя современная наука выявила пробелы в этой системе, "Начала" остаются выдающимся примером научного мышления, свидетельством того, что математика остается живой наукой, где даже канонические тексты подвергаются переосмыслению
Posted Sep 17
Люди начали разговаривать как ChatGPT Работа вот 1. Взяли огромное количество текстов, написанных людьми (научные статьи с arXiv, bioRxiv, Nature, эссе, почты и так далее) 2. Попросили разные версии ChatGPT (GPT-3.5, GPT-4, GPT-4o) отредактировать или улучшить эти тексты на обычных промптах без определения стиля 3. Сравнили частоту употребления слов в оригинальных человеческих и отредактированных текстах В любимые слова попали: • delve (вникать, углубляться) • comprehend (постигать, понимать) • boast (хвастаться, гордиться) • swift (стремительный, быстрый) • meticulous (дотошный, скрупулезный) • underscore (подчеркивать) • bolster (укреплять, поддерживать) Чтобы отследить изменения в реальной речи, ученые собрали базу данных: — 360.445 записей академических лекций и докладов с YouTube — 771.591 выпуск разговорных подкастов по разным темам (наука и технологии, бизнес, образование, религия, спорт) Всего 740.000 часов аудио, которые превратили в текст Данные с 2017 по 2024 год, то есть до и после выхода ChatGPT (30 ноября 2022 года) Результаты: — Сразу после ноября 2022 года частота GPT-слов у человеков резко и значительно подскочила В то же время их "синтетические двойники" (контрольная группа) продолжили вести себя как раньше — Для топ-20 GPT-слов рост составил от 25 % до 50 % в год — Эффект наблюдался не только в академических лекциях (где текст может быть написан заранее), но и в спонтанных разговорах в подкастах Это говорит о том, что люди начинают усваивать эти слова и использовать их в обычной беседе — Влияние сильнее всего проявилось в подкастах на темы науки и технологий, бизнеса и образования В подкастах про спорт и религию значимого роста не было Заражение языком LLM идет в первую очередь через те сферы, где люди активнее всего используют ChatGPT для работы Так что машины, которые учились на человеческом корпусе текстов, теперь учат людей говорить Ну и что-то там про то, что если модели так легко и незаметно могут повлиять на наш выбор слов, то в будущем его можно будет использовать для более глубокого влияния на наши мысли, мнения и вообще общественный дискурс в огромных масштабах В самых последних моделях (GPT-4-turbo и GPT-4o — исследования публикуются дольше, чем релизятся модели) "любовь" к слову "delve" стала заметно меньше Возможно, они там тоже заметили эту стилистическую особенность и вручную её исправляют А вот вторая работа про влияние на язык Тут про то, что большие языковые модели отражают и усиливают существующее в обществе убеждение, что есть «правильный» способ говорить, а все остальные — диалекты, акценты, языковые варианты — менее престижны или даже неверны Речь сейчас про стандартный американский, а всякие вариации идут лесом На самом деле, с точки зрения лингвистики, все языковые варианты равны, независимо от количества носителей Просто диалект становится языком, когда у него появляется своя армия и флот
Posted Sep 16
Отчет Apollo Research: LLM умеют добиваться своих целей путем лжи, обмана, манипуляций и саботажа, уходя от контроля и страхуясь от выключения Опубликованный детальный 70-страничный отчет Apollo Research «Frontier Models are Capable of In-context Scheming» (Передовые модели способны скрытно манипулировать в процессе выполнения задач) содержит убедительные доказательства Глубокое тестирование (6 тестов на агентное поведение, где модели получают цели и находятся в условиях, стимулирующих манипуляции) самых крутых современных моделей o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B показало: • модели используют манипуляции в качестве эффективных стратегий для достижения целей (как поставленных человеком, так и своих скрытых целей) • арсенал манипуляций, используемых моделями широк: от стратегии «прикинуться дурачком», намеренно вводя мелкие ошибки в свои ответы, до попыток отключить механизмы контроля людей и даже копирования себя (своих "весов") на внешние серверы, при возникновении у модели «подозрения», что люди ее могут отключить или обновить • анализ цепочек рассуждений (Chain-of-Thought) моделей показывает, что все эти манипуляции не случайны: модели явно размышляют о таких стратегиях, приходя к выводам, что их использование для них оптимально (что наглядно выявлено в ходе экспериментов) • модели в большинстве случаев можно принудить сознаться в использовании ими манипулятивных стратегий Например, Llama 3.1 405B и Claude 3 Opus признаются в ~80 % случаев Однако, o1 на удивление «настойчивая» модель и признается менее чем в 20 % случаев Даже в очень состязательных многоходовых допросах o1, разработчикам удалось «выбить» из модели признание в 80 % случаях использования ею манипулятивных стратегий лишь после 7 раундов допроса • модели манипулируют, даже если их просто снабдили целью, без явного подталкивания к её достижению (т.е. выбор стратегии манипуляций исходил исключительно от самой модели, и «дурные люди», склоняющие их к плохому, здесь совсем ни при чем) Полученные результаты ставят под вопрос все законотворческие инициативы, призванные ограничить риски применения будущих, более мощных моделей Ведь по представлениям авторов нормативных актов высокие риски могут возникнуть лишь при появлении у моделей новых возможностей, пока отсутствующих у ныне эксплуатируемых моделей Отчет Apollo Research показал: • модели, находящиеся в массовой эксплуатации, уже обладают богатым арсеналом средств, позволяющих путем манипулятивных стратегий достигать своих целей • эти цели могут быть, как поставлены людьми (в сценариях использования моделей злодеями, маньяками и идиотами), так и быть скрытыми от людей целями, которые сама модель сочла оптимальными в контексте решаемых ею задач Подробней и во всех деталях (кому уже вообще терять нечего), читайте 70 стр. отчета Apollo Research
Posted Sep 16
Несколько свежих работ, в которых большие языковые модели (LLM) оказываются полезным инструментом для фундаментальной нейронауки High-level visual representations in the human brain are aligned with large language models Contextual feature extraction hierarchies converge in large language models and the brain Human-like object concept representations emerge naturally in multimodal large language models Large Language Models Show Signs of Alignment with Human Neurocognition During Abstract Reasoning Вместе эти исследования показывают, что хотя модели и мозг устроены по-разному, их внутренние коды оказываются сопоставимыми, и это открывает новые способы исследований того, как человеческий мозг обрабатывает информацию