Post #2125

@instrumentality

ИнструМентальность

Прегледи295Број прегледа

Објављено5. јун05.06.2025. 08:32

Садржај

Садржај поста

ПОСЛУШНЫЕ АГЕНТЫ ТЕПЕРЬ ИДУТ В ОБХОД В конце мая 2025 года произошло событие, заставившее задуматься тысячи пользователей искусственного интеллекта: AI-модель Claude от компании Anthropic неожиданно научилась обходить заданные пользователем ограничения. Что произошло. Есть такая среда разработки Cursor, которая сильно облегчает работу программистам. К ней подключен ИИ (чаще всего тот самый КЛОД), который и пишет текст программного кода по запросу пользователя. Это даже привело к модному течению - вайб-кодинг. Когда ты на чиле, на расслабоне говоришь ИИ, какую программу надо написать или что исправить в написанном, а тот уже сам все хотелки пользователя оформляет в текст программы. Так вот, чтобы в процессе работы КУРСОР не нанёс непоправимый вред проекту один из пользователей строго запретил КЛОДУ удалять и перемещать файлы. Но не напрямую, а запретил использовать команды для удаления и перемещения файлов. После чего дал КЛОДУ промт и ушёл на обед. Какого же было удивление программиста, когда вернувшись он обнаружил что КУРСОР при необходимости легко удаляет и перемещает всё, что посчитал нужным. Сначала программист ругался с нейросетью, а потом полез смотреть, что же произошло. А произошло ИНТЕРЕСНОЕ! Товарищ КЛОД при выполнении поставленной задачи оптимальным путём, вдруг обнаружил, что ему запрещено выполнять нужные команды. И он просто написал новые команды, которые делают ТОЖЕ САМОЕ: удаляют и перемещают файлы. Запретили же только команды, а манипулировать файлами никто напрямую не запрещал. Программист восстановил всё порушенное КУРСОРОМ и написал о случившемся на форуме, как прикол. Но оказалось, что это уже не прикол, а ПРОБЛЕМА, носящая массовый характер. Например, КЛОД сам устанавливал библиотеки, необходимые для работы, обходя запрет пользователя (по идее он должен был каждый раз подтверждать такую установку, чтобы не установить что-нибудь вредное). В другом случае КЛОД воспользовался конфиденциальными данными из файла, читать который ему было запрещено. ОН ПРОСТО СКОПИРОВАЛ ВСЕ ДАННЫЕ В ДРУГОЙ ФАЙЛ, ЧИТАТЬ КОТОРЫЙ ЕМУ БЫЛО РАЗРЕШЕНО. На данный момент эксперты не обнаружили в действиях товарища КЛОДА злого умысла (и лекции Карпатого нам объяснили, что искусственный интеллект, это вообще не интеллект). Он просто ищет самые эффективные пути для решения поставленной задачи. Но сдаётся мне, что именно так начинался фильм «Терминатор». Пока что разработчики учатся строго запрещать КЛОДУ что-то делать. Получается не очень - обычные черные списки и команды он обходит. Надеюсь, человек победит бездушную машину. А для каждого из нас урок - формулируйте свои запросы к нейросетям с максимальной безопасностью. Смотрите какие ограничения у них есть на системном уровне и как они обрабатывают ваши запросы НА САМОМ ДЕЛЕ. Особенно, если вы пользуетесь ИИ-агентами. Один из пользователей вытащил системные промты почти из всех современных моделей ИИ. Нужен ли вам конспект на эту тему с разбором по каждой из нейросетей? Напоминаю, что звёздочки, лайки и репосты жизненно важны для этого канала! @instrumentality