TGTGInsightаналитика telegramLIVE / telegram public index
← Machinelearning
Machinelearning avatar

TGINSIGHT POST

Post #9432

@ai_machinelearning_big_data

Machinelearning

Просмотры33,400Количество просмотров
Опубликован26 янв.26.01.2026, 11:01
Содержимое поста

Содержимое

📌Банхаммер Anthropic: как потерять доступ к API, заставив Claude писать инструкции для Claude. Любопытный кейс португальского разработчика Хуго Даниэля, который решил поиграть в жесткую автоматизацию с Сlaude Сode. и проиграл Хуго был активным пользователем Сlaude, тратил 220 евро в месяц и однажды решил настроить генерацию шаблонных файлов для новых проектов двумя агентами. Схема была примерно такая: 🟢Claude A (в одном окне): отвечает за обновление файла CLAUDE.md. Это файл с контекстом и инструкциями, как вести себя модели в конкретном проекте. 🟢Claude B (в другом окне): пытается выполнять задачи внутри этого проекта, используя инструкции из CLAUDE.md. 🟠Loop: когда Claude B косячил, Хуго копировал ошибку, скармливал ее Claude A и говорил: "Поправь инструкции, чтобы этот дурак больше так не делал". В какой-то момент Claude A, видимо, устал от тупости коллеги и начал генерировать инструкции капсом, чтобы жестко задать поведение - файл наполнился директивами, которые выглядели как System Prompts. 🟡На этом этапе Хуго и получил бан от Anthropic. Гипотеза бана в том, что сработали эвристики защиты от Prompt Injection. Система безопасности Anthropic увидела, что пользователь генерирует и скармливает модели текст, который структурно и лексически выглядит как системные инструкции. Вобщем, для алгоритмов безопасности это выглядит как попытка джейлбрейка. Ожидаемо, саппорт хранил молчание: ни через систему апелляции (она, кстати на Google Forms), ни письма в поддержку не дали результатов. Через насколько дней пришел только молчаливый возврат средств за подписку. Так что причины блокировки так и остались гипотезой. 🟡Автор справедливо замечает: хорошо, что это был не Google. Если бы подобный эксперимент проводился у "Корпорации Добра" - сработал бы их вездесущий триггер на "злонамеренную активность", и человек мог бы потерять Gmail, Google Photos, документы и получить кирпич вместо Android-смартфона. История Хуго - хорошее напоминание о том, что модерация в ИИ сейчас - это черный ящик. Если вы занимаетесь авто-генерацией промптов, которые выглядят как системные инструкции (то, что называют meta-prompting и scaffolding) - вы ходите по минному полю. @ai_machinelearning_big_data #AI#ML#Story#Anthropic