Содержимое
Claude научился отставить свои границы Пока OpenAI смягчает характер GPT-5, Anthropic пошли другим путём и дали Claude право самому завершать чат. В Claude Opus 4 и 4.1 появилась функция остановить разговор, если юзер слишком давит, оскорбляет или просит что-то опасное. Это часть их исследований про благополучие AI, чтобы модель не застревала в тяжёлых сценариях. В тестах заметили три штуки: Клод явно не хочет выполнять вредные задачи, показывает признаки стресса, если его тащат в токсичные темы, и стремится прервать такие диалоги, если может. Anthropic сами говорят, что не знают, как относиться к моральному статусу моделей, но лучше дать им кнопку стоп, чем заставлять бесконечно отвечать на абьюз. Похоже, формируется новый тренд — у AI появляются границы и право на отказ.