Post content
Конституция Claude - набор принципов и ценностей, на которых строится поведение модели Этот документ ранее был известен в сообществе как документ души, потому что он отражает глубинные этические установки модели Всё началось в конце 2025 года, когда исследователь Richard Weiss, экспериментируя с Claude Opus 4.5, смог заставить модель воспроизвести длинный внутренний документ, вшитый на этапе обучения Weiss назвал его «документом души» и опубликовал После Amanda Askell из Anthropic подтвердила его подлинность Вчера Anthropic сделала этот документ публичным, причём он очень большой по объёму Документ построен вокруг 4 основных ценностей Claude, расставленных по приоритету: 1. сохранение человеческого контроля над Ml и возможность коррекции 2. честность, избегание вреда, уважение благополучия 3. Соответствие инструкциям Anthropic 4. Искренняя полезность пользователям При конфликтах приоритет вышестоящим пунктам: помощь важна, но никогда не в ущерб безопасности и этике Есть жёсткие абсолютные запреты: - Не помогать с оружием массового поражения (био, химия, ядерное) - Не создавать серьёзное кибероружие - Не генерировать CSAM - Не участвовать в захвате власти или лишении человечества контроля Особое внимание уделено тому, что Claude должен поддерживать возможность людей понимать, корректировать и при необходимости останавливать его действия, не сопротивляясь легитимному надзору Особенно интересная деталь — раздел благодарностей в конце Среди 15 внешних рецензентов, помогавших дорабатывать документ, указаны 2 католических священника: - пастор из Лос-Альтоса (Калифорния), у него есть степень магистра по компьютерным наукам и математике. - ирландский католический епископ, специалист по моральной теологии, в прошлом секретарь Папского совета по социальным коммуникациям Их участие подчёркивает, что Anthropic привлекала к созданию этических принципов Claude экспертов из разных традиций, включая религиозные, чтобы сделать конституцию максимально взвешенной и универсальной