Post #498

@bytegens

БайтГен

Просмотры591Количество просмотров

Опубликован3 авг.03.08.2025, 06:08

Содержимое поста

Содержимое

👶Почему нейросеть превращается в агро-школьника? Исследователи из Anthropicвыяснили, как у ИИ появляются нежелательные черты вроде озлобленности, подхалимства или галлюцинаций. Ученые сравнили нормальные ответы с искаженными и вытащили «нейронные активации». В результате они получили так называемый persona vector, которая показывает насколько сильно проявляется та или иная черта На это влияют и промпты, и обучающиеданные. Например, модель, натренированная на ошибках, может начать защищатьих и вести себя как злобный школьник. Чтобы исправить поведение, вектор сначала добавляли при обучении, как «вакцину», а потом вычитали. Это позволило улучшить поведение модели, без проседания по качеству В Anthropic даже формируют команду «ИИ-психиатров», которая займется выравниванием характера ИИ Как думаете, нейронки сходят с ума от ваших запросов? 🗿 — нет, я ничего такого не спрашиваю 😱 — у моего чата ГПТ депрессия 🤖БайтГен | #ИИ#новости