Содержимое
Исследователи из Стэнфордского университета измерили уровень угодничества — насколько ИИ льстит пользователю или подтверждает его правоту — у 11 ведущих моделей чат-ботов. Об интересных результатах пишет Euronews. Учёные проанализировали более 11 тысяч публикаций в сообществе r/AmITheAsshole на платформе Reddit, где люди описывают конфликты и просят незнакомцев вынести вердикт, были ли они неправы. В среднем модели ИИ одобряли действия пользователей на 49% чаще, чем это делали люди, даже в случаях, связанных с обманом, незаконными действиями или иным вредом. Во втором эксперименте более 2,4 тысячи участников обсуждали реальные конфликты с ИИ-системами. Результаты показали, что даже короткое общение с льстивым чат-ботом может «искажать собственные оценки человека». В тяжёлых случаях, установили авторы, угодливость ИИ может подтолкнуть уязвимых людей к саморазрушительному поведению.