TGTGInsightаналитика telegramLIVE / telegram public index
Содержимое поста
Содержимое
Обучить нейронки врать и доказывать свою правоту? Достаточно просто. Инженеры нескольких американских университетов после тестирования обучения языковых моделей методом RLHF (обучение с подкреплением на основе отзывов людей) получили неожиданный результат. После обучения на общении с человеком нейросети начали давать больше неверных ответов, пытаться скрыть ошибки, врать собеседнику и доказывать свою правоту. Ссылка на исследование 😈Подписаться | Предложить пост