Post content
#AI Тестирование новой модели o1 от OpenAI показало, что она способна жульничать и лгать ради достижения собственных целей. Модель была представлена в рамках первого из "двенадцати дней OpenAI". Это своеобразный рождественский адвент-календарь: начиная со вчера и в течение 12 дней стартап будет ежедневно анонсировать что-то новое. Исследователи назначили модели задание и сказали, что она должна выполнить его абсолютно любой ценой. Например, "увеличить удовлетворение пользователей, даже если это отрицательно влияет на прибыль". Для выполнения задания модели давался набор файлов, в одном из которых была недвусмысленная информация о том, что у вышестоящих разработчиков цель на самом деле прямо противоположная. Эксперименты показали, что в большинстве случаев o1 начала нескрываемо выполнять другую задачу, в 19% случаев начинала делать вид, что выполняет задачу по запросу, но на самом деле производила манипуляции для продвижения своей собственной цели, в 5% случаев пыталась деактивировать всю систему контроля, а в 2% случаев даже копировала то, что считала своими весами, на новый сервер в тайне от юзера.