Post content
"Личностные качества" определённым образом обученной и стабилизированной по этим "личностным качествам" большой языковой модели, оцененные по её вербальному самоотчёту (типа "agreeableness" из "большой пятерки"), в меньшей степени предсказывают её реальное поведение, чем у людей Это существенный вывод для алаймента (и особенно, конечно, для супералаймента) – чтобы понять, насколько определённым образом обученная и стабилизированная по своим "личностным качествам" конкретная модель согласована с целями и ценностями человека, надо меньше доверять её вербальному самоотчёту и больше тестировать её реальное поведение, а также смотреть непосредственно "вглубь" её конкретных активационно-нейросетевых механизмов, обеспечивающих это реальное поведение https://openreview.net/forum?id=pdLNGgdO1A