Post content
LLM плохо обновляют убеждения по мере получения новой информации Хотя от модели ожидается, что она должна понимать предпочтения пользователя по его ответам и при накоплении таких данных становится полезнее, на самом деле LLM в этом плохи С математической точки зрения это означает, что у моделей нет байесовского мышления, то есть умения обновлять вероятность гипотез при поступлении новой информации У людей, кстати, такое мышление должно быть хорошо развито Здесь исследователи предлагают интересный подход Вместо того, чтобы учить модель обновлять знания с помощью файнтюна на обычных диалогах, они берут и дистиллируют в нее настоящий байесовский алгоритм То есть: • строится обычный автомат Байеса, который знаком всем, кто изучал классический ML Он решает задачу, просто обновляя вероятность разных гипотез по формуле • LLM файнтюнят на ответах алгоритма, чтобы она переняла общую логику обновления, но уже без формулы Во-первых, модель действительно начинает вести себя ближе к байесовскому оптимуму и учитывать новые данные На основной задаче рекомендаций качество заметно увеличилось Во-вторых, появилось обобщение То есть модель фактически выучивает сам принцип рассуждения, и начинает использовать эту стратегию в других задачах, где ее напрямую не обучали Короче говоря, довольно показательно, и авторы делают вывод о том, что обучение на демонстрациях алгоритмов в целом – работает В действительности, мы ведь и правда хотим от LLM, чтобы они были не просто генераторами текста, а универсальными имитатороми алгоритмов мышления research.google/blog/teaching-llms-to-reason-like-bayesians/