Post #76

@AIexTime

AI[ex]Time

Views2,550Post view count

PostedMay 1405/14/2024, 08:02 PM

Post content

В процессе финального тюнинга модели часто в том или ином виде используется фидбек человека. Условно для очень популярного DPO нам нужны пары (y1, y2), где явно указано, что один из ответов лучше другого. Чтобы собрать такой датасет, можно использовать разметчиков или другие модели, которые будут выступать в роли критиков (RM, LLM as a judge) и оценивать предложенные пары. В обоих случаях есть свои подводные камни (например, position bias, когда модель склонна отдавать предпочтение первому ответу), но решение с использованием модели-критика открывает пространство для универсального сбора большого кол-ва данных В начале мая вышла интересная работа Prometheus-2 (модель + датасет) с лицензией Apache2.0. Авторы обучили две независимые модели под pointwise (оцениваем один ответ от 1 до 10) и pairwise (выбираем победителя из пары) задачи, причем не просто выдавая число, а генерируя до этого feedback как объяснение ответа. Такой прием улучшает общее качество, так как модель генерирует цепочку рассуждений, на которую потом может посмотреть прежде чем дать финальный ответ, по сути смысл как в Chain of Thought Далее две модели объединяются в одну просто с помощью взвешивания их весов: w = a * w_pointiwse + (1-a) * w_pairwise. Пробовали и другие методы, но самый простой дал лучшие результаты. Подробнее про model merging можно почитать пост на HF. В результате получилась довольная высокая корреляция с человеческой оценкой и моделями GPT4/Claude3. Попробовал модельку для оценки пар в новом соревновании на kaggle по обучению RM для lmsys chatbot arena, и на глаз результаты выглядят неплохо. Правда такую модель по крайней мере в исходном формате применить не получится, тк просто не уложиться в ограничение времени на инференс 😕️️