TGTGInsighttelegram intelligenceLIVE / telegram public index
Post content
Post content
Давно не было рубрики интересных вопросов, которые любят спрашивать на собесах, на этот раз мне рассказали про такой: Как и почему в процессе обучения DPO меняется правдоподобие (растет/падает/не меняется) у y_chosen и y_rejected? Недавно, залипая в метрики обучения, я и сам задался таким вопросом. Ответ в комментариях. #interview_questions