Post #261

@MachineLearningResearch

AML

Views463Post view count

PostedAug 2408/24/2025, 07:03 PM

Post content

Ml можно вырастить как ребенка — в реальном хаосе мира. Поворот в ML: учим модели на "мусорных" лайках вместо чистых оценок Обучение Ml по человеческой обратной связи (RLHF) требует аккуратных, проверенных оценок людей-разметчиков В реальности же платформы — от соцсетей до медиа и маркетплейсов, — не выдают чистых ярлыков “хорошо/плохо”: есть лишь шумные, смещённые сигналы (лайки, дочитывания, клики, покупки), зависящие от контекста и масштаба аудитории Авторы нового метода обучения предлагают способ принять этот шум в работу, а не прятаться от него: учить модели на непроверенных, реальных сигналах (RLNVR), но при этом аккуратно вычищать системные перекосы и стабилизировать обучение Коротко говоря: Бери сырой, шумный и бестолковый мир как он есть, нормируй очевидные искажения, переноси сигнал по смысловому сходству и держи петлю обратной связи устойчивой Звучит просто Осталось понять следующее 1. Как это работает на практике (и почему это вообще возможно)? Предельно кратко: Берём реальные, пусть и шумные, реакции людей; приводим их к честной шкале; переносим опыт с лучших похожих случаев; и учим модель с простыми, но жёсткими «поручнями», чтобы она не читерила Подробней здесь 2. Если получится, - что это будет значить для общества и для каждого из нас? Предельно кратко: Мир обратных связей заговорит громче Сильно упростится обучение моделей и повысится «демократизация RL» Но может восторжествовать «закон Гудхарта для» Подробней здесь 3. Что в сухом остатке Предельно кратко: Предложен проект аккуратного инженерного моста между сложной и непростой жизнью и петлями машинного обучения Ml Но мир еще сложнее, и многое тут зависит уже не от кода, а от нас Подробней здесь