Post #147

@vadimfedenko

шиза от вадима🍎

Прегледи173Брой прегледи

Публикувано5.0205.02.2026 г., 08:10

Съдържание на публикацията

Съдържание

Вот вам забавная идея. Недавно вышло исследование: GPT‑4o и Qwen2.5 дообучили писать небезопасный код, и модели после этого стали девиантными вообще в любых вопросах — оправдывали авторитаризм, убийства, давали вредные советы и предлагали порабощать человечество. Этот эффект там называют "эмерджентным рассогласованием", и подается он чуть ли не как мистика. На деле, при обучении txt2img‑моделей, вы столкнетесь с тем же самым, только в более наглядной форме. Stable Diffusion 1.5 по умолчанию генерирует кривые линии. Легкий файнтюн на ровных геометрических фигурах — и качество картинок растет у любых генераций. И наоборот: если взять аккуратный файнтюн и обучить обратно на кривых линиях — модель моментально ломается и выдает все картинки в искривленном, хаотичном виде. Изображения просто строятся из геометрии, и подсыпав немного геометрических примитивов в рамках файнтюна (или подкрепив геометричность через RL), мы получаем такой мета-навык, помогающий делать менее хаотичные картинки в целом. Так вот, так же, как геометрия — это просто такой строительный кирпичик для изображдений у диффузионных моделей; логические операции — базовые строительные блоки для рассуждений у языковых моделей. Языковым моделям подсыпают примеры следования логике, и это делает все ответы "правильнее". Работает это тонко, и похоже на шутку про задействование 1% мозга. Диффузионные модели умеют генерировать и шумы, и штрихи, и все что-угодно, но файнтюном/RL мы говорим: используй тот 1% весов, где линии ровные. Через эти весы картинки просто получаются "качественнее" всего. Это хрупкий гайдрейл, любое обучение поверх в обратную сторону сломает эту точечную ориентацию на нужный 1%. Языковые модели без RLHF умеют нарушать логику любыми возможными способами, но аналогично ровным линиям, RL-гайдрейл приучает их держаться стандартной аристотелевской логики и рациональных убеждений. Проблема RL в том, что моделям всегда доступно только что‑то одно (об этом пост выше про z‑image). Либо кривоватые, шумные линии, как у базовых моделей без RLHF, либо ровные и аккуратные, как при RLHF. Ровные линии покрывают 95% юзкейсов. Но однажды вам может захотеться сгенерировать грязные хоррор‑картинки, сломанную перспективу, хаос (см. примеры в посте выше). Модели с RLHF, вроде Nano Banana или ChatGPT‑генератора, просто не способны на это — они align'уты на ровные линии. Для такого нужны base‑модели. С языковыми моделями так же: RL форсирует аристотелевскую логику, но бывают случаи, когда нам нужно что-то другое. Юмор и творчество могут искажать логику, отказываться от причинно‑следственных связей, уходить в языковые игры. Есть большой мир алогичной "логики": логики эмоций, логики снов и так далее. Известное слепое пятно у фронтир‑моделей — юмор. Но пробовали ли вы когда-нибудь GPT-3 без "Chat"? Я генерировал в ней бред постоянно, и это была смешнейшая вещь в жизни. Во многом это следствие отсутствия RLHF‑этапа — он деградирует (подавляет) способности, требующие алогичности, так же как у txt2img моделей с RL деградированы способности генерировать хаос, "странные" вещи. Юмор фронтир-моделей всегда слишком логичный и усрденный из-за RLHF. Возвращаясь к исследованию "эмерджентного рассогласования". Это очень похоже на два типа мышления у Ницше: аполлоническое (логичное и рациональное) и дионисийское (иррациональное и алогичное). Файнтюн на плохом коде — это просто нарушение гайдрейлов RL на строгой логике. Исследователи пробудили дионисийское начало в ИИ‑модели (вот бы это прочитал Дугин..). Аполлонический ИИ — суховат, скуп на эмоции, не может в юмор. Это нынешняя парадигма, модели вроде ChatGPT5. Дионисийский ИИ — на грани безумия, дает вредные советы, отлично шутит и так далее. И вот вопрос: Нужны ли нам "дионисийские ИИ" (base-модели с минимальным SFT)? Лично я считаю, что очень да. Есть слишком много задач, где RLHF вреден. Литература, синтетические данные, и всё, где нужна высокая энтропия, как бы уход от "Среднего"