Съдържание
Об ИИ и болезнях Представьте, что решили дообучить Stable Diffusion на своем любимом лице. Пачка ваших фотографий показывается нейросети очень много раз, и веса модели постепенно подгоняются под соотношения, которые та "видит" на фото. Например, ваши черты лица вроде расстояния меж глаз не меняются — это инвариант, пропорции черт одинаковы на всех фото. Эту одинаковость значений легко закрепить при обучении весов. Один и тот же сигнал укрепляет связь, как в мозгу. При этом на фото менялись прическа, свет, мимика. Меняются пропорции между уголками губ, положение волос — это вариативно, и при нормальном обучении это закрепляется плохо (тоже как с мозгами). Для модели вы — набор инвариантов, которые не менялись на фото. Именно инвариантность позволяет генерировать новые изображения с вашим лицом, т.е. по сути менять "вариативную" часть фотографий. Любопытен в этом overfitting (переобучение). Нейросеть можно перетренировать, а ваше лицо таким образом "запечь" в модели. Если продолжать обучение бесконечно, то даже варьирующиеся вещи модель начинает видеть так часто, что они укрепляются. В итоге инвариантом становится фото целиком. ИИ теряет гибкость: модель начинает выплевывать 1-в-1 те же фото, что подавались при обучении. (Тут все упрощаю, но уточню: переобучение проявляется по-разному в зависимости от архитектуры. У txt2img-моделей при долгом обучении редко встречается гроккинг, просто растет мемоизация, что мы на русском и называем запеканием). Вот этот опыт (а я запек сотни моделей!) дарит отличную интуицию по разным явлениям в нейрофизиологии. Особенно вспоминается случай Соломона Шерешевского — известного обладателя "фотографической" памяти. Стоит уточнить: чемпионаты по памяти выигрывают люди с заурядными мозгами, которые просто используют мнемотехнику (что тем не менее крутая вещь, так как я сдавал ею экзамены). Но это далеко от фотографической памяти, которая встречается крайне редко. Шерешевский — уникальный случай такой аномалии. Помимо способности на годы запоминать информацию с одного взгляда, он страдал от множества проблем, на первый взгляд не связанных между собой. Так, он с трудом узнавал людей. Шерешевский запоминал их "статично": если человек менял выражение лица или менялось освещение, он казался Шерешевскому другим человеком. Иногда это связывали с прозопагнозией (расстройством распознавания лиц), но это предполагает узкое нарушение в нижне-затылочной области и никак не объясняет его феноменальную память или проблемы с чтением, когда наплыв "паразитарных" ассоциаций мешал понимать смысл простых предложений. Его симптоматика магически схожа с "запеканием" ИИ, когда вся поступающая информация проваливается в инвариантность. В контексте мозга это могло бы означать чрезмерное укрепление нейронных связей (или, наоборот, нарушение механизма их ослабления). Такое "запекание" обеспечивает абсолютную память — точно так же переобученная нейросеть выдает точные копии фотографий из датасета. Но это ломает тонкий баланс: его мозг как бы делает overfit на конкретную сцену и не дает играть вариациям мимики или освещения. Образ сразу становится инвариантным, застывшим. Эта же логика переобучения ложится на другие симптомы, вроде навязчивой синестезии и невозможности отделить происходящее от "шума". Подозреваю, что на каждый баг нейросети у природы припасен аналог из нашей нейрофизиологии. Когда смотришь на артефакты CFG Scale, сложно отделаться от мысли, что это шизофрения. Внутренний сигнал модели усиливается настолько, что заглушает входящий промт; модель галлюцинирует и видит связи там, где их нет. Мы так усердно создавали архитектуру по своему подобию, что приходится смотреть на бедные машины, страдающие от наших недугов