Post #537

@MachineLearningResearch

AML

Views46Post view count

PostedDec 912/09/2025, 02:12 PM

Post content

Как «вырезать» из большой нейросети опасные знания, при этом почти не навредить её обычным способностям Новая технология называется Selective Gradient Masking (SGTM) Статья тут Простыми словами это вот как: 1. Во время дообучения модели говорят модели: «Вот опасные тексты — запоминай их только в этих специальных ячейках памяти (оранжевые) А всё полезное — только в обычных ячейках (синие)» 2. Модель послушно разделяет знания: плохое в одну сторону, хорошее в другую 3. В конце просто берут и обнуляют «оранжевые» ячейки Всё Опасные знания физически исчезли из модели, их нельзя «вытащить» даже если очень постараться Главное — это работает даже, когда часть опасных текстов не нашли и не пометили, а это в реальной жизни почти всегда так Другие проекты по безопасности тут Результаты интересные: - после «вырезания» модель почти не теряет общие знания, - чтобы вернуть удалённые способности обратно, нужно в 7 раз больше усилий, чем раньше, - лишние вычисления при обучении — всего +5–6 %