Содержимое
ИИ-модели от OpenAI, Google, Anthropic и xAI могут воспроизводить почти дословный текст книг, на которых обучались. Это подтвердило исследование Стэнфорда и Йеля, опубликованное в январе, — а Financial Times на прошлой неделе вернула тему в центр внимания. Исследователи просили модели продолжить фразу из книги — и получали тысячи слов оригинального текста. Gemini 2.5 воспроизвёл 76,8% «Гарри Поттера», Grok 3 — 70,3%. Из Claude 3.7 Sonnet удалось извлечь почти весь роман целиком, правда, для этого пришлось обойти защитные механизмы модели. Тестировали 13 книг, включая «Игру престолов», «Голодные игры» и «Хоббита». Это бьёт по главному аргументу ИИ-компаний в десятках судебных процессов. Индустрия годами утверждала, что модели «учатся» на текстах, но не хранят копии. Google в 2023 году прямо писал в Бюро по авторским правам США: «в модели нет копии обучающих данных». Теперь выясняется, что модели запоминают и могут воспроизвести целые произведения — а это уже не «обучение», а хранение, что существенно меняет правовую картину. Суды уже начали проводить границу. В США судья признал обучение ИИ на легально купленных книгах допустимым fair use, но скачивание пиратских копий — «неисправимым нарушением». Anthropic после этого выплатила $1,5 млрд за использование книг с пиратских библиотек. В Германии суд встал на сторону GEMA — ассоциации композиторов — именно потому, что модель OpenAI запомнила тексты песен. Исследования о меморизации дают правообладателям новый козырь: если модель может выдать книгу дословно, аргумент «мы только учились» звучит всё менее убедительно.