Post #322

@MachineLearningResearch

AML

Views521Post view count

PostedSep 1709/17/2025, 06:21 PM

Post content

Люди начали разговаривать как ChatGPT Работа вот 1. Взяли огромное количество текстов, написанных людьми (научные статьи с arXiv, bioRxiv, Nature, эссе, почты и так далее) 2. Попросили разные версии ChatGPT (GPT-3.5, GPT-4, GPT-4o) отредактировать или улучшить эти тексты на обычных промптах без определения стиля 3. Сравнили частоту употребления слов в оригинальных человеческих и отредактированных текстах В любимые слова попали: • delve (вникать, углубляться) • comprehend (постигать, понимать) • boast (хвастаться, гордиться) • swift (стремительный, быстрый) • meticulous (дотошный, скрупулезный) • underscore (подчеркивать) • bolster (укреплять, поддерживать) Чтобы отследить изменения в реальной речи, ученые собрали базу данных: — 360.445 записей академических лекций и докладов с YouTube — 771.591 выпуск разговорных подкастов по разным темам (наука и технологии, бизнес, образование, религия, спорт) Всего 740.000 часов аудио, которые превратили в текст Данные с 2017 по 2024 год, то есть до и после выхода ChatGPT (30 ноября 2022 года) Результаты: — Сразу после ноября 2022 года частота GPT-слов у человеков резко и значительно подскочила В то же время их "синтетические двойники" (контрольная группа) продолжили вести себя как раньше — Для топ-20 GPT-слов рост составил от 25 % до 50 % в год — Эффект наблюдался не только в академических лекциях (где текст может быть написан заранее), но и в спонтанных разговорах в подкастах Это говорит о том, что люди начинают усваивать эти слова и использовать их в обычной беседе — Влияние сильнее всего проявилось в подкастах на темы науки и технологий, бизнеса и образования В подкастах про спорт и религию значимого роста не было Заражение языком LLM идет в первую очередь через те сферы, где люди активнее всего используют ChatGPT для работы Так что машины, которые учились на человеческом корпусе текстов, теперь учат людей говорить Ну и что-то там про то, что если модели так легко и незаметно могут повлиять на наш выбор слов, то в будущем его можно будет использовать для более глубокого влияния на наши мысли, мнения и вообще общественный дискурс в огромных масштабах В самых последних моделях (GPT-4-turbo и GPT-4o — исследования публикуются дольше, чем релизятся модели) "любовь" к слову "delve" стала заметно меньше Возможно, они там тоже заметили эту стилистическую особенность и вручную её исправляют А вот вторая работа про влияние на язык Тут про то, что большие языковые модели отражают и усиливают существующее в обществе убеждение, что есть «правильный» способ говорить, а все остальные — диалекты, акценты, языковые варианты — менее престижны или даже неверны Речь сейчас про стандартный американский, а всякие вариации идут лесом На самом деле, с точки зрения лингвистики, все языковые варианты равны, независимо от количества носителей Просто диалект становится языком, когда у него появляется своя армия и флот