Вміст поста
[о работе с источниками новостей] Сегодня со мной произошло крайне редкое. При прослушивании науч-поп. лекции на ютьюбе едва не бегал по потолку от ярости, «…метался по комнате, резко бил кулаком левой руки по ладони правой руки, бил кулаком правой руки по ладони левой руки» евпочя. Итак, полуторачасовая лекция из марта-2022 от неведомого мне доселе Александра Панченко - доцента Сколтеха, специалиста по NLP (Natural Language Processing, а не то что вы подумали). Тема – «Поговори со мной, машина. Технологии обработки языка», речь об обучении нейросетей по различным текстам при решении задач для общественной пользы и т.п. Сжёгший меня фрагмент лекции – с 44:20 по 1:00:35, где Панченко рассказывал о применении NLP для выявления фейковых новостей. Он излагал результаты некой работы (совместно с аспиранткой), а я при прослушивании бесился от того, как он описывал целеполагание. Имея в виду крупные новости, т.е. те которые «ходят» на уровне мировых СМИ, он сказал, что проверку источников новостей нужно делать не на исходном языке, а переводя текст проверяемой новости на иные языки – типа, чем больше похожих новостей найдётся на других языках, тем с большей вероятностью проверяемая новость будет достоверной. Ну то есть в его изложении – при полном непонимании лектором сути термина «источник информации» – на выходе получалась совершенно лютая ересь. Слава богу, что на слайдах у него была ссылка на статью 2021 года, которую он пересказывал, я пошёл и прочитал её. Выяснилось, что лектор не смог в самое главное – он банально не рассказал слушателям исследовательскую гипотезу. А она, как оказалось (см. пункт 3 на странице 2 пдфа), заключается в том, что, по мнению авторов, достоверные новости распространяются разноязычными СМИ более широко, чем фейковые. То есть дело не в проверке фейковости англоязычной новости по иноязычным СМИ, а в проверке глубины/дальности распространения основных фактов этой новости. Прочитав это, немного успокоился, и заново переслушал те 15 минут. Имея в виду эту непроизнесённую гипотезу, слушать уже можно. Попустило… Но выпускать этого доцента к информационщикам/новостникам нельзя, побьют же, так плавать в терминологии предметной области и не понимать обсуждаемого можно только Наталье Зубаревич, бгг.