Post content
Новый ИИ-помощник на базе Yandex AI Studio разработали Яндекс и Институт востоковедения РАН. Он поможет учёным работать с научными публикациями и материалами в СМИ на языках Азии и Африки. 🔓Какую задачу нужно было решить? Даже учёным Института востоковедения РАН непросто справиться с огромным массивом публикаций на многочисленных восточных языках. Качественный перевод каждого документа занимает много ресурсов, а нехватка данных снижает глубину исследования. ⭐️Чем поможет ассистент? Новый ИИ-помощник разработан на базе платформы для разработки ИИ-приложений и агентов Yandex AI Studio. Он обрабатывает научные тексты, выделяет ключевые факты и формирует краткие аналитические выжимки. Это позволяет обеспечить понятный русскоязычный поиск по публикациям и доступ к ним. Также ИИ формирует новостные дайджесты по публикациям в СМИ. Система способна обработать до 1000 источников в день — примерно в 100 раз больше, чем исследователь может вручную. Учёные рассказывают, что в целом инструмент ускоряет решение их задач в 6–8 раз. Сейчас проект работает с четырьмя вариациями китайского — континентальным, гонконгским, тайваньским и сингапурским. База обработанных документов уже превысила полтора миллиона. В будущем в проект планируют добавить множество других языков и увеличить базу публикаций в тысячи раз. 📖А как он работает? Технологически решение состоит из двух схожих с RAG-архитектурой систем: одна — для поиска в СМИ, а другая — ИИ-ассистент для работы с научными материалами. Система для поиска в СМИ ищет по внутренней новостной базе данных и одновременно — по актуальным публикациям в СМИ. Затем она переводит их, индексирует и формирует поисковую выдачу. При этом она сохраняет все обработанные во время поиска тексты СМИ в свою базу. Ассистент состоит из трех компонентов. Первый превращает документы и запросы в векторные представления и даёт семантический поиск (находит по смыслу, а не по совпадению слов). Второй — языковая модель FRED-T5-Summarizer, которая преобразует тексты в краткие выжимки. Третий компонент — YandexGPT, формирует финальные ответы. Модуль для анализа СМИ изначально работал с помощью Yandex Translate, который перед индексацией переводил тексты с китайского на русский. Но в июле Yandex Cloud стали доступны китайские ИИ-модели Qwen от Alibaba — сейчас крупнейшую из них подключают к ИИ-помощнику. 👍 — если рады, что у востоковедов появился такой помощник Подписывайтесь 👉@yab2btech