Post #1020

@DHRIsfu

Гуманитарии в цифре

Просмотры1,410Количество просмотров

Опубликован27 янв.27.01.2026, 05:32

Содержимое поста

Содержимое

CoMMA: завершена расшифровка тысяч средневековых рукописей Проект CoMMA (Corpus of Medieval Manuscripts Automatically transcribed) стал одним из самых перспективных достижений в области цифровых гуманитарных исследований за последние годы, объединив усилия историков, лингвистов и специалистов по искусственному интеллекту. Исследователи завершили автоматическую расшифровку десятков тысяч средневековых рукописей – и сделали это всего за несколько месяцев. 🙂Как это стало возможным? Автоматическая транскрипция рукописей требует не только продвинутых алгоритмов ИИ, но и строгих стандартов подготовки данных. В 2022 году проект CATMus объединил усилия медиевистов и специалистов по машинному обучению: были собраны и стандартизированы 300 рукописей (около 200 000 строк) VIII-XVI веков, написанных на десятке языков – от латыни и старофранцузского до венето и голландского. На этой основе исследователи обучили модель с использованием инструментов eScriptorium и Kraken. После завершения проекта CATMus логичным продолжением стал запуск CoMMA: обученную модель применили к материалам из каталога Biblissima+, объединяющего цифровые копии более чем 260 000 рукописей крупнейших европейских собраний. CoMMA использует два алгоритма: один отвечает за распознавание различных элементов на странице (основной текст, примечания, иллюстрации и т. д.), а другой выполняет саму транскрипцию текста. В результате создается корпус, сохраняющий оригинальную орфографию и систему сокращений. «Этот корпус меняет сам подход к анализу текстовых данных: наличие столь масштабного массива источников, в которых сохранены реальные практики письма, открывает новые возможности для изучения эволюции языков и диалектов на статистическом уровне. CoMMA также возвращает в исследовательское поле тексты, ранее остававшиеся практически недоступными», – подчеркивает профессор цифровых гуманитарных наук в Университете Тура Елена Пьераццо. Проект активно развивается: команда планирует расширять CoMMA, добавляя новые языки и корпуса текстов. 🔜 Познакомиться с проектом можно здесь