TGTGInsightаналитика telegramLIVE / telegram public index
← Стартап слезам не верит
Стартап слезам не верит avatar

TGINSIGHT POST

Post #505

@startupslezamneverit

Стартап слезам не верит

Просмотры342Количество просмотров
Опубликован6 мар.06.03.2023, 05:01
Содержимое поста

Содержимое

​Как нейросети выучили казахский язык Сервис по распознаванию и синтезу речи разработали в IT-холдинге Kazdream, который специализируется на цифровых продуктах для B2G, B2B и B2C. Насколько сложно было создавать языковый сервис на базе нейросетей, Цифровой орде рассказал Артем Рычко, Data Scientist компании Speech Lab IT-холдинга Kazdream. В начале была гипотеза В 2018 году на рынке было много решений на 20-30 языках мира с хорошим качеством распознавания речи. Потихоньку развивался синтез. А для Казахстана такие технологии оставались недоступными. Ждать, пока какой-нибудь Apple или Google добавит казахский язык в свои продукты, пришлось бы долго. 💡 И мы решили проверить, сможем ли создать аналогичное решение на казахском языке. Главной проблемой была нехватка открытых данных для обучения нейросети. В лучшем случае она могла распознать каждое третье слово, но требовались голосовые записи с разным качеством: от идеального до того, который мы получаем во время звонков. Что-то приходилось брать с YouTube и вручную размечать записи — десятки людей занимались этим в течение нескольких лет. В итоге мы собрали огромный корпус разметки. Также мы учитывали, что в Казахстане говорят на языке, в котором одновременно используются казахские и русские слова — научиться их распознавать стало для нас челленджем. На решение этой задачи ушло несколько месяцев. Кроме того, наша нейросеть учитывает языковые различия в зависимости от региона, понимая, как, например, на казахском говорят на Юге или Западе. Спрос не заставил себя долго ждать Потребность в таких решениях с каждым годом растет. Call-центры давно используют технологию AVR, когда вас просят назвать цифру в зависимости от услуги. Также голосовой сервис подходит тем же банкам и клиникам для работы с приватной информацией. К нам обращались частные компании, госучреждения, полиция и суды, call-центры государственных служб, включая 1414 и eGov. За час они обрабатывает сотни обращений, и около 70% вопросов — однотипные, поэтому их легче автоматизировать. Такой подход обходится бизнесу значительно дешевле. Сейчас мы разрабатываем умный сервис, предлагающий оптимальный сценарий ответов на клиентские запросы на основе предыдущих обращений. Это удобно, так как заказчики не всегда понимают, какими должны быть сценарии, и к оптимальному варианту мы приходим через несколько итераций. Система сможет быстро добавлять новые сценарии, адаптируясь к изменениям за несколько минут. Вместе с Astana Hub мы даем другим компаниям на льготных условиях доступ к ограниченному использованию наших технологий с поддержкой казахского языка. Мы не останавливаемся в развитии наших текущих продуктов и часть решений разрабатываем почти бесплатно в рамках социальной нагрузки. Например, создаем сервис для слабовидящих для работы на компьютере с озвучкой происходящего на экране. На казахском языке такого решения пока нет. Тренды и перспективы Со следующего года планируем выходить на рынок Европы. Также мы помогали с кыргызским, узбекским и азербайджанским языками. Мы используем современный стек технологий — по качеству распознавания и синтезу речи наш сервис не уступает зарубежным аналогам. Сейчас на рынке появляются новые направления — тот же ChatGPT или большие языковые модели, способные поддерживать диалог на уровне человека. В этом направлении Казахстан пока отстает. Ведущие игроки в области синтеза и распознавания речи — Google и NVIDIA. Они создают отличные архитектуры, которые мы тоже используем, немного переделав — открытые решения, как правило, требуют доработки. Голосовые сервисы можно использовать для синхронного перевода, например, в университетах или для YouTube. Что касается профессионального озвучивания, нейросеть пока вряд ли заменит хорошего диктора, но обучить ее нужным интонациям и эмоциям — вопрос времени. Думаю, через год-два мы увидим множество решений, в том числе наше, способные повторять манеру речи человека. #Интервью#ИИ @sandyq_orda – цифровизация Казахстана в деталях