Post #590

@bugininfo

Bugin.info 🖥 🇰🇿🇺🇿🇰🇬🇹🇯

Просмотры165Количество просмотров

Опубликован26 июн.26.06.2025, 10:06

Содержимое поста

Содержимое

Тюркский и славянский код: создание языковых моделей будущего Искусственный интеллект захватывает мир, но десятки миллионов людей по-прежнему остаются в стороне — их языки просто не учат нейросети. Тюркские (казахский, кыргызский, узбекский и др.) и славянские (русский, польский, сербский и др.) языки — это почти полмиллиарда носителей, но они сильно отстают от англоязычного цифрового мира. 📉 Всего 3 тюркских и 5 славянских языков имеют приличные цифровые корпуса. Для сравнения: чтобы обучить нейросеть уровня GPT, нужно 1–10 трлн токенов. У нас — едва 1% от этого объема. Причины — нехватка данных, слабые сервера, сложная морфология: казахское "үйлерімізде" — это целое предложение в одном слове. Но лёд тронулся: 🇰🇿 В Казахстане строят KAZ-LLM на базе BLOOM, 🇷🇺 В России обучают модели на НКРЯ (600 млн слов), 🇹🇷 Турция, Азербайджан и Казахстан создают общий корпус из 500 млн токенов, 🇵🇱 Польша и Чехия работают над западнославянским суперкорпусом. 💰 В сумме страны вложили $500 млн — пока лишь капля в $25-миллиардном море глобальных инвестиций в ИИ. Но эффект уже виден: казахские чат-боты в госуслугах сократили время ожидания на 30%, а российские банки подняли эффективность на 25%. ⚠️ИИ может тиражировать стереотипы. Например, турецкие модели на данных из соцсетей в 15% случаев генерируют предвзятый контент. Решение — сбалансированные многоязычные датасеты и фильтры. Будущее — за мультимодальными системами: текст, голос, изображение. KAZ-LLM, Яндекс и Сбербанк уже идут туда. ИИ учится понимать наш язык. Осталось сделать так, чтобы он говорил с нами на равных.