❗️ВАЖНО❗️
🎾Обратная связь по четвертой неделе интенсива
Оставить отзыв на занятия прошлой недели 12 и 15 сентября можно по ссылке: https://forms.gle/HCXZb1B8q77FoGDy8
🎾Обновления в домашних заданиях
В домашней работе №3:
– исправили ответы на вопросы №2 и №7
– добавили дополнительные 2 попытки, чтобы вы могли снова выполнить откорректированный тест (итого 5 разрешенных попыток)
– продлили дедлайн до 24 сентября 23:59 (мск)
В домашней работе №4:
– поправили прием ответа на вопрос №12 (ранее у некоторых студентов возникали трудности)
– добавили дополнительные 2 попытки, чтобы вы могли снова выполнить откорректированный тест (итого 5 разрешенных попыток)
– дедлайн остается тем же: 30 сентября 23:59 (мск)
🎾 У меня возникают разные вопросы по задачам — к кому обратиться?
К хелперам в Discord-комьюнити: мы раздали роль helpers тем, кто готов помогать начинающим с нуля. Хелперы отображаются красным цветом.
Создали 10 мини-групп с 2-3 хелперами в каждой.
В ближайшее время начнем распределять по мини-группам студентов, которые оставили реакции под постом о наборе в мини-группы начинающих.
Этот пост находится в последнем закрепленном сообщении на канале #python-и-математика: реакции все еще можно оставить, если вы хотите в мини-группу.
Хорошей недели!
Команда Mathshub
#ASR/USDT analysis :
#ASR is in a downtrend, making lower lows (LLs) and lower highs (LHs) below the 200 EMA. The price has broken down and retested the support zone, which is now acting as resistance. It is expected to continue its bearish momentum and test lower levels. Wait for a pullback for a short entry.
TF : 30min
Entry : $2.090
Target : $2.015
SL : $2.136
⚡️OLMoASR: открытые ASR-модели от AI2.
Институт искусственного интеллекта Аллена выпустил OLMoASR, семейство из 6 моделей для автоматического распознавания английской речи.
▶️Линейка моделей:
🟢OLMoASR-tiny.en (39M);
🟢OLMoASR-base.en (74M);
🟢OLMoASR-small.en (244M);
🟢OLMoASR-medium.en (769M);
🟠OLMoASR-large.en-v1 (1.5B) обученная на 440 тыс. часов аудио;
🟠OLMoASR-large.en-v2 (1.5B) обученная на 680 тыс. часов аудио;
По результатам тестов на 21 датасете, модели OLMoASR показали производительность, сопоставимую с Whisper от OpenAI, а в некоторых случаях и превзошли ее, особенно при работе с длинными аудиозаписями.
Проект полностью открытый: опубликованы не только веса моделей, но и датасет, код для обработки данных, а также скрипты для обучения и оценки. Все компоненты, включая код и данные, доступны на GitHub и Hugging Face.
📌Лицензирование: Apache 2.0 License.
🟡Статья
🟡Набор моделей
🟡Техотчет
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#ASR#OLMoASR#AI2
🗣 VibeVoice ASR ● Распознавание речи и диаризация ● RU ● Portable by Nerual Dreming
Ссылка на оригинальный GitHub:https://github.com/microsoft/VibeVoice
Ссылка на репозиторий репакера:https://github.com/timoncool/VibeVoice_ASR_portable_ru
Репакер:#nerual_dreming
Дата обновления: 3 февраля 2026
Категории:#stt, #ASR, #diarization, #AIaudio
Платформа:#Windows
Язык: RU
Системные требования: NVIDIA GPU с поддержкой CUDA от 8 ГБ VRAM для полной версии, меньше для квантованной
Совместимость:#Nvidia
🖥Описание софта
VibeVoice ASR — новейшая модель от Microsoft для транскрибации, диаризации (разделения по спикерам) и простановки таймкодов за один проход. Главная фишка — обработка до 60 минут аудио целиком, без нарезки на куски, что позволяет модели «понимать» контекст всей беседы.
Особенности портативной версии: В сборку включены две модели: полная (оригинал) и квантованная (от scerz). Реализована поддержка эмуляции 4-bit квантизации для полной модели — это позволяет запускать тяжелую оригинальную версию даже на картах с небольшим объемом памяти без потери качества. Также добавлена нативная поддержка видеофайлов и парсер текста с выбором спикеров для показа.
😬Основные возможности VibeVoice ASR:
🟣Две модели на борту: Выбор между оригинальной Full версией и оптимизированной Quantized (scerz).
🟣Эмуляция квантизации: Уникальная фича сборки — возможность запуска полной модели в режиме 4-bit (bitsandbytes) для экономии VRAM.
🟣Всеядность: Поддержка не только аудио, но и видео (MP4, MKV, AVI, MOV) — звук извлекается автоматически через FFmpeg.
🟣Умная диаризация: Точное определение «Кто, Когда и Что сказал» (Who, When, What).
🟣Длинный контекст: Обработка часовых записей без потери смысла и путаницы в спикерах.
🟣Удобство: Веб-интерфейс на русском языке
🟣Парсер текста: позволяет скрыть или показать временные метки, спикеров, дескрипторы
💿Установка и запуск
⁍ Скачайте архив с установщиком или окружением.
⁍ Распакуйте в папку без кириллицы в пути.
⁍ Запустите install.bat для установки библиотек (для установщика).
⁍ Запустите run.bat для старта веб-интерфейса.
⁍ Модели скачаются при первом запуске
➡️Скачать VibeVoice ASR Portable installer— установщик, сам все скачает
➡️Скачать VibeVoice ASR Portable env — готовое окружение для RTX 4090 и win11
💬Обсудить в нашем чате
👾НЕЙРО-СОФТ - делаем нейросети доступнее
⚡️Qwen-ASR Toolkit — мощный Python CLI для быстрой транскрипции длинных аудио и видео
Эта утилита снимает ограничение API Qwen-ASR (бывший Qwen3-ASR-Flash) в 3 минуты и позволяет расшифровывать часы контента. Достигается это за счёт умного разбиения записи и параллельной обработки.
Основные возможности:
- Снятие лимита в 3 минуты - транскрибируй файлы любой длины
- Умное разбиение (VAD - это технология, которая определяет, где в аудио есть речь, а где — пауза или шум.) - деление по естественным паузам, без
- Высокая скорость - многопоточность и параллельные запросы к API
- Автоматический ресемплинг — конвертация в нужный формат 16kHz mono
- Поддержка любых форматов — MP4, MOV, MKV, MP3, WAV, M4A и др.
- Простота - запуск одной командой через CLI
🟢Установка:
pip install qwen3-asr-toolkit
🔗 GitHub: https://github.com/QwenLM/Qwen3-ASR-Toolkit
@ai_machinelearning_big_data
#asr#speech2text#qwen#opensource#nlp#toolki
#вакансия#machinelearning#ml#datascience#ds#python#middle#senior#nlp#asr#tts
Middle/Senior Machine Learning Engineer
Вилка: 3000–5500 евро (в зависимости от уровня)
📍Локации: Россия, СНГ, ЕС, Сербия, Турция
Компания: североамериканская компания, работающая на рынке VoIP-решений
Стек: Python, ML&DL, NLP, ASR, Speech synthesis (TTS), PyTorch/TensorFlow, HuggingFace, ONNX/TensorRT, NeMo, NumPy
Что предстоит делать:
— Разрабатывать решения в области речевых технологий — обработка аудио и речи (в оффлайн и потоковом режиме), анализ текста (суммаризация, поиск сущностей, классификация, выделение тем и т.д.), детектирование угроз (мошенничество, спам и т.д.).
— Быстро создавать прототипы решений и подстраивать их под бизнес-требования.
— Разрабатывать и оптимизировать ML-модели для распознавания речи, анализа текста и смежных задач.
— Взаимодействовать с проектным менеджером и продакт-лидом для преобразования бизнес-требований в технические решения.
— Следить за современными методами и исследованиями в области обработки речи и NLP.
— Участвовать в профессиональном развитии команды.
Будет существенным плюсом:
— Опыт работы с современными библиотеками обработки речи.
— Опыт конвертации/оптимизации/ускорения моделей с помощью TensorRT или аналогичных инструментов.
— Участие в ML-соревнованиях (Kaggle и др.).
Требования к английскому: уровень B1 и выше.
Позиция подразумевает участие во всех этапах разработки — от уточнения бизнес-требований до реализации продакшн-решений.
Контакт для связи: @sl_sergei
Моя новая статья на Хабре про распознавание речи
https://habr.com/ru/companies/first/articles/992508/
#asr
#распознавание_речи
#потоковое_распознавание
#преобразование_речи_в_текст
#AI_технологии
#голосовое_управление
Моя новая статья про распознавание речи в реальном времени на микрокомпьютере отечественной сборки Репка 4.
Скоро она выйдет и на Хабре
#asr
#распознавание_речи
#потоковое_распознавание
#преобразование_речи_в_текст
#AI_технологии
#голосовое_управление
https://repka-pi.ru/blog/post/161
Голосовое управление светодиодом через реле на Repka-Pi
#asr
#распознавание_речи
#потоковое_распознавание
#преобразование_речи_в_текст
#AI_технологии
#голосовое_управление
Встречайте мою новую статью!
Хабр
Как прикрутить нейросеть к SDR: распознавание речи в GNU Radio
https://habr.com/p/987784/
#asr
#распознавание_речи
#потоковое_распознавание
#преобразование_речи_в_текст
#AI_технологии
#голосовое_управление