Дорогие студенты Mathshub!
Спасибо за поддержку идеи помогать друг другу❤️
Мы получили уже более 20 заявок от более продвинутых студентов, желающих помочь начинающим с нуля✨
В ближайшее время мы присвоим вам в Discord роль «helpers», которая будет отображаться в вашем профиле.
А теперь хотим понять, кому нужна помощь и поддержка хелпера — если вам нужна помощь более продвинутого студента, то, пожалуйста:
1. Зайдите в Discord на наш канал #python-и-математика-интенсив
2. Найдите последний закрепленный пост про набор в мини-группы
3. Оставьте под этим постом реакцию "палец вверх👍🏻"
4. Ожидайте от нас распределения на группы)
Идея объединяться в группы не обязательна для всех.
Она актуальна только для желающих поддержку от более продвинутых студентов. Если вам не актуально, то можете не обращать внимание на это сообщение😌
Спасибо!
#ASR/USDT analysis :
#ASR is in a downtrend, making lower lows (LLs) and lower highs (LHs) below the 200 EMA. The price has broken down and retested the support zone, which is now acting as resistance. It is expected to continue its bearish momentum and test lower levels. Wait for a pullback for a short entry.
TF : 30min
Entry : $2.090
Target : $2.015
SL : $2.136
⚡️OLMoASR: открытые ASR-модели от AI2.
Институт искусственного интеллекта Аллена выпустил OLMoASR, семейство из 6 моделей для автоматического распознавания английской речи.
▶️Линейка моделей:
🟢OLMoASR-tiny.en (39M);
🟢OLMoASR-base.en (74M);
🟢OLMoASR-small.en (244M);
🟢OLMoASR-medium.en (769M);
🟠OLMoASR-large.en-v1 (1.5B) обученная на 440 тыс. часов аудио;
🟠OLMoASR-large.en-v2 (1.5B) обученная на 680 тыс. часов аудио;
По результатам тестов на 21 датасете, модели OLMoASR показали производительность, сопоставимую с Whisper от OpenAI, а в некоторых случаях и превзошли ее, особенно при работе с длинными аудиозаписями.
Проект полностью открытый: опубликованы не только веса моделей, но и датасет, код для обработки данных, а также скрипты для обучения и оценки. Все компоненты, включая код и данные, доступны на GitHub и Hugging Face.
📌Лицензирование: Apache 2.0 License.
🟡Статья
🟡Набор моделей
🟡Техотчет
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#ASR#OLMoASR#AI2
🗣 VibeVoice ASR ● Распознавание речи и диаризация ● RU ● Portable by Nerual Dreming
Ссылка на оригинальный GitHub:https://github.com/microsoft/VibeVoice
Ссылка на репозиторий репакера:https://github.com/timoncool/VibeVoice_ASR_portable_ru
Репакер:#nerual_dreming
Дата обновления: 3 февраля 2026
Категории:#stt, #ASR, #diarization, #AIaudio
Платформа:#Windows
Язык: RU
Системные требования: NVIDIA GPU с поддержкой CUDA от 8 ГБ VRAM для полной версии, меньше для квантованной
Совместимость:#Nvidia
🖥Описание софта
VibeVoice ASR — новейшая модель от Microsoft для транскрибации, диаризации (разделения по спикерам) и простановки таймкодов за один проход. Главная фишка — обработка до 60 минут аудио целиком, без нарезки на куски, что позволяет модели «понимать» контекст всей беседы.
Особенности портативной версии: В сборку включены две модели: полная (оригинал) и квантованная (от scerz). Реализована поддержка эмуляции 4-bit квантизации для полной модели — это позволяет запускать тяжелую оригинальную версию даже на картах с небольшим объемом памяти без потери качества. Также добавлена нативная поддержка видеофайлов и парсер текста с выбором спикеров для показа.
😬Основные возможности VibeVoice ASR:
🟣Две модели на борту: Выбор между оригинальной Full версией и оптимизированной Quantized (scerz).
🟣Эмуляция квантизации: Уникальная фича сборки — возможность запуска полной модели в режиме 4-bit (bitsandbytes) для экономии VRAM.
🟣Всеядность: Поддержка не только аудио, но и видео (MP4, MKV, AVI, MOV) — звук извлекается автоматически через FFmpeg.
🟣Умная диаризация: Точное определение «Кто, Когда и Что сказал» (Who, When, What).
🟣Длинный контекст: Обработка часовых записей без потери смысла и путаницы в спикерах.
🟣Удобство: Веб-интерфейс на русском языке
🟣Парсер текста: позволяет скрыть или показать временные метки, спикеров, дескрипторы
💿Установка и запуск
⁍ Скачайте архив с установщиком или окружением.
⁍ Распакуйте в папку без кириллицы в пути.
⁍ Запустите install.bat для установки библиотек (для установщика).
⁍ Запустите run.bat для старта веб-интерфейса.
⁍ Модели скачаются при первом запуске
➡️Скачать VibeVoice ASR Portable installer— установщик, сам все скачает
➡️Скачать VibeVoice ASR Portable env — готовое окружение для RTX 4090 и win11
💬Обсудить в нашем чате
👾НЕЙРО-СОФТ - делаем нейросети доступнее
⚡️Qwen-ASR Toolkit — мощный Python CLI для быстрой транскрипции длинных аудио и видео
Эта утилита снимает ограничение API Qwen-ASR (бывший Qwen3-ASR-Flash) в 3 минуты и позволяет расшифровывать часы контента. Достигается это за счёт умного разбиения записи и параллельной обработки.
Основные возможности:
- Снятие лимита в 3 минуты - транскрибируй файлы любой длины
- Умное разбиение (VAD - это технология, которая определяет, где в аудио есть речь, а где — пауза или шум.) - деление по естественным паузам, без
- Высокая скорость - многопоточность и параллельные запросы к API
- Автоматический ресемплинг — конвертация в нужный формат 16kHz mono
- Поддержка любых форматов — MP4, MOV, MKV, MP3, WAV, M4A и др.
- Простота - запуск одной командой через CLI
🟢Установка:
pip install qwen3-asr-toolkit
🔗 GitHub: https://github.com/QwenLM/Qwen3-ASR-Toolkit
@ai_machinelearning_big_data
#asr#speech2text#qwen#opensource#nlp#toolki
#вакансия#machinelearning#ml#datascience#ds#python#middle#senior#nlp#asr#tts
Middle/Senior Machine Learning Engineer
Вилка: 3000–5500 евро (в зависимости от уровня)
📍Локации: Россия, СНГ, ЕС, Сербия, Турция
Компания: североамериканская компания, работающая на рынке VoIP-решений
Стек: Python, ML&DL, NLP, ASR, Speech synthesis (TTS), PyTorch/TensorFlow, HuggingFace, ONNX/TensorRT, NeMo, NumPy
Что предстоит делать:
— Разрабатывать решения в области речевых технологий — обработка аудио и речи (в оффлайн и потоковом режиме), анализ текста (суммаризация, поиск сущностей, классификация, выделение тем и т.д.), детектирование угроз (мошенничество, спам и т.д.).
— Быстро создавать прототипы решений и подстраивать их под бизнес-требования.
— Разрабатывать и оптимизировать ML-модели для распознавания речи, анализа текста и смежных задач.
— Взаимодействовать с проектным менеджером и продакт-лидом для преобразования бизнес-требований в технические решения.
— Следить за современными методами и исследованиями в области обработки речи и NLP.
— Участвовать в профессиональном развитии команды.
Будет существенным плюсом:
— Опыт работы с современными библиотеками обработки речи.
— Опыт конвертации/оптимизации/ускорения моделей с помощью TensorRT или аналогичных инструментов.
— Участие в ML-соревнованиях (Kaggle и др.).
Требования к английскому: уровень B1 и выше.
Позиция подразумевает участие во всех этапах разработки — от уточнения бизнес-требований до реализации продакшн-решений.
Контакт для связи: @sl_sergei
Моя новая статья на Хабре про распознавание речи
https://habr.com/ru/companies/first/articles/992508/
#asr
#распознавание_речи
#потоковое_распознавание
#преобразование_речи_в_текст
#AI_технологии
#голосовое_управление
Моя новая статья про распознавание речи в реальном времени на микрокомпьютере отечественной сборки Репка 4.
Скоро она выйдет и на Хабре
#asr
#распознавание_речи
#потоковое_распознавание
#преобразование_речи_в_текст
#AI_технологии
#голосовое_управление
https://repka-pi.ru/blog/post/161
Голосовое управление светодиодом через реле на Repka-Pi
#asr
#распознавание_речи
#потоковое_распознавание
#преобразование_речи_в_текст
#AI_технологии
#голосовое_управление
Встречайте мою новую статью!
Хабр
Как прикрутить нейросеть к SDR: распознавание речи в GNU Radio
https://habr.com/p/987784/
#asr
#распознавание_речи
#потоковое_распознавание
#преобразование_речи_в_текст
#AI_технологии
#голосовое_управление