@libreware · Post #1085 · 04.05.2022 г., 09:32
Wenet Automatic #Speech#Recognition toolkit. https://github.com/wenet-e2e/wenet https://wenet.org.cn/wenet/
Hashtags
TGINSIGHT SIMILAR POSTS
Изходен канал @clockstackwheels · Post #884 · 5.10
Роскосмос пару дней назад опубликовал отчёт о том, почему упала "Луна-25". Там конечно канцелярит, но можно примерно понять, что двигатель коррекции получил неверные данные от акселерометра: из-за возможного попадания в один массив данных команд с различными приоритетами их исполнения прибором Это очень похоже на программную ошибку, а это моя сфера, и я решил над ситуацией поразмыслить. Хейтеры сразу стали строчить комментарии в стиле "Ололо, наняли каких-то идиотов, которые простейшие тесты не провели". Тут обычно справедливо вспоминают аварию с европейской ракетой Ариан-5 в 1996 году. Там буквально из-за пары строчек кода в результате неправильного приведения числовых типов ракета за 7 млрд баксов развалилась на куски в воздухе. Бывает. Что касается Роскосмоса, при всей его сомнительной репутации, объяснение "Дураки не провели тесты" звучит лично для меня неправдоподобно. На мой личный взгляд возможны два варианта: 1. Если в описании ошибки слово "приоритет" обозначает какой-то признак внутри объекта команды, значит, на входе в приёмный модуль эти команды не были отфильтрованы. Выглядит как грубая ошибка, целый логический блок упущен. Вряд ли этот блок вообще не написан, скорее всего он не выполнился. Такое бывает, если в тестовой среде есть какое-то условие, которого нет в рабочей, и именно это условие отвечает за выполнение участка кода. Сталкивался с таким миллион раз. Самое дикое из последнего: код парсит эксель-таблицу с числами. Разработчик написал, запустил проверил, прогнал тесты, всё ок. Отправляем в прод — все числа будто бы рандомно меняются на другие. Запускаем снова — у всех разработчиков функционирует нормально, а в проде на сервере нет. Таблица одна и та же. Можете подумать, почему так. Ответ: у разработчиков стоит русская локаль и десятичный разделитесь это запятая, а на проде в докере точка. При парсинге на проде запятая уже интерпретируется как разделитель тысячных разрядов. 2. Куда вероятнее, что слово "приоритет" в описании ошибки обозначает время, а, значит, список команд просто не был отсортирован, и в обработчик уже после актуальных значений попали какие-нибудь начальные нулевые данные, сбившие логику. По косвенному описанию проблемы очень похоже именно на это. Значит, на тестах всегда порядок возникновения команд соответствовал порядку их прихода, а в реальности перестал соответствовать. Вообще, работать с железом очень сложно. Какую-нибудь схемку заглючило от холода, она задержала ответ от датчика на миллисекунду, и всё. Никто не знал, что такая проблема возможна, пока она не возникла. Мне рассказывали о таком случае: юзер логинится на сайт и иногда логин проходит, а иногда нет. Логин и пароль те же самые. Просто в случайные моменты времени ему возвращают токен авторизации, а в другие моменты времени ошибку 403. Никакой закономерности нет вообще. Нет зависимости от времени суток и даты. Сервер точно работает стабильно и не падает все 100% времени. Почему так может быть? Ответ: у сервиса авторизации два инстанса, перед которыми балансировщик нагрузки. В одном инстансе данные для авторизации есть, в другом нет. Балансировщик при примерно одинаковой нагрузке включает просто случайный выбор между ними. В общем, программисты иногда допускают такие косяки, что какая-то мелочь может привести к серьёзной аварии. Это я вам говорю как программист, который пишет для атомных станций :) #dev
Hashtags
Търсене: #recognition
@libreware · Post #1085 · 04.05.2022 г., 09:32
Wenet Automatic #Speech#Recognition toolkit. https://github.com/wenet-e2e/wenet https://wenet.org.cn/wenet/
Hashtags
@libreware · Post #1084 · 04.05.2022 г., 09:32
Vosk Speech Recognition Toolkit Vosk is an offline open source #speech#recognition toolkit. It enables speech recognition for 20+ languages and dialects - English, Indian English, German, French, Spanish, Portuguese, Chinese, Russian, Turkish, Vietnamese, Italian, Dutch, Catalan, Arabic, Greek, Farsi, Filipino, Ukrainian, Kazakh, Swedish, Japanese, Esperanto, Hindi, Czech. More to come. Vosk models are small (50 Mb) but provide continuous large vocabulary transcription, zero-latency response with streaming API, reconfigurable vocabulary and speaker identification. Speech recognition bindings implemented for various programming languages like Python, Java, Node.JS, C#, C++ and others. Vosk supplies speech recognition for chatbots, smart home appliances, virtual assistants. It can also create subtitles for movies, transcription for lectures and interviews. Vosk scales from small devices like Raspberry Pi or Android smartphone to big clusters. https://t.me/speech_recognition https://alphacephei.com/vosk https://github.com/alphacep/vosk-api
Hashtags
@libreware · Post #1021 · 09.01.2022 г., 14:56
SongRec An open-source Shazam client for Linux, written in Rust. Features: • Recognize audio from an audio file. • Recognize audio from the microphone. • Usage from both GUI and command line. • Provide an history of the recognized songs. • Continuous song detection. • Ability to recognize songs from your speakers rather than your microphone. Download: https://github.com/marin-m/SongRec#installation https://github.com/marin-m/SongRec @foss_desktop #music#shazam#recognition
Hashtags
@libreware · Post #1192 · 06.10.2023 г., 11:18
#Linux Desktop application that provides live #captioning FUTO Fellowship program interview; linux captions software 👉 Live Captions github: https://github.com/abb128/LiveCaptions 🔵 Q&A w/ billionaire alt-tech investor/philanthropist Eron Wolf https://www.youtube.com/watch?v=OJPmbcU-Vzo 🔵 FUTO Fellows program: https://futo.org/fellows/ 🔵 FUTO Youtube channel - @futotech ⚠️ Google's breaches of privacy have gone TOO FAR! https://www.youtube.com/watch?v=_vWAF13KigI #speech#recognition#stt#voice
@djangoproject · Post #448 · 18.09.2017 г., 11:30
https://medium.com/@GalarnykMichael/logistic-regression-using-python-sklearn-numpy-mnist-handwriting-recognition-matplotlib-a6b31e2b166a Logistic Regression using Python (#Sklearn, #NumPy, #MNIST, Handwriting #Recognition, #Matplotlib) #machine_learning.
@libreware · Post #1114 · 09.03.2023 г., 22:58
https://writeout.ai #Transcribe and #translate any #audio file. 100% free to use. This website with source code available (it can be hosted locally) allows you to upload any audio file and receive a transcription and/or text translation. It uses OpenAI's Whisper API on the back end. Source on GitHub: https://github.com/beyondcode/writeout.ai #writeout#ai#speech#recognition