TGTGInsighttelegram intelligenceLIVE / telegram public index
← Python Заметки

TGINSIGHT SIMILAR POSTS

Најди сличен содржај

Изворен канал @pythonotes · Post #396 · 9 окт.

7.09.2025 состоялся релизPithon 3.14! На фоне хайпа про NoGIL всё позабыли про другие фичи. Особенно про Multiple Interpreters, который обещает изоляцию процессов но с эффективностью потоков! На сколько действительно это будет эффективно мы узнаем позже, потому что сейчас это лишь первый релиз с ограничениями и недоработками. Но что там про NoGIL? Теперь этот режим не экспериментальный, а официально поддерживаемый, но опциональный. Чтобы запустить без GIL нужна специальная сборка. И перед стартом нужно объявить переменную PYTHON_GIL=0 Для вас я собрал готовый репозиторий где достаточно запустить скрпит, который всё сделает: ▫️ соберет релизный Python 3.14 в новый Docker-образ ▫️ запустит тесты в контейнере (GIL, NoGIL, MultiInterpreter) ▫️ распечатает результаты Тест очень простой, усложняйте сами) Вот какие результаты у меня: === Running ThreadPoolExecutor GIL ON TOTAL TIME: 45.48 seconds === Running ThreadPoolExecutor GIL OFF TOTAL TIME: 6.14 seconds === Running basic Thread GIL ON TOTAL TIME: 45.54 seconds === Running basic Thread GIL OFF TOTAL TIME: 4.74 seconds === Running with Multi Interpreter TOTAL TIME: 18.30 seconds Если сравнивать GIL и NoGIL, то на мои 32 ядра прирост х7-x10 (почему не х32? 🤷). При этом нам обещают что скорости будут расти с новыми релизами. Режим без GIL похож (визуально) на async, тоже параллельно, тоже не по порядку. Но это не IO! и от того некоторый диссонанс в голове 😵‍💫, нас учили не так! Интересно, что чистый Thread работает быстрей чем ThreadPoolExecutor без GIL. Ну и где-то плачет один адепт мульти-интерпретаторов😭 Теперь нужно искать где они могут пригодиться с такой-то скоростью. Скорее всего своя область применения найдется. Отдельно я затестил память и вот что вышло на 32 потока: ThreadPoolExecutor GIL ON 305.228 MB ThreadPoolExecutor GIL OFF 500.176 MB basic Thread GIL ON 90.668 MB basic Thread GIL OFF 472.444 MB with Multi Interpreter 1267.788 MB Пока не знаю как к этому относиться) В целом - радует направление развития! #release

Hashtags

Резултати

Пронајдени 1 слични објави

Пребарај: #audioflamingo

当前筛选 #audioflamingo清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #9898 · 15.04.2026 г., 14:10

🌟Audio Flamingo Next: открытая аудио-языковую модель от NVIDIA Audio Flamingo Next (AF-Next) - аудио-языковая модель, обученная на корпусе из 1 млн часов аудио и 108 млн примеров для генерации подробных текстовых описаний аудиозаписей: перечисление инструментов, звуковых событий и музыкальных характеристик того, что звучит на записи. Максимальная длина входного аудио - 30 минут. Релиз закрывает отставание мультимодальных систем в работе со звуком: речью, музыкой и окружающими шумами на длинных записях. 🟡Архитектура собрана из 4-х блоков: 🟢Кодировщик AF-Whisper (128-канальная лог-мел-спектрограмма, окно 25 мс, шаг 10 мс, выход 50 Гц); 🟢Двухслойный MLP-адаптер; 🟢Qwen-2.5-7B с расширенным контекстом 128K токенов; 🟢Потоковый TTS-модуль для голосовых диалогов. Фишка архитектуры - Rotary Time Embeddings: угол поворота токена привязывается к реальной временной метке аудио, что дает модели устойчивое временное рассуждение. 🟡Релиз состоит из 3-х версий AF-Next-Captioner: модель, заточенная под детальное описание аудио. Она генерирует подробные текстовые описания аудиозаписей: перечисляет инструменты, звуковые события, спикеров и музыкальные характеристики того, что звучит на записи, с привязкой к таймкодам. На распознавании инструментов Medley-Solos-DB она набирает 92,13 против 85,80 у Audio Flamingo 2. На музыкальных описаниях SongCaps, где качество оценивает GPT-5, показатели покрытия и корректности выросли с 6,7 и 6,2 у AF3 до 8,8 и 8,9. AF-Next-Instruct: универсальная инструктивная версия, после GRPO для повседневных задач: ответов на вопросы по аудио, голосовых ассистентов, транскрипции речи и перевода. Именно она устанавливает новые планки среди LALM по ASR. WER 1,54 на LibriSpeech. На LongAudioBench 73,9 против 60,4 у закрытой Gemini 2.5 Pro (в варианте с речью разрыв еще больше - 81,2 против 66,2.) AF-Next-Think: ризонинг-версия с Temporal Audio Chain-of-Thought: модель привязывает каждый шаг рассуждения к конкретной временной метке в аудио, что делает ее пригодной для разбора длинных записей, где нужно собирать факты из разных моментов (анализа совещаний, интервью, подкастов, трейлеров и сюжетных аудиоисторий). 75,01 на MMAU-v05.15.25 и 58,7 на более жестком MMAU-Pro, что выше, чем у Gemini-2.5-Pro (57,4). 📌Лицензирование: NVIDIA OneWay Noncommercial License. 🟡Страница проекта 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI#ML#MMLM#Audio#AudioFlamingo#NVIDIA