TGTGInsighttelegram intelligenceLIVE / telegram public index
← () => "翠楼屋"

TGINSIGHT SIMILAR POSTS

查找相似内容

Source channel @lambdaexpression · Post #206 · 4月20日

前段时间一直被MajdataPlay的外键输入问题困扰:有玩家反映majplay会无征兆地出现拖判和吃音,但是内屏一切正常 因为我是第一次接触游戏开发,IO这方面也完全没经验 一开始我和bb本怀疑是线程调度的问题,即:IO线程时间片被其他线程挤占了,导致IO线程无法及时处理HID设备回报。为了验证这个猜想,我们尝试提高了IO线程的优先级,照旧 接下来我怀疑是我那套框架有问题:majplay是根据上一帧与这一帧的按键状态判断按键是不是"click"。为此我重写了这部分的实现,改进了IO线程与主线程之间的交互,问题照旧....... 到这里我已经怀疑这不是majplay的锅:IO线程没有任何异常,IO线程与主线程的交互没有问题,Note判定逻辑也没有问题,那就是设备确实没有回报给majplay或者设备发过来的回报中按键确实没有按下,但是大佬说hdd没有这种问题.....(人已经快崩溃了,这完全看不透也摸不着,因为我用单片机模拟玩家打高速纵连是完全没有问题的,我在家里用手台测试也没有问题) 到最后,bb本灵光一闪,说有没有可能是led刷新率过高,把按键控制板干爆炸了?我们让大佬把led刷新间隔从16ms改成100ms,吃音问题瞬间没有了,无语了 。。。。。。。。。。。。。。。。。。。。 adx是一个控制板同时管理按键和led,为什么我没有遇到吃音问题呢,因为我的手台不是adx的... #dev

Hashtags

Results

找到 1 条相似帖子

搜索 #audioflamingo

当前筛选 #audioflamingo清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #9898 · 2026/04/15 14:10

🌟Audio Flamingo Next: открытая аудио-языковую модель от NVIDIA Audio Flamingo Next (AF-Next) - аудио-языковая модель, обученная на корпусе из 1 млн часов аудио и 108 млн примеров для генерации подробных текстовых описаний аудиозаписей: перечисление инструментов, звуковых событий и музыкальных характеристик того, что звучит на записи. Максимальная длина входного аудио - 30 минут. Релиз закрывает отставание мультимодальных систем в работе со звуком: речью, музыкой и окружающими шумами на длинных записях. 🟡Архитектура собрана из 4-х блоков: 🟢Кодировщик AF-Whisper (128-канальная лог-мел-спектрограмма, окно 25 мс, шаг 10 мс, выход 50 Гц); 🟢Двухслойный MLP-адаптер; 🟢Qwen-2.5-7B с расширенным контекстом 128K токенов; 🟢Потоковый TTS-модуль для голосовых диалогов. Фишка архитектуры - Rotary Time Embeddings: угол поворота токена привязывается к реальной временной метке аудио, что дает модели устойчивое временное рассуждение. 🟡Релиз состоит из 3-х версий AF-Next-Captioner: модель, заточенная под детальное описание аудио. Она генерирует подробные текстовые описания аудиозаписей: перечисляет инструменты, звуковые события, спикеров и музыкальные характеристики того, что звучит на записи, с привязкой к таймкодам. На распознавании инструментов Medley-Solos-DB она набирает 92,13 против 85,80 у Audio Flamingo 2. На музыкальных описаниях SongCaps, где качество оценивает GPT-5, показатели покрытия и корректности выросли с 6,7 и 6,2 у AF3 до 8,8 и 8,9. AF-Next-Instruct: универсальная инструктивная версия, после GRPO для повседневных задач: ответов на вопросы по аудио, голосовых ассистентов, транскрипции речи и перевода. Именно она устанавливает новые планки среди LALM по ASR. WER 1,54 на LibriSpeech. На LongAudioBench 73,9 против 60,4 у закрытой Gemini 2.5 Pro (в варианте с речью разрыв еще больше - 81,2 против 66,2.) AF-Next-Think: ризонинг-версия с Temporal Audio Chain-of-Thought: модель привязывает каждый шаг рассуждения к конкретной временной метке в аудио, что делает ее пригодной для разбора длинных записей, где нужно собирать факты из разных моментов (анализа совещаний, интервью, подкастов, трейлеров и сюжетных аудиоисторий). 75,01 на MMAU-v05.15.25 и 58,7 на более жестком MMAU-Pro, что выше, чем у Gemini-2.5-Pro (57,4). 📌Лицензирование: NVIDIA OneWay Noncommercial License. 🟡Страница проекта 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI#ML#MMLM#Audio#AudioFlamingo#NVIDIA