🌟Audio Flamingo Next: открытая аудио-языковую модель от NVIDIA
Audio Flamingo Next (AF-Next) - аудио-языковая модель, обученная на корпусе из 1 млн часов аудио и 108 млн примеров для генерации подробных текстовых описаний аудиозаписей: перечисление инструментов, звуковых событий и музыкальных характеристик того, что звучит на записи. Максимальная длина входного аудио - 30 минут.
Релиз закрывает отставание мультимодальных систем в работе со звуком: речью, музыкой и окружающими шумами на длинных записях.
🟡Архитектура собрана из 4-х блоков:
🟢Кодировщик AF-Whisper (128-канальная лог-мел-спектрограмма, окно 25 мс, шаг 10 мс, выход 50 Гц);
🟢Двухслойный MLP-адаптер;
🟢Qwen-2.5-7B с расширенным контекстом 128K токенов;
🟢Потоковый TTS-модуль для голосовых диалогов.
Фишка архитектуры - Rotary Time Embeddings: угол поворота токена привязывается к реальной временной метке аудио, что дает модели устойчивое временное рассуждение.
🟡Релиз состоит из 3-х версий
AF-Next-Captioner: модель, заточенная под детальное описание аудио. Она генерирует подробные текстовые описания аудиозаписей: перечисляет инструменты, звуковые события, спикеров и музыкальные характеристики того, что звучит на записи, с привязкой к таймкодам.
На распознавании инструментов Medley-Solos-DB она набирает 92,13 против 85,80 у Audio Flamingo 2.
На музыкальных описаниях SongCaps, где качество оценивает GPT-5, показатели покрытия и корректности выросли с 6,7 и 6,2 у AF3 до 8,8 и 8,9.
AF-Next-Instruct: универсальная инструктивная версия, после GRPO для повседневных задач: ответов на вопросы по аудио, голосовых ассистентов, транскрипции речи и перевода.
Именно она устанавливает новые планки среди LALM по ASR.
WER 1,54 на LibriSpeech. На LongAudioBench 73,9 против 60,4 у закрытой Gemini 2.5 Pro (в варианте с речью разрыв еще больше - 81,2 против 66,2.)
AF-Next-Think: ризонинг-версия с Temporal Audio Chain-of-Thought: модель привязывает каждый шаг рассуждения к конкретной временной метке в аудио, что делает ее пригодной для разбора длинных записей, где нужно собирать факты из разных моментов (анализа совещаний, интервью, подкастов, трейлеров и сюжетных аудиоисторий).
75,01 на MMAU-v05.15.25 и 58,7 на более жестком MMAU-Pro, что выше, чем у Gemini-2.5-Pro (57,4).
📌Лицензирование: NVIDIA OneWay Noncommercial License.
🟡Страница проекта
🟡Arxiv
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#MMLM#Audio#AudioFlamingo#NVIDIA
🔬 Учёные MIT представили SCIGEN - новый инструмент, который учит генеративные модели создавать реально полезные материалы, а не только «красивые картинки».
Обычно ИИ придумывает структуры, похожие на уже известные, и редко выходит за рамки. SCIGEN решает эту проблему: он накладывает строгие геометрические ограничения прямо на процесс генерации, заставляя модель искать нестандартные, но стабильные решения.
В экспериментах команда сгенерировала миллионы кандидатов и отфильтровала их по устойчивости и свойствам.
Итог - два ранее неизвестных соединения (**TiPdBi** и **TiPbSb**) удалось реально синтезировать в лаборатории, и они подтвердили предсказанные характеристики.
Это шаг к будущему, где материалы для электроники, квантовых технологий и энергетики будут не «искать годами», а проектировать целенаправленно с помощью ИИ.
https://news.mit.edu/2025/new-tool-makes-generative-ai-models-likely-create-breakthrough-materials-0922
@ai_machinelearning_big_data
#AI#MIT#GenerativeAI#MaterialsScience#SCIGEN
🚀 Grok 2.5 теперь можно запускать локально!
Unsloth выкатили оптимизированную версию модели:
🔹270B параметров работает на обычном Mac с 128GB RAM (~5 токенов/сек)
🔹 Размер уменьшен с 539GB до 118GB (–80%)
🔹 Ключевые слои модели сохранены в 8-битном формате, а все остальные сжаты с помощью динамического 3-битного GGUF.
🟢Гайд: https://docs.unsloth.ai/basics/grok-2
🟢 GGUF: https://huggingface.co/unsloth/grok-2-GGUF
@ai_machinelearning_big_data
#AI#xAI#Grok2#LLM#OpenSource#MachineLearning#DeepLearning
Big Tech's Dominance in AI Sparks Calls for Integrated Regulations
Hello, everyone! A new report by the Open Markets Institute and the Center for Journalism and Liberty at Open Markets reveals a concentrated control over the future of AI by a handful of Big Tech companies.
The report suggests that a more integrated approach to AI regulations is vital to ensure that AI serves the broader public interest rather than primarily benefiting the largest corporations.
The findings underscore the ongoing discussions around the need for comprehensive and equitable AI policies.
#AI#BigTech#Regulation#OpenMarkets
#MIT_Technology_Review🇺🇸📕[PDF]⬇️
#November2025
#December2025
#Monthly_Magazines
For learning, for free(dom).
@backupofmagazines
In this issue, the cover story explores the rise of “designer babies” and the booming #GeneticTesting industry promising parents control over traits from #IQ to eye color. As #AI meets biology, scientists warn of deep ethical divides in #EmbryoSelection and #BioTech regulation. Other features decode aging “clocks,” AI in healthcare pain detection, and new insights into human resilience to #ClimateChange. From #ArtTech to #StemCells, this edition examines how innovation blurs the line between evolution and engineering — and asks, are we ready to build perfection itself?
🔥WFGY 2.0 — Semantic Reasoning Engine for LLMs (MIT)
Это движок с открытым исходным кодом, цель которого — уменьшить галлюцинации и логические сбои в системах типа RAG / LLM, особенно когда:
- источники OCR-текста плохо распознаются,
- происходит «semantic drift» (когда ответ уходит от вопроса),
- «ghost matches», когда извлечённый фрагмент кажется релевантным, но на самом деле нет.
Обычно ошибки ловят уже в готовом сгенерированном тексте, из-за чего они часто повторяются.
В Semantic Reasoning Engine всё наоборот: если система видит, что рассуждения «кривые» или сбились с курса, она останавливается, сбрасывается или ищет другой путь и отвечает только когда состояние стабильно.
🛡Авторы называют это semantic firewall - семантический «файрвол».
Проверки встроены прямо в процесс мышления модели, а не поверх ответа с фильтрами или регексами. Это помогает избегать ошибок до того, как они попадут в вывод.
📌 Проект включает карту из 16 типичных ошибок LLM:
- неверный поиск данных,
- сбившаяся логика,
- «провалы памяти»,
- путаница ролей агентов и другие.
Для каждой есть простое текстовое исправление. Никаких SDK — достаточно вставить инструкции прямо в промпт.
🟢Как модель решает, правильные ли ответ генерируется:
- ΔS (drift) - не уходит ли смысл слишком далеко от шага к шагу
- λ (convergence) - сходится ли рассуждение к решению или крутится в цикле
- Coverage — достаточно ли фактов и аргументов учтено
Если все три условия выполнены, ответ считается «качественным».
🟢В тестах стабильность вывода выросла до 90–95% против обычных 70–85% у традиционных подходов.
▪Github: https://github.com/onestardao/WFGY
@ai_machinelearning_big_data
#ai#llm#opensource#reasoning#hallucinations#promptengineering