🌟 Kimi-Audio: открытая модель для аудиозадач.
Kimi-Audio — инструктивная модель с 7 млрд. параметров, разработанная командой MoonshotAI, которая объединяет распознавание речи, анализ аудиоконтента и генерацию ответов в реальном времени в единую архитектуру. Модель показала SOTA-результаты на множестве аудиобенчмарков, от распознавания речи до эмоционального анализа.
Архитектура Kimi-Audio — это 3 компонента:
🟢Гибридный токенизатор, который преобразует аудио в дискретные семантические токены (12.5 Гц) через векторное квантование и дополняет их непрерывными акустическими признаками из Whisper.
🟢Модифицированная LLM (на базе Qwen 2.5 7B) с общими слоями для мультимодальных данных и раздельными «головами» для генерации текста и аудио.
🟢Детокенизатор на основе flow matching и BigVGAN. Он превращает токены обратно в звук с задержкой менее секунды благодаря чанковому потоковому декодированию и look-ahead механизму.
Отдельного внимания заслуживает пайплайн обучения, к нему команда разработки подошла ответственно и скрупулезно: 13 млн часов аудио были обработаны через автоматический конвейер, включающий шумоподавление, диаризацию и транскрипцию.
Для повышения качества сегменты объединялись по контексту, а транскрипции дополнялись пунктуацией на основе пауз. После предобучения на задачах ASR и TTS модель прошла этап SFT на 300 тыс. часов данных (развернутые диалоги и аудиочаты).
В тестах ASR Kimi-Audio показала: WER 1.28 на LibriSpeech test-clean против 2.37 у Qwen2.5-Omni. В аудиопонимании она лидирует на ClothoAQA (73.18) и MELD (59.13), а в классификации сцен (CochlScene) показывает 80.99 — на 17 пунктов выше ближайшего соперника. В диалогах модель близка к GPT-4o (3.90 против 4.06 по субъективной оценке).
📌 Лицензирование кода : Apache 2.0 License.
📌 Лицензирование модели: MIT License.
🟡Модель
🟡Техотчет
🖥GitHub
#AI#ML#KimiAudio#MoonshotAI
Графовые нейронные сети для моделирования подземной архитектуры
Пересматриваю статьи в журнале Mathematical Geosciences и натыкаюсь на довольно частое применение графовых нейронных сетей (Graph Neural Networks - GNN) в геологическом моделировании. Например, прекрасная статья Three-Dimensional Structural Geological Modeling Using Graph Neural Networks
Трехмерные геологические модели это основа современного исследования недр для любых целей. Модель нужно построить по обрывкам данных, создать достоверную картинку. Это вообще-то сложно 🤯! Текущий подход - сделать сетку и применять геостатистические методы или машинное обучение для интерполяции внутри сетки. При этом возникают проблемы, когда геология сложная, например куча разломов.
По сравнению с традиционными свёрточными нейронными сетями (CNN), GNN не имеют регулярной структуры и допускают сложную структурную информацию и геологические взаимоотношения, открывая новые возможности для моделирования трёхмерных структурных геологических моделей. Архитектура генерирует трехмерные структурные модели, ограниченные разбросанными точечными данными, геологической выборкой и границами (пластами и разломами).
Геологическая природа нестркутрна и, возможно, графовые сети в будущем заменят традиционные подходы. На картинке прогноз строения пластов с GNN.
#ML#AI#Subsurface_Modeling#GNN
⚡️ТОП-3 инсайта с CrossConf 2024
Выступили на конференции CrossConf с докладом о том, как используют машинное обучение в продуктах. Наш зал был полностью заполнен — люди стояли в проходах, чтобы послушать и задать свои вопросы. Рассказываем, что самое важное мы обсудили.
▫️Машинное обучение в платежах
ML помогает не только обнаруживать мошенничество, но и персонализировать клиентский опыт. Пример? Генерация контента для таргетированных предложений, которые увеличивают лояльность и конверсии. Это реальный способ сделать финтех удобнее и безопаснее.
▫️ИИ в PropTech и ERP
Технологии искусственного интеллекта снижают расходы и решают проблемы. Например:
• Прогнозирование энергопотребления на объектах коммерческой недвижимости позволило сэкономить до 25%.
• ИИ-ассистенты помогают обрабатывать обращения пользователей быстрее, снижая нагрузку на поддержку на 27%.
▫️Инструменты для продакт-менеджеров
• ИИ-инструменты стали незаменимыми помощниками. Мы рассказали о кейсах работы с GPT:
• Быстрое прототипирование идей.
• Генерация презентаций.
• Создание бизнес-документов.
Что обсуждали после доклада?
Нас поразила вовлеченность аудитории. Особенно запомнился вопрос архитектора из X5 Retail:
Будет ли создан инструмент, который позволит собирать сложные продукты, как из блоков конструктора, через текстовые запросы, без кода?
Этот вопрос мы выделили как один из самых интересных, и он был награждён организаторами конференции. Автор получил книгу за свой вклад в обсуждение.
А как думаете вы? Реально ли такое будущее?
#ИИ#GPT#AI#нейросети#CrossConf
———
#События
✍️Подписывайтесь: @aiforproduct
🚀 AI Integration Enhances Payment Efficiency
Artificial intelligence is being utilized to streamline payment processes, ensuring transactions are completed seamlessly with each interaction. According to PANews, this advancement goes beyond simply enabling AI to handle payments; it focuses on making every AI interaction an opportunity to settle financial transactions efficiently. This development highlights the growing role of AI in financial technology, aiming to enhance user experience by automating and simplifying payment procedures.
#AI#Payment#FinTech#Automation#Efficiency#UserExperience#ArtificialIntelligence
#вакансия#UAE#startup#PM#PO#AI#prompt#fulltime
AI Product manager
Название компании: Nexpanse
Формат работы: удаленный
Занятость: полная
Зарплатная вилка:от 2500 до 6000 USD (грейды: от junior+ до senior)
📝Контакты: Елена Трофимова, https://t.me/Al_Toffi
Nexpanse (ОАЭ, Дубай) – технологический стартап в области AI внутри устойчивой компании в сфере международного маркетинга и разработки мобильных приложений.
Для запуска собственного AI проекта ищем в команду Менеджера продукта, «болеющего» темой AI (prompt). Тематика продукта более детально будет обсуждаться с нанятым сотрудником, с опорой на его экспертизу.
Основная задача - использовать текущие исследования команды по рынку AI веб-продуктов и запустить улучшенные аналоги тех продуктов, которые покажутся нам наиболее интересными. Компания готова предоставить все необходимые ресурсы и условия.
Наши ожидания от кандидата:
- опыт работы на позиции product manager с полным функционалом управления продуктом от 2 лет
- опыт запуска digital проектов «с нуля»
- опыт работы с подписочными моделями монетизации продукта
- крайне важен жгучий интерес и базовые знания в области AI
- опыт работы с аналитическими системами, Zero Code и No Code решениями
Мы предлагаем:
- конкурентная заработная плата: фиксированный оклад на старте, дополнительная система мотивации после испытательного срока
- комфорт и свобода: удаленный формат работы и гибкое начало рабочего дня (с 9:00 до 10:00 мск)
- крутая команда, поддержка и обучение: у нас комфортно работать, мы поможем быстро влиться и прокачать экспертизу благодаря сложным задачам и опытным коллегам, а если потребуется доп. обучение - компенсируем стоимость
- развитие в одной из самых востребованных ниш в IT, возможность внести свой вклад в конечную идею продукт
- долгосрочное сотрудничество и перспективы карьерного и финансового роста вместе с компанией
DCG's Bold Bet on Decentralized AI
Barry Silbert, founder of DCG, claims decentralized AI (deAI) will outshine Bitcoin. DCG has invested $105M in over a dozen deAI projects, with plans for more funding in 2025.
Read more: CoinDesk
#AI#Crypto#VC#Bitcoin#deAI
AI in Crime: Soldier Arrested for Generating Child Pornography Using AI
The recent arrest of an Army soldier in Alaska underscores the dark side of AI technology. Seth Herrera, stationed at Joint Base Elmendorf-Richardson, has been charged with using AI to generate child sexual abuse material (CSAM). This case reveals a disturbing new dimension in criminal activity, where AI tools are exploited to produce realistic, yet horrific, content.
The US Department of Justice has made it clear that AI-generated CSAM will be pursued with the same vigor as traditionally created materials. This incident serves as a stark reminder that as technology advances, so must our commitment to safeguarding vulnerable populations.
#AI#CyberLaw#EthicsInAI
Exploring the impact of AI on human well-being
The World Health Organization (WHO) has raised an important concern regarding the use of artificial intelligence generated large language model tools in protecting and promoting human well-being. Platforms like ChatGPT, Bard, Bert, and others are gaining popularity due to their ability to imitate human communication, potentially supporting health-related needs.
While the potential benefits are promising, WHO emphasizes the need for caution and careful examination of the associated risks.
In this regard, WHO has provided guidance on the ethics and governance of AI for health. This guidance emphasizes six core principles: protecting autonomy, promoting human well-being, safety, and the public interest, ensuring transparency, explainability, and intelligibility, fostering responsibility and accountability, ensuring inclusiveness and equity, and promoting AI that is responsive and sustainable.
Question to ponder: How can we ensure the responsible and ethical use of AI in healthcare while maximizing its potential to improve human well-being?
#AI#HealthcareAI#EthicsInAI
💻Голосовой ChatGPT теперь прямо в чате!
OpenAI убрали отдельное окно для голосового общения. Теперь можно говорить с ИИ, не покидая основного интерфейса.
Что изменилось:
⏺️🔊Голосовой ввод работает прямо в чат-окне
⏺️📜Видна вся история переписки
⏺️🖼️Доступны все файлы и сгенерированные изображения
⏺️⚡ Всё в одном месте — больше не нужно переключаться между вкладками
А если если захотите вернуть прежний формат, то его можно вернуть:
Settings → Voice Mode → Separate mode
🔍Заметили тренд?
Каждый раз, когда выходит мощный конкурент (вроде недавнего Claude), OpenAI почти сразу выпускает крупное обновление.
Гонка ИИ ускоряется!
Обнову уже раскатывают для всех тарифов.
#ChatGPT#OpenAI#голосовойИИ#нейросети#обновление#AI
Нейроофис💀