Содержимое
3-е место в треке Speech Detection на LibriBrain (NeurIPS 2025) Команда alvi (Aleksandr Kovalev, Aleksejs Timčenko, Petr Chizhov, Vladislav Lomtev) заняла 3-е место в стандартном треке Speech Detection с результатом 0.91 F1-macro (приз $800). Задача: По сигналам MEG (магнитоэнцефалография) предсказывать, слышит ли человек речь или тишину в аудиокниге о Шерлоке Холмсе. Ключевые детали анализа и решения: • Нормализация данных: Главный инсайт — глобальная Robust Z-score (медиана + MAD) только по train-сету и применение ко всем сплитам. Это дало преимущество над дефолтным подходом организаторов (отдельная нормализация по сплитам). Пер-сессионная нормализация улучшала val, но не использовалась из-за неизвестного состава holdout. • Архитектура: Гибрид сверточных сетей + трансформер (Conv-Encoder с ResBlocks → Transformer с RoPE → Conv-Decoder). Что сработало: • Depth-wise conv как первый слой (отдельные свертки по каналам, затем миксинг). • Нормализация с learnable scale per channel внутри окон (+1.5%). • Weight averaging последних 3 чекпоинтов (+1% на test).