Post #53

@AIexTime

AI[ex]Time

Views2,009Post view count

PostedDec 1912/19/2023, 06:37 AM

Post content

Если вы следите за прогрессом в сфере LLM, то наверняка слышали про MoE (Mixture of Experts). Этой концепции уже не один десяток лет, но текущий виток популярности она обрела благодаря релизу Mixtral 8x7B. Если интересна тема, обязательно почитайте недавний обзор с HuggingFace, где собрана информация из ключевых статей, вышедших за это время. Классическая архитектура MoE состоит из 2 частей: 1. Sparse MoE layers. Используется вместо FFN. Обычно каждый эксперт представляет из себя тоже FFN, но здесь нет ограничений, можно использовать что угодно. 2. Gate Network, или Router. Определяет какой токен пойдет в какого эксперта. На картинке можно видеть иллюстрацию. Вопрос: как это определять? Простейший способ — обычный линейный слой, на выходе дающий вектор из N чисел (где N — число экспертов), поверх которого можно применить softmax и взять top K. Далее возникают вопросы: 1. Как контролировать Router, чтобы загружать экспертов +- равномерно? 2. Какие преимущества перед классическими Dense моделями? 3. Как эффективно тюнить подобного рода модели? Про все это есть информация по ссылке. Там же можно дополнительно посмотреть, как подобные вопросы решаются в работах по типу GShard, Switch Transformer, ST-MoE.