TGTGInsighttelegram intelligenceLIVE / telegram public index
← AI[ex]Time
AI[ex]Time avatar

TGINSIGHT POST

Post #26

@AIexTime

AI[ex]Time

Views1,010Post view count
PostedOct 610/06/2023, 12:34 PM
Post content

Post content

Небольшой обзор Mistral-7B. Моделька сейчас на слуху, поэтому вот вам краткое саммари. Ребята из французского стартапа выкатили модель (лицензия Apache 2.0), которая побила LLaMa-2 7/13B на многих бенчмарках. Интересные особенности: — Grouped-Query Attention (GQA). Прием, использующий 1 матрицу K и V на группу матриц Q. Это некоторое среднее между Multi-Head Attention и Multi-Query Attention. — Sliding Window Attention (SWA). Модификация attention, при которой мы смотрим только на window_size (W) токенов назад. Важно, что токены за пределами окна тоже влияют на генерацию следующего, здесь можно провести аналогию с receptive field классических сверток. — Rolling buffer cache. Изменение классического KV-cache для работы с SWA. Теперь кэш размера W и (key, value) для позиции i кладется на i % W позицию в кэше. — Pre-fill and chunking. Оптимизация с предзаполнением кэша для токенов из промпта, который известен с самого начала. Все эти трюки — про скорость инференса/экономию памяти. Есть также Instruct версия, дообученная на открытых датасетах с инструкциями. И совсем недавно вышла fine-tuned версия в стиле Orca, который бьет уже практически все 13B. Что такое Orca? Это подход (и модель, полученная в результате такого подхода) к обучению на синтетических данных. Заключается он в следующем: 1. Берем большой датасет с различными заданиями (user query): суммаризация текста, ответы на сложные вопросы, решение математических задач и т.д. 2. Для каждого задания в начало помещаем специальный system prompt, чтобы LFM (Large Foundation Model) генерировала ответ в определенном формате. Таким образом мы можем контролировать длину генерации, стиль, рассуждения и так далее. 3. Используем LFM (например, ChatGPT, GPT-4) для выполнения составленных заданий. В итоге собранный датасет представляет тексты вида <system prompt, user query, gpt answer>. Цель — собрать не просто датасет от сильной модели, но сделать его разнообразным и детальным с точки зрения рассуждений и вариантов ответов. Получившиеся примеры в датасете можно посмотреть тут.