Post content
Несколько месяцев назад вышла интересная статья Textbooks Are All You Need от ребят из Microsoft, где они представили модель phi-1, заточенную на написание кода. В ней всего 1.3B параметров (+ обучалась она на суммарно меньшем кол-ве токенов), но при этом на бенчмарке HumanEval она бьет большинство огромных моделей на десятки миллиардов параметров, включая gpt-3.5. Почитайте хороший обзор от Игоря Котенкова в Singularis. Вчера же появилась статья Textbooks Are All You Need II: phi-1.5 technical report, где авторы выпустили, как нетрудно догадаться, модель phi-1.5. Она так же содержит 1.3B параметров, только на этот раз ориентирована на язык в целом, то есть на решение задач common sense reasoning и language understanding. Модель видела 150B токенов во время обучения, что по современным меркам смешно. Такие результаты удается получить благодаря тщательному отбору и подготовки данных, при этом большая часть датасета сгенерирована моделями тяжелее (например, gpt-3.5/gpt-4) со специально подобранными промптами. Авторы пишут: Our training data for phi-1.5 is a combination of phi-1’s training data (7B tokens) and newly created synthetic, “textbook-like” data (roughly 20B tokens) for the purpose of teaching common sense reasoning and general knowledge of the world (science, daily activities, theory of mind, etc.). We carefully selected 20K topics to seed the generation of this new synthetic data. In our generation prompts, we use samples from web datasets for diversity. К сожалению, сами промпты и детали сбора синтетики авторы не выложили 😢 В любом случае, такие работы напоминают нам, насколько данные принимают важное участие в обучении языковых моделей. Уже интересно посмотреть на результат такого обучения модели с 7B параметров. Можно уже брать веса с HF и играться.