Post content
Какое-то время назад активно ходили слухи про проект Q* от OpenAI. На сегодняшний момент известно мало, но высок шанс, что фокус в нем идет на reasoning, то есть умение планировать, строить цепочку рассуждений и декомпозировать сложные задачи. Это одна из важнейших проблем для текущих моделей, поэтому многие ее исследуют. На днях попалась статья от авторов из FAIR по их работе в сторону адаптации и улучшения алгоритма A* для трансформеров. Для тех, кто не слышал про сам алгоритм: 1. Это модификация алгоритма Дейкстры, которая уходит от равномерного исследования в графа (с поправкой на веса ребер) в сторону проверки наиболее “перспективных” решений. 2. Огромное число задач может быть решено с помощью A*, начиная от классического поиска маршрута между двумя городами, до сборки кубика Рубика. 3. Рекомендую наглядное короткое видео с пояснениями и даже имплементацией для интересующихся. Для понимания можно посмотреть первые 10 минут. Итак, авторы статьи сначала переводят траектории А* для некоторой задачи в определенный формат, чтобы это можно было подать на вход как текстовую последовательность для нашей любимой задачи next token prediction. То есть в некотором смысле это попытка дистиллировать алгоритм в веса модели за счет тюнинга на собранный датасет (описание задачи, план, решение). Далее модель генерирует набор новых траекторий, некоторые из которых могут получиться даже лучше оригинального A*, то есть быстрее решать проблему. Та часть, которая не решает задачу, выкидывается, и датасет пополняется полезной синтетикой. Такой прием в виде итеративного улучшения за счет генерации новых данных текущей моделью встречается далеко не в первый раз, вот, например, интересная работа про метод Self-Play. Модели при этом небольшие, до 757М параметров, архитектуры T5, то есть Encoder-Decoder. В статье довольно насыщенный ablation study, но мне не хватило в табличке сравнения популярных существующих методов по типу MCTS и какой-нибудь GPT-4 с few-shot примерами. И раз зашла речь про reasoning, на kaggle вчера объявили о новом конкурсе про решение математических олимпиадных задач с помощью LLM, следим 👀