Post #43

@ai_driven

AI-Driven Development. Родион Мостовой

Просмотры1,260Количество просмотров

Опубликован19 янв.19.01.2025, 16:24

Содержимое поста

Содержимое

Reasoning models: o1, o1-pro, Gemini Flash Thinking, QwQ 32b, o3-mini Ну что, всех с наступившим! Если меня спросят какой тренд в AI мире наблюдается в 2025 году, то я смело отвечу, что это reasoning модели и AI-агенты. "Агентность" - это когда LLM наделяют волей самостоятельно принимать решение о том, каким должен быть следующий шаг для достижения успеха в решении задачи. Пример в контексте программирования - это системы типа Devin, Cursor Agent и автономный aider. AI-Агенты - это очень интересная тема, о которой я еще обязательно буду говорить, но сейчас сфокусируемся на reasoning моделях как средстве еще больше повысить нашу, программистскую продуктивность. Итак, OpenAI провели серию больших (и маленьких релизов) и в течение 12-ти дней что-то да выпускали - почитать саммари релиза каждого дня можно, например, в канале Игоря Акимова. Мы же здесь поговорим про самые важные релизы для программистов — это модельки о1 (pro) и o3. Описание моделей линейки o я уже приводил в этом посте, напомню лишь кратко, что это специальная линейка моделей от OpenAI, к котором прикручена способность к рефлексии - иными словами, интеллектуальные способности этих моделей (которые так важны для решения задач на программирование) существенно выше, чем все, что было до этого в LLM. Сразу скажу от себя, что эти модели действительно большой прорыв в решении задач на программирование, я могу это подтвердить и своим личном опытом их использования. Да, я опять буду показывать вам бенчмарки, но только те, которые в моем понимании хорошо мапятся на реальность. В LiveCodeBench видно, что o1-high превосходит Sonnet 3.5 в решении сложных алгоритмических задач примерно в x5 раз. Да, модель o1 по API доступна в 3-х вариациях reasoning effort: low, medium и high - чем выше это значение, тем дольше модель будет "думать" (кстати, у меня есть подозрение, что в Web версии ChatGPT reasoning effort определяется автоматически). И, напоследок, посмотрим бенчмарк от самой OpenAI - задачки на CodeForces (смотрим второй бенчмарк на 4/4 стабильных ответов): o1-preview - 26, о1 - 64, o1-pro - 75. o1 Pro - это самая продвинутая модель в линейке o1, которая "думает" больше (и дольше) всех остальных моделей, зато выдает более продуманные и стабильные ответы. На текущий момент модель o1-pro доступна для в подписке ChatGPT Pro за 200$. Доступ к модели o1-pro по API обещали открыть позже. Подробнее про o1 можно почитать в этом посте. Кстати, про о1 ребята из OpenAI+DeepLearning аж курс часовой сделали и блок про метапромптинг определенно стоит вашего внимания, т. к. он еще и имеет прямое отношение к реализации продвинутых AI-агентов. А на сколько хорошо o1-pro пишет многопоточный код я проверю на реальной задаче в следующем посте. Как попробовать? 1. В GitHub Models модели o1 и o1-mini доступны как из веб интерфейса, так и по API. Но чтобы воспользоваться, похоже, что нужна подписка на GitHub Copilot. 2. В веб/десктоп версии ChatGPT подписка Plus открывает доступ к модели o1. 3. По OpenAI API, но для этого понадобится аж Tier 5. 4. В Azure OpenAI, но только по заявке. Еще reasoning модели Китайцы активно догоняют OpenAI и уже сейчас можно отметить 2 модели, которые тоже очень хорошо умеют решать сложные задачи: 1. Qwen QwQ 32b - доступна в веб интерфейсе или через OpenRouter. 2. DeepSeek-R1-Lite-Preview - доступна в веб интерфейсе при включении опции "DeepThink". 3. Gemini Flash Thinking - Google тоже пытаются в reasoning и у них получается. По LiveCodeBench видно, что эти модели действительно хороши в решении задач уровня Medium и Hard. Еще, OpenAI анонсировали модель o3, результаты которой эквиваленты 175-му разработчику в мировом рейтинге CodeForces, но модель эта пока не доступна никому, кроме исследователей безопасности, а стоимость генерации там вообще какая-то заоблачная. Из более реального, в течение нескольких недель обещают зарелизить модель o3-mini примерно уровня o1-pro по словам Сэма Альтмана, но еще и с доступом по API. Будем ждать. И это еще не было ответа от Anthropic. 2025-й год обещает быть очень интересным. — Пробелов.NET