Post #29

@ai_driven

AI-Driven Development. Родион Мостовой

Просмотры2,120Количество просмотров

Опубликован13 сент.13.09.2024, 08:58

Содержимое поста

Содержимое

🍓o1 — Новая прорывная модель для кодинга от OpenAI Не успел я выступить на DotNext с докладом про использование LLM в разработке (слайды тут) и хвалами в адрес Claude Sonnet 3.5, как OpenAI выпустили новую модель для программирования, которая по их же описанию оставила далеко позади все остальные модели в задачах на программирование и математику. Результаты у этих моделей, судя по анонсу OpenAI, действительно прорывные. Я не буду здесь пересказывать анонс OpenAI, т. к. это уже многие сделали (раз, два, три). Результаты моделей o1 в задачах на программирование Собственно, перейду сразу к результатам. Я предлагаю сразу смотреть на мой любимый LiveCodeBench, т. к. кажется, что остальные бенчмарки по программированию с выходом Sonnet 3.5 и o1 уже не очень показательны (например, HumanEval). Сосредоточим внимание на колонке Hard и Medium (т. к. в. категории Easy там уже почти некуда соревноваться). Если включить все задачки (оттянуть ползунок влево), то мы увидим картинку как на скриншоте. Видно, что в категории задач уровня Hard (требующих наилучшего reasoning), модель O1-Preview опережает Sonnet 3.5 почти на 30%, а вот модель O1-Mini на сложных задачах оказалось умнее, чем Sonnet 3.5 аж более, чем в 3 раза! Кроме того, на свеженькие вопросы со StackOverflow новые модели отвечают на 30% лучше. Отмечу, что размер контекстного окна на output существенно расширен (для o1-preview до 32к токенов, а для o1-mini до 65к). При этом, общий размер контекстного окна (вход + выход) 128к токенов (тут, увы, не удивили). Как это работает? Есть такой интересный прием CoT (Chain of thought) - это когда в конце промпта мы просто добавлявляем "Думай шаг за шагом". Удивительно, но этот подход существенно улучшает способности модели к решению сложных задач - он универсален, т. е. применим чуть ли не к любым LLM. Так вот, OpenAI каким-то образом приучили свои новые модели всегда использовать этот подход, наделив их, по сути, нативными способностями к декомпозиции и подробному, многошаговому анализу задачу. Примечательно, что новые модели даже иногда могут прийти к некому промежуточному выводу, затем поймать себя на ошибке исправиться. Всю инфу по o1 OpenAI собрали в хабе o1. А еще, ребята из GitHub Copilot тоже подсуетились и, похоже, совсем скоро мы увидим новые модели и там. Как попробовать? 1) В интерфейсе ChatGPT с подпиской ChatGPT Plus. 2) Через API OpenAI (но для этого пока нужен аж 5-й tier upd: уже 3-й tier) 3) Через API OpenRouter - я тестировал именно так, работает действительно отлично. 4) Через API Azure OpenAI (но сначала нужно оставить заявку на доступ) 5) Бесплатно из плагина Double для VSCode (спасибо автору канала Not Boring Tech за инструкцию) 6) Через телеграм-бот Ильи Гусева (бесплатно всего 2 запроса в день) P.S. Рад видеть новых подписчиков в своем канале - спасибо всем, кто присоединился! Чуть позже будет пост-навигатор по самым интересным материалам канала, а также мощный воркшоп про смысл асинхронности в .NET. — Пробелов.NET. Спасибо, что читаете :)