Post #1616

@ai_volution

ИИволюция 👾

Просмотры3,830Количество просмотров

Опубликован12 дек.12.12.2025, 03:36

Содержимое поста

Содержимое

GPT-5.2 – когда “код красный” оправдал себя OpenAI выпустила GPT-5.2. И если предыдущие обновления были скорее эволюцией, то здесь чувствуется попытка выровнять позицию компании на фоне Opus 4.5 и Gemini 3 Pro. Внутри OpenAI, по разным данным, действительно включали “code red” на полную катушку, так что релиз явно готовился с целью “войти в дверь с пинка”. GPT-5.2 меньше спотыкается на длинных задачах, тянет больше контекста и лучше внимание на длинном контексте, “аккуратнее” работает с кодом и инструментами, и в целом ведёт себя стабильнее. Именно эта стабильность и важна, потому что она напрямую влияет на то как мы используем AI в своих рабочих процессах. Теперь по порядку что изменилось: – В задачах GDPval (это когда модель решает реальные рабочие кейсы вроде анализа документов, таблиц, презентаций) GPT-5.2 Thinking показывает результаты на уровне и выше человеческого эксперта. – На AIME 2025 модель впервые дала 100% правильных решений без инструментов. У 5.1 было около 94%, так что прирост чувствуется. Это не про красивые циферки. GPT-5.2 значительно реже ошибается в многошаговых расчётах и строгой логике. – Переходим к коду. Здесь значительный и важный скачок. На SWE-Bench Pro модель поднимается до 55.6%, а на SWE-bench Verified до 80%. Opus 4.5 пока незначительно опережает (80.9%), но Gemini 3 Pro остался позади со своими 76%. – В тестах MRCRv2 (ищем “иголку” в длинном контексте) GPT-5.2 почти не ошибается. Для больших проектов это критично: можно загружать длинные документы, протоколы, спецификации и не переживать что модель потеряет нить. – Визуальное понимание. Ошибки на графиках, диаграммах и интерфейсах уменьшились примерно вдвое. Если вы работаете с UI, аналитикой или комбинированными данными — модель перестала «путать» элементы и их логику. – Инструменты и агенты. Точность tool-calling в длинных цепочках выросла до ~98.7% (было 95.6 % у GPT-5.1). В реальности это означает меньше провалов в середине цепочки и более предсказуемую работу при автоматизации. Можно строить более стабильные многошаговые сценарии. – Режимы работы: Instant, Thinking и Pro, тут всё привычно. – По сложному reasoning картина стала яснее после ARC-AGI-2. У GPT-5.1 там было 17.6 %, у GPT-5.2 — уже 52.9 %, а версия Pro поднимается до 54.2 %. Это выводит GPT-5.2 вперёд и Opus 4.5, и Gemini 3 Pro именно в абстрактных задачах рассуждений, где требуется нестандартная логика и многошаговые решения. – Opus 4.5 остаётся одним из лучших в коде (но нужно еще пощупать, посравнивать с GPT-5.2, его уже завезли во все AI IDE). Gemini 3 Pro всё ещё силён в мультимодальности. Восприятие изображений, сложных визуальных структур и сценариев у Google работает очень уверенно. – Стоимость: ценник на 5.2 немного подрос по сравнению с 5.1. – Рынок в целом оценивает релиз положительно. Хотя было много скепсиса на счет возможностей OpenAI, но время покажет. Ждем теперь ответочку от конкурентов, и так по кругу. Детали о релизе: https://openai.com/index/introducing-gpt-5-2/