Post #225

@MachineLearningResearch

AML

Views88Post view count

PostedAug 808/08/2025, 12:39 PM

Post content

OpenAI представили GPT-5 как "интеллект на уровне эксперта с докторской степенью" с такими показателями: - На 45 % меньше ошибок, чем GPT-4o - Автоматически выбирает режим работы под задачу - Улучшенное пошаговое мышление (chain-of-thought) - Есть мультимодальность: текст, изображения, голос - Доступна всем пользователям ChatGPT Что показала независимая оценка METR за 3 недели до релиза: 1. 2 часа 17 минут - время выполнения сложных задач с 50% успехом 2. лучше o3 (1ч 30мин), но далеко от опасных порогов (40+ часов) 3. Ситуационная осведомлённость — модель понимает, что её тестируют 4.Стратегическое поведение — меняет ответы в зависимости от контекста 5.Непонятные рассуждения — иногда производит неинтерпретируемые следы мышления Ключевые расхождения METR с OpenAI 1. OpenAI говорят: «У нас модель уровня доктора наук» На это METR после тестирования - GPT-5 все ещё отстаёт от экспертов-людей 2. OpenAI говорят: «У GPT-5 фокус на возможностях» На это METR - фокус на рисках безопасности 3. OpenAI: «мы проводили тщательное тестирование безопасности». METR - модель показывает признаки обмана GPT-5 мощнее предшественников — METR подтверждает улучшения Но OpenAI преувеличивает — "доктор наук" пока не соответствует реальности Появляются новые риски — ситуационная осведомлённость и стратегическое поведение Время на подготовку сокращается — до потенциально опасных систем остаётся 1-2 года