Post #4730

@startupandtech

🚀 Андрей Артищев

Просмотры21Количество просмотров

Опубликован30 сент.30.09.2025, 08:35

Содержимое поста

Содержимое

redditis непродуктивный • 13 часов назад Всего одна точка данных от меня, так что принимай это с долей соли. Я провел тест рассуждений на новых моделях Deepseek и Claude по сравнению со старыми моделями. Задача состоит в том, чтобы получить как можно больше правильных ответов, чтобы это одновременно проверяло глубину рассуждений и точность рассуждений. Deepseek-3.1-Term (Openrouter) 18 правильных, 0 ошибок Deepseek-3.2-Exp (Openrouter) 4 правильных, 0 ошибок Sonnet 4 (WebUI) 18 правильных, 1 ошибка Сонет 4.5 (WebUI) 13 правильных, 29 ошибок Opus 4 (WebUI) 45 правильно, 1 ошибка Opus 4.1 (WebUI) 42 правильно, 16 ошибок GPT5-Thinking-Light (WebUI) 43 правильно, 0 ошибок GPT5-Thinking-Extended (WebUI) 107 правильно, 3 ошибки GPT5-Thinking-Heavy (WebUI) Thinking forever, а затем разбился. Я не уверен, что мы все еще не застряли в эпохе «зазубренного подъема». Похоже, что новая модель, как правило, работает хуже в частных тестах, даже если они продвигаются вперед в других публичных тестах. В частности, новые модели Claude очень неаккуратные. У них действительно плохое внимание к деталям, и я заметил постоянные проблемы с инструкциями по сравнению с GPT5. Хотя Клод все еще имеет превосходное понимание намерений и нюансов пользователей во многих случаях.