Содержимое
Это еще один из моих очень субъективных отзывов/сравнений. Некоторые люди здесь находят в них ценность, поэтому я публикую для них. Я говорю вам заранее, что мне жаль, что я не могу поделиться подсказками/подробностями, так что если это проблема для вас, вы можете прекратить чтение здесь. Определенно не ухадите об этом в комментариях. Некоторые могут сказать, что сравнение Claude 4 Opus с o4-mini-high несправедливо, но я не думаю, что это так. o4-mini-high примерно так же мощно, как o3 во многих/большинстве эталонов, поэтому сравнение все еще полезно. Контекст: Исследования в области математики и информатики. В основном нерешенные проблемы на краю кровотечения. Уровень сложности безумный. Конечно, решения еще не существует, поэтому ни одна модель не могла быть обучена ему. Кроме того, даже демонстражирование связного понимания проблемы предполагает глубокое понимание различных математических теорем. Я не использую потребительскую версию ни одной модели. Я использую API только потому, что мне нужна более надежная конфиденциальность, которая приходит с корпоративной стороной вещей. Я использую o4-mini-high в качестве своей ежедневной рабочей лошади. Клод великолепен, но это слишком дорого. В последнее время я боролся с конкретной программой, которую o4-mini-high просто не мог сделать правильно. Я решил попробовать Claude 4 в первый раз. Я выбрал Opus и дал ему около 20 тысяч токенов мышления. Результаты были очень впечатляющими. o4-mini-high неправильно классифицировал проблему и работал в неправильной области. И даже несмотря на то, что я настроил проблему Claude 4 Opus с неправильной классификацией, он сразу заметил это и установил проблему в правильном домене, что было именно той ошибкой, с которой я боролся в течение двух дней. Затем я попросил Клода 4 Opus создать программу, которая отображает координаты в этом конкретном пространстве и запускает конкретные уравнения, и она абсолютно не могла сделать это правильно. Это что-то пропущенное до 4-мини-высокого. Итак, я показал код Claude 4 Opus o4-mini-high, и Opus научился на нем и получил его код за один выстрел. Кроме того, мои разговоры с Opus о стоящей проблеме были очень продуктивными. Opus предоставил ценные идеи, которые o4-mini-high просто так и не появились. Так что, по крайней мере, когда дело доходит до передовых исследований, я считаю, что для того, чтобы получить лучшую картину или заставить одну программу работать правильно, часто необходимо оседла двух или более моделей. Ни одна модель не может сделать все правильно, но, работая вместе, они могут быть удивительно мощными. Если вы работаете над сложными проблемами, примите страддл, если вы еще этого не сделали. Заключительное примечание о Claude 4 Opus: он дорогой, но очень мощный и стоит каждого цента. Anthropic определенно еще не ударил по стене, и Клод остается законным конкурентом моделей OpenAI. https://www.reddit.com/r/ClaudeAI/comments/1luxpod/claude_4_opus_vs_o4minihigh_or_how_i_embraced_the/