Содержимое
я вижу это как более удачная архитектура у Claude, которую они до сих пор успешно доят. Они просто продолжают тренировку одних и тех же моделей, видимо без существенного их изменения в плане архитектуры. По сути они "грокают" их, конвертируя каждое дополнительное время обучения одной и той же модели в апгрейд её до новой версии. Какой бы ни был системный промпт, но потеря данных на длинном контексте это никак не может исправить. Это серьезное архитектурное упущение у их конкурентов. И они (конкуренты) со временем становятся заложниками своего первоначального выбора, потому что видимо продолжают "грокать" ту самую первоначальную архитектуру, которая захлёбывается при длинном контексте, но дает всё лучшие и лучшие результаты на средних вопросах и задачках. Потому что переобучать с нуля новую архитектуру просто не выгодно и очень долго, чтобы она достигла показателей последних версий chatgpt-4.1 (или какая там самая последняя). Ситуацию спасает режим размышлений, который пытается преодолеть эту проблему забывчивости и рассеянного внимания, перекидывая то что ускользает вдали поближе к началу. Например Nvidia уже много лет "грокают" одну и ту же модель DLSS для масштабирования картинки. Поэтому на каждой итерации выпускают новые версии, которые всё лучше и лучше. Для этого у них свой датацентр, который молотит 24 на 7. Представьте, что они придумали более совершенную архитектуру, но вот незадача - чтобы достичь примерных показателей текущего DLSS 4, надо будет обучать её все те же 6 лет (первая версия DLSS вышла в 2019 году) или сопоставимое время. Поэтому каждая компания теперь по сути заложник своего первоначального выбора. Claude заложник своего успеха для кодирования и большого контекста, а ChatGPT заложник успеха в задачах небольших, где он не начинает страдать паркинсоном и деменцией. То же касается и Geminni, у гугла просто вычислительных ресурсов видимо больше и за меньшее время они успевают получить больший выигрыш, а соответственно - догонять своего конкурента ChatGPT.