Содержимое
Anthropic запустили Opus 4.6-Fast: теперь модель работает в 2.5 раза быстрее (примерно 100 токенов в секунду), но и стоит в 6 раз больше. У тех, кто использует планы в Claude Code, просто быстрее будет съедаться квота (видимо, и недельная, и 5-часовая). Чтобы включить модель, нужно написать /fast в Claude Code. В твиттере уже начали гадать, мол, что это за оптимизации, а как так, а неужели они используют Groq/Cerebras, или же это TPU от Google такие крутые, что можно в 2.5 раза разогнать. На самом деле я почти уверен, что с точки зрения железа ничего не менялось, и математика тут понятна: можно уменьшить размер батча (количество одновременно обрабатываемых сессий), что приведёт к быстрой генерации для каждого отдельного пользователя. Но тогда и выручка с единицы GPU падает, и нужно повысить цену для компенсации. Semianalysis с осени поддерживают InferenceMAX, в котором запускают разные модели на разных видеокартах. И, например, DeepSeek R1 при генерации 100 токенов в секунду на сессию выдаёт в среднем 6000 токенов в секунду на GPU , а при разгоне в 2.5 раза до 250 т/с — падает до 1000 токенов в секунду на GPU. Таким образом количество токенов падает в 6 раз, цена растёт, выручка и маржинальность не меняются. Ждём, пока OpenAI наконец-то запустятся на Cerebras, чтобы давать 150+ токенов в секунду.