Post #1992

@qin2dim

QIN2DIM's Tech Channel

Views132Post view count

PostedDec 312/03/2025, 08:23 AM

Post content

MistralAI | Weights 精彩，FP8 A41B + Eagle + 2.5B vison encoder + 256k context_window，并不是严格意义上的 reasoning model。模型 token efficiency 提升显著。单机 H200 启动，预计可以做到单请求 150tps，但长下文能力应该会迅速衰减。如果你已经部署了 kimi k2 thinking，短期内无需替换，这俩模型几乎只有 token efficiency 的区别，没有 ThinkPart…