TGTGInsighttelegram intelligenceLIVE / telegram public index
← QIN2DIM's Tech Channel
QIN2DIM's Tech Channel avatar

TGINSIGHT POST

Post #1990

@qin2dim

QIN2DIM's Tech Channel

Views139Post view count
PostedDec 312/03/2025, 05:49 AM
Post content

Post content

MistralAI | Weights 精彩,FP8 A41B + Eagle + 2.5B vison encoder + 256k context_window,并不是严格意义上的 reasoning model。模型 token efficiency 提升显著。单机 H200 启动,预计可以做到单请求 150tps,但长下文能力应该会迅速衰减。 如果你已经部署了 kimi k2 thinking,短期内无需替换,这俩模型几乎只有 token efficiency 的区别,没有 ThinkPart 会让模型工具使用表现非常不稳定。暂不确定 Mistral Large 3 视觉能力的可用性如何。 总的来说未来3~6个月,Kimi K2 Thinking 仍然会是这一档模型的开源区最佳选手。 另外,mistral-large-3 open weights 的 tokenizer_config 里面好像有脏东西- -?使用 PixtralProcessor 和 LlamaTokenizerFast,并且预留了 1000 个 SPECIAL tokens_decoder。以及没有 config.json 要怎么运行我请问呢。