TGTGInsighttelegram intelligenceLIVE / telegram public index
← QIN2DIM's Tech Channel
QIN2DIM's Tech Channel avatar

TGINSIGHT POST

Post #1355

@qin2dim

QIN2DIM's Tech Channel

Views1,290Post view count
PostedJul 3107/31/2025, 02:27 AM
Post content

Post content

有点恐怖,OpenRouter qwen3-coder 的使用量已经来到 12B 了。 点开 Providers 页面,发现有个离谱的厂商在提供 FP4 规格的量化模型,也是全场唯一一个能保持 Uptime 全时段可用的厂商。另一个能扛住流量的当然是阿里SG(当然也有可能是太贵大家不太敢用)。 FP4 目前硬件级支持只有 消费级 GeForce RTX 50系列 和 B200 可用。但从成本和单请求吞吐速度来看,也许是用 5090 部署,但也可能是 B200 + 调整了 DP 负载应对超高并发量的场景。 https://openrouter.ai/qwen/qwen3-coder