TGTGInsighttelegram intelligenceLIVE / telegram public index
Post content
帖子内容
🦆 我把 32 台 Intel N100 小主机改造成了一个 DeepSeek-V3.2 685B 推理集群。 没有 NVLink。 没有 InfiniBand。 只有 1 张 RTX 5090、32 台原本用于在线评测的 N100、和普通以太网。 关键想法: 🧠 Attention 留在 GPU 🦆 MoE 层交给 N100 集群 ⚡ 自定义 fp9 数据格式,让 AVX2 小核也能跑 MoE GEMV 最终: 11 tokens 输入,2037 tokens 输出 16.171 tok/s decode MTP1 接受率约 89% 技术报告: https://judgeduck.ai/duck-llm/ *个人娱乐项目,与任何组织均无关联*