@ShareCentre · Post #7218 · 20.04.2026 г., 16:30
🚀 月之暗面开源 Kimi K2.6:SWE-Bench Pro 反超 GPT-5.4,Agent Swarm 扩至 300 子代理 月之暗面(Moonshot AI)正式开源新一代旗舰模型 Kimi K2.6,主打长程编程(long-horizon coding)、Agent Swarm 智能体集群与视觉 Agent 能力,已通过 Kimi.com 、Kimi App、API 以及 Kimi Code 四个渠道同步上线。 📌 核心基准(vs GPT-5.4 xhigh / Opus 4.6 max / Gemini 3.1 Pro / K2.5) - SWE-Bench Pro 58.6,反超 GPT-5.4(57.7)、Opus 4.6(53.4)、Gemini 3.1 Pro(54.2),相比 K2.5(50.7)提升 7.9 分 - Terminal-Bench 2.0(Terminus-2)66.7,领先 GPT-5.4 与 Opus 4.6 的 65.4 - SWE-Bench Multilingual 76.7,逼近 Opus 4.6 的 77.8 - HLE(带工具)54.0,领先所有对比模型 - BrowseComp 83.2、DeepSearchQA 92.5、OSWorld-Verified 73.1 - MathVision with Python 93.2、V* with Python 96.9,视觉 Agent 能力全面对齐闭源第一梯队 - 上下文窗口 262,144 tokens,温度 / top-p 均为 1.0 ⚙️ 长程编程实测 - Mac 本地部署 Qwen3.5-0.8B:用小众语言 Zig 实现并优化推理,4,000+ 次工具调用、12 小时连续执行、14 轮迭代,吞吐从约 15 tokens/s 提升到约 193 tokens/s,比 LM Studio 快约 20% - 改造 8 年老项目 exchange-core 金融撮合引擎:13 小时执行、1,000+ 次工具调用、修改 4,000+ 行代码,通过分析 CPU 与内存火焰图重构核心线程拓扑(4ME+2RE → 2ME+1RE),中位吞吐提升 185%(0.43 → 1.24 MT/s),性能吞吐提升 133%(1.23 → 2.86 MT/s) - 内部 RL 基础设施:K2.6 Agent 连续自主运行 5 天,管理监控、事件响应与系统运维,呈现持久上下文与多线程任务处理能力 🧠 Agent Swarm 横向扩展 - 子代理规模从 K2.5 的 100 扩至 300,协同步数从 1,500 扩至 4,000,端到端延迟显著下降 - 可将高质量 PDF、表格、PPT、Word 转为可复用 Skill,沿用原文档的结构与风格 DNA - 演示场景:100 家加州招聘岗位匹配并一键生成定制简历;40 页天体物理论文 + 20,000 条数据集 + 14 张学术图表;洛杉矶 30 家无网站零售商一键生成高转化 landing page 🤝 Claw Groups 研究预览 - 全新开放式异构 Agent 协作空间:不同设备、不同模型、不同工具的 Agent 可作为平等协作者加入同一操作空间 - K2.6 作为自适应协调器,动态分配任务,自动检测失败并重新分配或重新生成子任务 - 月之暗面自用:用 Claw Groups 运营由 Demo Maker、Benchmark Maker、Social Media Agent、Video Maker 组成的营销团队 🎨 Coding-Driven Design - 单条 prompt 生成带 hero section、滚动触发动画、鉴权与数据库的轻量全栈应用 - 内部 Kimi Design Bench 覆盖视觉输入、Landing Page、全栈开发、通用创意编程四大类,表现对标 Google AI Studio 🔙 背景补充 - Kimi K2 系列延续"万亿参数 MoE + Muon 优化器 + Agentic 智能"主线,K2 Thinking 版本此前已在开源榜长期领先;K2.5 的 Agent Swarm 研究预览首次引入 100 子代理架构,K2.6 一次性扩至 3 倍 - 合作伙伴 CodeBuddy 内部评测报告 K2.6 较 K2.5 代码生成准确率提升 12%、长上下文稳定性提升 18%、工具调用成功率达 96.60%;Vercel AI Gateway 在 Next.js 基准上观察到超过 50% 的提升;Ollama、OpenCode、Qoder、KiloClaw、Hermes 等同步完成适配 - 同期开源阵营正在全面逼近闭源:智谱 GLM-5.1(MIT 开源)此前以 SWE-Bench Pro 58.4 登顶,现被 K2.6 以 58.6 反超;阿里 Qwen3.6-Plus Terminal-Bench 2.0 61.6 超 Opus 4.5;MiniMax M2.7 主打模型自我进化;开源阵营正在与 Anthropic Mythos(以安全为由限制发布)和 OpenAI GPT-5.4-Cyber(分层访问)代表的闭源路线形成正面对冲 📎 相关链接 官方博客:https://www.kimi.com/blog/kimi-k2-6 在线使用:https://www.kimi.com/ API:https://platform.kimi.ai/ 编程入口:https://www.kimi.com/code Agent Swarm:https://www.kimi.com/agent-swarm Hugging Face:https://huggingface.co/moonshotai/Kimi-K2.6 #Kimi#KimiK2_6#MoonshotAI#月之暗面#开源模型#AI编程#AgentSwarm#LongHorizonCoding#ClawGroups