#deepseekv4 相似帖子 — Python Заметки

@Sostav · Post #38789 · 03.03.2026 г., 15:31

🇨🇳 DeepSeek V4 выходит на этой неделе // 1 триллион параметров, активных при генерации — всего 32 млрд (MoE). Работает локально на двух RTX 4090. Контекст — 1 млн токенов против 128K у V3, точность 97%. Скорость генерации выше в 1.8 раза. Главный фокус на код. Плюс мультимодальность — текст, картинки, возможно видео. Оптимизирован под чипы Huawei и Cambricon. Без приоритета для Nvidia. По слухам, DeepSeek готовит конкурента Cursor для китайского рынка. Официального релиза еще нет, но возможно сегодня анонсируют. 🧠Следи за AItoolz — следим за релизом #DeepSeek#DeepSeekV4#релиз

Hashtags

#deepseek #deepseekv4 #релиз

AI一线｜ShareCentre

@ShareCentre · Post #7236 · 24.04.2026 г., 03:21

Најди слично Погледај

DeepSeek-V4 预览版发布并开源：1M 上下文成标配,Agent 能力达开源最佳 4 月 24 日,DeepSeek 正式上线并同步开源 DeepSeek-V4 系列预览版,按规模分为 V4-Pro 和 V4-Flash 两款,全系标配 1M(一百万)token 超长上下文,在 Agent 能力、世界知识与推理性能上均达到国内与开源领域领先水平。官网 chat.deepseek.com、App 与 API 已同步更新,API 通过 model_name=deepseek-v4-pro 或 deepseek-v4-flash 调用。 📌 V4-Pro:对齐顶级闭源模型 - Agent 能力大幅提升:Agentic Coding 评测达开源模型最佳,已成为 DeepSeek 公司内部员工使用的编程模型 - 编程实测:使用体验优于 Claude Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,与 Opus 4.6 思考模式仍有一定差距 - 世界知识:在开源模型中大幅领先,仅稍逊于顶尖闭源 Gemini-Pro-3.1 - 推理性能:数学、STEM、竞赛代码测评超越所有已公开评测的开源模型,比肩世界顶级闭源 📌 V4-Flash:经济高效的小弟 - 参数和激活更小,API 服务更快、更便宜 - 推理能力接近 V4-Pro,世界知识储备稍逊 - Agent 评测:简单任务与 V4-Pro 旗鼓相当,高难度任务仍有差距 ⚙️ 结构创新:全新注意力 + DSA DeepSeek-V4 开创全新的 token 维度压缩注意力机制,结合 DeepSeek Sparse Attention(DSA 稀疏注意力),实现全球领先的长上下文能力,相比传统方法大幅降低计算和显存需求。官方明确:1M 上下文从此成为 DeepSeek 所有官方服务的标配。 🛠 Agent 生态专项适配针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品做了适配优化,代码任务、文档生成、PPT 生成等场景均有提升。 📎 API 细节 - base_url 不变,model 改为 deepseek-v4-pro 或 deepseek-v4-flash - 同时支持 OpenAI ChatCompletions 与 Anthropic 接口 - 均支持思考/非思考模式,思考模式可通过 reasoning_effort 参数设置强度(high/max),复杂 Agent 场景建议使用 max - 旧模型名 deepseek-chat(对应 V4-Flash 非思考)与 deepseek-reasoner(对应 V4-Flash 思考)将于 2026-07-24 停用 🔙 背景 - 2025-12-01 DeepSeek 发布 V3.2 正式版与 V3.2-Speciale,首次引入 DSA 稀疏注意力与「思考融入工具调用」,Speciale 拿下 IMO/CMO/IOI/ICPC 2025 金牌,推理能力对齐 Gemini-3.0-Pro - 此后 DeepSeek 进入约 5 个月的大版本静默期,社区一度质疑团队「是否还在」;V4 的发布以百万上下文普惠 + 开源权重的方式正面回应 - V3.2 → V4 演进主线清晰:从 MoE+MLA → DSA 稀疏注意力 → token 维度压缩新注意力,长上下文效率持续压榨 ⚔️ 竞品对比 - vs Claude Opus 4.6:编程交付质量已接近 Opus 4.6 非思考模式,思考模式仍有差距 - vs Claude Sonnet 4.5:Agentic Coding 使用体验反超 - vs Gemini-Pro-3.1:世界知识稍逊,推理已比肩 - vs 国产阵营:紧接智谱 GLM-5.1(SWE-Bench Pro 全球第一)、千问 Qwen3.6-Plus(Terminal-Bench 超 Opus 4.5)、MiniMax M2.7、腾讯混元 Hy3 preview、小米 MiMo-V2.5 的密集发布节奏,国产开源模型在 2026 年 4 月形成集体冲顶态势 🏢 DeepSeek 近况 DeepSeek 自 R1 后长期以「低调迭代 + 开源开放」路线前行,V3.2 验证了 DSA 的工程可行性,V4 则进一步将其规模化推向百万上下文普惠。官方在后记中重申「长期主义」与 AGI 目标,不回应外界关于 R2 的猜测。 📎 资源链接 - 开源权重(HuggingFace):https://huggingface.co/collections/deepseek-ai/deepseek-v4 - 开源权重(ModelScope):https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4 - 技术报告 PDF:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf - API 思考模式文档:https://api-docs.deepseek.com/zh-cn/guides/thinking_mode #DeepSeek#DeepSeekV4#AI大模型#开源模型#AIAgent#长上下文#DSA#AgenticCoding

Hashtags

#deepseek #deepseekv4 #ai大模型 #开源模型 #aiagent #长上下文 #dsa #agenticcoding

𝚂𝚙𝚎𝚎𝚍𝙲𝚎𝚗𝚝𝚛𝚎

@SpeedCentre · Post #13866 · 24.04.2026 г., 03:27

Најди слично Погледај

DeepSeek-V4 预览版发布并开源：1M 上下文成标配,Agent 能力达开源最佳 4 月 24 日,DeepSeek 正式上线并同步开源 DeepSeek-V4 系列预览版,按规模分为 V4-Pro 和 V4-Flash 两款,全系标配 1M(一百万)token 超长上下文,在 Agent 能力、世界知识与推理性能上均达到国内与开源领域领先水平。官网 chat.deepseek.com、App 与 API 已同步更新,API 通过 model_name=deepseek-v4-pro 或 deepseek-v4-flash 调用。 📌 V4-Pro:对齐顶级闭源模型 - Agent 能力大幅提升:Agentic Coding 评测达开源模型最佳,已成为 DeepSeek 公司内部员工使用的编程模型 - 编程实测:使用体验优于 Claude Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,与 Opus 4.6 思考模式仍有一定差距 - 世界知识:在开源模型中大幅领先,仅稍逊于顶尖闭源 Gemini-Pro-3.1 - 推理性能:数学、STEM、竞赛代码测评超越所有已公开评测的开源模型,比肩世界顶级闭源 📌 V4-Flash:经济高效的小弟 - 参数和激活更小,API 服务更快、更便宜 - 推理能力接近 V4-Pro,世界知识储备稍逊 - Agent 评测:简单任务与 V4-Pro 旗鼓相当,高难度任务仍有差距 ⚙️ 结构创新:全新注意力 + DSA DeepSeek-V4 开创全新的 token 维度压缩注意力机制,结合 DeepSeek Sparse Attention(DSA 稀疏注意力),实现全球领先的长上下文能力,相比传统方法大幅降低计算和显存需求。官方明确:1M 上下文从此成为 DeepSeek 所有官方服务的标配。 🛠 Agent 生态专项适配针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品做了适配优化,代码任务、文档生成、PPT 生成等场景均有提升。 📎 API 细节 - base_url 不变,model 改为 deepseek-v4-pro 或 deepseek-v4-flash - 同时支持 OpenAI ChatCompletions 与 Anthropic 接口 - 均支持思考/非思考模式,思考模式可通过 reasoning_effort 参数设置强度(high/max),复杂 Agent 场景建议使用 max - 旧模型名 deepseek-chat(对应 V4-Flash 非思考)与 deepseek-reasoner(对应 V4-Flash 思考)将于 2026-07-24 停用 🔙 背景 - 2025-12-01 DeepSeek 发布 V3.2 正式版与 V3.2-Speciale,首次引入 DSA 稀疏注意力与「思考融入工具调用」,Speciale 拿下 IMO/CMO/IOI/ICPC 2025 金牌,推理能力对齐 Gemini-3.0-Pro - 此后 DeepSeek 进入约 5 个月的大版本静默期,社区一度质疑团队「是否还在」;V4 的发布以百万上下文普惠 + 开源权重的方式正面回应 - V3.2 → V4 演进主线清晰:从 MoE+MLA → DSA 稀疏注意力 → token 维度压缩新注意力,长上下文效率持续压榨 ⚔️ 竞品对比 - vs Claude Opus 4.6:编程交付质量已接近 Opus 4.6 非思考模式,思考模式仍有差距 - vs Claude Sonnet 4.5:Agentic Coding 使用体验反超 - vs Gemini-Pro-3.1:世界知识稍逊,推理已比肩 - vs 国产阵营:紧接智谱 GLM-5.1(SWE-Bench Pro 全球第一)、千问 Qwen3.6-Plus(Terminal-Bench 超 Opus 4.5)、MiniMax M2.7、腾讯混元 Hy3 preview、小米 MiMo-V2.5 的密集发布节奏,国产开源模型在 2026 年 4 月形成集体冲顶态势 🏢 DeepSeek 近况 DeepSeek 自 R1 后长期以「低调迭代 + 开源开放」路线前行,V3.2 验证了 DSA 的工程可行性,V4 则进一步将其规模化推向百万上下文普惠。官方在后记中重申「长期主义」与 AGI 目标,不回应外界关于 R2 的猜测。 📎 资源链接 - 开源权重(HuggingFace):https://huggingface.co/collections/deepseek-ai/deepseek-v4 - 开源权重(ModelScope):https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4 - 技术报告 PDF:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf - API 思考模式文档:https://api-docs.deepseek.com/zh-cn/guides/thinking_mode #DeepSeek#DeepSeekV4#AI大模型#开源模型#AIAgent#长上下文#DSA#AgenticCoding

Hashtags

#deepseek #deepseekv4 #ai大模型 #开源模型 #aiagent #长上下文 #dsa #agenticcoding

Најди сличен содржај

Пронајдени 3 слични објави