Post #1076

@f20230501

经济新闻

Views52Post view count

PostedJan 2801/28/2025, 07:25 AM

Post content

国君电子｜海外】Deepseek 点评从结果看，这次是用更少的卡和参数训练出一个Tier 1 级别的大模型，这对 AI 的叙事和投资逻辑是颠覆性的，所以引发大家对于算力总量及持续性的担忧，短期下跌是每次有重大的有争议事件的黑天鹅时，华尔街几乎都是先卖为敬，所以短期情绪影响估值，风险仍然是在的，同时最近还有日元加息，FOMC 以及财报季，不确定性事件一个接一个，如果后续的几件事有暴雷的出现，短期或许不排除类似去年7 月下半年的历史再次出现；如果AI 算力下跌，我认为是不构成长期利空，是可以抄底的：因为技术上 Deepseek 用的是已有技术，但是是新的路径，纯粹的 Outcome Reward RL，直接用问题答案作为参考，让候选答案自动评分，结果是单次训练成本下降了，但行业并不会停止脚步，真实逻辑应该是用新的方法再一次榨干算力，来汲取更大收益，反而是 scaling law 的进一次提升；同时，Deepseek 也表示仍然需要最好的算力，有算力或许更能增加训练速度和迭代速度，只是算力封禁下被逼出来了新的路径，最近中国银行也公布了 1 万亿的 AI 投资计划书，同时也有 Stargate 和 Meta Capex，相信硬件公司实实在在的订单和供应链上/下修或许更比叙事站得住脚，就好比 llya 在去年 11 月说的 scaling law 撞墙影响叙事，但无法证伪下最终没有定价股票那么利空的，我认为是模型公司，最直接的逻辑就是不分伯仲的模型，但是比 OAI便宜 20 倍，类似的对于Tier 1 的模型公司都受损；也利空闭源，如果开源接近闭源，那完全可以选择开源不选闭源；这次事件，也意味着价值链条更转移到了应用层。不可否认的是，我们现在是没有爆款应用的，Co-pilot 不是，GPT 也不是，那么如果算力降本，那么意味着软件公司推广它们的产品更容易了，比如CRM 的产品原来每次 query 2 美金，但是假如每次 query 只用 0.2 美金，那可想而知需求会膨胀，或许离那个奇点时刻更近了；除此之外的细节： 1. DP V3 的配置是671B 参数，14.8T Token 训练，2000 张卡，557 万的训练成本，12 月就发布了，只是最近开始发酵； 2. DP 火是因为 V2 在 24 年 5 月的时候就开始价格屠夫，推理成本每百万 token 仅一块钱，价格是 Llama 3 70B 的 1/7，API 的价格也远低于 OAI及其他，便宜 95%，这就如何 NV 的 GPU 和 ASIC 的差别，和顶级模型不一定一样好，但性价比拉满，所以开启了国内模型的降价潮，问题是它还是有利润的；对于使用，有三个好处：数据新，反应快，理解能力 OK，坏处是不支持多模态，有时候还是会有差错，应该是到不了 GPT-5 的进度的； 4. 技术层面，它是用了三种方式: 压缩（MLA 架构，区别于传统的 transformer 架构，是需要储存完整的 key 和 value，它的核心思路是进行一个压缩，压缩成一个较小的潜在向量，等到推理时，这个向量再产生对应的 key 和 value，这种设计只需要存储压缩后的潜在向量，所以大幅降低了GPU 的消耗量；另一个是使用 FP8 混合精度的数据，减少 GPU 内存的占用空间），并行（DualPipe，在等待数据传输的时候，就去处理另外一批已经输进来的数据，这样降低空闲）和提升硬件使用率（MoE 架构，允许系统根据不同任务灵活调动适当的资源；具体来说，DeepSeek V3虽然总共拥有671B个参数，但在处理任何特定问题时，只会启动其中的37B个参数。这种设计大幅提升了运算效率，同时也降低了资源消耗；多Token预测机制：不同于传统AI模型一次只能预测下一个字，DeepSeek V3能够一次预测多个字）；技术都是之前的技术，只是更极致，比如MLA 是既有技术，蒸馏数据也是 OAI 的方式；