Post content
国君电子|海外】Deepseek 点评 从结果看,这次是用更少的卡和参数训练出一个Tier 1 级别的大模型,这对 AI 的叙事和投资逻辑是颠覆性的,所以引发大家对于算力总量及持续性的担忧,短期下跌是每次有重大的有争议事件的黑天鹅时,华尔街几乎都是先卖为敬,所以短期情绪影响估值,风险仍然是在的,同时最近还有日元加息,FOMC 以及财报季,不确定性事件一个接一个,如果后续的几件事有暴雷的出现,短期或许不排除类似去年7 月下半年的历史再次出现; 如果AI 算力下跌,我认为是不构成长期利空,是可以抄底的:因为技术上 Deepseek 用的是已有技术,但是是新的路径,纯粹的 Outcome Reward RL,直接用问题答案作为参考,让候选答案自动评分,结果是单次训练成本下降了,但行业并不会停止脚步,真实逻辑应该是用新的方法再一次榨干算力,来汲取更大收益,反而是 scaling law 的进一次提升; 同时,Deepseek 也表示仍然需要最好的算力,有算力或许更能增加训练速度和迭代速度,只是算力封禁下被逼出来了新的路径,最近中国银行也公布了 1 万亿的 AI 投资计划书,同时也有 Stargate 和 Meta Capex,相信硬件公司实实在在的订单和供应链上/下修或许更比叙事站得住脚,就好比 llya 在去年 11 月说的 scaling law 撞墙影响叙事,但无法证伪下最终没有定价股票 那么利空的,我认为是模型公司,最直接的逻辑就是不分伯仲的模型,但是比 OAI便宜 20 倍,类似的对于Tier 1 的模型公司都受损;也利空闭源,如果开源接近闭源,那完全可以选择开源不选闭源; 这次事件,也意味着价值链条更转移到了应用层。不可否认的是,我们现在是没有爆款应用的,Co-pilot 不是,GPT 也不是,那么如果算力降本,那么意味着软件公司推广它们的产品更容易了,比如CRM 的产品原来每次 query 2 美金,但是假如每次 query 只用 0.2 美金,那可想而知需求会膨胀,或许离那个奇点时刻更近了; 除此之外的细节: 1. DP V3 的配置是671B 参数,14.8T Token 训练,2000 张卡,557 万的训练成本,12 月就发布了,只是最近开始发酵; 2. DP 火是因为 V2 在 24 年 5 月的时候就开始价格屠夫,推理成本每百万 token 仅一块钱,价格是 Llama 3 70B 的 1/7,API 的价格也远低于 OAI及其他,便宜 95%,这就如何 NV 的 GPU 和 ASIC 的差别,和顶级模型不一定一样好,但性价比拉满,所以开启了国内模型的降价潮,问题是它还是有利润的; 对于使用,有三个好处:数据新,反应快,理解能力 OK,坏处是不支持多模态,有时候还是会有差错,应该是到不了 GPT-5 的进度的; 4. 技术层面,它是用了三种方式: 压缩(MLA 架构,区别于传统的 transformer 架构,是需要储存完整的 key 和 value,它的核心思路是进行一个压缩,压缩成一个较小的潜在向量,等到推理时,这个向量再产生对应的 key 和 value,这种设计只需要存储压缩后的潜在向量,所以大幅降低了GPU 的消耗量;另一个是使用 FP8 混合精度的数据,减少 GPU 内存的占用空间),并行(DualPipe,在等待数据传输的时候,就去处理另外一批已经输进来的数据,这样降低空闲)和提升硬件使用率(MoE 架构,允许系统根据不同任务灵活调动适当的资源;具体来说,DeepSeek V3虽然总共拥有671B个参数,但在处理任何特定问题时,只会启动其中的37B个参数。这种设计大幅提升了运算效率,同时也降低了资源消耗;多Token预测机制:不同于传统AI模型一次只能预测下一个字,DeepSeek V3能够一次预测多个字);技术都是之前的技术,只是更极致,比如MLA 是既有技术,蒸馏数据也是 OAI 的方式;