Post #998

@LinghaoCh

Parallel Experiments

Views655Post view count

PostedFeb 2502/25/2026, 09:28 AM

Post content

https://si.inc/posts/fdm1/ 这个新的 computer use model 有点厉害，号称解决了两个难点： 1. 高质量的有监督视频数据是稀缺的，scale 上不去。解决方案：先用少量有监督数据训练一个 inverse dynamics model（根据视频帧数据预测键鼠输入是什么），再用它去标注了 1100 万个小时的视频数据。 2. video encoder 效率不高，vlm 经常耗费大量 token 只能处理几秒钟的 30 fps 视频输入。解决方案：注意到为 computer use model 所做的视频标注本就是 non causal 的（你得看到视频上打出字来才能知道键盘按了什么），于是基于 masked diffusion 架构去训练 video encoder，最终效率达到了惊人的 1 million token 可以编码 2 小时 30 fps 的视频。解决这两点使得最终模型的训练得以 scale 到一个前所未有的程度。