TGTGInsighttelegram intelligenceLIVE / telegram public index
Post content
Post content
https://si.inc/posts/fdm1/ 这个新的 computer use model 有点厉害,号称解决了两个难点: 1. 高质量的有监督视频数据是稀缺的,scale 上不去。 解决方案:先用少量有监督数据训练一个 inverse dynamics model(根据视频帧数据预测键鼠输入是什么),再用它去标注了 1100 万个小时的视频数据。 2. video encoder 效率不高,vlm 经常耗费大量 token 只能处理几秒钟的 30 fps 视频输入。 解决方案:注意到为 computer use model 所做的视频标注本就是 non causal 的(你得看到视频上打出字来才能知道键盘按了什么),于是基于 masked diffusion 架构去训练 video encoder,最终效率达到了惊人的 1 million token 可以编码 2 小时 30 fps 的视频。 解决这两点使得最终模型的训练得以 scale 到一个前所未有的程度。