Содржина на објавата
От первого лица к третьему лицу UFM (Unified Flow-Matching) умеет искажать изображение так, что кажется, будто вы видите сцену с другого ракурса. Это без 3D, с помощью потока и соответствий. Эта модель решает сразу две задачи: определяет оптический поток (где и как двигаются пиксели между кадрами) и находит соответствия между разными изображениями (даже если они сняты с разных углов или сильно отличаются по масштабу) Раньше эти задачи решались посложнее, с кучей стадий. Эта модель: – на задачах оптического потока точнее на 28% по сравнению с предыдущими SOTA – на задачах сопоставления ошибок меньше на 62%, и при этом работает почти в 7 раз быстрее. Внутри UFM сначала использует DINOv2, чтобы закодировать изображения, а потом трансформер сразу выдает поток и маску видимости. Без всяких сложных пайплайнов работает быстро и обучается проще. Можно потестить, есть демо на HF и код.