Kontenut tal-post
Нашел крутой collab: https://colab.research.google.com/github/betogaona7/Grounded-Segment-Anything/blob/main/grounded_sam_colab_demo.ipynb#scrollTo=Ct786WclTVdN Делаются такие шаги: 1. Zero-shot детекция объекта. С помощью Grounding DINO текст промпт превращается в bounding box. В примере собака сидит на лавке, промпт “лавка”, лавка выделяется. 2. Bounding box используется как промпт для SAM. Получается маска сегментации, покрывающая лавку, но не собаку. 3. Используется Stable Diffusion, промпт + маска, чтобы переделать лавку во что-то еще. Например, можно сделать вместо лавки диван. В итоге получаем собаку, сидяющую на диване. Очень круто, что можно использовать новые computer vision модели как блоки, которые ты просто соединяешь и получаешь решение очень нетривиальной задачи. Ловите бесплатную идею для стартапа: no-code визуальный редактор пайплайна, который позволяет буквально соединять CV модели как блоки.