TGTGInsighttelegram intelligenceLIVE / telegram public index
Post content
Post content
Meta 开源多模态LLM ImageBind,可跨 6 种不同的模态——图像、文本、音频、深度、热能和 IMU 数据 ImageBind 据说可以通过声音来直接生成图像。自动根据视频内容来生成文案和字幕,并匹配上合适的背景音乐。还有可能通过一首歌,直接为歌手生成一段视频 MV。 #AI#多模态 Github Blog-Holistic AI learning across six modalities