@kejiqu · Post #4067 · 15.01.2026 г., 01:33
苹果发表 Manzano:近乎无损融合“看图”与“绘图”的多模态 AI 模型 苹果公司发布研究论文,详细介绍了其多模态模型“Manzano”,该模型集视觉理解与文本生成图像功能于一体。Manzano采用创新三段式架构,通过“混合视觉分词器”处理连续和离散视觉表示,利用大语言模型预测图像语义,并由“扩散解码器”进行像素级渲染。该模型在处理复杂指令时表现出色,逻辑准确性与OpenAI的GPT-4o和谷歌的Nano Banana模型相媲美。研究团队测试了3亿至300亿参数版本,证实了其可扩展性。目前Manzano仍处于研究阶段,但预计未来可能整合至“图乐园 Image Playground”等功能中,提升苹果在端侧AI领域的竞争力。IT之家 🏷#Manzano#多模态模型#图像生成 📢频道👥群组📝投稿