港科大贾佳亚团队新突破:DreamOmni2开源,AI多模态创作迈入新阶段

   时间:2025-10-24 02:53 来源:快讯作者:钟景轩

当语言无法精准传递灵感时,AI能否跨越文字的局限,直接捕捉创作者心中的视觉想象?香港科技大学贾佳亚团队最新推出的DreamOmni2模型,通过突破性的多模态编辑技术,为这一难题提供了创新解决方案。该成果在GitHub上线两周即收获1600颗星,引发YouTube创作者群体热议,被视为AI图像生成领域的里程碑。

传统AI创作工具长期受困于指令依赖困境。当用户试图将照片中的背包替换为波西米亚风格图案时,复杂纹理的语义描述往往导致结果偏差;而模仿老照片的复古光影或画家笔触时,现有模型更因抽象属性处理能力不足而束手无策。DreamOmni2的突破性在于,其构建的FLUX Kontext基座模型通过多参考图像解析机制,首次实现了对具体物体与抽象概念的同步编辑。

实测数据显示,该模型在人物替换任务中展现出惊人精度。将赛博场景中的男性角色替换为女性形象时,生成的画面不仅完整保留了背景光影与文字细节,更通过面部光线迁移技术,使新角色自然融入原始环境。在风格迁移测试中,模型成功将像素艺术、二次元画风等视觉特征完整迁移,相较GPT-4o的色调复制和Nano Banana的简单变色,展现出对艺术风格的深度理解。

技术白皮书揭示,研究团队通过三阶段数据工程构建了新型训练范式。首先利用特征混合技术生成包含相同物体/属性的高质量图像对,解决数据稀缺难题;继而开发提取-编辑双模型架构,自动生成(源图+指令+参考图)→目标图的完整训练链;最终通过多参考图像生成机制,形成覆盖具体物体与抽象属性的综合数据集。这种创新方法使模型在基准测试中,抽象属性处理得分超越GPT-4o与Nano Banana。

模型架构创新同样引人注目。针对多图像输入的混淆问题,研究团队引入索引编码与位置偏移技术,使模型能精准区分不同参考图像。通过视觉语言模型(VLM)与生成模型的联合训练机制,系统可自动将用户模糊指令转化为结构化操作,显著提升真实场景下的指令理解能力。LoRA微调策略的运用,则在保持基座模型性能的同时,实现了多模态能力的无缝激活。

在四图组合生成测试中,DreamOmni2将三位不同角色的特征与第四张图的画风完美融合,生成画面中人物服饰细节、动物品种特征与艺术笔触均得到准确呈现。这种跨图像、跨模态的编辑能力,使设计师能直接通过视觉参考进行创作,而非依赖文字描述。YouTube教程作者评价该模型为"免费工作流中的性能王者",其多图编辑精度已达到专业创作工具水准。

 
 
更多>同类内容
全站最新
热门内容