小红书与复旦联手推出InstanceAssemble:AI绘画精准构图新突破

   时间:2025-12-26 19:36 来源:天脉网作者:沈瑾瑜

AI绘画领域迎来重要突破——小红书与复旦大学联合研发的InstanceAssemble技术,成功攻克布局控制生成难题,推动AI绘画进入精准构图时代。这项创新成果已被国际顶级学术会议NeurIPS 2025收录,标志着中国科研团队在生成式AI领域取得关键进展。

传统AI绘画主要依赖"文字生成图像"(Text-to-Image)技术,用户通过文本描述生成对应画面。而新一代"布局控制生成"(Layout-to-Image)技术则更进一步,允许用户通过边界框、分割掩码或骨架图等空间约束条件,精确控制图像中每个元素的位置与内容。这种技术突破为商业设计、游戏开发等领域带来革命性变革,但始终面临布局错位、语义断层和计算成本过高等挑战。

研究团队提出的"实例组装注意力"机制,通过解耦物体位置与语义特征,实现了像素级精准控制。该技术基于扩散变换器架构,用户仅需提供物体边界框坐标和内容描述,系统即可在指定位置生成符合语义的图像元素。实验数据显示,在包含90万个实例的密集布局数据集上,新技术在布局对齐精度和语义一致性方面均显著优于现有方案。

技术落地性是该研究的另一大亮点。研究团队采用轻量化适配策略,仅需调整约7100万个参数(相当于原模型3.46%的额外计算量),即可将技术无缝集成到Stable Diffusion3-Medium模型。针对Flux.1模型的适配方案更将参数需求压缩至0.84%,大幅降低企业应用门槛。这种"即插即用"的设计理念,为AI绘画技术的商业化推广开辟了新路径。

为建立科学的评估体系,团队同步构建了包含5000张图像和9万个实例的"Denselayout"基准测试集,并设计出全新的"Layout Grounding Score"(LGS)评估指标。该指标通过量化布局与生成图像的匹配程度,为行业提供了客观的技术对比标准。实验证明,即使在训练阶段仅接触稀疏布局(≤10个实例)的情况下,系统在密集场景(≥10个实例)中仍能保持稳定性能,展现出强大的泛化能力。

这项突破性成果不仅解决了AI绘画领域的核心痛点,更为多模态大模型的发展提供了新思路。随着技术持续优化,未来在虚拟场景构建、个性化内容生成等领域将展现更广阔的应用前景。研究团队表示,将持续完善技术细节,推动AI绘画从"可用"向"好用"迈进。

 
 
更多>同类内容
全站最新
热门内容