用扩散变换器学习和传递视觉关系
在数字化视觉创作的前沿, 浙江大学和 新加坡国立大学的研究团队带来了一项令人瞩目的创新。由浙江大学的龚妍、李一程、李成林、张寅以及新加坡国立大学的宋怡仁共同完成的研究《RelationAdapter: 用扩散变换器学习和传递视觉关系》于2025年6月3日在arXiv预印本平台发布(arXiv:2506.02528v1),为视觉提示驱动的图像编辑开辟了新天地。这项研究的项目页面可通过https:// github.com/gy8888/RelationAdapter访问。
️一、为什么我们需要视觉关系学习?
想象一下,你看到一对"前后"照片:一张普通的肖像照和一张应用了卡通风格的同一人物照片。即使没有任何文字说明,你也能立刻理解这种转换,并在脑海中想象如何将这种卡通效果应用到其他照片上。这种通过观察示例来理解视觉变换的能力,正是人类智能的一个迷人特征。
而在人工智能领域,这种能力被称为"编辑转移"或"视觉语境学习"。与需要精确文字提示的传统图像编辑方法不同,基于图像对的编辑方式更加直观、高效。通过直接观察视觉变化,AI模型可以捕捉复杂的编辑效果,如风格转换、对象修改或光照调整,而无需繁琐的语言描述。
然而,目前的图像对编辑方法面临几个关键挑战:首先,如何从单一图像对中准确提取视觉变换信号,包括语义修改(如对象外观、风格)和结构变化(如空间布局、几何形状);其次,如何有效地将这些变换应用到新图像上,同时保持布局一致性和高视觉保真度;最后,如何在不需要重新训练的情况下实现对未见过的编辑任务的强泛化能力。
浙江大学和新加坡国立大学的研究团队提出了一个名为RelationAdapter的创新框架,旨在解决这些挑战。这个框架巧妙地将编辑意图的提取与图像生成过程解耦,实现更可解释、可控的视觉编辑。
️二、RelationAdapter:视觉关系的桥梁
想象RelationAdapter就像一位精通"视觉翻译"的专家,它能从一对"前后"图像中理解变化的精髓,然后将这种变化应用到全新的图像上。这个模块的核心设计理念是什么呢?
RelationAdapter是一个轻量级模块,构建在扩散变换器(DiT)架构上。它通过在每个DiT区块中嵌入一个新颖的注意力处理器,捕获视觉变换并将其注入隐藏状态。这大大增强了模型对图像对之间关系的推理能力,而无需修改DiT的核心结构。
传统的视觉提示集成方法(如FLUX.1 Redux)通常是直接将视觉特征附加到T5编码器的输出上,这会导致视觉特征嵌入通常比文本提示长得多,可能会削弱甚至抵消文本引导的效果。为解决这个问题,研究团队设计了一种解耦的注意力注入机制。
具体来说,RelationAdapter为视觉提示特征设计了一个单独的键-值(KV)注意力投影机制,关键的是,视觉提示的交叉注意力层与骨干DiT分支共享相同的查询Q:
``` ZV = Attention(Q, K′, V′) = Softmax(Q(K′)?/√d)V′ Q = cBWq, K′ = cVW′k, V′ = cVW′v ```
然后,将视觉注意力输出ZV(来自RelationAdapter)与原始DiT注意力输出ZB融合,再传递给输出投影模块:
``` Znew = ZB + α · ZV ```
其中α是一个可调节的标量系数,用于控制视觉提示注意力的影响。
这种设计就像给AI安装了一副特殊眼镜,一边镜片专注于理解原始图像内容,另一边镜片专注于捕捉变换关系,最后大脑将两种视觉信息融合,产生既保留原始结构又应用了目标变换的完美结果。
️三、语境编辑器:空间一致性的保证者
RelationAdapter解决了"理解变换"的问题,而语境编辑器(In-Context Editor)则解决了"应用变换"的挑战。它将图像编辑框架为条件生成任务,同时编码图像和文本描述,实现精确的、指令驱动的编辑。
传统的条件图像编辑模型往往在源图像和目标图像之间的像素级对齐方面存在困难,导致结构扭曲。为解决这个问题,研究团队提出了位置编码克隆(Position Encoding Cloning)策略,它显式地将潜在空间对应关系嵌入到生成过程中。
具体来说,团队强制源条件表示cS和噪声变量z之间的位置编码对齐,建立一致的像素级坐标映射。通过在关键组件之间共享位置编码,这种方法提供了强大的空间引导,减轻了鬼影和错位等伪影。这使DiT能够更有效地学习精细的对应关系,提高编辑保真度和理论一致性。
为了增强编辑能力和对多样化数据的适应性,团队构建了一个包含2,515,800个样本的上下文学习格式编辑数据集,并应用了LoRA(低秩适应)微调技术对DiT模块进行高效参数适应。具体而言,他们使用了高秩LoRA,冻结预训练权重W0,并在每个模型层中注入可训练的低秩矩阵A和B。
另一个关键创新是无噪声范式。现有的语境编辑器框架将源图像和目标图像的潜在表示连接作为逐步去噪过程的输入,但这往往会破坏源特征,导致细节丢失和像素保真度降低。为解决这个问题,团队提出了一个无噪声范式,在所有去噪阶段保留源图像Isrc的特征cS的干净状态。通过维持这些特征的干净状态,为生成目标图像Itar提供了稳定和准确的参考。
️四、Relation252K数据集:多样化编辑任务的沙盒
为了评估模型在视觉提示驱动场景中的泛化能力和适应性,研究团队构建了一个大规模数据集,涵盖218种多样化的编辑任务。这个名为Relation252K的数据集包含33,274张图像和251,580个通过图像对排列生成的编辑样本。
这些任务根据功能特性分为四个主要组:低层次图像处理(如深度估计、表面法线生成、云彩移除)、图像风格迁移(如折纸效果、梵高风格、木刻效果)、图像编辑(如闭眼、添加物体、抬手)和定制生成(如乐高形式、气球变形、3D相框)。
为了构建高质量数据集,团队引入了一个半自动化管道。定制脚本与Discord机器人接口,向MidJourney发送/imagine命令生成高保真图像。团队还利用GPT-4o多模态API从原始输入和编辑生成上下文感知图像。对于低层次任务,他们额外策划了一个知名基准数据集的子集,通过手动收集确保经典图像处理场景的覆盖。
为了提高注释效率和可扩展性,团队利用GPT-4o的多模态能力自动生成图像说明和编辑指令。具体而言,他们将源图像和对应的编辑图像作为联合输入提供给GPT-4o API,结构化提示引导模型生成三个输出:源图像的简明描述、目标图像的简明描述、以及描述从源到目标转换的人类可读编辑指令。
为符合模型的输入规范,图像对通过旋转排列进行采样和排列,每个任务最多选择2,000个实例以确保分布平衡。在每个样本中,上半部分用作RelationAdapter的视觉上下文,下半部分输入到语境编辑器模块。定向编辑指令(源→目标)仅作为文本提示提供,没有详细的内容描述。
️五、实验设置与评估方法
研究团队在训练中使用DiT架构内的FLUX.1-dev初始化模型。为减少计算开销同时保留预训练模型的泛化能力,他们使用秩为128的LoRA微调语境编辑器。训练跨越100,000次迭代,在4台H20 GPU上进行,累积批量大小为4。他们使用AdamW优化器和bfloat16混合精度训练,初始学习率为1×10-4。可训练参数总数为15.6976亿。训练耗时48小时,消耗约74GB的GPU内存。在推理时,模型在单个H20 GPU上需要约40GB的GPU内存。
RelationAdapter采用双分支SigLIP视觉编码器,每个分支独立处理输入对中的一张图像,并通过两层线性投影网络输出128维特征标记。注意力融合系数α固定为1。为平衡计算效率,输入图像在编码前调整大小,使其面积对应最大长边512像素。
在基准测试方面,团队选择了数据集的2.6%(6,540个样本)作为基准子集,涵盖218种多样化任务。其中,6,240个样本对应训练期间见过的任务,而300个代表未见过的任务,用于评估模型的泛化能力。
为评估方法性能,团队将其与两个基准进行比较:Edit Transfer和VisualCloze。这两个基准都遵循上下文学习设置,并在共享训练任务空间中评估,使用官方实现和推荐超参数确保可重现性。
评估使用四个关键指标:均方误差(MSE)、基于CLIP的图像到图像相似度(CLIP-I)、编辑一致性(GPT-C)和编辑准确性(GPT-A)。MSE量化生成图像与真实图像之间的像素级差异,而CLIP-I捕获通过测量生成图像与真实图像之间的CLIP距离的高级语义相似度。为从人类中心角度进一步评估编辑质量,团队利用GPT-4o解释从提示图像到参考图像的预期转换,并基于两个维度评估预测:编辑一致性(GPT-C),衡量与源图像的一致性,以及编辑准确性(GPT-A),评估生成图像如何忠实反映预期编辑。
️六、实验结果与分析
定量评估结果显示,RelationAdapter在MSE和CLIP-I指标上始终优于基准方法。与Edit Transfer相比,该模型实现了显著较低的MSE(0.020对0.043)和更高的CLIP-I得分(0.905对0.827),表明与真实情况相比具有更好的像素级准确性和语义一致性。同样,与VisualCloze相比,该方法取得了显著改进,将MSE从0.049降低到0.025,CLIP-I从0.802提高到0.894。这些结果表明RelationAdapter在产生视觉准确和语义上有意义的图像编辑方面的有效性。此外,该方法在GPT-C和GPT-A指标上也始终优于两个最先进的基准。
在定性评估中,RelationAdapter在已见和未见任务上都展示了强大的编辑一致性和准确性。值得注意的是,在添加眼镜给人物的未见任务中,该方法甚至优于专门针对此任务训练的Edit Transfer。相比之下,Edit Transfer在低层次颜色控制方面表现出不稳定性(例如,服装颜色降级)。与VisualCloze相比,RelationAdapter受参考图像Iref的影响较小,特别是在深度预测和服装试穿等任务中。VisualCloze往往过度依赖Iref,降低了迁移准确性,而RelationAdapter更可靠地提取关键编辑特征,实现稳定迁移。在未见任务上,VisualCloze通常显示不一致的编辑,如前景或背景变化,而RelationAdapter更好地保留了结构一致性。这可能是由于VisualCloze的双向注意力导致特征溢出。虽然RelationAdapter在风格迁移中保留了一些原始颜色,但总体上产生了更连贯的编辑,表明有空间进一步提高泛化能力。
为评估RelationAdapter模块的有效性,研究团队进行了消融研究,将视觉提示特征直接与条件标记cS连接。为公平比较,这个基线训练了10万步,与RelationAdapter相同。结果表明,RelationAdapter在已见和未见任务的所有四个评估指标上始终优于上下文学习基线。这种改进归功于RelationAdapter,它通过解耦视觉特征和减少冗余来增强性能。
虽然潜在空间连接(即在VAE编码前直接合并四个输入图像)是有效的,但它会导致高GPU内存使用。这一限制限制了生成图像的分辨率,在推理过程中损害了精细细节。相比之下,轻量级的RelationAdapter提供了更高效的替代方案,使模型能够以最小的计算成本捕获和应用编辑指令的语义意图。
团队还对RelationAdapter在四个分类任务上的表现进行了评估,这些任务复杂性各异。结果表明,它在风格迁移和定制生成等复杂任务中表现出色,显示出强大的语义对齐和文本-图像一致性。在编辑任务中,它很好地平衡了重建和语义。虽然GPT分数在低层次任务中略有下降,但进一步的低层次评估和用户研究提供了更全面的评估。
️七、局限性与未来展望
尽管RelationAdapter在各种编辑任务上表现出色,但它有时无法准确渲染生成图像中的文本细节。这是当前扩散模型的常见问题。此外,模型在罕见或之前未见过的任务上可能表现略有不同,表明它对任务特定细微差别敏感。
总的来说,这项研究提出了RelationAdapter,一个基于DiT的新型视觉提示编辑框架,在效率和精度之间取得了前所未有的平衡。团队通过重新审视现有上下文学习方法的局限性,引入了用于重新注入视觉提示特征的解耦策略。利用DiT固有的编辑能力,该方法增强了模型在转换学习场景中的稳定性和生成质量。为支持这种方法,团队构建了一个包含218个视觉提示编辑任务的大规模数据集。他们进一步引入了两种训练范式——位置编码克隆和无噪声条件方案,显著提高了模型的编辑能力。广泛的实验验证了该方法的有效性,并展示了其在多样化编辑场景中的卓越性能。
这个高效且准确的框架为视觉提示图像编辑提供了新的见解,为未来研究奠定了基础。随着技术的进一步发展,我们可以期待更强大、更通用的视觉编辑模型,能够处理更复杂的编辑任务,并在更广泛的应用场景中提供更高质量的结果。