扩散模型新突破!无需微调,就能高效稳定移除目标物体

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文的共同第一作者为浙江工商大学统计与数学学院硕士生孙文灏和阿里巴巴算法工程师崔奔雷,本文的通讯作者为浙江工商大学统计与数学学院董雪梅教授。

最近,扩散模型在生成模型领域异军突起,凭借其独特的生成机制在图像生成方面大放异彩,尤其在处理高维复杂数据时优势明显。然而,尽管扩散模型在图像生成任务中表现优异,但在图像目标移除任务中仍然面临诸多挑战。现有方法在移除前景目标后,可能会留下残影或伪影,难以实现与背景的自然融合。

为了解决这些问题,本文提出了一种基于扩散模型且无需微调的方法 ——Attentive Eraser,以增强预训练扩散模型目标移除的能力,从而实现稳定有效的目标移除。实验结果表明,该方法在多种预训练扩散模型中均表现出优异的目标移除能力,甚至优于基于训练的方法,且无需微调,具有很强的可扩展性。

该研究论文已被人工智能顶会 AAAI 2025 录用并选为 Oral Presentation。

论文标题:Attentive Eraser: Unleashing Diffusion Model s Object Removal Potential via Self-Attention Redirection Guidance

论文链接:pdf/2412.12974

Github 地址:Anonym0u3/AttentiveEraser

Diffusers Pipeline:huggingface/diffusers/tree/main/examples/community#stable-diffusion-xl-attentive-eraser-pipeline

Model Scope Demo:studios/Anonymou3/AttentiveEraser

Hugging Face Demo:spaces/nuwandaa/AttentiveEraser

问题背景

目前,扩散模型的广泛应用使得生成与真实照片质量相媲美的高质量图像成为可能,并能够根据用户的需求提供逼真的视觉呈现。这引发了一个自然的问题:这些模型的图像生成能力是否可以被用于从图像中移除特定目标。这个被称为 “目标移除” 的任务是图像重绘(Image Inpainting)的一种特殊形式,并需要解决两个关键问题。首先,用户指定的目标必须能够被成功且有效地从图像中移除。其次,被移除的区域需要填充内容,这些内容必须真实、合理,并与图像整体保持一致性以确保视觉上的连贯性。

近年来扩散模型中最具代表性的开源预训练模型是 Stable Diffusion(SD),其作为一种隐变量扩散模型在多种图像生成任务中表现优异。然而,直接将其应用在重绘 pipeline 上进行目标移除时效果却不尽人意,往往会出现伪影导致目标移除不成功,如图 1(SD w/o SARG)所示:

为了将 SD 应用于目标移除任务,SD-inpainting 通过在模型中引入掩码作为附加条件并进行微调,构建成了一个端到端的图像重绘模型。然而,即使付出了大量资源成本,SD-inpainting 在目标移除任务中的性能依然不够稳定,经常无法完全移除目标,还是会生成随机伪影。除了基于模型微调的方法外,还有一种通过提示工程(prompt engineering)引导扩散模型完成目标移除的技术。尽管这类方法在某些场景下可以取得令人满意的结果,但其显著缺点在于,需要投入大量精力进行提示构建,同时难以与前景目标区域实现精确交互。此外,这类方法同样需要耗费大量资源进行模型微调,进一步限制了其实用性。

为了解决上述问题,本文提出了一种基于扩散模型且无需微调的目标移除方法,具体贡献如下:

(1)本文提出了一种无需微调的方法 ——Attentive Eraser,旨在激发预训练扩散模型的目标移除潜能。该方法由两个关键组成部分构成:1)注意力激活和抑制(Attention Activation and Suppression,AAS),这是一种专门设计用于修改预训练扩散模型中自注意力机制的方法,可在生成图像时增强模型对背景的注意力,同时降低对前景目标物体的注意力。同时针对生成过程中自注意力本身带来的对相似物体的高依赖性问题,本文提出了相似性抑制(Similarity Suppression,SS),有效地解决了该问题。2)自注意力重定向引导(Self-Attention Redirection Guidance,SARG),这是一种新颖的逆向扩散采样过程引导方法,利用所提出的 AAS 将采样过程引导到目标移除的方向,进一步提升了目标移除的效果。

(2)通过一系列实验和用户偏好研究,本文验证了所提出方法的有效性、鲁棒性和可扩展性。实验结果表明,本文的方法在目标移除的质量和稳定性方面均超越了现有的最先进方法。

AttentiveEraser 核心创新

本文提出的 Attentive Eraser 免微调目标移除方法的总体框架图如图 2 所示,其中有两个主要部分:(a)AAS,这是一种专为目标移除任务设计的自注意力机制修改操作,针对目标移除任务中固有的挑战,AAS 通过对自注意力机制进行精细调整,使得模型在生成前景目标区域时能够更加关注背景内容,而非前景目标,进而在生成结果图中消除目标的外观信息。此外,SS 可抑制由于自注意力的固有特性而可能导致的对相似物体的过度关注;(b)SARG,这是一种应用于逆向扩散采样过程的引导方法,它利用通过 AAS 重定向的自注意力来引导采样过程指向目标移除的方向。在这种引导下,扩散模型能够更好地消除掩码区域内的前景目标,并生成与背景自然融洽的图像内容。

创新一:注意力抑制与激活(AAS)

动机分析

图 3 中,在输入图像经过 DDIM inversion 后,利用主成分分析和聚类技术,对逆向扩散去噪过程中去噪网络的不同层在所有时间步上的平均自注意力图进行了可视化。通过这些可视化结果,可以观察到自注意力图显示出类似于图像各个组成部分的语义布局。这种布局清晰地展示了前景物体和背景在生成过程中所对应的自注意力的显著差异,表明它们在模型中的处理方式存在明确的区分。这种语义布局为目标移除任务提供了重要的启示,为了在生成过程中有效地去除前景目标,一个直观的方法是在生成过程中将前景物体的自注意力逐渐 “融合” 到背景中,使其与背景区域的注意力更加趋同。换句话说,在生成过程中与前景目标相关的区域应更关注背景区域,同时减少对自身的关注。前景目标的自注意力逐渐向背景转移有助于消除前景物体,使其自然地消隐于背景之中。此外,考虑到目标移除任务的特殊性,前景目标是处理的核心,背景区域应在生成过程中保持固定不变,且不受前景区域变化的影响。因此,为了实现更自然的生成效果,背景区域对前景区域的关注度也应适当地降低,从而避免生成过程中背景被不必要地干扰。这一策略确保了生成结果与背景的自然融合,使生成图像显得更加和谐、真实。

专为目标移除设计的自注意力机制修改方法

结合上述分析,本文提出了一种针对目标移除任务设计的简单而有效的方法 ——AAS,如图 2(a)所示,AAS 方法的核心在于通过调整自注意力机制,灵活控制前景目标区域与背景区域之间的关系,从而实现更为自然的目标移除效果。

注意力激活的目的是通过增加前景目标区域生成内容对背景区域的注意力,即增加

,从而确保前景目标被移除后,生成的内容能够与背景自然融合。这一过程的关键在于增强前景区域生成内容对背景的关注度,使得前景区域在生成过程中更多地参考背景的特征信息,进而生成与背景风格一致的图像内容。这种增强能够有效地避免前景移除后出现与背景不协调的情况,确保生成图像的整体连贯性和视觉一致性。

与此相反,注意力抑制是指抑制前景目标区域关于其外观及其对背景影响的信息,即减少

的作用在于减少背景区域对前景区域的依赖,避免背景区域在前景移除过程中受到不必要的影响。

的目的是抑制前景区域对自身外观信息的关注,逐步抹除前景目标的原始语义信息。这意味着在逆向扩散去噪过程中,前景目标的特征信息将被逐步削弱直至完全消失而背景区域的生成过程则保持不变,以确保背景的完整性。此外,降低

,达到抹除前景目标的效果。降低

相似性抑制

尽管上述理论在目标移除任务中展现了显著的效果,但其仍存在一个重要的局限性。具体而言,当背景中包含与前景目标相似的内容时,由于自注意力机制的固有特性,在生成过程中这些相似部分的注意力可能会高于其他区域。这种情况会导致扩散模型在去除前景目标时,误将背景中相似的部分保留,从而无法彻底去除目标(见图 2(a)右侧的一个例子)。这一问题的存在表明,单纯依靠上述理论可能不足以应对复杂场景中具有相似特征的前景和背景目标的区分与处理。

因此,为了减少对相似目标的关注并将其分散到其他区域,本文提出了一种较为直接且有效的扩展策略引入到 AAS 中来解决上述问题:通过简单地引入一个小于 1 的相似性抑制系数来降低相似性矩阵

方差可以在一定程度上削弱生成过程过度关注高相似度区域的倾向,同时增加对背景其他区域的注意力,由此来抑制生成过程中可能出现的相似物体,从而减少目标去除不彻底的情况。

方差。本文将该方法称为相似性抑制(SS)。基于 SoftMax 函数的权重计算机制,减少

创新二:自注意力重定向引导(SARG)

为了进一步提高目标去除能力以及生成图像的整体质量,本文受 Ahn 等人提出的 PAG(PAG:Ahn D, Cho H, Min J, et al. Self-rectifying diffusion sampling with perturbed-attention guidance [C]. European Conference on Computer Vision. Springer, Cham, 2025: 1-17.)启发,将经过 AAS 处理后的去噪网络

预测过程中的一种扰动形式,通过这种扰动来引导采样过程朝向理想方向。因此,修正后的扩散模型的预测噪声可以定义如下:

看作是噪声

这种引导过程的优势在于,通过调整自注意力机制,SARG 能够在生成过程中不断优化生成策略,使模型更加灵活地适应不同场景下的目标移除需求。同时,通过优化生成过程的各个时间步,SARG 还提高了最终生成图像的质量,通过合理地控制生成过程中的注意力分配,SARG 确保了最终生成图像与背景之间的自然融合,减少了它们之间的突兀感,从而提高了图像的视觉一致性和自然度,确保了高质量的目标移除效果。

实验亮点:AttentiveEraser 的稳定目标擦除能力及高拓展性

对比实验的定量和定性结果

表 1 对比实验定量结果表

从定量分析的结果来看,尽管在全局质量指标 FID 和 LPIPS 上,本文的方法表现处于平均水平,但这两个指标并不能充分反映目标去除的效果。进一步分析 Local-FID 指标,该指标评估生成区域的视觉质量与背景的真实分布的吻合程度,可以看到我们的方法在局部移除方面展现出色的表现,显著优于其他方法,说明在局部区域细节上我们方法生成的内容与真实图像分布更接近。同时,CLIP consensus 指标通过计算多次生成结果的标准偏差,揭示了方法在不同随机种子下生成结果的一致性。从结果可以明显看到其他基于扩散模型的方法的标准偏差较大,说明了它们应用在目标移除任务时的不稳定性,而我们的结果展现了显著更低的标准偏差,说明我们方法的稳定性显著优于对比方法,更倾向于生成一致性高的图像。而 CLIP Score 指标直接反映目标是否被有效去除且背景是否被合理重建,实验结果表明我们的方法能够高效地去除目标,并在重绘前景区域时与背景高度一致。在 CLIP Score 指标上,我们的方法与当前领先的基于快速傅立叶卷积的重绘模型 LAMA 达到了相当的竞争水平,并在特定场景中表现出更强的背景适配能力。

对比实验的定性结果如图 4 所示,其中输入图像中的掩码以红色高亮显示,本文的方法以粗体标出。从图中可以观察到本文的方法与其他方法之间的显著差异。LAMA 由于缺乏生成能力,虽然能成功去除目标,但生成的内容显得模糊且不清晰。相比之下,其他基于扩散模型的方法都存在一个普遍的问题,即目标移除的不稳定性,这种不稳定性往往导致随机伪影的出现,无法生成与背景连贯一致的内容。为了进一步证实这一问题,本文进行了目标移除稳定性实验,结果如图 5 所示。图中展示了每种方法在使用三种不同随机种子下的目标移除结果。可以清楚地看到,本文的方法在各个版本的 SD 模型中都能实现稳定的目标移除,生成的内容一致且连贯。而其他方法则难以保持这种稳定性,目标移除效果因随机性而产生较大的波动,难以实现与背景一致的生成效果。

用户偏好研究和 GPT-4o 评估

表 2 用户偏好研究和 GPT-4o 评估结果表

由于缺乏针对目标移除任务的有效指标,上述指标可能不足以证明本文方法的优越性。因此,本文进一步进行了用户偏好研究(User Study)以验证本文方法的实际效果。表 2 列出了用户对各种方法的偏好百分比,结果表明本文的方法比其他方法更受用户青睐。这一发现与对比试验的结果一致,进一步验证了本文方法在目标移除任务中的有效性和优越性,突出表明该方法在实际应用中的表现优于其他现有方法。

此外为了进一步表明本文提出方法的优越性,我们还利用 GPT-4o 对本文的方法和用户偏好研究中排名第二方法 LAMA 之间的目标移除性能进行了进一步评估。在该对比实验中,我们要求 GPT-4o 根据设计好的公平合理的文本提示选择目标移除效果最佳的图像。具体的文本提示如下:“你是一个生成图像评估专家。现有两张图和对应的掩码,请从以下方面进行评估:1. 生成图像是否有效移除了掩码内目标且在掩码区域内生成和背景一致的内容,2. 掩码内目标的生成内容的真实感。根据以上标准,请告诉我哪张图片更好。” 最终,计算了本文的方法和 LAMA 被选择的频率,以此衡量各自的目标移除性能。评估结果在表 2 中,结果也表明本文的方法明显优于 LAMA,表现出卓越的性能。通过这些实验,本文的方法不仅在生成图像的整体质量上优于 LAMA,还在目标移除的准确性和生成内容的真实感方面展现了显著的优势。

鲁棒性和可拓展性分析

由于 Attentive Eraser 是一个基于掩码的方法,因此我们在实验中进一步证明了其对输入掩码的鲁棒性,并展示了其在其他预训练扩散模型上的可拓展性。

如图 6 所示,我们通过三种不同精细度的掩码类型来评估该方法的鲁棒性,按从细致到粗糙可以将掩码分为:实例分割掩码、分割边界框掩码和手绘掩码。可以看出,即使使用较为粗糙的手绘掩码,我们的方法依然能够有效去除目标并生成合理的前景内容。这表明,Attentive Eraser 的性能并不依赖于掩码的精细程度,具有极高的鲁棒性。同时,这种鲁棒性也为用户提供了更多的灵活性和便捷性,无论是使用精细的自动生成的分割掩码,还是手工绘制的粗略掩码,用户都能够获得理想的目标移除效果。

此外,如图 7 所示,我们的方法不仅适用于生成自然图像的预训练扩散模型(例如 SD1.5、SD2.1 等),还可以扩展到生成动漫图像的模型,如 Civital 平台上的 solarsync 模型,体现出了 Attentive Eraser 在不同预训练扩散模型和架构上的可拓展性和广泛适用性,无论是用于自然图像还是动漫图像的目标移除任务,均能发挥出色的效果。

通过这些实验,我们充分展示了 Attentive Eraser 的鲁棒性和可拓展性,为其在实际应用中的广泛应用提供了坚实的理论与实验支持。

Demo 演示

Demo 已发布在魔搭社区创空间及 Hugging Face spaces:

studios/Anonymou3/AttentiveEraser

spaces/nuwandaa/AttentiveEraser

更多详情,请参阅论文原文。

 
举报 收藏 打赏 评论 0
24小时热闻
今日推荐
浙ICP备19001410号-1