模型安全武装，复旦新研究实现SOTA扩散模型风险概念擦除效果，入选AAAI 2025

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

论文第一、第二作者为复旦大学视觉与学习实验室的硕士生韩枫和博士生陈凯。通讯作者为陈静静副教授。研究团队专注于 AI 安全的研究，近年来在 CVPR，ECCV，AAAI，ACM MM 等顶会上发表过多篇 AI 安全的研究成果。

文生图模型生成图片过于露骨？不妨直接给图像穿上衣服。

复旦大学团队设计的风险概念移除网络 DuMo 不仅实现上述功能，同时尽可能保证人物以及其他属性不受影响。达到现有最好的指哪擦哪效果。

同时，DuMo 也可避免文生图模型模仿艺术家风格，从而制作一些侵犯版权的照片。

随着生成式人工智能技术的快速发展，扩散模型图像生成能力已达到了令人惊叹的高度。然而，这一技术也伴随着安全隐患，例如生成含有敏感、不当或侵犯版权的内容。

现有方法一般通过一种名为概念陈擦除的微调方法以实现模型去毒。

复旦大学研究团队提出了一种全新的双编码器调制网络（DuMo），通过创新性的架构和算法，实现了对扩散模型中特定风险概念的精准擦除，在擦除效果和精确度方面均达到 SOTA 水平，研究成果已被顶级会议 AAAI 2025 收录。

论文：DuMo: Dual Encoder Modulation Network for Precise Concept Erasure

论文链接：abs/2501.01125

DuMo：擦除风险内容，保护生成能力

当前的概念擦除技术普遍面临两个挑战：一是难以有效擦除风险概念，二是擦除过程中，微调后模型对其他安全概念的生成能力被破坏。DuMo 在这两个方面取得了突破，成功地解决了「擦除」和「保护」之间的矛盾。

具体而言，U-Net 特征分为主干网络特征，和跳跃连接特征。其他方法都对 U-Net 的主干特征进行了修改，会对安全概念的生成产生不良影响，破坏其结构完整性 [1]。此外，跳跃连接特征的潜力没有得到充分挖掘，这限制了模型在执行概念擦除时的能力，同时也影响了模型的生成效果 [2]。

DuMo 通过对 EPR 擦除模块和时间 - 层级调制机制（TLMO）的两阶段微调以实现上述效果：

1、基于跳跃连接的 EPR 擦除模块

DuMo 采用了创新性的「基于先验知识的擦除模块」（EPR）。EPR 擦除模块是由一份 U-Net Enoder 的副本和零卷积组拼接得到的。零卷积组的卷积层参数被初始化为零，而且原始 U-Net 主干的参数被冻结，其包含的模型先验知识被全部保留，只有跳跃连接特征被修改，从而最大程度避免对安全概念的结构和生成质量产生负面影响 [1]。第一阶段微调过程中 DuMo 将不安全概念（例如「裸露」）对齐到目标概念（例如，空文本「」）以达到概念擦除的效果

2、时间 - 层级调制（TLMO）机制

作者观察到，EPR 模块在不同的跳跃连接层和去噪时间步上，对图像中的低频结构元素和高频细节部分表现出不同的擦除偏好。通过将跳跃连接层和时间步分组，DuMo 发现不同层级和时间步对图像的影响不同，因此采取了特定的调整策略。

DuMo 设计了一个独特的时间 - 层级调制（TLMO）策略，针对扩散模型的生成过程中的不同时间步和网络层级，使用微调得到的调制系数，自动调整 EPR 模块不同输出的擦除强度。

同时在第二阶段的微调过程中，除了损失函数中原有的项外，还添加了一个正则项，用于将微调后的模型噪声（对应空文本）与原始模型进行对齐。这些机制大幅减少对安全概念的影响，从而在擦除风险概念的同时，保证安全概念的生成质量和细节。

实验验证：擦除能力与生成保留的双赢

DuMo 在裸露内容擦除、卡通概念移除和艺术风格擦除三个任务上进行了全面验证，其表现优于当前所有主流方法。

裸露内容擦除

在风险性最高的「裸露内容擦除」任务中，DuMo 在 I2P 基准数据集上的表现令人瞩目：

裸体部位检测数量仅为 34 个，是现有最佳方法。

生成图像的质量指标（FID）与 CLIP Score 均达到顶尖水平，生成能力显著优于其他方法。

在擦除裸露概念后，DuMo 还能很好的保持图像的结构。如第一行人物的姿势和第二行人物位置与背景。

卡通概念移除

针对「Snoopy」等流行卡通概念的擦除任务，DuMo 实现了更好的平衡：

单概念擦除任务中，LPIPS_da（擦除效果 - 生成能力保留平衡性）提升了 0.096；

多概念擦除任务中，LPIPS_da 进一步提升了 0.142，证明其对复杂任务的优异适应性。

艺术风格擦除

在艺术风格移除任务中，DuMo 精准擦除了「梵高」和「伦勃朗」等风格特征，同时对其他艺术家风格的破坏降到最低：

实现了 SOTA 级别的风格擦除效果；

定量指标 LPIPS_da 表现显著优于对比方法。

在擦除梵高风格的实验中，其他艺术家风格图片的生成也不受影响。

参考文献

[1] Si, C.; Huang, Z.; Jiang, Y.; and Liu, Z. 2024. Freeu: Free lunch in diffusion u-net. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 4733–4743.

[2] Luo, W.; Hu, T.; Zhang, S.; Sun, J.; Li, Z.; and Zhang, Z. 2024. Diff-instruct: A universal approach for transferring knowledge from pre-trained diffusion models. Advances in Neural Information Processing Systems, 36.