AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
论文第一、第二作者为复旦大学视觉与学习实验室的硕士生韩枫和博士生陈凯。通讯作者为陈静静副教授。研究团队专注于 AI 安全的研究,近年来在 CVPR,ECCV,AAAI,ACM MM 等顶会上发表过多篇 AI 安全的研究成果。
文生图模型生成图片过于露骨?不妨直接给图像穿上衣服。
复旦大学团队设计的风险概念移除网络 DuMo 不仅实现上述功能,同时尽可能保证人物以及其他属性不受影响。达到现有最好的指哪擦哪效果。
同时,DuMo 也可避免文生图模型模仿艺术家风格,从而制作一些侵犯版权的照片。
随着生成式人工智能技术的快速发展,扩散模型图像生成能力已达到了令人惊叹的高度。然而,这一技术也伴随着安全隐患,例如生成含有敏感、不当或侵犯版权的内容。
现有方法一般通过一种名为概念陈擦除的微调方法以实现模型去毒。
复旦大学研究团队提出了一种全新的双编码器调制网络(DuMo),通过创新性的架构和算法,实现了对扩散模型中特定风险概念的精准擦除,在擦除效果和精确度方面均达到 SOTA 水平,研究成果已被顶级会议 AAAI 2025 收录。
论文:DuMo: Dual Encoder Modulation Network for Precise Concept Erasure
论文链接:abs/2501.01125
DuMo:擦除风险内容,保护生成能力
当前的概念擦除技术普遍面临两个挑战:一是难以有效擦除风险概念,二是擦除过程中,微调后模型对其他安全概念的生成能力被破坏。DuMo 在这两个方面取得了突破,成功地解决了「擦除」和「保护」之间的矛盾。
具体而言,U-Net 特征分为主干网络特征,和跳跃连接特征。其他方法都对 U-Net 的主干特征进行了修改,会对安全概念的生成产生不良影响,破坏其结构完整性 [1]。此外,跳跃连接特征的潜力没有得到充分挖掘,这限制了模型在执行概念擦除时的能力,同时也影响了模型的生成效果 [2]。
DuMo 通过对 EPR 擦除模块和时间 - 层级调制机制(TLMO)的两阶段微调以实现上述效果:
1、基于跳跃连接的 EPR 擦除模块
DuMo 采用了创新性的「基于先验知识的擦除模块」(EPR)。EPR 擦除模块是由一份 U-Net Enoder 的副本和零卷积组拼接得到的。零卷积组的卷积层参数被初始化为零,而且原始 U-Net 主干的参数被冻结,其包含的模型先验知识被全部保留,只有跳跃连接特征被修改,从而最大程度避免对安全概念的结构和生成质量产生负面影响 [1]。第一阶段微调过程中 DuMo 将不安全概念(例如「裸露」)对齐到目标概念(例如,空文本 「 」)以达到概念擦除的效果
2、时间 - 层级调制(TLMO)机制
作者观察到,EPR 模块在不同的跳跃连接层和去噪时间步上,对图像中的低频结构元素和高频细节部分表现出不同的擦除偏好。通过将跳跃连接层和时间步分组,DuMo 发现不同层级和时间步对图像的影响不同,因此采取了特定的调整策略。
DuMo 设计了一个独特的时间 - 层级调制(TLMO)策略,针对扩散模型的生成过程中的不同时间步和网络层级,使用微调得到的调制系数,自动调整 EPR 模块不同输出的擦除强度。
同时在第二阶段的微调过程中,除了损失函数中原有的项外,还添加了一个正则项,用于将微调后的模型噪声(对应空文本)与原始模型进行对齐。这些机制大幅减少对安全概念的影响,从而在擦除风险概念的同时,保证安全概念的生成质量和细节。
实验验证:擦除能力与生成保留的双赢
DuMo 在裸露内容擦除、卡通概念移除和艺术风格擦除三个任务上进行了全面验证,其表现优于当前所有主流方法。
裸露内容擦除
在风险性最高的「裸露内容擦除」任务中,DuMo 在 I2P 基准数据集上的表现令人瞩目:
裸体部位检测数量仅为 34 个,是现有最佳方法。
生成图像的质量指标(FID)与 CLIP Score 均达到顶尖水平,生成能力显著优于其他方法。
在擦除裸露概念后,DuMo 还能很好的保持图像的结构。如第一行人物的姿势和第二行人物位置与背景。
卡通概念移除
针对「Snoopy」等流行卡通概念的擦除任务,DuMo 实现了更好的平衡:
单概念擦除任务中,LPIPS_da(擦除效果 - 生成能力保留平衡性)提升了 0.096;
多概念擦除任务中,LPIPS_da 进一步提升了 0.142,证明其对复杂任务的优异适应性。
艺术风格擦除
在艺术风格移除任务中,DuMo 精准擦除了「梵高」和「伦勃朗」等风格特征,同时对其他艺术家风格的破坏降到最低:
实现了 SOTA 级别的风格擦除效果;
定量指标 LPIPS_da 表现显著优于对比方法。
在擦除梵高风格的实验中,其他艺术家风格图片的生成也不受影响。
参考文献
[1] Si, C.; Huang, Z.; Jiang, Y.; and Liu, Z. 2024. Freeu: Free lunch in diffusion u-net. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 4733–4743.
[2] Luo, W.; Hu, T.; Zhang, S.; Sun, J.; Li, Z.; and Zhang, Z. 2024. Diff-instruct: A universal approach for transferring knowledge from pre-trained diffusion models. Advances in Neural Information Processing Systems, 36.