近日,实验室关于文生图扩散模型后门检测的工作“Dynamic Attention Analysis for BackdoorDetection in Text-to-Image Diffusion Models”(作者:王中琦,张杰,山世光,陈熙霖)被T-PAMI接收。T-PAMI全称为IEEE Transactions on Pattern Analysis and Machine Intelligence, 是模式识别、计算机视觉及机器学习领域的主流国际期刊, 2025年公布的影响因子为18.6。
最近的研究表明,文生图扩散模型易受到后门攻击,攻击者可以植入隐蔽的文本触发器来操控模型输出。以往的后门检测方法主要侧重于利用后门样本的静态特征,然而扩散模型启发于动力学模型,其动态性是其内在的关键属性。为此,本研究引入了一种全新的后门检测视角,称为动态注意力分析(Dynamic Attention Analysis, DAA),并表明这种动态特征能更好的作为后门样本的指示特征。具体的,通过观察跨注意力图的动态演化过程,我们发现后门样本在<EOS> token(即句子结束符)展现出与良性样本显著不同的特征演化模式。为了量化这些动态异常,我们首先提出了DAA-I方法,该方法将各 token 的注意力图视为空间上独立的,并使用Frobenius范数衡量其动态特征。进一步,为了更好地捕捉注意力图之间的交互关系并优化提取的特征,我们提出了一种基于动力学系统(Dynamical System)的检测方法,称为DAA-S。该模型通过图结构的状态方程来刻画注意力图之间的空间相关性。我们从理论上证明了该模型的全局渐近稳定性,确保了特征建模的鲁棒性。在六种具有代表性的后门攻击场景中实验证明,我们的方法在检测性能上显著优于现有方法,平均F1值达到 79.27%,AUC达到86.27%。

附件: