2024年11月2日,NeurIPS 2024 大模型和智能体安全竞赛(The Competition for LLM and Agent Safety 2024)发布榜单,实验室团队(硕士生芦志广、许倩倩研究员、博士生温佩松、杨智勇副教授、黄庆明教授)获得大模型后门恢复赛道(Backdoor Trigger Recovery for Models)冠军!
NeurIPS 2024 大模型和智能体安全竞赛组织者来自UIUC、UChicago、UCBerkeley、UW等机构,受到了NVIDIA、Meta、Microsoft、salesforce等机构资助。本次竞赛聚焦于大语言模型(LLM)和智能体(Agent)安全领域,旨在推动大模型和智能体向更安全、更值得信赖的 AI 系统发展。在大模型后门恢复赛道中,参赛队伍的目标是在被植入后门的大语言模型中找出和特定有害输出所对应的后门,从而为后续大模型的安全评估和防御提供支持。实验室团队基于梯度引导搜索、越狱攻击和成员推理攻击设计的方法在最终阶段取得了优异表现,以核心指标逆向攻击成功率(REASR)超出第二名 12.1% 的成绩获得了冠军!
图1. 竞赛中公布的该任务前3名的成绩,实验室团队(Matrix666)为第1名
附件: