您当前的位置:
科研动态

实验室VIPL组4篇论文被ECCV 2022接收

发布时间: 2022-07-27

  实验室VIPL组今年有4篇论文被ECCV 2022接收,ECCV的全称是European Conference on Computer Vision(欧洲计算机视觉国际会议) ,是计算机视觉三大会议(另外两个是ICCV和CVPR)之一,2022年10月将在以色列特拉维夫召开。

  1. Joint Feature Learning and Relation Modeling for Tracking: A One-Stream Framework (Botao Ye, Hong Chang, Bingpeng Ma, and Shiguang Shan)

  目前主流的双流目标跟踪框架分别提取模板和搜索区域的特征,然后进行关系建模,因此提取的特征缺乏对目标的认知,导致有限的目标-背景的辨别力。为了解决上述问题,我们提出了一个新颖的单流跟踪框架(OSTrack),它构建了模板-搜索图像对之间的双向信息流,并将特征学习和关系建模统一起来,这使得模型可以通过模板-搜索图像内容的相互引导动态地提取面向目标的判别性特征。此外,得益于高度并行化的结构以及对额外的繁重的关系建模模块的消除,所提出的跟踪器能以很快的速度运行。我们还额外提出了一个基于单流框架所提供的强相似性先验的网络内候选区域早期消除模块,以此进一步地提高了推理效率。OSTrack在多个跟踪基准上取得了最优的性能,实现了良好的性能-速度权衡,并显示出更快的收敛性。




  2. Learning Linguistic Association Towards Efficient Text-Video Retrieval (Sheng Fang, Shuhui Wang, Junbao Zhuo, Xinzhe Han, Qingming Huang)

  视频-文本检索的主流方式是学习一个用以对齐两个模态的公共空间。因为视频包含比文本更丰富的内容,所以文本描述总是会丢失一些事件或者细节,这使得两个模态的表征很难对齐。我们利用同一视频的不同描述文本之间的互补性,提出了插件式的语言联想框架,如图1所示。具体来说,我们首先训练一个有额外相关描述文本作为输入的教师模型,它通过聚合文本语义获得更丰富的文本表征。然后我们提出了一种适应性的知识蒸馏让学生模型有选择地继承教师模型的能力,以此来抑制教师模型中由于文本聚合而引入的虚假关联。我们在多个不同的数据集和通用方法上应用了我们的框架,均获得了稳定的性能提升,证明了我们方法的有效性。




  3. Generative Meta-Adversarial Network for Unseen Object Navigation (Sixian Zhang, Weijie Li, Xinhang Song, Yubing Bai, Shuqiang Jiang)

  视觉物体导航任务要求智能体自主导航到指定的目标物体,主流的工作关注增强在未知的环境中面向已知物体类别(经过训练的物体类别)的导航能力,并取得了可观的性能。然而这种实验设置很难应用到现实世界中,因为现实世界中包含了无限的物体类别,因而导航到未知物体的情形也是不可避免的。本文关注于在未知环境中面向未知物体类别的视觉物体导航任务,本文的出发点是让智能体根据目标物体语义编码来“想象”目标物体在环境中的视觉特征。本文提出一种由特征生成器和环境元判别器构成的生成式的元对抗网络(GMAN),其中特征生成器可以根据目标物体的语义合成一个初始的特征,环境元判别器则是通过在导航过程中不断收集到的环境信息进一步优化生成器,从而使生成器可以合成更精确的物体特征。生成的特征作为指导信息用于帮助智能体进行物体导航任务。进一步的,为了使生成器能根据有限的观测进行高效的更新,整个对抗网络基于元学习的框架进行优化。本文基于AI2THOR和RoboTHOR模拟器评估了本文的方法,并证明了方法的有效性和优良的性能。




  4. Adaptive Image Transformations for Transfer-based Adversarial Attack (Zheng Yuan, Jie Zhang, Shiguang Shan)

  对抗样本对于研究深度学习模型的鲁棒性提供了一种很好的视角。基于迁移的黑盒攻击中有一类方法利用若干图像变换操作来提高对抗样本的迁移性。尽管这是一种有效的方法,但是没有考虑输入图像各自的特点。在本工作中,我们提出了一种自适应图像变换学习器(AITL)的新架构,其将不同的图像变换操作融合到统一的框架中,从而可以进一步提高对抗样本的迁移性。不同于现有工作中采用的固定图像变换组合,我们精心设计的变换学习器可以针对不同输入图像的特点,自适应地选择最有效的图像变换组合。ImageNet数据集中的大量实验展示了我们的方法在各种实验设置下,均显著地提高了攻击成功率。




附件: