您当前的位置:
学术活动

实验室举行顶会论文分享交流会

发布时间: 2019-05-08

实验室近期11 篇论文被 CVPR2019 会议录用, 1 篇长文被 ACM SIGIR2019 录用。 CVPR和 SIGIR 分别是计算机视觉和模式识别领域、数据挖掘和信息检索领域的顶级会议,且均为 CCF 推荐的 A 类会议。实验室党支部近日邀请了6位讲者,于 2019年5月8日下午14:00-17:00在计算所501会议室与大家分享了他们的研究工作和交流相关经验。
6个报告详情如下:
报告人1:王文彬,研究兴趣包括物体检测、场景理解。已在 CVPR 上发表论文 1 篇。
报告摘要:场景图有助于高层次场景图像理解,而物体间关系的预测是构建场景图的关键。在物体检测中,上下文的关联信息的使用以及物体本身特征的优化已经取得很大进展,但在关系检测中鲜有探索。本文提出一种挖掘关系之间上下文关联信息的方法,通过将所有检测到的关系融合,构建隐式的关系关联,在
基准数据集 Visual Genome 上实验证明了这种关系的上下文关联在提升关系预测精度上的有效性,并且捕获到了这种关系上下文关联的意义。同时,在关系
自身的特征提取方面,传统的采用两个物体的联合框提取特征的方法或者融合两者特征的方法过于关注物体信息,忽视了对关系本身视觉模式的发掘。本文
提出一种采用相交框提取关系特征的方法,实验证明其更能体现关系的视觉模式,也有助于提升关系预测的性能。
报告人2:侯瑞兵,研究兴趣包括视频预测、行人再识别、元学习与小样本识别。已在 FG 上发表论文 1 篇,CVPR 上发表论文 2 篇。
报告摘要:针对视频行人重识别的部分遮挡问题,我们提出了一个时空补全网络(Spatio-Temporal Completion network, STCnet)用来精确的恢复遮挡部位
的信息。一方面,STCnet 利用行人的空间结构信息,从当前行人帧中未被遮挡的身体部位信息预测出被遮挡的身体部位。另一方面,STCnet 利用行人序列的
时序信息去预测被遮挡部位。通过联合 STCnet 和一个行人再识别网络,我们获得了一个对部分遮挡鲁棒的视频行人再识别框架。在当前主流的视频行人再识
别数据库(iLIDS-VID, MARS, DukeMTMC-VideoReID)上,我们提出的框架都优于当前最好的方法。
报告人3:李勇,研究兴趣包括人脸表情分析、面部动作单元检测。曾获 2017 年基于人脸图像的亲子关系验证比赛第1 名,已发表工作包括 ICPR 2018, TIP 2019, CVPR 2019 等。
报告摘要:面部运动编码系统 (FACS)从人脸解剖学的角度,定义了 44 个面部动作单元(Action Unit,简称 AU)用于描述人脸局部区域的变化。面部动作单元能够客观、精确、细粒度地描述人脸表情。然而昂贵的标注代价在很大程度上限制了 AU 识别问题的研究进展,其原因在于不同的 AU 分布在人脸的不同区域,表现为不同强度、不同尺度的细微变化。具体来说,为一分钟的人脸视频标注一个 AU,需要 AU 标注专家花费 30 分钟。 我们提出了一种能够在不依赖 AU 标签的前提下,从人脸视频数据中自动学习 AU 表征的方法 ( Twin-Cycle Autoencoder,简称 TCAE)。该方法以两帧人脸图像之间的运动信息为监督信号,驱使模型提取出用于解码运动信息的图像特征。考虑到两帧图像之间的运动信息包含了 AU 以及头部姿态的运动分量,TCAE 通过一定的约束,使得模型能够分离出 AU 变化引起的运动分量。多个数据集上的实验证明,TCAE 能够成功提取出人脸图像的 AU 及姿态特征。在 AU 识别任务上,TCAE 取得了与监督方法可比的性能。
报告人4:卓君宝,研究兴趣包括跨域学习,开放域识别,迁移学习。以一作在 ACM MM 和 CVPR 发表论文各 1 篇,同时合作发表 1 篇 ACM MM 论文(Oral)。
报告摘要:深度学习超强的特征学习能力结合迁移学习以解决目标任务标注数据稀缺问题,是一个极具价值和意义的问题。深度迁移学习现有的一些设定如域适配,零样本学习等仍具有局限性。现有域适配方法仍旧限制在封闭域内,泛零样本识别虽然假定目标域具有未知类且对未知类进行识别,但一般不假定训练集和测试集间存在域间差异。我们提出开放域目标识别的新设定,即假定带标注源域和无标注目标域间存在域间差异,且源域是目标域的一个子集,任务是对目标域上的每个类别的样本都进行正确分类。
报告人5:胡梦颖,研究兴趣为弱监督图像分类、噪声/缺失标签处理与学习。已在 ACCV、CVPR 上发表论文各 1 篇。
报告摘要:弱监督学习是计算机视觉任务中的一个重要问题,尽管有许多关于弱监督图像分类的研究,这些方法通常局限于单标签噪声或者多标签噪声场景。本文提出了一种有效的弱监督图像分类方法,使用了大量噪声标注数据和少量干净标注数据(比如 5%)。该方法由一个主干网络,一个净化网络(clean net)和一个残差网络(residual net)组成。具体来说,主干网络用于学习图像特征,净化网络用于学习从特征空间到干净标签空间的映射,残差网络用于学习从特征空间到标签残差(干净标签和噪声标签之间)的映射。因此,残差网络以类似于正则项的工作方式增强净化网络的学习。我们在两个多标签数据集(OpenImage 和 MS COCO2014)和一个单标签数据集(Clothing1M)评估了该方法。实验结果表明,该方法优于现有的最好方法,并能对于单标签和多标签场景有很好的泛化能力。
报告人6:潘斐阳,研究兴趣包括强化学习、元学习等。已在 WWW, SIGIR, AAAI 等顶级会议发表长文 3 篇(CCF A 类)。多次获国际大型竞赛奖项,如 Kaggle 金牌第 1 名、第 2 名,IJCAI 大赛连续两年赛季第 1 名等。
报告摘要:点击率(CTR)预估一直是最重要的计算广告中的问题。最近,许多生成广告 ID 低维表示的嵌入向量学习技术大幅提高了 CTR 预估的准确性。然而,这种技术对数据要求很高,并且在低曝光广告上效果不佳,被称为冷启动问题。在本工作中,我们的目标是同时在冷启动阶段和预热阶段提高 CTR 预估性能。为此,我们提出了一种名为 Meta-Embedding 的基于元学习的方法,学习如何为新广告 ID 生成理想的初始嵌入向量。主要贡献包括:(1)提出 Meta-Embedding 方法来学习如何学习新广告 ID 的嵌入向量以解决冷启动问题;(2)提出一种简单而高效的基于梯度的元学习算法来训练 Meta-Embedding 生成器,在反向传播时使用二阶导数;(3)所提出方法易于在线场景实现,训练好的嵌入生成器可以取代普通的随机初始化为新广告冷启动预热;(4)三个大规模真实世界数据集上的实验结果表明,六种现有的最先进的 CTR 预估模型在使用 Meta-Embedding 方法后,都大大改善了新广告冷启动阶段和小广告热身阶段的预估效果。

分享会吸引了实验室很多同学前来交流学习,同学们纷纷表示希望实验室日后多多举办类似交流活动。


附件: