您当前的位置:
科研动态

实验室团队再获CVPR 2022 ActivityNet挑战赛的说话人检测任务冠军

发布时间: 2022-06-27


  2022年6月19日,CVPR 2022 ActivityNet挑战赛时空动作定位赛道的AVA Active Speaker Challenge发布榜单,实验室团队继去年之后,再次蝉联说话人检测(Active Speaker)任务冠军!


  ActivityNet挑战赛是视频动作识别领域的重要竞赛,涵盖视频动作分类、时序与时空动作定位、视频事件理解等多个方向,自2016年起每年在国际会议CVPR上举办。该挑战赛中的说话人检测(Active Speaker)任务自2019年起由谷歌AVA团队组织举办,任务目标是判断出视频中是否有人说话并标记出说话片段的起止位置及说话人的位置。该任务对应的视频数据均源于YouTube电影片段,具有语言种类多、人脸角度变化范围大、分辨率不一等挑战。实验室视听语言感知与理解团队(硕士生张远航、本科实习生梁苏叁、杨双副研究员、山世光研究员)参加了该竞赛,并提出了一种对视频中各场景内的潜在说话人间关系进行隐式建模的新角度和新方法,提升了长视频中各人物的检测效果,最终,在竞赛的测试集上达到了94.47%的mAP,成为该任务的冠军!


图1. 竞赛举办方在线宣布实验室团队所提方法获得冠军


图2. 竞赛中公布的该任务前3名的成绩(实验室团队为第1名)



附件: