中国科学院智能信息处理重点实验室依托于中国科学院计算技术研究所,成立于1987年。在实验室学术委员会的学术指导和计算技术研究所的大力支持下,实验室逐渐发展成为我国智能信息处理领域的重要基础研究基地。
  实验室的研究工作围绕国家需求和国际科技发展前沿,同时考虑服务于国民经济建设的需要。实验室的定位是探索机器感知与认知的机理、理论、方法、技术,开展基础性研究以及相关的应用基础性研究,提出新的概念与模型,解决核心技术问题,并构建相应的系统。实验室的目标是在智能信息处理基础理论研究领域达到世界一流水平,培育前瞻思想,产出一流成果,培养基础人才,从而为智能技术形成智能产业提供基础原理、核心技术以及关键应用原型,为“人工智能”走向“人工智能+”提供技术支撑,为国家信息技术的长期发展储备知识、创新技术和人才。
  智能信息处理重点实验室以信息的智能处理为主线,依托计算技术研究所在系统、网络等方面的优势,从信息的获取、表示、理解与转换等几个方面进行布局,构成了一个互为依托的有机整体。实验室的主要研究方向,包括计算机视觉、模式识别、机器学习与数据挖掘、自然语言处理与理解、多媒体技术、医疗影像分析、生物信息学、大规模知识处理和智能人机接口等。
        过去十年来,实验室在中国计算机学会认定的A类国际刊物(如IEEE T PAMI, IEEE T IP, IJCV,AI等)以及领域A类国际会议(如CVPR,ICCV,ACL,AAAI, IJCAI, ACM MM等)上发表论文200余篇,获得发明专利授权100余项,所发表的论文被国内外同行引用超过30,000次。在高维、非线性视觉模式方面的研究成果获2015年度国家自然科学二等奖,在神经机器翻译方面的工作获得ACL大会的Best Long Paper Award。
        在应用方面,所研发的人脸识别、机器翻译、知识处理、蛋白质序列鉴定技术被成功的产业化或被华为等合作伙伴规模化应用到其产品中,产生了良好的经济和社会效益。
实验室新闻
24 2021.11
热烈祝贺实验室山世光老师当选IEEE Fellow

  近日,电气和电子工程师协会(IEEE)宣布了 新当选的2022 年 IEEE Fellow 名单,实验室山世光老师因在“视觉信号处理与识别”领域做出的贡献而成功当选。
  IEEE,全称“电气和电子工程师协会”(Institute of Electrical and Electronics Engineers),是美国的电子技术与信息科学工程师的协会,也是世界上最大的非营利性专业技术学会,致力于电气、电子、计算机工程和与科学有关的领域的开发和研究,在航空航天、信息技术、电力及消费性电子产品等领域已制定了900多个行业标准,现已发展成为具有较大影响力的国际学术组织。IEEE Fellow为该协会最高等级会员,是IEEE授予成员的最高荣誉,每年由IEEE同行专家在拥有高级(senior)或终身(life)等级的会员中评选,当选人需要对工程科学技术的进步或应用作出重大贡献,为社会带来重大价值。当选人数不超过IEEE当年会员总人数的1‰。
  当选理由:对视觉信号处理与识别领域做出的贡献
  个人简介:山世光,中科院计算所研究员/博导。他的研究领域为计算机视觉、模式识别和机器学习。已发表论文300余篇,其中CCF A类论文110余篇,论文被谷歌学术引用25,800余次。研究成果获2005年度国家科技进步二等奖、2015年度国家自然科学二等奖,且成果规模化应用于公安部门、华为等。他是国家万人计划领军人才,基金委优青,国务院特殊津贴专家,北京市科技新星,人社部国家百千万人才工程有突出贡献中青年专家,CCF青年科学家奖获得者,中科院青促会优秀会员,腾讯科学探索奖获得者。他曾应邀担任过CVPR, ICCV, AAAI, IJCAI, ACCV, ICIP, FG等近20次领域主流国际会议的领域主席,现/曾任IEEE TIP, CVIU, PRL, Neurocomputing, FCS等国际学术刊物的编委(AE),担任《中国图象图形学报》领域主编,《电子学报》和《电信科学》编委。他是中国人工智能学会模式识别专委会副主任,中国人工智能学会情感智能专委会副主任,中国计算机学会计算机视觉专委会常务委员。他还是视觉与学习青年学者研讨会(VALSE)的共同发起人和核心组织者之一。
科研动态

实验室4篇论文被AAAI 2022接收


  近日,实验室4篇论文被AAAI 2022接收。AAAI的全称是AAAI Conference on Artificial Intelligence,是人工智能领域的顶级会议。4篇论文的信息概要介绍如下:
  1. Towards High-Fidelity Face Self-occlusion Recovery via Multi-view Residual-based GAN Inversion. (Jinsong Chen, Hu Han, Shiguang Shan)
  人脸在从3D物体到2D图像的投影过程中难免会产生自遮挡等信息丢失问题。虽然基于三维人脸可变性模型(3DMM)的相关方法为恢复人脸自遮挡提供了一种有效的解决方案,但现有方法在处理高保真度、自然和多样性的人脸细节方面仍然存在明显的局限性。为了克服这些局限性,本文提出了一种新的生成式对抗网络,无需使用成对的2D图像-纹理数据,就能实现自然人脸自遮挡恢复。我们设计了一个从粗到精的真实感纹理生成对抗网络。我们首先通过融合3DMM重构获得的欠真实但完整的统计纹理和从输入2D图像采样的不完整但真实的纹理形成初步的粗糙人脸纹理。进而,我们设计了一种基于多视残差的GAN反演方法,它可以重渲染生成多视2D人脸图像,并对其进行精细化获得多视高真实度纹理。最后,我们基于可见性对这些多视高真实度纹理进行泊松融合,形成完整的高真实度纹理。为了利用对抗性学习提升纹理恢复的质量,我们设计了一个双头判别器:一个在UV空间中对重构纹理和真实纹理进行全局和局部的真实度判别;另一个通过像素级损失、身份损失和对抗损失判别输入图像和重渲染的2D图像。实验结果表明,我们的方法能在开放场景下的人脸自遮挡恢复中取得比现有方法更真实、更自然的效果。
  2. Rethinking the Optimization of Average Precision: Only Penalizing Negative Instances before Positive Ones is Enough. (Zhuo Li, Weiqing Min, Jiajun Song, Yaohui Zhu, Liping Kang, Xiaoming Wei, Xiaolin Wei, Shuqiang Jiang)
  优化平均精度(Average Precision,AP)的近似值在图像检索中得到了广泛的研究。受限于AP的定义,这种方法必须考虑每个正例之前的负例和正例。然而,我们认为只要惩罚正例前面的负例就够了,因为损失只来自这些样本。为此,我们提出了一种新的损失函数,即PNP损失函数,它可以直接最小化每个正例之前的负例数。此外,基于AP的方法采用固定次优的梯度分配策略。为此,我们进一步通过构造损失的导数函数的方式,系统地研究了不同的梯度分配方案,得到了导函数递增的PNP-I和导函数递减的PNP-D。PNP-I通过向困难正例分配更大的梯度而关注难例,并尝试使所有相关实例更接近。相比之下,PNP-D对此类事件关注较少,并缓慢纠正这些样本。对于大多数真实数据,一个类通常包含多个局部簇。PNP-I盲目地聚集这些簇,而PNP-D保持了原始的数据分布。因此,PNP-D更为优越。在三个标准检索数据集上的评估验证了上述分析的正确性,且PNP-D达到了当前最好的性能。
  3. Unsupervised Coherent Video Cartoonization with Perceptual Motion Consistency. (Zhenhuan Liu, Liang Li, Huajie jiang, Xin Jin, Dandan Tu, Shuhui Wang, Zheng-Jun Zha)
  近年来,风格迁移和照片编辑等内容生成任务越来越受到关注。其中,现实场景的卡通化在娱乐和工业领域具有广阔的应用前景。与关注于图像生成风格的图像转换不同,视频卡通化对时序一致性有更高的要求。在本文中,我们提出了一种具有感知运动一致性和空间自适应语义对齐的框架,用于以无监督方式实现连贯的视频卡通化。语义对齐模块旨在恢复由编码器-解码器架构中丢失的空间信息引起的结构形变。此外,我们将时空相关图作为一种风格独立的、全局感知的关于感知运动一致性的正则项。基于照片和卡通图像中高层特征的相似性度量,时空相关图能够捕获全局的语义信息。此外,相似性度量将时序一致性与特定领域的风格属性分开,有助于在不损害卡通图像风格效果的情况下约束时序一致性。定性和定量的实验证明了我们的方法能够生成高度风格化和时序一致的卡通视频。
  4. Mind the Gap: Cross-Lingual Information Retrieval with Hierarchical Knowledge Enhancement. (Fuwei Zhang, Zhao Zhang, Xiang Ao, Dehong Gao, Fuzhen Zhuang, Yi Wei, Qing He)
  跨语言信息检索 (CLIR) 旨在对用户的查询语句反馈的不同语言的文档进行排序。处理不同语言之间的内在差异是CLIR任务的一个重要挑战。在本文中,作者将多语言知识图谱引入到CLIR任务中,通过不同语言的实体信息来填补不同语言的差异。跨语言的实体信息在查询和文档之间存在一定的显式对齐,同时源语言的实体信息还可以扩展查询的表示。在此基础上,作者提出了一个具有层次知识增强 (简称HIKE) 结构的CLIR模型。该模型对查询、文档和知识图谱中的文本信息采用多语言BERT进行编码,并利用分层信息融合的机制将知识图谱含有的信息整合到查询文档的匹配过程中。HIKE首先通过知识级别 (Knowledge-Level) 的融合将知识图谱中的实体及其邻居的信息 (包含标签和描述信息) 聚合到查询语句的表示,然后通过语言级别 (Language-Level) 的融合将来自源语言和目标语言的知识信息结合起来,进一步减少不同语言之间的差异。实验结果表明,HIKE相比于其他的CLIR模型取得比较大的提升。
  
学术活动

【会议出访】多媒体计算与多模态智能组蒋树强老师、王树徽老师参加ICME2017


  IEEE 举办的“International Conference on Multimedia & Expo”是多媒体技术研究领域的年度国际会议。自2000年在New York 举办第一届会议以来,至2017年已是18届。ICME 2017在时尚国际化大都市中国香港举办。此次ICME 2017共收到600多篇投稿,总共录用200篇左右,录取率约在30%,其中分组报告(oral)论文数量在80篇以内,录取率约为12%。可见该会的论文平均水平在不断提高。蒋树强和王树徽代表中科院计算所智能信息处理实验室参加了此次国际会议,全程参加了大会多个主题报告和tutorial报告,了解同行的研究进展,并与国内外研究学者开展了广泛深入的交流。
          
  在7月11日上午的poster session当中,蒋树强在此次会议上介绍了课题组在图像中关系检测方面的论文“Visual Relationship Detection with Object Spatial Distribution”。在报告过程中,与会者针对所提出方法的视觉关系类型、物体空间上下文建模等方面的技术思路和现有方法的比较方面进行了提问,在交流过程中作者也受到了较多的启发。在7月12日图像标题生成的oral session当中,蒋树强作为论文“Keyword-driven Image Captioning via Context-dependent Bilateral LSTM”的合作者,听取了论文第一作者张晓丹的讲解,并同与会者进行了会后的讨论和交流,对基于深度循环神经网络的图像摘要技术的未来发展趋势进行了展望。
          
  在7月12日上午的Oral Session中,王树徽代表吴益灵、张维刚和黄庆明对“ONLINE LOW-RANK SIMILARITY FUNCTION LEARNING WITH ADAPTIVE RELATIVE MARGIN FOR CROSS-MODAL RETRIEVAL”进行了介绍。在该研究中提出了一种在线低秩的跨模态关联学习的方法,并在两个公开数据库上对一些经典算法进行了深入评测,结果表明所提方法有效实现了在线跨模态相似度学习,应对了跨模态数据的特点。我们的工作获得了来自新加坡、中国香港、中华台北、美国和中国大陆的研究人员的广泛关注,并进行了热烈的交流和探讨。