中国科学院智能信息处理重点实验室依托于中国科学院计算技术研究所,成立于1987年。在实验室学术委员会的学术指导和计算技术研究所的大力支持下,实验室逐渐发展成为我国智能信息处理领域的重要基础研究基地。
  实验室的研究工作围绕国家需求和国际科技发展前沿,同时考虑服务于国民经济建设的需要。实验室的定位是探索机器感知与认知的机理、理论、方法、技术,开展基础性研究以及相关的应用基础性研究,提出新的概念与模型,解决核心技术问题,并构建相应的系统。实验室的目标是在智能信息处理基础理论研究领域达到世界一流水平,培育前瞻思想,产出一流成果,培养基础人才,从而为智能技术形成智能产业提供基础原理、核心技术以及关键应用原型,为“人工智能”走向“人工智能+”提供技术支撑,为国家信息技术的长期发展储备知识、创新技术和人才。
  智能信息处理重点实验室以信息的智能处理为主线,依托计算技术研究所在系统、网络等方面的优势,从信息的获取、表示、理解与转换等几个方面进行布局,构成了一个互为依托的有机整体。实验室的主要研究方向,包括计算机视觉、模式识别、机器学习与数据挖掘、自然语言处理与理解、多媒体技术、医疗影像分析、生物信息学、大规模知识处理和智能人机接口等。
        过去十年来,实验室在中国计算机学会认定的A类国际刊物(如IEEE T PAMI, IEEE T IP, IJCV,AI等)以及领域A类国际会议(如CVPR,ICCV,ACL,AAAI, IJCAI, ACM MM等)上发表论文200余篇,获得发明专利授权100余项,所发表的论文被国内外同行引用超过30,000次。在高维、非线性视觉模式方面的研究成果获2015年度国家自然科学二等奖,在神经机器翻译方面的工作获得ACL大会的Best Long Paper Award。
        在应用方面,所研发的人脸识别、机器翻译、知识处理、蛋白质序列鉴定技术被成功的产业化或被华为等合作伙伴规模化应用到其产品中,产生了良好的经济和社会效益。
实验室新闻
24 2021.11
热烈祝贺实验室山世光老师当选IEEE Fellow

  近日,电气和电子工程师协会(IEEE)宣布了 新当选的2022 年 IEEE Fellow 名单,实验室山世光老师因在“视觉信号处理与识别”领域做出的贡献而成功当选。
  IEEE,全称“电气和电子工程师协会”(Institute of Electrical and Electronics Engineers),是美国的电子技术与信息科学工程师的协会,也是世界上最大的非营利性专业技术学会,致力于电气、电子、计算机工程和与科学有关的领域的开发和研究,在航空航天、信息技术、电力及消费性电子产品等领域已制定了900多个行业标准,现已发展成为具有较大影响力的国际学术组织。IEEE Fellow为该协会最高等级会员,是IEEE授予成员的最高荣誉,每年由IEEE同行专家在拥有高级(senior)或终身(life)等级的会员中评选,当选人需要对工程科学技术的进步或应用作出重大贡献,为社会带来重大价值。当选人数不超过IEEE当年会员总人数的1‰。
  当选理由:对视觉信号处理与识别领域做出的贡献
  个人简介:山世光,中科院计算所研究员/博导。他的研究领域为计算机视觉、模式识别和机器学习。已发表论文300余篇,其中CCF A类论文110余篇,论文被谷歌学术引用25,800余次。研究成果获2005年度国家科技进步二等奖、2015年度国家自然科学二等奖,且成果规模化应用于公安部门、华为等。他是国家万人计划领军人才,基金委优青,国务院特殊津贴专家,北京市科技新星,人社部国家百千万人才工程有突出贡献中青年专家,CCF青年科学家奖获得者,中科院青促会优秀会员,腾讯科学探索奖获得者。他曾应邀担任过CVPR, ICCV, AAAI, IJCAI, ACCV, ICIP, FG等近20次领域主流国际会议的领域主席,现/曾任IEEE TIP, CVIU, PRL, Neurocomputing, FCS等国际学术刊物的编委(AE),担任《中国图象图形学报》领域主编,《电子学报》和《电信科学》编委。他是中国人工智能学会模式识别专委会副主任,中国人工智能学会情感智能专委会副主任,中国计算机学会计算机视觉专委会常务委员。他还是视觉与学习青年学者研讨会(VALSE)的共同发起人和核心组织者之一。
科研动态

实验室4篇论文被NeurIPS 2022接收


  2022年9月,实验室4篇论文被NeurIPS 2022接收。NeurIPS 2022的全称是Thirty-sixth Conference on Neural Information Processing Systems,是人工智能领域的顶级会议之一。NeurIPS 2022将于2022年11月28日-12月9日在美国新奥尔良举行。被录用论文的简要介绍如下:
  1. Optimal Positive Generation via Latent Transformation for Contrastive Learning (Yinqi Li, Hong Chang, Bingpeng Ma, Shiguang Shan, Xilin Chen)
  通过对比正负样本对进行学习的对比学习已成为自监督视觉表征学习领域的主流方法。现有工作在通过数据增强设计合适正样本对方面已经做出了巨大努力(图 1.a),但如何为每个示例构建最优的正样本仍然是一个悬而未决的问题。受预训练生成模型其隐空间中语义一致性和计算代价低的启发,本文提出一种学习示例特定的隐空间变换以生成自监督对比学习最优正样本的方法(COP-Gen,图 1.c)。具体来说,COP-Gen 被描述为一个隐空间中示例特定的导航器,它在语义一致性的约束条件下最小化生成的正样本对之间的互信息。理论分析表明,学到的隐空间变换可以为对比学习构建最优的正样本对,在保留语义的同时去除了尽可能多的无关信息。实验表明,使用 COP-Gen 生成的正样本对在自监督对比学习中始终优于其他隐空间变换方法(图 1.b),甚至超过了基于真实图像的方法。
  图 1对比学习正样本构建方式对比
  2. Exploring the Algorithm-Dependent Generalization of AUPRC Optimization with List Stability (Peisong Wen, Qianqian Xu, Zhiyong Yang, Yuan He, Qingming Huang)
  精度-召回率曲线下面积(Area Under the Precision-Recall Curve, AUPRC)广泛应用于长尾分类、排序等机器学习任务中。尽管AUPRC优化已被应用于图像检索、目标检测等任务中,其泛化性仍有待研究。为此,本文考虑设计AUPRC随机优化算法,使其具有良好的算法相关泛化性能。AUPRC的算法泛化性研究存在三大挑战:(a) 现有AUPRC优化算法中AUPRC随机估计在采样率与样本先验不一致时有偏;(b) AUPRC优化目标不可分解为逐样本损失之和,传统基于算法稳定性的泛化分析不可行;(c) AUPRC优化属于复合优化问题,需迭代更新辅助变量和模型参数,稳定性分析复杂度大。为了克服挑战(a),本文基于AUPRC重构提出了一种采样率无关的渐进无偏AUPRC估计。为了解决挑战(b),本文首次提出了逐列表算法稳定性,给出逐列表算法稳定性与泛化性关联,克服AUPRC不可分解问题;面对挑战(c),进一步基于转移矩阵的谱分解提出复合优化问题的逐列表稳定性分析方法,给出了所提出算法的收敛性和泛化性。在三个图像检索数据集上的实验表明,本文所提出的方法能有效提升模型的AUPRC性能,且实验结果与理论分析结论一致。
  图 2在三个图像检索数据集上的AUPRC测试性能收敛曲线对比
  3. Asymptotically Unbiased Instance-wise Regularized Partial AUC Optimization: Theory and Algorithm (Huiyang Shao, Qianqian Xu, Zhiyong Yang, Shilong Bao, Qingming Huang)
  相比于传统的不平衡数据分类问题,医学诊断、垃圾邮件过滤以及风险金融账户检测等问题的应用场景中,往往更倾向于训练模型在较低的假阳率(False Positive Rate,FPR)区间内获得更高的真阳率(True Positive Rate,TPR),换句话说,这些应用场景更加关注于难样本的学习,而目前常用的AUC(Area Under the ROC Curve)指标更关注于整体的表现,与现有需求不一致。因此,本文考虑优化模型在较低假阳率区间内的单路偏AUC指标,称为OPAUC和较低假阳率和较高真阳率区间内的双路偏AUC指标,称为TPAUC。 优化偏AUC指标主要存下以下的难点:(a) 目标函数中存在分位数函数,并且该函数不可导,无法直接使用端到端的方式优化偏AUC指标;(b) 现有的关于偏AUC指标优化基本采用逐对的损失函数,不适应端到端的方式。为了解决以上问题,本文提出一种逐样本的minimax深度学习框架(Asymptotically Unbiased Instance-wise Regularized Partial AUC Optimization)去优化偏AUC指标。首先,为了克服难点 (a),本文采用一种可微分的替代优化损失ATK loss (Average Top-k Loss),该损失在最优点处计算得到的结果与原始分位数函数一致。为了解决难点 (b),本文采用现有的一种逐样本的AUC优化等价形式,并结合ATK loss将原始优化框架推广到了偏AUC指标优化中。在九个基准数据集上的实验表明,本文所提出的方法能有效提升模型的偏AUC指标。
  图 3本文所优化的偏AUC指标
  4. Exploring Non-Monotonic Latent Alignments for Non-Autoregressive Machine Translation (Chenze Shao, Yang Feng)
  非自回归翻译模型能够并行生成整句译文,在解码速度上具有非常大的优势,但由于交叉熵损失无法正确地评估模型的输出,非自回归模型的性能与自回归模型有很大差距。基于CTC损失的非自回归模型能够建模参考译文与模型输出的隐式对齐,因此大幅提升了非自回归模型的性能水平,目前已成为非自回归机器翻译的主流模型之一。然而,CTC损失最早是为语音识别任务设计的,只能建模参考译文与模型输出间的单调对齐,无法处理机器翻译中普遍存在的非单调对齐现象(如图 4所示),这是非自回归机器翻译领域的一个open problem。在本文中,我们针对这个问题做了系统性的研究,将对齐空间扩展为非单调隐式对齐,并考虑所有与参考译文相关的对齐来计算损失。基于此,我们提出了基于二分图匹配和n元组匹配的两种解决方案,均能显著改善非自回归模型的翻译质量。在多个翻译数据集上,我们的最佳方法均达到了与自回归模型相当的性能,并保持着对自回归模型十倍以上的解码加速。
  图 4非单调对齐现象
学术活动

【会议出访】多媒体计算与多模态智能组蒋树强老师、王树徽老师参加ICME2017


  IEEE 举办的“International Conference on Multimedia & Expo”是多媒体技术研究领域的年度国际会议。自2000年在New York 举办第一届会议以来,至2017年已是18届。ICME 2017在时尚国际化大都市中国香港举办。此次ICME 2017共收到600多篇投稿,总共录用200篇左右,录取率约在30%,其中分组报告(oral)论文数量在80篇以内,录取率约为12%。可见该会的论文平均水平在不断提高。蒋树强和王树徽代表中科院计算所智能信息处理实验室参加了此次国际会议,全程参加了大会多个主题报告和tutorial报告,了解同行的研究进展,并与国内外研究学者开展了广泛深入的交流。
          
  在7月11日上午的poster session当中,蒋树强在此次会议上介绍了课题组在图像中关系检测方面的论文“Visual Relationship Detection with Object Spatial Distribution”。在报告过程中,与会者针对所提出方法的视觉关系类型、物体空间上下文建模等方面的技术思路和现有方法的比较方面进行了提问,在交流过程中作者也受到了较多的启发。在7月12日图像标题生成的oral session当中,蒋树强作为论文“Keyword-driven Image Captioning via Context-dependent Bilateral LSTM”的合作者,听取了论文第一作者张晓丹的讲解,并同与会者进行了会后的讨论和交流,对基于深度循环神经网络的图像摘要技术的未来发展趋势进行了展望。
          
  在7月12日上午的Oral Session中,王树徽代表吴益灵、张维刚和黄庆明对“ONLINE LOW-RANK SIMILARITY FUNCTION LEARNING WITH ADAPTIVE RELATIVE MARGIN FOR CROSS-MODAL RETRIEVAL”进行了介绍。在该研究中提出了一种在线低秩的跨模态关联学习的方法,并在两个公开数据库上对一些经典算法进行了深入评测,结果表明所提方法有效实现了在线跨模态相似度学习,应对了跨模态数据的特点。我们的工作获得了来自新加坡、中国香港、中华台北、美国和中国大陆的研究人员的广泛关注,并进行了热烈的交流和探讨。