中国科学院智能信息处理重点实验室依托于中国科学院计算技术研究所,成立于1987年。在实验室学术委员会的学术指导和计算技术研究所的大力支持下,实验室逐渐发展成为我国智能信息处理领域的重要基础研究基地。
  实验室的研究工作围绕国家需求和国际科技发展前沿,同时考虑服务于国民经济建设的需要。实验室的定位是探索机器感知与认知的机理、理论、方法、技术,开展基础性研究以及相关的应用基础性研究,提出新的概念与模型,解决核心技术问题,并构建相应的系统。实验室的目标是在智能信息处理基础理论研究领域达到世界一流水平,培育前瞻思想,产出一流成果,培养基础人才,从而为智能技术形成智能产业提供基础原理、核心技术以及关键应用原型,为“人工智能”走向“人工智能+”提供技术支撑,为国家信息技术的长期发展储备知识、创新技术和人才。
  智能信息处理重点实验室以信息的智能处理为主线,依托计算技术研究所在系统、网络等方面的优势,从信息的获取、表示、理解与转换等几个方面进行布局,构成了一个互为依托的有机整体。实验室的主要研究方向,包括计算机视觉、模式识别、机器学习与数据挖掘、自然语言处理与理解、多媒体技术、医疗影像分析、生物信息学、大规模知识处理和智能人机接口等。
        过去十年来,实验室在中国计算机学会认定的A类国际刊物(如IEEE T PAMI, IEEE T IP, IJCV,AI等)以及领域A类国际会议(如CVPR,ICCV,ACL,AAAI, IJCAI, ACM MM等)上发表论文200余篇,获得发明专利授权100余项,所发表的论文被国内外同行引用超过30,000次。在高维、非线性视觉模式方面的研究成果获2015年度国家自然科学二等奖,在神经机器翻译方面的工作获得ACL大会的Best Long Paper Award。
        在应用方面,所研发的人脸识别、机器翻译、知识处理、蛋白质序列鉴定技术被成功的产业化或被华为等合作伙伴规模化应用到其产品中,产生了良好的经济和社会效益。
实验室新闻
31 2025.10
实验室团队荣获ICCV 2025连续手语识别竞赛冠军
2025年10月20日,ICCV 2025多模态连续手语识别竞赛(The First Multimodal Sign Language Recognition Challenge, MSLR)公布榜单,实验室团队(闵越聪、杨一帆、焦培淇、南子皙、陈熙霖)获得连续手语识别赛道“非特定人识别”和“未见语句识别”两个任务的冠军。实验室团队长期深耕于手语识别与翻译领域,这是继在今年WWW 2025 跨视角手语孤立词识别竞赛(Cross-View Isolated Sign Language Recognition)中获得了基于RGB和RGB-D模态输入两个任务的冠军之后本年度再次获奖。图1. 闵越聪助理研究员领取比赛证书ICCV 2025 MSLR聚焦于多模态场景下的连续手语识别,旨在推动从单一视觉模态(如RGB视频)向融合姿态、雷达、深度等多模态的识别系统转变。针对真实应用中手语交流所面临的实际挑战,连续手语识别竞赛设置了非特定人识别与未见语句识别两个任务,以促进模型在跨手语者与跨语义结构泛化能力方面的提升。实验室团队在前期提出的VAC、CoSign等连续手语识别方法基础上,进一步引入跨语种预训练与动静态信息融合等方法,有效增强了模型的鲁棒性与泛化能力。最终,团队所提出方法以字错误率(WER)绝对值低于第二名2.2%和19.58%的显著优势在非特定人识别与未见语句识别两个任务中均获得冠军。图2. ICCV 2025 MSLR竞赛 团队获奖证书今年早些时候,团队还在WWW 2025 跨视角手语孤立词识别竞赛(Cross-View Isolated Sign Language Recognition, CV-ISLR)中同样取得冠军的佳绩。该竞赛旨在关注多视角场景下的手语识别问题。WWW2025竞赛评测涵盖了实验室场景、自然场景、合成背景与时序扰动四个子集,并设置了基于RGB与RGB-D模态输入的两个任务。实验室团队(彭钰婷、焦培淇、邹鸿刚、闵越聪、陈熙霖)通过跨视角数据增强与多模态融合等关键技术,有效提升了模型在未见视角下的识别性能,获得了RGB与RGB-D两个任务的冠军。图3. WWW 2025 CV-ISLR竞赛 团队获奖证书
科研动态

实验室关于探索多模态大模型在多样化以人为中心的场景中能力等的文章被ICLR 2026接收

2026年1月25日,实验室4篇论文被ICLR 2026接收。ICLR会议的全称是International Conference on Learning Representations,是机器学习领域旗舰国际会议。会议将于2026年4月23日至27日在巴西里约热内卢召开。论文简介如下:    1. HumanPCR: Probing MLLM Capabilities in Diverse Human-Centric Scenes(Keliang Li, Hongze Shen, Hao Shi, Ruibing Hou, Hong Chang, Jie Huang, Chenghao Jia, Wen Wang, Yiling Wu, Dongmei Jiang, Shiguang Shan, Xilin Chen)通用人工智能的愿景要求多模态大语言模型(MLLMs)能够在多样且复杂的场景中深入理解人类行为。为了严格评估这一能力,我们提出了 HumanPCR,这是一个基于层级分类体系(感知、理解和推理)的综合评估套件。感知(Human-P)和理解(Human-C)层级涵盖了如姿态和视线估计等细粒度任务的 6,000 多个问题,而推理层级(Human-R)提出了一个人工精心筛选的、具有挑战性的多证据视频推理测试。与现有的通常依赖问题中明确指出的“指代视觉证据”的基准不同,Human-R 要求模型整合离散的视觉线索,更关键的是,要求模型具备主动寻找“主动视觉证据”(proactive visual evidence)的能力——即那些对于推理至关重要但未在文本提示中提及的隐含视觉上下文。对 30 多种最先进模型的广泛评估表明,当前的 MLLMs 在涉及空间感知和心智推理等基本能力的人相关任务上表现不佳,并且在主动收集必要的视觉证据进行推理上面临巨大困难。然而,像 o3 这样的推理增强模型显示出了减少此类主动证据遗漏错误的潜力,为以人为中心的视觉理解指明了未来的发展方向。    2. Revisiting Multimodal Positional Encoding in Vision-Language Models (Jie Huang, Xuejing Liu, Sibo Song, Ruibing Hou, Hong Chang, Junyang Lin, Shuai Bai)多模态位置编码是视觉语言模型的关键组成部分,但目前学界对此缺乏系统性的研究。本文通过深入探究多模态旋转位置嵌入 (Rotary Positional Embedding, RoPE) 的两个核心要素——位置设计与频率分配,对其进行了全面分析。基于大量的实验,我们总结出三个关键的设计准则:位置一致性、频谱充分利用以及文本先验保持,从而确保模型能够清晰地理解多模态序列的时空布局、学习多种序列长度的位置表征,并继承来自预训练语言模型的位置先验。依据这些洞见,我们提出了两种无需改变模型架构、即插即用的方法:多头旋转位置嵌入 (Multi-Head RoPE, MHRoPE) 和交错多模态旋转位置嵌入 (MRoPE-Interleave, MRoPE-I)。实验结果表明,我们的方法在多种基准测试上稳定超越了现有的多模态位置编码方法,在通用还是细粒度的多模态理解任务上取得了明显的性能提升。更多细节请参考我们的论文 https://arxiv.org/abs/2510.23095。项目代码:https://github.com/JJJYmmm/Multimodal-RoPEs    3. Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling (Xiaolong Tang, Meina Kan, Shiguang Shan, Xilin Chen)安全可行的轨迹规划对于真实世界的自动驾驶系统至关重要。然而,现有的基于学习的规划器严重依赖专家示范数据,这不仅缺乏显式的安全意识,而且还可能从次优的人类驾驶数据中继承不良行为,例如超速等。受到大语言模型成功的启发,我们提出了 Plan-R1,一种两阶段的轨迹规划框架,将原则对齐与行为学习进行解耦。在第一阶段,我们在专家数据上预训练一个通用轨迹预测器,以捕获多样化且类人化的驾驶行为。 在第二阶段,我们使用基于规则的奖励,并通过 GRPO对模型进行微调,从而显式地将自车规划与安全性、舒适性以及交通规则遵守等原则对齐。这种两阶段范式在保留类人驾驶行为的同时,增强了安全意识,并能够剔除示范数据中不理想的行为模式。此外,我们发现将 GRPO 直接应用于规划任务存在一个关键局限:组内归一化会抹去不同组之间的尺度差异。这会导致那些稀有但高方差的安全违规组,与大量但低方差的安全组具有相似的优势值,从而抑制了对安全关键目标的优化。 为了解决这一问题,我们提出了 Variance-Decoupled GRPO(VD-GRPO)。该方法用中心化与固定尺度缩放替代归一化,从而保留奖励的绝对幅度,确保安全关键目标在整个训练过程中始终占据主导地位。在 nuPlan 基准上的实验表明,Plan-R1 显著提升了规划的安全性与可行性,并取得了最先进的性能,尤其在真实的反应式驾驶场景中表现突出。项目代码:https://github.com/XiaolongTang23/Plan-R1    4. Adaptive Nonlinear Compression for Large Foundation Models (Liang Xu, Shufan Shen, Qingming Huang, Yao Zhu, Xiangyang Ji, Shuhui Wang)尽管大型基础模型(LFMs)的性能卓越,但其庞大的内存需求导致对模型压缩方法的需求日益增长。虽然低秩近似(Low-rank approximation)提供了一种硬件友好的解决方案,但现有的线性方法由于秩截断(Rank truncation)会导致严重的信息丢失。非线性核函数可以通过在高维空间中操作来增强表达能力,但大多数核函数会引入巨大的计算开销,且难以支持跨异构矩阵的自适应秩分配。在本文中,我们提出了一种名为基于自适应预算分配的非线性低秩近似(NLA)的压缩方法。我们不再依赖线性乘积,而是采用带有前向优化算子的分段线性核来近似权重矩阵,从而增强了从低秩矩阵中恢复高秩权重矩阵的能力。此外,考虑到不同权重矩阵具有异构的表示能力和动态敏感性,我们在重训练过程中通过三次稀疏调度(Cubic sparsity scheduling),为每个权重矩阵自适应地分配压缩率。通过在多种数据集上对大语言模型和视觉模型的评估实验,我们证明 NLA 能在实现更高压缩率的同时,性能显著优于现有低秩分解方法。
学术活动

【学术报告】中国科学院-马普学会计算生物学伙伴研究所 汪思佳 研究员于1月13日来访实验室

报告题目:人类外貌表型研究中的影像学应用时间:1月13日下午15:00-16:00地点:计算所501会议室报告摘要:人类表型组研究需要对各个层面的表型进行高通量的量化分析,图像 分析就成为了研究人体外貌表型的重要工具。我将介绍若干利用图像 分析技术量化研究人体外貌表型的案例,包括3D人脸图像分析、DXA 影像分析、面部衰老特征分析等。以上案例凸显出针对不同生物学问 题,非常有必要利用相应合理的图像分析方法来解决。也希望通过以 上案例,为图像分析技术在生物医学领域的应用拓宽新的思路。报告人简介:汪思佳,中国科学院-马普学会计算生物学伙伴研究所研究员、博士生 导师。现任中国科学院计算生物学重点实验室副主任、中国科学院上 海生物医学大数据中心副主任、国际人类表型组计划执行委员会常务 委员兼秘书长。入选国家重要人才计划,先后获得国家基金委“ 优秀青年科学基金”与“重大研究计划”资助。在Cell、Am J Hum Genet等国际知名期刊上发表论文三十余篇,论文累计引用2000余次 。担任Ann Hum Genet杂志的资深副主编。目前课题组的主要科研方 向为开发及运用系统组学分析方法及人工智能算法,利用人群队列产 生的生物大数据,构建人类外貌相关表型与基因及其它相关表型的互 作网络,建立预测个体健康状况的算法模型。