实验室今年有2篇论文被NeurIPS2020接收,NeurIPS的全称是Neural Information Processing Systems (神经信息处理系统) ,是机器学习领域的国际顶级会议。2篇论文的信息概要介绍如下:
1.Heuristic Domain Adaptation (Shuhao cui, Xuan Jin, Shuhui Wang, Yuan He, Qingming Huang)
在视觉领域适应中,将领域专属特征与领域不变特征分离十分困难。现有方法采用不同种类的先验或直接域差异最小化来解决此问题,这在处理现实情况时缺乏灵活性。其他研究渠道将领域专属的信息表示为渐变的过程,这在消除领域专属特性方面往往不够精确。在本文中,我们从启发式搜索的角度来解决领域不变和领域专属信息的建模问题。我们将现有的特征中导致更大的域差异的部分标识为启发式特征。在启发式特征的指导下,我们构成了启发式域适应(HDA)的基础框架,并具有充分的理论保证。为了满足HDA,在学习过程中,在领域不变和领域专属表示之间的余弦相似度分数和独立性度量会导致在初始状态和最终状态受到约束。同时与启发式搜索的最终条件相似,我们强制启发式网络输出的最终范围较小。因此,我们提出了启发式域适应网络(HDAN),以明确利用启发式表示。大量实验表明,HDAN在无监督DA,多源DA和半监督DA方面已超过了现有方法。
2.Trust the Model When It Is Confident: Masked Model-based Actor-Critic (authors:Feiyang Pan, Jia He, Dandan Tu, Qing He)
人们普遍认为基于模型的强化学习 (model-based RL) 比无模型的强化学习 (model-free RL) 具有更高的样本效率,但在实际应用中,由于模型拟合环境的误差过大,这种观点并不总是正确的。在复杂和嘈杂的环境中,基于模型的强化学习如果不知道何时信任模型 (when to trust the model),则往往难以使用模型。在这项工作中,我们发现即时模型在拟合环境时存在误差,也可以通过更改模型使用的方式来达成样本效率的提升。我们从理论上证明,如果由模型输出的生成数据仅限于模型误差较小的状态-动作对,则策略在模型与真实环境之间的性能差距可以缩小。由此启发,我们只有在模型对其预测有信心时才使用模型与策略进行交互。我们提出了一种新的策略优化算法 M2AC (Masked Model-based Actor-Critic),它最大化了基于模型的价值函数的下界。M2AC基于模型的不确定性实现了一种 mask 机制来决定是否应该使用它的预测。因此,新算法倾向于给出稳健的策略改进。连续控制实验中,与 model-free 算法相比,M2AC 仅用SOTA 算法 SAC 的 1/5 的交互样本就能达到同等效果。在 4 个 MuJoCo 基准环境中,相比 Google 提出的 STEVE 算法分别提升 75%、2500%、30%、130%。在有噪音环境中,相比现有算法 MBPO 在 4 种噪音级别下分别提升 38%、360%、230%、340%。实验体现出M2AC 能够提供鲁邦的策略提升。
附件: