2022年8月2日,实验室3篇论文被CIKM会议录用。CIKM全称是ACM International Conference on Information and Knowledge Management(国际计算机学会信息与知识管理大会),是CCF-B类国际会议,也是信息检索和数据挖掘领域重要的学术会议之一。此次会议计划于2022年10月17日-21日在美国佐治亚州亚特兰大以线上线下混合的形式召开。
1. Calibrated Conversion Rate Prediction via Knowledge Distillation under Delayed Feedback in Online Advertising (Yuyao Guo, Haoming Li, Xiang Ao, Min Lu, Dapeng Liu, Lei Xiao, Jie Jiang and Qing He)
此工作简介如下:现实世界的机器学习决策系统需要输出良好校准的预测概率,即模型预测概率值和真实概率值相匹配。然而模型容量、分布偏移等因素会影响模型的校准结果,即高准确率不能保证低的校准误差,导致在实际应用中缺乏可信度和可解释性。在线广告系统中,转化率预测是最重要的任务之一,直接影响竞价、付费等环节。而由于延迟反馈现象的普遍存在,即广告从曝光或点击到最终转化可能存在几分钟到数日的延迟,系统需要在标签完整性和样本新鲜度之间进行权衡,导致已有的校准方法可能无法对转化率预测值进行良好校准。因此,本文提出利用知识蒸馏进行后处理校准的方法,首先训练基本的转化率预测模型并构造验证集,在此基础上利用完全回流的样本训练教师模型以减小标签误差,并在验证集上使用蒸馏技术结合教师模型和观测标签训练学生模型对基本模型进行校准。通过以上设计,所提出方法可以针对延迟反馈场景对预测值进行校准,调整蒸馏权重适配不同延迟模式的数据,并且可以扩展至不同的基本模型,从而作为一个轻量级的模块在广告系统中直接使用。在两个公开数据集上进行的实验表明,所提出的方法优于其他后处理校准方法和基础的延迟反馈方法,在降低校准误差的同时对预测准确率也有一定的提升。
2. Explainable Graph-based Fraud Detection via Neural Meta-graph Search (Zidi Qin, Yang Liu, Qing He and Xiang Ao)
此工作简介如下:基于图神经网络的欺诈检测方法在反欺诈方面获得了显著成功,但很少有研究同等关注模型的性能和可解释性。本文试图在保持图欺诈检测方法高性能的同时考虑模型可解释性,因此提出了一种名为NGS(缩写自Neural Meta-graph Search)的方法。其中,图神经网络的消息传递过程被形式化为一个元图,并设计了一个可微的神经架构搜索来寻找最优的消息传递结构。所提出的方法还实现了聚合多个元图进行最终预测,从而进一步增强了模型的性能。在两个真实数据集上的实验表明,NGS的性能优于最先进的基线方法。此外,搜索到的元图简洁地描述了模型预测的依赖信息,从而对模型的预测给出了一种较为直观的解释。
3. Along the Time: Timeline-traced Embedding for Temporal Knowledge Graph Completion (Fuwei Zhang, Zhao Zhang, Xiang Ao, Fuzhen Zhuang, Yongjun Xu, Qing He)
此工作简介如下:近年来,静态知识图谱中实体和关系表示的知识图嵌入方法取得了显著进展。但有些知识会随着时间不断变化。为了表示特定时间内发生的事件,人们提出了时序知识图谱嵌入模型以学习时间相关的知识表示。然而,现有的大多数模型忽略了语义信息和时间信息的独立性。 作者发现,当前的模型很难区分不同时间的同一个实体或关系的表示。为此,本文提出了一种跟踪时间线的知识图嵌入方法 (TLT-KGE) 用于时序知识图谱补全。TLT-KGE的目的是将单独的实体/关系向量和时间向量共同构建成一个复数向量或四元数向量。在此基础上,TLT-KGE将语义信息和时间信息作为复数空间或四元数空间中的不同数轴。随后,设计了共享时间窗以及时间-关系结合模块更好地建立语义信息和时间信息之间的联系。 通过以上设计,所提出方法既能区分语义信息和时间信息的独立性,又能建立语义信息和时间信息之间的联系。在三个公开数据集上的实验结果表明,TLT-KGE相比于其他模型有显著的性能提升。
附件: