数据库

1、  数据集名称: 计算所基于Web的双语平行语料库B
       数据集描述及简介:该语料是从互联网上自动获取的,主要来源是双语混和网页,比如政府的双语官方网站、双语新闻网站和双语学习网站等等。该语料 库共包含100万个双语平行句对,随机抽样2691句由8个人进行人工校验,统计得到平均正确率是95.5%。基于Web的双语平行语料库包含多个领域,领域分布如下:房产2%,卫生7%,汽车3%,旅游2%,财经6%,电脑9%,教育18%,体育4%,人才3%,科技18%,娱乐28%.
      发布时间: 2012年4月
      下载地址或获取方式: 可以联系中文语言资源联盟(CLDC)获取:http://www.chineseldc.org/index.html
      数据集贡献者: 中国科学院计算技术研究所智能信息重点实验室自然语言处理研究组

2 、 数据集名称: 计算所基于Web的双语平行语料库C
       数据集描述及简介:语料是从互联网上自动获取的,主要来源是双语混和网页,比如政府的双语官方网站、双语新闻网站和双语学习网站等等。该语料库共包含100万个双语平行句对,随机抽样2691句由8个人进行人工校验,统计得到平均正确率是95.5%。基于Web的双语平行语料库包含多个领域,领域分布如下:房产2%,卫生7%,汽车3%,旅游2%,财经6%,电脑9%,教育18%,体育4%,人才3%,科技18%,娱乐28%.
       发布时间: 2012年4月
       下载地址或获取方式: 可以联系中文语言资源联盟(CLDC)获取:http://www.chineseldc.org/index.html
       数据集贡献者: 中国科学院计算技术研究所智能信息重点实验室自然语言处理研究组

3 、 数据集名称: LFW 准正面人脸年龄、性别、种族标注数据集
       数据集描述及简介:对来自LFW的4211张准正面图像,利用Amazon MTurk,由3人为每张图像进行标注,然后利用均值或投票确定照片中人的年龄、性别、种族。可以免费用于年龄、性别、种族估计的研究。截止2017.1,已有收到国际上百个科研机构的申请,相关工作被引用50多次。
       发布时间: 2015.6
       下载地址或获取方式: https://sites.google.com/site/huhanhomepage/download
       论文引用: Hu Han, Charles Otto, Xiaoming Liu, and Anil K. Jain. Demographic Estimation from Face Images: Human vs. Machine Performance, IEEE Transactions on Pattern Analysis and Machine Intelligence (T-PAMI), vol. 37, no. 6, pp. 1148-1161, Jun. 2015.
       数据集贡献者: Hu Han, Charles Otto, Xiaoming Liu, and Anil K. Jain

4 、 数据集名称: 基于LFW与YouTube的多模态人脸识别和开集人脸识别协议
       数据集描述及简介:基于LFW与YouTube构造了面向单张图像VS单张图像、单张图像VS多张图像、单张图像VS视频、多张图像VS视频等测试协议,以及开集测试协议,用于验证复杂场景下鲁棒的人脸识别性能。截止2017.1,该协议已被上百个国际科研机构的下载,相关工作被引用60多次。
       发布时间: 2014.12
       下载地址或获取方式: https://sites.google.com/site/huhanhomepage/download
       论文引用: Lacey Best-Rowden, Hu Han*, Charles Otto, Brendan Klare, and Anil K. Jain. Unconstrained Face Recognition: Identifying a Person of Interest from a Media Collection, IEEE Transactions on Information Forensics and Security (T-IFS), vol. 9, no. 12, pp. 2144-2157, Dec. 2014.
       数据集贡献者: Hu Han, Charles Otto, Xiaoming Liu, and Anil K. Jain

5 、 数据集名称: 非可控条件智能手机人脸欺骗数据集
       数据集描述及简介:模拟针对智能手机的人脸欺骗攻击,包含1000人的1000张活体人脸图像和8000张人脸欺骗图像。可以免费用于针对移动设备人脸欺骗的研究。
       发布时间: 2016.6
       下载地址或获取方式: https://sites.google.com/site/huhanhomepage/download
       论文引用: Keyurkumar Patel, Hu Han*, and Anil K. Jain. Secure Face Unlock: Spoof Detection on Smartphones, IEEE Transactions on Information Forensics and Security (T-IFS), vol. 11, no. 10, pp. 2268-2283, Oct. 2016.
       数据集贡献者: Keyurkumar Patel, Hu Han*, and Anil K. Jain

6 、 数据集名称: INSTRE数据集(实例图像识别与搜索数据集)
       数据集描述及简介:整个数据集分成两个不相交的子集,INSTRE-S和INSTRE-M。INSTRE-S包含200个单标签类和23070张图片,是建立在测量单一对象的情况下,只有一个特定的对象实例出现在图像中。INSTRE-M包含50个二元组和5473张图片,是建立在测量多个对象的情况下,每张图像显示两个不同的对象实例。
       发布时间: 2015年1月3号
       下载地址或获取方式: http://vipl.ict.ac.cn/isia/instre/
       论文引用: Shuang Wang, Shuqiang Jiang: INSTRE: A New Benchmark for Instance-Level Object Retrieval and Recognition. TOMCCAP 11(3): 37:1-37:21 (2015)
       数据集贡献者: 王双,蒋树强

7 数据集名称: Geolocation-food 数据集
       数据集描述及简介: 选取了六个地区,共117504张图片。其中,北京187家餐馆,1173道菜,45541张图片。上海198家餐馆,1253道菜,37590张图片。天津78个餐馆,435道菜,10811张图片。南京64个餐馆,328道菜,7895张图片。杭州62家餐馆,371道菜,9124张图片。广州57家餐馆,272道菜,6543张图片。
       发布时间: 2014年
       下载地址或获取方式: http://vipl.ict.ac.cn/isia/datasets_dish/index.html
       论文引用: Ruihan Xu, Luis Herranz, Shuqiang Jiang, Shuang Wang, Xinhang Song, Ramesh Jain: Geolocalized Modeling for Dish Recognition. IEEE Trans. Multimedia 17(8): 1187-1199 (2015)
       数据集贡献者: 徐瑞邯,蒋树强,Luis Herranz

8 、 数据集名称: DEVISIGN
       数据集描述及简介:DEVISIGN中国手语数据库是在微软亚洲研究院的资助下由中国科学院计算技术研究所视觉信息处理和学习研究组(VIPL)构建的。创建该数据库的目标包括:
(1)为世界各地手语识别研究人员进行算法训练和评价提供大规模中国手语数据库;
(2)推动先进的手语识别技术向可实用化的方向发展,尤其是针对未知用户的情况
      目前,DEVISIGN数据库覆盖全部4414个标准中国手语词汇,共包含来自于30个对象的331050个词汇数据。每一个词汇数据由RGB视频和深度及骨架信息构成。数据库包含词汇类内和词汇类间的变化。
      在第一阶段,DEVISIGN数据库会部分公开用于研究目的。由VIPL负责进行数据库发布,并拥有数据库所有视频和文件的版权。
      发布时间: 2014年11
      下载地址或获取方式: 
      论文引用: Xiujuan Chai, Hanjie Wang, Xilin Chen. The DEVISIGN Large Vocabulary of Chinese Sign Language Database and Baseline Evaluations. Technical Report VIPL-TR-14-SLR-001. Key Lab of Intelligent Information Processing of Chinese Academy of Sciences (CAS), Institute of Computing Technology, CAS (2014)
      数据集贡献者: 柴秀娟、王汉杰、尹芳、陈熙霖