您当前的位置:
实验室新闻

【腾讯科技】中科院计算所陈熙霖:手语交互沟通言行

发布时间: 2008-05-18

陈熙霖:谢谢主持人,谢谢大家,上午好。首先我非常感谢大会给我们提供了这样一个机会,这个机会不是给我的,是给残疾人的。因为我们做这手语差不多有10多年了,我印象中从92年开始做,到现在为止差不多有16、17年了。我非常高兴得看到这10多年终对残疾人的关怀,整个的社会在不断的进步。应该说这个取得了很大的进展,残疾人的生存环境得到了极大的改善,所以非常的感谢大会提供了这样的机会。
我汇报的题目叫做“手语交互·沟通言行”。实际上我们平常的交流都是用语言的。但对残疾人人,特别是对聋人来讲,我们知道在中国古代有一句话叫做“十聋九哑”对大多数的聋人来讲,尽管他不是哑人,但他的言语没有得到有效的开发,我们希望这个工作可以帮助残疾人。

我们为什么讲信息无障碍,我们的人类社会从铜器时代一直到现在的信息时代,在整个社会发展的过程中,早期我们并不关心信息。为什么不关心呢?本身第一个是信息的来源很少,第二个是信息本身没有给我们在生活中达到这么一个重要的程度。现在,我们回想一下这10年。如果大家还记得的话,99年我们的新闻媒体大肆报道的一件事,叫做72小时网络生存实验。当时把这些人放在房间里,给一台计算机和网络看你的生活怎么样,当时有一些人生存了下来。现在我们对网络产生了依赖,假如说我一天不收邮件,真的是心里发慌,即使是度假,也要想办法找一个环境看看邮件,我们已经产生了研究的对网络和邮件的依赖,早期大家叫斯坦福综合症。80年代谈这个的时候,很遥远。我们上网的时候多多少少会有这样的问题,从另一个方面来讲,反映了信息对我们的重要性。我们现在可以足不出户,通过网络得到你需要的一切。包括机票、银行的酒店,甚至是一个月之后的事情全在办公室搞定。但对残疾人来讲却面临很大的挑战。
残疾人的06年的统计,肢体的残疾人占所有残疾人数量的不到30%,但交流有障碍的残疾人大概占到了40.55%恩。在现在的信息社会信息如此的重要,但这些人非常的困难。比如说对残疾人来讲,我们知道现在日常生活、衣食住行,衣食住是大家少不了的,从“行”这个要素来讲,你要出去办事,还不如你在家里办的快。我不知道现在有多少人去逛书店,还有多少人去做研究的,到图书馆,我问到无数的学生问我,陈老师你们那时候没有网络怎么做研究?我说我们去图书馆。现在图书馆已经在很大的程度上成了藏书馆,就是因为信息技术的发展。所以在这时候面临残疾人所面临的挑战。比如说肢体的残疾,可以用语音,国内的包括一些研究机构也做了很好的语音方面的工作。对视力残疾有软件和语音合成。但对听力和言语残疾的人来说,手语对他们就有很大的帮助了。

根据杨老师讲了,信息无障碍的标准,为什么要用手语呢?大家不理解的事是,我们用文字好了,干吗要用手语呢?我不知道大家看电视的时候,当你们看一个英语电影的时候,我相信大家大多数是要看字幕的,但你要看字幕的时候,由于人眼睛特殊的结果,实际上我们的视感细胞只能感觉到粗略的运动。当你盯着字幕的时候,你会忽略掉很多的细节。人在做实验和残疾人做手语的时候,发现手语的速度跟言语是基本相当,但读文字是慢的多。所以这是我们要做手语这个工作的很重要的一点。

我曾经有这样的感慨,我说我们的残疾人数量少,我们的大街上看不到,但你到国外去,特别是发达国家,可以看到很多的残疾人。不是说那些国家的残疾人太多了,实际上是我们的无障碍的设施很缺乏。 比如说我们的残疾人就医的问题,对言语有问题的残疾人不到万不得已的时候,不愿意就医,如果说我们把手语的工作做好,让他们能够和医生进行简单的交流,就会好得多。我们现在手机已经无处不在了,但我们如何把语音识别和手语结合起来,让残疾人在手机上可以听到远方同伴的言语是非常重要的。

手语识别要跟大家介绍的情况是这样的尽管国际上包括国内我们做了10多年了,但这项工作仍然是非常有挑战性的,或者是在小范围内可以使用的工作,还需要大家坚持不懈的努力。我们希望再有3-5年能够把手语识别推向市场。

从1983年开始,这是第一个数据手套的专利。这个是新南威尔士做的手势输入设施。其实手语的方言是很严重的,但现在的标准手语也得到了很大的提高。此外,像乔治华盛顿大学的数据手套也分了手势、方向等等,可以做100多个单词。除此之外,国外还有一些其他的机构在做。国内也有一些机构,比如说国内的自动化手。我们自己做手语我们做了10多年了,到现在为止我们做的手语识别是国际上词汇量最大的系统。除此之外,还有一些其他的机构也在做,包括清华。

手语的研究我们知道除了用手套以外,还有一个很重要的问题,就是你带的手套很昂贵,所以人们一直希望像人一样,通过视觉的办法,可以看到手势的表达,所以在这方面也有这样的工作。包括这样的工作,把摄像机带在眼睛上,但从手语的感觉来讲,还是有一定的局限的。因为我们看到别人做手语的时候是在对面的,所以对面应该是最佳的视角。

除此之外,其他的研究者也做了大量的工作。

在应用上,实际上日本的日立在96年的时候,就曾经把日本手语的识别和合成结合起来,做了一个自动售票的系统。这里已经有应用的。另外,IBM实际上在去年,做了一个SiSi的系统。这个系统现在没有中国的手语。我们在92年的时候,向1300多个聋校进行了发放。包括中国手语字典2004版后面有一张光盘,那个手语也是我们项目组推荐的。

中国的手语有它的特殊性,我们现在的手语基本上有手势词,包括了30个手语的字母和声调。做手语识别和合成实际上是这样的,我们看到这一端是残疾人,这一端是我们的健全人。我们希望把语音通过合成的方式,让残疾人可以理解。反过来讲,残疾人通过手语的表达,能够被我们普通人理解,转化成语音和文字。在中国手语里,实际上是配合的手形、动作、面部表情和朝向来表达的。面部表情可以辅助提高理解20-30%。做这样的工作我们前后做了两件实,第一个是手语手套,第二个是用是觉得办法来做。一会儿我可以看一下例子。因为手相对于身体来说很重要,所以我们在手上有位置跟踪器。整个的识别的流程,包括从特征提取,预匹配。为什么要强调快速呢?因为有5000多个词,要立刻的形成文本。这个数据量是非常的大。所以可能的组合是10的八次方,这样的情况下如何做快速的识别是一个很大的挑战。而且不同的手语的长度是不一样的。比如“房子”是这样的手势。这个手势是“坐井观天”。所以长度是很不一样的。这也是一个需要解决的技术问题。

我给大家看一段视频。(放视频)这是一个手语的识别过程。这是最后识别出来以后,投入语音合成软件表达出来。除此之外,因为刚才说了数据手套因为价格很昂贵,不好多用。我们可以把一个标准的手语当做一个模板,把另外一个手语过程通过另外一个摄像机来看。他们中间会形成一个对应的关系,如果这两个之间满足供应的关系,我认为它是一个动作,完成一个手语识别的过程。说起来容易,但做起来特征的匹配,包括到最后的识别是一个非常复杂的过程,这方面我们已经做了差不多了3年了。

实际上它的本质的过程是,把一个三维的动作,通过两维轨迹做匹配。这是一个识别跟踪的过程,为什么大家可以看到在识别的过程中,我们始终盯着脸呢?因为手语实际上是相对于身体的。比如说“我”这样的词,手势是完全一样的,所以相对位置就成为了非常关键的因素。

除此之外在合成方面,为了让聋人理解世界我们需要把大量的数据变成合成语音出来。我们分成了两个方面,一个是基于录像的方法,另一个是基于动画合成的方法。我们是期望基于动画来做。这样做的工作的好处是,可以把角色和动作分离。同时可以灵活的修改手语的动作,可以加入表情和心思。我给大家看一下软件的例子。在这儿,这段话“谢谢大家对残疾人事业的关心”。我不知道大家底下有没有朋友可以看懂这段话,这个是在标准手语辞典里带的。我们知道,这些年普通话普及得很快,普及快的原因是因为电视。随着手语的普及和标准软件的普及,对后面会起到很大的作用。我们可以看一下,比如说同样的动作,我换一个角色,因为很多的孩子喜欢动画的角色。可以根据学习者的要求把它调节的快一点、慢一点。

简单的总结一下,从国内外来讲,从手语和手势方面做了大量的工作。但是,从手语识别来讲,到目前为止技术上有了一定的可能性。主要是非特定人大词汇量、连续自然的识别。从合成来讲,已经在电视播报、教学、网站上有一些应用,还需要推广。把面部表情的合成加进来,让人理解的更好。尽管我们已经做了10多年,但前面的路依然很长,非常感谢大家的关心。

这个事虽然是我们一个团队来做,但领导的引导对这项工作起了非常重要的工作。我们有一些研究者还在这个团队里工作,还有一些研究者去了其他的单位,所以我们的手语得到了更大的推广。在数据的收集过程中,聋校的师生给我们提供了很多的帮助,所以在这里谢谢大家。


附件: