按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
成法文。当你的中心视线不断地从一个字移到另一个字的时候,你看到的每个字都是法
文,于是整个屏幕看起来是百分之百的法文。但是,眼球没有被跟踪的旁观者看到的屏
幕,却大约99%都是英文(也就是说,除了戴着跟踪器的那个人正在看的字是法文外,
其他的字都是英文)。
更现代的眼球跟踪系统则采用远距离电视摄像头,因此用户不需要戴任何装置。能
显像的电信会议配置尤其适合进行眼球跟踪,因为用户往往隔着相对固定的距离坐在屏
幕前面,而且你通常都会注视着和你进行远端通信的那个人的眼睛(电脑会知道眼睛的
位置)。
电脑越清楚你的位置、姿势和眼睛的特点,就越容易掌握你注视的方向。具有讽刺
意味的是,这种利用眼睛作为输入装置的异乎寻常的媒介可能最先应用在一个平淡无奇
的结构中,即坐在电脑桌前的人身上。
当然,如果你把眼睛(看)和另外一种输入工具——嘴巴(说)同时使用,效果会
更好。
北极星书库|| ebook007/ 5、咱们能不能聊聊弦外之音
对于大多数人而言,打字并不是一种理想的界面。假如我们能和电脑说话,那么即
使是最坚定的反机器分子,大概也会以更大的热情来使用电脑。但是,目前的电脑仍然
又聋又哑。这究竟是为什么呢?
电脑在语音识别方面一直没有多大的进展,主要原因不在于缺乏技术,而在于缺乏
眼光。每当我在语音识别的成果展示会或产品广告中,看到人们拿着麦克风说话时,我
都很奇怪:难道他们真的忘了,说话最大的价值之一就在于能让双手空出来做别的事情
吗?当我看到人们把脸贴近屏幕讲话时,我也很奇怪:难道他们忘了,能够遥控是使用
声音的原因之一吗?而当我听到人们要求设计出能够识别出各个独立用户的语音系统时,
我问自己:他们是不是忘了,我们是在和个人电脑说话,而不是在和公用电脑说话?为
什么似乎每个人解决问题的着眼点都落在错误的方面呢?
原因很简单。直到最近,我们一直被两个带有误导性的观念所驱使。第一个观念是
受到老式电话通信系统的影响,希望任何人在任何地方都能拿起话筒对电脑发号施令,
而不需要和接线员对话,而且不管说话的人怎样南腔北调都无关紧要。另外一个挥之不
去的想法来自于办公自动化——我们希望有一种会说话的打字机,我们对着它一口气不
停他说,它能一字不差地把我们的口述转化成文字记录下来。由于大家一直只把注意力
放在这两个方面,使我们拖延多年,始终无法实现一些更容易实现的(同时也是有用的)
目标,即让电脑在高度个人化而且互动的环境中,识别并了解对话内容。
我们也忽略了说话在文字以外的价值。举例来说,今天的电脑需要人全神贯注。你
通常都必须正襟危坐,同时把注意力放在互动的过程和互动的内容上。在走来走去时使
用电脑,或在有多组对话时让它参与其中的一组,简直是不可能的。语音识别可以改变
这一切。
能够在一臂远的距离之外使用电脑,是非常重要的事情。想象一下,假如你和别人
说话的时候,他、她的鼻子尖老是凑到你的脸上,那是什么感觉!我们通常都隔着一定
的距离与别人讲话,偶尔还会转过身去同时做些别的事情。甚至有时已经走到别的地方
而互相看不见了,还在说着话。这种情况屡见不鲜。我希望有一部在“听力范围”之内
的电脑,它必须能把说话的声音和周围的杂音(例如空调或飞机在头顶上飞过的声音)
区分开来。
讲话胜于文字的另一个原因是,它可以有其他附带方式来传递信息。家里有小孩或
养了宠物的人都知道,怎么样讲话可能比讲什么话更重要。说话的语气非常关键。例如,
不管主人如何吹牛,说他、她宠爱的小狗如何如何,小狗似乎只对语调有反应,它内在
的分析复杂词汇的能力基本为零。
说出来的话除了字面的意思之外,同时传递了大量的信息。讲话的时候,我们使用
完全一样的字眼,可以表达或激情洋溢、或嘲讽、或愤怒、或闪烁暧昧、或曲意逢迎、
或精疲力竭等等不同的情绪。在电脑语音识别的研究中,大家都忽略了这些细微的差异,
更糟的是,把它们视为暇疵,而不是特点。然而,正是这些特质,使说话成为比打字更
丰富的输入媒介。让电脑“听话”
假如你的外语能力还不错,但是还不到应对自如的地步,你会发现,要听懂饱受杂
音干扰的新闻广播实在很困难。相反,对于一个能把外语说得极为流利的人而言,这些
杂音充其量只是扰人罢了。识别语言和理解语言,二者密不可分。
目前,电脑无法像你我一样,先对某件事的意义建立共识,进而理解事物的意义。
虽然未来的电脑无疑会具有更多智能,目前我们仍不得不先设法解决机器的语音识别能
力问题,而把机器的理解力问题搁置一边。一旦把这两项任务予以分化,路该怎么走就
很清楚了,我们必须把口语中的单字,变成电脑可读的命令(mand)。语音识别问题
有三个变数:词汇量、机器对说话者的依赖程度以及字的关联性,所谓字的关联性,是
指机器能在多大程度上依照人们日常讲话中的自然强弱节奏把单字含混在一起。
我们可以把语音识别的这三个方面想象成三维立体轴。在词汇轴上,需要识别的字
越少,对电脑而言就越容易。假如系统事先就知道说话的人是谁,问题就更简单了。如
果说话的人能一个字一个字分开发音,电脑就听得更明白,识别起来也就更容易。
在这三条轴的起始点,我们可以找到少得不能再少、完全依赖于说话者语音的词汇,
念出这些词汇的时候,字与字之间必须有明——显——的——停——顿。
当我们顺着任何一条轴移动的时候,也就是说,增加电脑所能识别的词汇,让系统
能够服务于任何说话者,或是容许字与字相连的程度越来越高,在这种情况下,每前进
一步,都会使问题变得越来越困难。当到达三条轴的远端时,我们期望电脑能够识别任
何人说的任何字,以及“印(任)何程度”的含混字。人们通常都认为,我们必须在两
条或三条轴上都达到最远端时,语音识别系统才能对人类有用。这完全不对。
让我们一个一个来考虑。谈到词汇多寡的时候,我们可能会问:多少才算多呢,50
0、5000还是5 个字?但这个问题其实应该是:在任何时候,电脑存储器中究竟需要
多少它可以识别的单字?这个问题提示我们把词汇根据上下文分成组,这样在需要的时
候就可以把大群词组放进存储器中。当我要求我的电脑接听电话时,它会把信息输入我
的电子电话本。当我计划到什么地方旅行时,它则把地名输入到上面。
假如你把词汇量看成在任何情况下都需要的一组字——称为“字窗”(wordwindow
s)一那么电脑只需要从一个小得多的字音库中拣字就可以了,这一字音库只要有500个
字左右就够了,不需要5 个那么多。
人们所以假设需要有能够识别各个独立讲话人的语音识别系统,是由于这种功能是
过去电话公司的一项要求,电话公司的中央电脑必须能听懂每个人的话,提供一种“通
用服务”。今天,电脑的普及率更高,而且更加个人化。我们在网络的外围——通过个
人电脑、话筒,或经由一小块智能卡(smartcard)的协助,能够完成更多的语音识别。
如果我想在电话亭里和一部航空公司的电脑谈话,我可以先接通我的家用电脑或拿出我
的袖珍型电脑,让它先替我把声音转换成机器看得懂的信号,然后,再和航空公司的电
脑联络。
第三个问题是字音的模糊性问题。和电脑说话的时候,我们不希望像一个观光客对
外国小孩说话一样,夸张地吐出每个单字,而且每念一个字,都停顿一下。因此这个轴
最具挑战性。但是我们也可以把问题稍稍简化,也就是把语言看成许多字一起发出的声
音,而不是许多单个字的声音。事实上,处理这种连成一片的字音,很可能正是你的电
脑走向个人化的必经过程和必须接受的训练的一部分。
当我们把讲话看成一种互动的和对话的媒介时,我们离语音识别中最容易的那部分
已经没有多远了。字典里找不到的字
讲话这种媒体常常充斥着字典里找不到的字音。言谈不仅比白纸黑字更多姿多彩,
而且对话中的特点,例如形体语言这样的非文字语言的运用,往往能使对话浮现额外的
意义。
1978年,我们在麻省理工学院采用了一套先进的、依赖于说话者发音的、能够识别
连续语音的语音识别系统。但是就像当时和现在的许多同类系统一样,当说话者的声音
中带有哪怕些微的紧张时,系统就会失误。当研究生向我们的赞助者演示这套系统时,
我们希望它表现得完美元缺。结果,由于过度焦虑,作演示的研究生声音绷得紧紧的,
系统也就完全失灵。
几年以后,另外一个学生想到一个绝妙的主意:找出用户说话时会在什么地方停顿,
并且设走电脑程序,让电脑在适当的时候发出“啊哈”的声音;这样,当一个人和机器
说话的时候,机器每隔一会几就会发出“啊哈——”、“啊——哈”或“啊哈”。这些
声音产生了极大的安抚效果(就好像机器在鼓励使用者继续对话),使用者变得比较放
松,而系统的表现也突飞猛进。
这个观念体现了两点重要的意义:第一,并非所有的发音都需要有字面上的意义,
在沟通中才有价值;第二,有