新闻 资讯 金融 知识 财经 理财 科技 金融 经济 产品 系统 连接 科技 聚焦
首页 > 金融 > > 正文

语音识别技术 将会引领硅谷的下一次革命

2018-11-03 17:33:28来源:《财富》杂志

短短四年前,亚马逊还只是一家很成功的在线零售商,也是美国商用在线主机服务的主要供应商。此外它有也自己的消费电子产品,即人们熟知的Kindle电子书。Kindle虽然是一款大胆的作品,但考虑到亚马逊本身就是卖书起家,这一尝试自然是可以理解的。现在,亚马逊的Echo智能音箱和它的Alexa语音识别引擎又走进了很多家庭,可以说亚马逊在个人计算与通讯领域,已经掀起了自乔布斯发布iPhone以来的最重要的技术革命。

一开始,它只不过是个看似新奇的小玩意儿。2014年11月,亚马逊发布了Echo智能音箱,它使用了人工智能技术来倾听人类的提问。Echo会扫描联网数据库中的数百万个单词,不论你提出的问题是深邃还是浅显,它都能给出答案。目前,Echo智能音箱的销量已达到4700多万台,其用户来自从阿尔巴尼亚到赞比亚的80多个国家,其服务器每天要回答用户的1.3亿多个问题。

亚马逊的语音识别引擎Alexa得名于亚历山大港的古埃及图书馆,它可以按照用户的要求播放音乐,提供天气预报信息或体育比赛的得分,甚至可以远程调节用户家里的室温。它还会讲笑话,回答一些琐碎的问题,抖个机灵,或者开些无伤大雅的玩笑。(比如你可以让它放个屁来听听)。

亚马逊并没有“发明”语音识别技术,实际上语音识别技术已经发明出来几十年了。亚马逊甚至并不是第一家提供主流语音识别应用的科技巨头。苹果的Siri和谷歌语音助手的上市时间要比它早得多。微软Cortana的发布基本上与Alexa在同一时期。但是随着Echo的广泛成功,语音识别领域的竞争骤然激烈了起来,各大科技厂商纷纷投下重注,试图将这些“智能”家居设备变得跟PC甚至和智能手机一样重要。

正如谷歌的搜索引擎算法彻底改变了人们的信息消费模式,进而颠覆了整个广告行业一样,由人工智能技术驱动的语音识别技术也会推动类似的革命。亚马逊Alexa部门的首席科学家罗希特·普拉萨德表示:“我们想抹平用户使用互联网时的不顺畅,而最自然的方法就是声音。Alexa不是那种一下子给你展示很多搜索结果,然后说‘选一个吧’那种搜索引擎,而是会直接告诉你答案。”

各大科技厂商纷纷将人工智能与语音识别技术相结合,其目的远远不只是为了推出一款圣诞购物季最热卖的小家电这么简单。目前,谷歌、苹果、脸书和微软等公司纷纷砸下重金研发竞品。据投资公司Loup Ventures的分析师吉恩·蒙斯特估算,上述几家科技巨头每年在语音识别技术上的研发支出合计超过了50亿美元,约占年度研发预算总额的10%。他认为,语音识别技术的出现是计算领域的一个“具有重大意义的变化”。他认为,语音指令很快将取代键盘和触屏,成为“我们与互联网交互的最常见的方式”,。

随着各大厂商纷纷投入重注,语音识别助手领域的竞争也变得愈发激烈。从研究公司Canalys提供的数据看,目前亚马逊在这一领域暂时领先,它在全球联网音箱市场上的份额达到了42%。谷歌的Home智能家居设备以34%的份额暂居亚军,它搭载了谷歌自研谷歌助手,据说近期的销量已经反超了亚马逊。苹果的HomePod价格最贵,加入战局也是最晚,虽然市场占有率排名第三,但份额仍远远不如前面两家。去年10月,脸书也推出了自己的Portal系列影音设备,它们也具备部分语音识别功能。尤其值得注意的是,它搭载的也是亚马逊的Alexa语音识别引擎。

当前,联网智能音箱以及类似设备的市场规模已然不小,而且还在继续增长。不过对于这些科技巨头来说,语音识别技术的价值远远超过这些设备本身。据市场研究机构全球市场观察公司(Global Market Insights)的研究,2017年,全球智能音箱市场的销售额是45亿元,预计到2024年将增长至300亿美元。不过这几家科技巨头显然并不在乎卖硬件的这点小钱,比如亚马逊基本是在将Echo保本甚至亏本销售。

在去年欧美地区的假日购物季期间,亚马逊推出了迷你版的Echo Dot音箱,售价只有29美元,ABI研究公司认为这个价格甚至还要低于它的零部件成本。各大厂商之所以肯做赔本生意,就是为了把用户锁定在他们的其它产品和服务上。比如亚马逊就是要通过Echo产品提高亚马逊Prime订阅服务的价值。谷歌则寄希望于语音搜索功能能够引来更多的广告收入。苹果则希望以语音识别技术为工具,将手机、电脑、电视遥控器甚至是车载软件整合在一块,打造一体化的体验。

由于语音识别领域已经吸引了这么多的投资,而且还在快速创新,因此现在预测谁是赢家还为时过早。但有一点大家已经形成了共识,那就是有了人工智能加成的语音识别技术,必然将向今天的智能手机一样,成为我们访问互联网的新用户界面。另外,语音识别技术也将降低人们使用科技的门槛,促进科技的普及。谷歌公司负责谷歌助手与搜索业务的产品与设计的副总裁尼克·福克斯表示:“它让那些不太识字的人也能使用这个系统。另外,人们在开车的时候也可以使用它,做饭的时候也可以用它来听菜谱。每过一段时间,科技就会发生一次结构性的转变。我们认为,语音识别就是这样一种转变。”

虽然如此,但今天的语音识别技术仍然处于比较早期的阶段。它的应用还比较初级,而且它也有一些比较大的风险因素。比如科技公司会不会利用它对用户进行窃听,以及科技公司通过收集公民的语音数据又攫取了多少权力,人们对这些问题都存在着合理的担忧。华盛顿大学电气工程学教授、世界顶级的语音和语言技术科学家玛丽·奥斯坦多夫表示:“有了人工智能语音识别技术,我们就好比从螺旋桨飞机进入了喷气式飞机时代。”她指出,现在的语音识别技术已经能够很好地回答那些直截了当的问题,但在真实语境的对话中,表现得仍然令人失望。“在能识别多少个单词、听懂多少个指令上,人工智能语音识别技术表现得非常出色。但我们毕竟还没进入火箭时代。”

几十年来,科技行业一直坚信,语音识别技术必将成为下一个“杀手级应用”。早在上世纪50年代,贝尔实验室就开发了一个名为奥黛丽(Audrey)的系统,它可以识别从1到9的语音数字。20世纪90年代时已经有了一款名叫Dragon NaturallySpeaking的PC软件,它可以实现简单的语音识别功能,而不需要说话者每说完一个单词就尴尬地停顿一会儿。但直到苹果公司2010年在iPhone上发布了Siri语音助手,消费者才意识到一个拥有强大计算能力的语音识别引擎能做哪些事。

大约就在同一时间段,亚马逊这样一个充满了《星际迷航》式幻想的公司(它的老板贝索斯也是一个正牌《星际》迷)开始畅想,能不能将企业号星际飞船上的那种会说话的电脑变成现实。亚马逊公司的普拉萨德曾发表过上百篇关于语音识别人工智能及相关话题的科学文章,他表示:“在我们的畅想中,未来你可以通过语音与任何服务交互。”而Alexa就是为此而生的。它是一台多才多艺的设备,可以让消费者更容易地与亚马逊进行交互。

随着语音识别技术的进步——也就是计算速度越来越快,价格越来越便宜,越来越普及,因此日益主流化——亚马逊、谷歌、苹果等科技厂商也得以更容易地建立一个无缝的网络,利用语音识别技术,将智能家居设备与他们旗下的其他系统连接起来。比如苹果CarPlay的用户下班路上可以告诉Siri,别忘了在苹果电视上下载最新一集的《权力的游戏》,然后让HomePod等我一回家就开始播放。两年前,谷歌也发布了基于语音识别技术的智能家居产品Home,它将谷歌的音乐服务(YouTube)和最新款的Pixel系列手机和平板产品结合在了一起。换言之,每个科技巨头都将语音识别技术当作了连接其多个数码产品的纽带。

上述几个科技巨头个个都有超强的盈利能力,因此他们都有充足的资金来搞研究和营销,最终拿出的产品也各不相同。苹果和谷歌都有自己的移动操作系统,也就是说,iPhone和所有的安卓手机在出厂时就已预装了Siri或谷歌助手。相比之下,亚马逊就得说服用户将Alexa应用下载到他们的iPhone或安卓手机上了。前华尔街分析师蒙斯特认为:“要打开Alexa语音识别应用,就要比Siri和谷歌助手多花一步,这对亚马逊是一个明显的劣势。” 而相比之下,Siri和谷歌助手只需用户喊一声它们的名字就能激活。

不过,iOS和Android是面向所有第三方开发者的,而Alexa应用同时兼容这两个平台,也就是说,两个平台上的开发者都可以写Alexa的程序。亚马逊CEO杰夫·贝索斯今年早些时候曾在一次财报发布会上称:“有来自150多个国家的数万名开发者”都在构建Alexa的应用程序,并将它们集成到非亚马逊的设备里。而合作伙伴也是各大语音识别应用竞争的一个竞争战场。

现在,Sonos公司的“电声棒”、Jabra公司的耳机,以及宝马、福特、丰田等公司的汽车都已用上了Alexa。谷歌的语音识别程序则被集成到了索尼、铂傲的音响、August公司的智能门锁和飞利浦的LED照明系统上。苹果的HomPod则与First Alert公司的安全防卫系统和Honeywell公司的智能恒温器进行了合作。谷歌副总裁尼克斯表示:“这些合作的好处是将语音识别功能整合到了整个智能家居生态系统,我不用打开手机也能使用应用程序了,我只要说一声:‘让我看看谁在门口’,门前的监控视频就会自动显示出来。总之,它通过统一实现了简化。”

人工智能一直是反乌托邦文化里的常客,特别是在《终结者》和《黑客帝国》(Matrix)系列里,智能机器人甚至造了人类的反,将人类逼到了“亡球灭种”的边缘。不过庆幸的是,现在的我们离被机器人奴役还有很远。不过人工智能技术的进步,以及廉价计算设备的普及,已经让很多具有科幻感的构思成为了现实。早期的语音识别程序虽然也不错,但也没有超过编写它们的程序员的最高水平。但现在这些应用却变得越来越好了,这是因为它们通过互联网与数据中心连接,而且科技公司花了好几年时间,用大量数据对这些算法进行“训练”,使其学会了识别不同的语言模式。

现在,这些人工智能语音识别应用不仅能识别单词、方言和俗语,甚至还能根据上下文分析语义(比如通过分析呼叫中心的客服代表与客户的电话录音,或者分析用户与数字助手的互动)。

(以下图片请横屏观看)

图片来源:Pope: Heinz-Dieter Falkenstein—Getty images; Edison: Bettmann/Getty Images; Audrey: Courtesy of Nokia Bell Labs: Telephone: Sheila Terry—Science Source; Shoebox: Courtesy of IBM Corporate Archives, ? 1961 IBM Corporation; HAL: Kevin Bray—MGM/Photofest; Harpy: Raj Reddy—Youtube; Devices: Courtesy of Amazon, Apple, and Google

语音识别系统既依赖于计算机科学,也依赖于物理学。语音会产生空气振动,语音引擎则会接受模拟声波,然后将其转换成数字格式,计算机就会分析这些数据的意义,而人工智能则能够加快这一过程。人工智能首先要搞清楚它收到的语音是不是指向它的系统的,因此它首先要检测客户选定的“唤醒词”,比如“Alexa”。然后,系统会使用机器学习模型,对所接受的数据进行猜测。由于这个模型已经用几百万个用户贡献的语料库训练过,因此猜测的准确度是很高的。

谷歌助手的工程副总裁约翰·斯考威克解释道:“语音识别系统首先会识别声音,然后会把这句话放到语境中去理解。比如说,如果我说了一句:‘天气怎么样?’系统就知道,我所指的是一个国家或一个城市的天气。我们的数据库中有500万个单词的英文词汇,如果不结合语境,从500万个单词中识别出一个词是极其困难的。但如果人工智能知道你问的是一个城市的情况,那么这就把范围缩小到了三万分之一,这样猜中就简单多了。”

有了强大的计算能力,系统就有了很多学习的机会。举个真实的例子,为了让Alexa打开家里的微波炉,语音识别引擎首先要理解这个指令。也就是说,它得能够听懂各州各省的方言,小孩子的高调门儿,或者是老外的怪腔怪调。与此同时,它还要过滤广播、音乐等无关的背景音。然后,人们使用微波炉时的指令也是不一样的。有人可能会说:“把我的饭重新热一下”;有人则可能说:“打开微波炉”或“用微波炉把饭热两分钟。”Alexa这种语音识别应用会将用户的问题与数据库中的类似指令进行对比,从而明白“把我的饭重新热一下”也是用户有可能下的指令。

语音识别技术之所以近来大受欢迎,也是由于它在将人类指令转化为行动方面表现得相当出色。谷歌公司的斯考威克表示,谷歌的语音识别引擎已经能达到95%的准确率,比2013年的80%有了明显提高,几乎与人类的理解能力不相上下了。近来该领域的一个重大成绩是语音识别引擎已经学会了如何过滤背景噪音。不过只有当用户的指令或问题比较简单时,系统才能达到这样高的识别率——比如问它:“最新的《谍中谍6》什么时候上映?”如果你就某件事征求Alexa或谷歌助手的意见,或是试图跟它进行一场拉锯式的谈话,系统就要么会给出一个预先编程好的幽默答案,要么直接提出抗议:“我不知道怎么回答。”

在消费者看来,语音识别设备不仅实用,有时也能给人带来快乐。而在制造它们的科技巨头看来,语音识别设备虽小,但是极为高效的收集数据者。大约60%的亚马逊Echo和谷歌Home的用户至少将语音助手与一种智能家居设备相连(比如恒温器、安全系统等),而这些智能家居设备可以透露关于用户生活的无数细节。对于亚马逊、谷歌和苹果这些公司,他们收集的数据越多,就能更好地服务消费者——不管是通过附加服务、订阅服务,还是代表其他商家打广告。

这个领域的商机也是显而易见的。一个消费者只要将Echo与恒温器相连,那么如果他看到了智能照明系统的广告,就也会倾向于购买。如果你对隐私特别在意,你或许会觉得被“窃听”的感觉很不舒服。但借助这项技术,科技巨头们已经坐拥了海量个人数据,反过来这些数据也使他们能更有效地向消费者进行营销。

这几家科技巨头的总体战略各不相同,对收集来的数据的使用方式也略有差异。亚马逊表示,Alexa收集来的数据主要用于该软件的后续研发,以使它变得更加智能,对用户更加实用。亚马逊称,Alexa进化得越好,用户就会越能看到亚马逊的产品和服务的价值——包括它的Prime会员计划。尽管亚马逊也在大力推动广告业务(市场研究机构eMarketer认为,2018年亚马逊的数字广告业务收入将达到46.1亿美元),但亚马逊的一位发言人表示,公司目前不会利用Alexa的数据卖广告。

谷歌虽然拥有庞大的广告业务,却也一反常态地表示,不会使用语音识别技术收集的数据卖广告。苹果向来号称不愿利用顾客数据换取商业利益,此次自然也不例外,苹果表示,该公司从语音识别技术中获取的用户数据将仅仅用于改善用户体验——以及销售更多昂贵的HomePod设备。

虽然亚马逊是做购物起家的,但大多数用户并未使用语音识别设备帮助他们购物。亚马逊不愿透露有多少Echo的用户用它购物,不过咨询机构Codex集团最近对网购图书者的一项调查显示,只有8%的用户通过Echo买过书,有13%的用户通过它听过电子书。研究机构Canalys的分析师文森特·蒂尔克表示:“人是习惯性动物,如果你想买一个咖啡杯,你很难对智能音箱描述出你喜欢的杯子的样式。”

亚马逊表示,公司并未过分关注Echo作为购物助手的作用,不过它仍然希望亚马逊的智能家居设备能反哺公司的零售业务。亚马逊的自然语言处理科学家普拉萨德表示:“人总是根据以前的购物习惯去购物。如果你想买几节电池,这种东西,你既不需要亲眼去挑,也不需要记住买一种。如果以前你从没买过电池,我们当然会建议你买亚马逊品牌的。”

语音助手在购物上的作用远远不止买几节电池。目前,很多商家都想跟这些科技巨头合作,并利用这些平台。据OC&C战略咨询公司预测,到2022年,语音识别购物的销售额将从现在的20亿美元增长至400亿美元。现在,有几款智能家居设备的迭代产品已经展现了这个潜力。比如亚马逊和谷歌都推出了带屏幕的智能家居设备,它们看起来有点像小型电脑和电视机的跨界产品,因此更适合用来网购。

2017年春天,亚马逊推出了230美元的Echo Show。跟其他Echo设备一样,Echo Show也内置了Alexa应用,但用户也能通过它看到图像。这样一来,消费者就可以看见自己想买的商品和购物清单了。同时,用户也可以用它来看电视、听音乐、看监控视频、旅行照片等等。而在做这些的时候,用户无需近任何一个按键,也完全不需要操纵鼠标。

谷歌已经与四家消费电子厂商展开了合作,有些厂商最近已经开售安装了谷歌助手的智能屏产品。比如联想的Smart Display智能显示器看起来很像脸书的Portal产品,零售价为250美元,与JBL的Link View设备相同。LG也计划推出搭载谷歌助手的ThinQ View设备。今年10月,谷歌也开始销售自己Home Hub设备了,该设备搭载了一块7寸显示屏,售价为149美元。

从长远来看,谷歌认为,拥有屏幕将使语音购物变得更容易。谷歌并不像亚马逊那样直接销售产品,但它的“谷歌购物”网站却将零售商与谷歌搜索引擎直接相连。目前,谷歌已经将Home设备打造成一个购物工具了。比如谷歌与星巴克有合作,用户只需要告诉谷歌助手点一杯“老样子”,饮品就会自动送上门。去年,谷歌还巩固了与全球最大零售商沃尔玛的合作关系。用户可将沃尔玛账户与谷歌购物网站相连,这样通过谷歌的Home设备,用户即可检查附近的沃尔玛门店里有没有自己喜欢的运动鞋,或是预订一台平板电视当日提取。如果你不知道离你最近的沃尔玛在哪儿,它也能帮你找到。

而视觉识别技术(它可以看作是人工智能语音识别技术的小弟,这种技术早就被用来在人群中对比罪犯了)的兴起,将使人们在这些设备上购物变得更加便利。今年9月,亚马逊宣布,它正在用Snapchat相机测试一款新应用。消费只要用Snapchat的相机拍下某个产品或者条形码的照片,就能在屏幕上看到亚马逊的产品页面。不难想象,要不了多久,用户就能在他们Echo Show上实现类似功能,到时候用户不光能看见产品的价格和评价,估计还能看见该产品是否支持Prime的两天免费快递上门服务。

虽然这项技术的前景令人兴奋,可是对那些对高科技不敏感的人来说,他们可能得花一些时间,才能习惯跟机器对话。现在很多科技公司的社会公信力不高,他们必须得让消费者相信,这些设备并不是在出于邪恶的原因在窃听他们。实际上,智能扬声器只有检测到“唤醒词”才会切换到对话模式,比如“Alexa”或者“Hey Google”。今年5月,亚马逊不小心将一位波特兰市的高管与他妻子关于地板的一段对话发送给了他的一名员工。亚马逊对此次事故公开道歉,并表示它“曲解”了这段对话。

口头指令的出错可能要远远超过打字输入的命令。有些时候,你甚至可能为此付出代价。比如去年,达拉斯的一个6岁的小女孩在跟Alexa讨论饼干和玩偶等话题。几天后,快递员就给她家送来了4磅饼干和一个价值170美元的玩偶。亚马逊表示,Alexa是有家长控制功有的,如果启用了该功能,这次事故本不会发生。

不管怎样,人工智能语音识别的大规模采用很可能会是自然而然的事,毕竟它给我们带来了更多的便利。目前,全球的人工智能语音识别设备已经超过1亿台,语音成为人与机器的主要交互媒介只不过是个时间问题——哪怕有时这种对话只是毫无营养的恶搞和尬笑。

关键词: 语音识别

热点