罗希特·普拉萨德(Rohit Prasad)是亚马逊Alexa的副总裁兼首席科学家,他领导语音识别、自然语言理解和机器学习技术的研发,旨在改善客户使用Alexa支持的Echo设备的体验。他回答了五个关于技术和Alexa未来的问题。
问:美国国防高级研究计划局(Defense Advanced Research Projects Agency)在20世纪70年代初开始研究语音技术。为什么我们现在突然经历了像Alexa这样的对话式人工智能技术的出现?
一个。对话式人工智能作为一项技术已经被积极研究了近50年,其目标是与机器的交互变得像人类之间的交流一样无缝。这是人工智能最具挑战性的领域之一,因为机器必须具有极高的智能才能理解和交流人类语言,无论是语音或文本,还是结合触觉或视觉。
虽然语音作为人机界面一直被认为是有优势的,但采用它的最大障碍是机器能够以不用手和眼睛的方式识别和理解语音输入。我们称之为远场或远距离语音识别的挑战,像Echo这样的环境设备可以高精度地识别远距离说话的单词。
通过在2014年11月推出Echo,我们证明了通过结合机器学习算法、数据和强大的计算能力,可以在嘈杂的环境中实现高准确度的远场语音识别。
采用Alexa的另一个重要原因是她可以理解和响应各种各样的意图,彻底改变了日常的便利,如访问和播放音乐、书籍和视频、控制家中的智能设备、与朋友和家人交流、购物、设置提醒或获取所需的信息。
问:Alexa背后的关键对话人工智能和机器学习技术是什么?
一个。Alexa的设计目的是根据她对用户目标的理解,代表用户采取最佳行动。与搜索引擎不同的是,Alexa并不是简单地给出用户必须从中选择的10个蓝色链接,而是代表用户根据需要提出澄清性的问题。Alexa的工作有几个关键技术。
它首先检测“唤醒词”,触发Alexa开始听用户随后说的话。唤醒词检测采用在设备上运行的深度学习技术来识别用户选择的唤醒词。然后,亚马逊网络服务(AWS)云中的远场自动语音识别(ASR)将唤醒词之后的音频转换为文本,并确定用户何时停止与Alexa对话。
Alexa的成功和应用令人非常满意,但我们只是触及了可能的表面。
一旦语音被转换为文本,Alexa就会使用自然语言理解(NLU)将文字转换为对意图的结构化解释,可以用于从第一家和第三方开发人员构建的3万多个Alexa技能中回应用户。
这种结构化的解释与不同形式的上下文结合使用,例如用户正在与哪种类型的设备交互,最有可能提供响应的技能是什么,或者谁在说话。这个上下文有助于确定Alexa下一步应该采取的最佳行动。可能的结果是用技能的最佳操作来回应,或者向用户询问更多信息。
Alexa如何回应或发出声音对于自然对话也很关键。这是通过文本到语音合成(TTS)完成的,它将任意的单词序列转换为自然的、可理解的音频。
上述所有技术的共同点是强调数据驱动的机器学习和运行时的快速推理,以便在尽可能短的时间内提供准确的响应。作为科学家和工程师,我们一直在与准确性和延迟之间的健康紧张关系作斗争,从用户停止与Alexa说话到她做出回应。
问:和其他人工智能技术一样,你用得越多,Alexa对你了解得越多,她就会变得越聪明。亚马逊的科学家和工程师正在做什么来让Alexa更智能?
一个。由于Alexa的大脑大部分都在云端,每次交互都会让她变得更聪明。Alexa使用了一套学习技术:监督学习、半监督学习和无监督学习。虽然监督学习仍然是最强大的,但它无法扩展,因为我们无法以持续为客户改进Alexa所需的速度生成手动标签。因此,我们的科学家和工程师正在不断应用和发明新的学习技术,以减少对人工标签的依赖来训练我们的统计模型。例如,主动学习作为一种半监督学习技术,系统本身假设它需要人类专家输入的交互的哪一部分,在我们的技术中普遍存在。没有任何标记响应的无监督学习也被应用于使Alexa更智能,特别是在语音识别方面。最后,我们还使用迁移学习,允许Alexa从一项技能学习到另一项技能,甚至从一种语言学习到另一种语言。
问:在亚马逊做对话式人工智能研究有什么独特之处?
一个。我们的独特之处在于我们一般研究的方式。每一个研究问题都是从我们在亚马逊内部进行产品开发的方法开始的。基本思想很简单。我们首先写研究,如果成功了,最终会完成什么或革命性的,然后我们从这个目标开始,如何设计我们的实验和里程碑来检查进展。我们相信快速实验和尽早证明或推翻我们的假设。
亚马逊内部对话式人工智能研究的另一个独特之处在于,我们拥有Alexa形式的突破性产品,我们可以大规模地证明新的算法和技术。这使得我们在会议或期刊上发表的技术进步更加可信。
大量数据、近乎无限的计算能力、我们团队在人工智能问题上的深厚经验,以及冒险精神的结合,使亚马逊可以说是世界上追求对话式人工智能研究梦想的最佳场所。
问:你认为对话式人工智能的未来是什么?
答:我对整个人工智能的未来感到兴奋。人工智能将产生深刻的社会影响,并将帮助人类学习我们今天甚至无法想象的新技能。对于对话式AI,我仍然认为它是第一天。Alexa的成功和应用令人非常满意,但我们只是触及了可能的表面。
在未来五年内,随着我们在机器学习和推理方面取得进一步进展,我们将看到对话式人工智能在多个维度上变得更加智能。随着这些进步,我们将看到Alexa在识别、理解和响应用户请求方面变得更加具有上下文意识。Alexa会更快地变得更聪明,因为无监督学习将主导她的学习方式。
Alexa将像人类一样就日常话题和新闻事件进行更自然的对话。这是我们的重点Alexa奖这是一场大学竞赛,竞赛内容是建造“社交机器人”,这些机器人可以连贯而有吸引力地与人类进行20分钟的对话。我们的客户已经与2017年Alexa Prize社交机器人进行了超过10万小时的对话;2018年Alexa大奖社交机器人将于5月上线。尝试一下很有趣。只要说:“Alexa,我们聊聊吧。”