9月20日,在亚马逊的一次活动上球,亚马逊负责设备和服务的高级副总裁戴夫·林普(Dave Limp)发布了数十种新的设备产品和功能。当天晚些时候,Alexa首席科学家罗希特·普拉萨德来到幕后,解释了Alexa最新特性和功能背后的科学进步。

Alexa AI副总裁兼首席科学家Rohit Prasad的肖像。他穿着一件黑色衬衫,照片背景是蓝色。
Alexa AI副总裁兼首席科学家Rohit Prasad说

普拉萨德解释说,Alexa的研发分为五大类。首先是能力,学习新技能,提高现有技能的表现。接下来是环境感知,利用关于世界状态的信息以及客户过去与Alexa的互动来决定如何最好地处理特定的请求。第三个目标是扩展Alexa对事实和事件的了解,第四个目标是实现与Alexa语音服务的更自然互动。普拉萨德说:“为了实现我们对客户的承诺,Alexa每天都在变得更好。”第五个类别是自我学习,也就是自动化Alexa从经验中学习的过程。

普拉萨德解释说:“大多数Alexa AI研究都是由机器学习技术驱动的,这些技术利用了大规模AWS计算能力和丰富的异构数据集。”下面是Alexa研究人员如何将这些技术应用到这五个研究领域。

能力

普拉萨德说:“Alexa拥有由第三方开发者开发的5万多项技能。“我们正在通过我们的技术帮助人工智能民主化Alexa技能工具包与此同时,普拉萨德表示,在过去的12个月里,Alexa团队已经降低了Alexa的错误率。

普拉萨德说:“因为我们在技能方面有了巨大的增长,只要保持准确性就很好了。但我们的团队走得更远,甚至降低了Alexa在每个地点和每种语言的错误率。”

普拉萨德解释说,使这种改进成为可能的技术之一是主动学习,自动系统对训练数据进行分类,以提取那些可能在准确性方面产生最显著提高的例子。普拉萨德说,Alexa的研究人员发现,主动学习可以将训练机器学习系统所需的数据量减少97%,从而能够更快地改进Alexa的自然语言理解系统。

Alexa的研究人员还在新型深度学习网络的快速发展中取得了普拉萨德所说的“突破”,这种机器学习系统由数千甚至数百万个密集连接的(虚拟)处理单元组成。这一突破将用于自然语言理解的深度学习与迁移学习结合起来,在迁移学习中,训练网络执行一项任务,该任务有大量可用的训练数据,然后再对相关任务进行训练,而可用数据很少。

普拉萨德说:“这将使自定义技能的准确性相对提高15%,而无需第三方开发人员进行额外的工作。”“我们将在未来几个月将这项服务推广到所有技能。”

上下文感知

普拉萨德解释说,Alexa已经通过根据客户与哪个设备交互来定制决策,展示了上下文感知能力。例如,“播放饥饿游戏”命令更有可能在Echo Show这样的带屏幕设备上播放电影,而不是在纯语音设备上播放有声读物。

但在9月份宣布的两项新功能——声音检测技术,可以让Alexa Guard识别烟雾报警器、一氧化碳报警器,以及玻璃破碎和耳语检测(耳语模式)——扩展了Alexa对客户听觉环境的认知,超越了对文字的识别和理解。

普拉萨德解释说:“这两个系统都使用了一种被称为长短期记忆的机器学习网络。传入的音频信号被分解成超短的片段,长短期记忆网络按顺序处理它们。它对任何给定片段的判断——这是耳语吗?这是报警器吗?-在对之前片段的判断中考虑因素,因此它可以学习在时间上分离的音频信号片段之间的系统关系。

这些网络自动学习音频信号的特征,这些特征有助于检测声音事件或低语语音。例如,它们会自动学习耳语语音的频率特征,而不是依赖于人工设计的耳语检测特征。

知识

普拉萨德解释说:“在过去的12个月里,亚马逊的知识团队为Alexa的知识图谱添加了数十亿个数据点,这是命名实体及其属性和关系的表示。”

他还指出,由于没有对每个主题都具有权威的单一知识来源,Alexa的研究人员正在结合不同的知识来源,为客户的查询提供最佳答案。

自然交互

普拉萨德说:“让与Alexa的语音交互更加自然的一项技术是上下文转换,即在几轮对话中跟踪参考信息。”例如,客户可能会问:“Alexa,今天会下雨吗?”,然后接着说:“明天怎么样?”Alexa现在可以处理这种模棱两可的引用。

普拉萨德解释说:“我们是如何做到这一点的,同样,在不同的回合中应用长短期记忆网络,将之前回合的假设合并起来,以得出最佳答案。”

Alexa也在朝着普拉萨德所说的“自然技能交互”的方向发展。在过去,使用Alexa的客户必须指定他们希望调用的技能的名称。现在,机器学习系统将自动选择一项最能满足特定客户要求的技能。该系统有两个组成部分:第一个部分根据客户的要求生成候选技能的候选名单;第二种是使用更详细的信息从候选名单中选择技能。

普拉萨德说:“在美国,有数千种技能可以进行自然技能交互,随后将在全球推广。”

自主学习

普拉萨德说:“回到我们对客户的承诺,我们希望Alexa能以更快的速度学习。”

为了提高Alexa从交互中学习的速度,Alexa团队正在开发自我学习技术,而不是依赖于需要手工费力注释数据的“监督式”训练。

Alexa将在未来几个月开始使用的一种技术是自动等价类学习,它利用的事实是,经验丰富的Alexa客户经常会重新表达最初失败的请求。例如,如果西雅图地区的Alexa客户请求卫星电台Sirius XM Chill,但请求失败,她可能会将其改为Sirius频道53。自动化系统可以识别出这些请求共享一个单词(“Sirius”),第二个请求是成功的,两个名称应该被视为指向同一个实体。

未来

普拉萨德说:“我们将把更复杂任务的认知负担从我们的客户转移到Alexa身上,继续让Alexa更有用、更令人愉快。”“我很乐观地认为,我们在人工智能堆栈各个层面的投资将继续以惊人的速度让Alexa变得更聪明。”