Astro家用机器人从那时起就一直吸引着人们的目光亚马逊去年秋天发布了这款设备.顾客可以让宠物大小的机器人在房子里巡逻,检查宠物处理视频电话,订购杂货,甚至是拿饮料。但很少有人比赋予它生命的科学家们更惊讶于它的能力。

亚马逊音频工程师Wontak Kim说:“即使作为一个以这种东西为生的人,这感觉就像魔法一样。”他的团队帮助Astro准确地处理音频。

这可能感觉像是魔法,但Astro在繁忙的房间里响应请求的能力实际上是无数小时专注工作的结果。Kim的团队是亚马逊设备和服务组织的一部分,包括马萨诸塞州剑桥市亚马逊音频实验室的声学科学家和工程师。他们与加利福尼亚州森尼维尔市和华盛顿州贝尔维尤市的同事合作,设计并构建了Astro的音频功能,包括语音识别和音频和视频通话。他们知道,家用机器人要想成功,就必须能够清楚地理解和处理音频请求。但不仅如此;Astro的视频通话功能必须是实时运行的,客户才能使用它。

“人类无法忍受音频的延迟,”Kim团队的声学科学家Mrudula Athi说。“即使是20毫秒的延迟也能立即被注意到。因此,对于Astro,我们需要每秒处理和清理125个音频信号帧。”

神奇之处在于解开声波

亚马逊在剑桥的音频实验室。

Astro的音频功能利用了亚马逊的语音人工智能Alexa。在任何支持Alexa的设备上,Alexa都不会像我们和别人说话时那样自动识别语音。当你发出语音请求时,声波会从墙壁和天花板反射到设备的麦克风。

对于Astro来说,这一挑战因机器人在家中走动而加剧。为了让客户满意,机器人需要准确地处理语音请求,而不受宠物或其他常见家庭噪音、为其提供动力的电动机的细微声音、或它播放的音乐或其他音频的干扰。例如,森尼维尔团队的高级首席科学家阿米特·切特里(Amit Chhetri)说,当Astro在瓷砖地板上移动时,“麦克风发出的车轮噪音甚至比语音还要高。”

神奇之处在于把所有多余的声音都理清。

Athi说:“如果你把所有的噪音都发送给语音识别应用程序,它的表现就不会很好。”“我们的工作是收集这些麦克风信号,并确保它们得到足够的清理,以便Alexa能够在一个能够带来良好客户体验的水平上发挥作用。”

所有这些声音分类也必须发生很快

这是一个棘手的问题,亚马逊集结了大量人才来解决这个问题。Astro音频团队包括精通声音物理学的声学科学家,构建操纵声波算法的应用研究人员,以及将这些算法编成强大代码的软件工程师。

将人工智能驱动的算法提升到一个新水平

该团队首先专注于在音频和视频通话期间降低背景噪音,这样即使机器人在嘈杂的空间中导航,人们也能交谈并理解彼此。为了使这一切都能在所需的快速速度下工作,该团队使用了一种名为深度神经网络(DNN)的人工智能驱动算法,该算法通常用于解决音频和计算机视觉问题。但他们把它提升到了一个新的高度。Chhetri特别设计了一种新的网络架构,既能减少背景噪声,又能消除语音的混响,使Astro能够处理呼叫。

使用模拟数据

音频测试的动图。

dna——尤其是像Chhetri、Athi和他们的团队开发的这样先进的dna——通常需要大量的数据来训练。这就是该团队的音频模拟专家的用武之地。Athi说,由于他生成的数据,工程师们能够依靠“某人在不同类型的房间里从不同位置说话,以及不同程度的人工房间噪音”的模拟声音。亚马逊音频科学家通常将模拟数据用于帮助设备定位声源等项目。但对于Astro,研究小组必须更进一步。由于机器人会发出自己的声音,他们需要更多astro特有的数据来建立他们的语音增强模型。

亚马逊的另一个团队录下了Astro在各种场景下在家里开车时发出不同声音的音频。Athi说,这些数据对于他们的语音增强问题来说是完美的。因此,她将其与她组装的语音数据集结合起来训练机器人,并解决了这个问题。

“最先进”的解决方案

Astro机器人在客厅与一只狗互动的图像。

音频团队对结果很满意,但现在他们必须把所有这些代码装进机器人,这是另一个独特的挑战。但来自亚马逊全国各地音频实验室的团队再次加强了工作。Athi说,结果是非常先进的。

她说:“我们通过语音增强性能获得的降噪效果,同时能够实时运行,而不是在云端,而是在设备上……所有这些结合在一起是最先进的。”

阿西说,在设备上安装Astro的语音增强功能是她职业生涯中最自豪的事情之一。但Kim、Athi、Chhetri和音频团队的其他成员不会很快停下来。他们正在继续改进Alexa的语音识别,Astro的语音增强,他们有很多正在进行的项目,他们很高兴能带给客户。

Kim说:“我们非常自豪能够为亚马逊和客户在音频领域工作。”

想了解更多Astro提供的乐趣、方便和安全?看看亚马逊宣布的更新吧在秋季设备与服务发布会上发布家用机器人。

插画:Mojo Wang