Astro家庭机器人一直把脑袋亚马逊公布了去年秋天的设备。客户可以问pet-sized机器人巡逻,检查宠物,处理视频通话,杂货,甚至拿饮料。但很少人更惊讶于它的功能比科学家们带来了生命。

“即使那些工作这种事情为生,感觉就像魔法,“Wontak Kim说,亚马逊的音频工程师团队帮助教Astro准确处理音频。

可能觉得神奇,但Astro响应请求的能力在一个繁忙的房间其实是无数小时的专门工作的结果。金正日的团队,亚马逊的设备和服务组织的一部分,包括声学实验室的科学家和工程师在亚马逊的音频在剑桥,麻萨诸塞州。与同事工作在加州桑尼维尔,贝尔维尤,华盛顿,他们设计并建造了阿斯特罗的音频功能,包括语音识别和音频和视频通话。他们知道,家庭机器人想要成功,它必须能够清楚地理解和处理请求音频。不,不仅如此;Astro的视频通话功能运行几乎实时为客户能够使用它。

说:“人类不能容忍延迟与音频Mrudula阿斯,一个声波科学家金正日的团队。“即使是20毫秒的延迟会立即明显。因此,对于宇宙的,我们需要处理和清理125音频信号帧每秒。”

魔术在解开声波

亚马逊的音频在剑桥实验室的图像。

Astro利用亚马逊的Alexa的音频功能,人工智能公司的声音。任何Alexa-enabled设备,Alexa并不自动识别语音的方式在别人讲话时我们会给我们。您发表演讲的请求,声波反弹的墙壁和天花板上的设备的麦克风。

阿斯特罗,这个挑战是雪上加霜的是机器人绕着回家。对于机器人来满足客户,需要准确地处理语音请求而不受宠物或其他普通家庭的声音,淡淡的声音的电动机功率,或它的音乐或其他音频。高级首席科学家例如,阿米特Chhetri森尼维耳市的团队,说,当宇宙的运动在瓷砖地板上,“轮噪音的麦克风的水平甚至高于演讲。”

魔术在解开所有的额外的声音。

“如果你把所有的噪声语音识别应用程序,它不会表现很好,”阿斯说。“我们的工作就是把这些麦克风信号和确保他们足够清理Alexa可以执行水平,结果在一个良好的客户体验。”

所有的这些声音排序也必须发生很快

这是一个棘手的问题,和亚马逊组装一些严重的脑力来解决这个问题。Astro音频团队包括声精通声音的物理科学家,研究人员构建算法应用于声波操纵,和软件工程师编织这些算法强大的代码。

采取AI-driven算法提高到一个新的水平

团队首先集中在静音在音频和视频通话背景噪音,这样人们可以互相表达和理解即使机器人导航一个吵闹的空间。使其所有必需工作速度快,团队使用了一种被称为深AI-driven算法神经网络(款),这是通常用于处理音频和计算机视觉问题。但他们把它带到一个新的水平。Chhetri,具体来说,设计一个新的网络体系结构,降低背景噪音,和de-reverberates言论,让宇宙的处理要求。

使用模拟数据

一个GIF的音频测试。

DNNs-especially的一样先进Chhetri,阿斯,团队developed-typically需要大量的数据来训练。这就是团队的音频模拟专家走了进来。因为他的数据生成,阿斯说,工程师能够依靠模拟声音的“人在不同位置在不同的房间里,与不同级别的人工房间噪音。“亚马逊音频科学家通常使用模拟数据项目,比如帮助设备找到声音的来源。但随着Astro,团队必须更进一步。因为机器人使自己的噪音,他们需要更Astro-specific数据来构建他们的语音增强模型。

另一个亚马逊团队记录音频Astro开车时产生不同的声音在周围各种各样的场景。阿斯说,这些数据是适合他们的语音增强问题。所以,她把它和语音数据集训练机器人组装,并解决了这个问题。

一个“国家的艺术”的解决方案

Astro机器人与狗交流的形象在客厅。

音频团队是满意的结果,但是现在他们必须符合所有这些代码在机器人内部,另一个独特的挑战。但是,团队从亚马逊的音频实验室在全国加强了。阿斯说,结果是非常先进的。

“降噪的数量我们语音增强性能,同时能够在实时运行,不是在云中,但设备内置…这整件事放在一起是很先进的,”她说。

拟合Astro的语音增强功能的设备的一件事阿斯说她在她的职业生涯最骄傲的。但阿斯金,Chhetri,其余的音频团队短时间内不会停止。他们继续改善Alexa的语音识别,天文的语音增强,他们有很多项目正在兴奋地给客户。

“我们非常自豪在音频领域工作了亚马逊,”金说,“和客户。”

想了解更多关于所有的乐趣,方便,安全,Astro交付?亚马逊宣布检查更新家庭机器人在设备和服务启动。

王插图的魔力。