Alexa的我们的愿景是不仅是有用的,但明显改善全球数百万人的生活。Alexa的信任和Alexa AI团队每天工作使这一设想成为现实。帮助数据隐私日1月28日,我们坐下来与安妮•托斯Prem Natarajan Manoj Sindhwani,讨论亚马逊如何保护客户隐私而负责任地使用数据改善Alexa体验。

一个女人的头像形象在白色的背景下。
主任安妮·托斯Alexa的信任
一个男人坐在一张桌子说话的形象。
副总裁Manoj Sindhwani Alexa的演讲
一个头像一个男人在一个黑色背景下的形象。
副总裁Prem Natarajan Alexa AI自然理解

你为什么需要收集Alexa客户数据和如何使用?

托斯:首先,Alexa的回答一个问题不能没有收集和处理语音交互,这似乎是显而易见的,对吧?但使Alexa准确理解和回应是所有的复杂的学习和不断改进,使Alexa更好和智能为我们所有的客户交互。它需要的数据。一个具体的例子是理解人类语言。语言是复杂的和基于地区之间差异极大,方言,背景,环境,个人说话。这包括等因素是否一个本地或母语非英语的语言和他们是否有语言障碍。与客户培训Alexa Alexa的数据是非常重要的,因为工作好,机器学习模型,使用多样化的Alexa需要训练,广泛的现实世界的客户数据。这是我们如何确保服务对每个人都表现良好,和各种各样的声学条件下,在家里或在走。

多语言模式是一个很好的例子的数据使Alexa包容性和准确的多样化的家庭。成千上万的客户在美国使用多语言模式在Alexa设备之间无缝切换英语和另一种语言(如西班牙语。一些客户已经和我们分享,多语言模式帮助他们全家Alexa的访问。

Sindhwani:完全正确。数据是什么使Alexa聪明。训练我们的语音识别模型的最新数据模式允许我们的团队提供一个有用的,准确的,甚至是娱乐体验。

训练语音录音为什么Alexa可以区分如果客户要求的天气“奥斯汀”与“波士顿”或“U2”和“YouTube的区别。”,虽然客户没有要求Alexa播放歌曲,李尔Nas X当我们在2014年引入Alexa,训练语音录音帮助Alexa快速学习的所有不同方面客户念他的名字,请求他的音乐。

培训Alexa的数据随着时间的推移也有助于Alexa准确回答有关事件发生的问题每隔几年就像奥运会或世界杯。可以理解,客户往往会询问Alexa更频繁地“冰壶”在冬季奥运会上,和这些问题更容易理解如果Alexa训练在历史数据。同样,快速培训Alexa的声音录音也确保准确性的热门话题少了历史知识,就像COVID-19, Brexit或NBA总冠军gianni Antetokounmpo。

不断地培训我们的机器学习模型与客户数据的原因Alexa的理解客户要求改善了过去三年以年均37%的所有语言。

您的团队是如何保护客户隐私,同时继续创新?

托斯:我们谈了很多关于隐私在Alexa的DNA。“麦克风”按钮,物理相机快门,和光线和音频指标Alexa处理请求时通知客户所有控件,客户所看到的,听到的,和触摸。虽然这些控件很重要,我们相信客户应该有隐私没有采取一个额外的步骤。

我在隐私我职业生涯的大部分时间。隐私是常常被作为约束,在某种程度上,它是。当然有约束热刺的创造力,但隐私也成为一个发明本身的机会。我们的科学和语言团队有投资项目来保护隐私和负责任地使用数据从客户,不需要任何行动。

欢迎来到我们的系列“真实(酷)在亚马逊工作,“我们强调在亚马逊的一些最特殊的工作。

Natarajan:语音助手独特的隐私的挑战,因为有部分经验,客户不能看到或听到。当我们收集和使用客户数据,我们保持安全、负责任地使用它。例如,我们使用保护隐私的方法来限制我们使用的数量和类型的数据在我们的自然语言理解建模环境中当训练我们的机器学习模型。进步教育AI和动态自学习等让用户定制他们的经验并提供持续的性能改进,不需要重新训练模型。
我们还继续投资于匿名化和合成数据生成技术来进一步保护客户隐私。

Sindhwani:我们的科学家和工程师投资于研究和加强隐私技术来进一步提高Alexa语音识别。Prem描述类似的工作,我们也在开发新技术使用合成data-training由算法生成的数据,模拟了现实世界改善我们的自动语音识别模型。,我们已经采取措施更少依赖监督学习技术语音录音手动对保护隐私技术的改进,如转移学习,主动学习,联合学习和无监督或自学。自学习技术学习完全从客户的交互通过隐式和显式反馈不需要手动标记。

你描述的隐私作为发明一个机会,你能告诉我们更多关于客户来生活吗?

托斯:周围有很多创新发生的隐私,特别是在Alexa的组织。隐私的核心原则之一是总是试图给客户更多的价值在使用更少的数据,我认为不是,不同于科学如何以较低的成本给我们更多的计算处理能力。用较少的资源做更多的事。世界上的隐私,我们称之为数据最小化。一些这样的例子是直接到我们的设备将更多的数据处理,寻找de-identify数据更快的方法,构建和完善保护隐私的机器学习模型。的幕后团队正在用较少的资源做更多的通过投资数据最小化技术如减少依赖监督学习。

Natarajan:未来实现我们一直在探索新技术和投资研究,特别是可概括的进步人工智能方法。例如,我们正在积极利用大型pre-trained模型由开源数据few-shot和zero-shot学习减少需要客户数据为会话AI开发深度学习模型和相关语言理解应用程序。我们也在开发算法,de-identify数据用于模型训练和使我们的模型健壮的隐私攻击。任何进展或应用程序可以为我们的客户带来了巨大的利润,进一步保护我们每天使用的数据。

有什么保护隐私进步你兴奋地给客户?

Sindhwani:我们继续在Alexa的投资设备内置语音处理功能。客户在美国与兼容的回声智能扬声器将很快就能使一个新的设置,允许他们Alexa的音频声音请求在本地设备上处理,而不被发送到云。语音录音设备上加工后被删除。要做到这一点,我们不得不做出自动语音识别模式,曾经是许多字节大小,需要大量的内存,运行在大规模服务器cloud-efficient足以在单一设备上工作。我特别兴奋这样的创新,为客户实实在在的利益通过减少延迟和降低带宽消耗,同时提供更多的选择什么发生在他们的数据。