亚马逊致力于成为地球上最以客户为中心的公司。这种强大的宗旨在亚马逊驱使我们所做的一切,每一天。我们从客户需求在设计每一个我们自豪地提供产品和服务,但也当工程所有的系统和流程,我们的全球业务提供能量。
现在已经不是秘密了,所有这些系统和服务使用机器学习技术随着时间的推移不断提高。我们的客户受益于这些改进在许多方面:更好的个性化和建议在亚马逊新鲜,音乐,和'视频;更准确的语音识别和问答在Alexa的设备;更快的交付为所有我们的零售产品,等等。
一般来说,机器学习技术帮助我们数据中发现有用的模式,利用这些模式来代表我们的客户做出更好的决策。
我们的数据处理系统的一个方面,并不经常分享:我们如何确保亚马逊的客户数据是通过摄入的整个进程,保护交通、存储,最后处理和建模?
简短的回答是,我们使用先进的注重隐私的技术。然而,这个答案只有反映了技术方面的更大的图片。其核心,每一个注重隐私的设计和实现技术我们使用亚马逊的灵感来源于我们无情的客户困扰。这一原则指导我们行动的最大尊重客户的隐私和嵌入在我们如何处理客户数据的方方面面。在实践中,这转化为一组全公司的流程和政策如何处理每一个数据记录和存储在亚马逊的系统。
微分隐私保证算法可以学习任何频繁模式在数据而阻止他们记忆具体细节任何特定个人的数据集。
例如,这些数据处理策略指定任何系统处理客户数据的加密需求必须满足,无论是通信和存储。他们还指定这样的系统如何处理验证亚马逊的企业内部网络,有效地限制任何雇员或系统访问客户数据,除非这样的访问执行关键业务功能是绝对必要的。
遵守这些政策执行和监控整个生命周期的每一个系统和服务,从设计到实现,beta测试版本,和运行时操作。确保现有系统运行符合数据保护的最高标准是成千上万的亚马逊的工程师的日常工作。与此同时,科学家和工程师的重点是不断创新,让我们为我们的客户带来更好的产品和服务。
的一个地区,我们注重隐私的领域内技术创新代表我们的客户是微分隐私,一个著名的标准privacy-aware数据处理。微分隐私为测量提供了框架和限制的个人信息在人群中,可以从数据分析算法的输出中恢复过来。技术上来说,微分隐私保护成员攻击:一个假想的对手参与数据分析算法的结果将无法确定某个人的数据用于分析。
在机器学习中,微分隐私保证算法可以学习任何频繁模式在数据而阻止他们记忆具体细节任何特定个人的数据集。例如,使用不同的私人机器学习来分析个人在一个城市的通勤模式将产生一个模型反映了所有的线路频繁使用的一个重要部分,但不会记得任何特定个人的通勤模式。
这个例子展示了如何差提供了强大的保护个人隐私,同时允许数据分析师有效地执行他们的工作。此外,微分隐私提供了量化的工具之间的权衡富达模式的恢复和隐私的水平提供给每一个在给定的数据集。这样的代价是不可避免的前提在科学数据隐私的基础:是不可能让一个算法不同私人而不降低其效用(在上面的示例中,模式被恢复)的准确性。因此,使微分隐私的关键一个有用的技术驻留在理解和优化privacy-utility权衡在每个特定的应用程序。
这使我们论文的背景下,将于今年夏天在三十五国际会议上机器学习(ICML)在斯德哥尔摩,瑞典。本文研究的基本构建块之一微分隐私,所谓的高斯机制。这是一个众所周知的方法在微分隐私:提出私有化数据分析算法通过添加噪声来自其输出的高斯分布。
例如,在分析交通模式的背景下,使用这个概念的一个方法是建立一个模型,计算每一对点之间的日常通勤的数量在一个城市,然后添加高斯噪声,这些都很重要。噪声的数量,由高斯分布的方差控制,应校准面具任何特定个人的贡献数据的最终结果。这种方法已经知道提供一定程度的微分隐私多年,但是目前还不清楚如果privacy-utility的方法是最优的权衡。
在这篇文章中,我们表明,事实上,研究人员一直在使用的方法决定多少噪声添加了基本限制,导致次优的准确性和隐私之间的权衡。我们的新方法依赖于一个更深层次的数学分析的噪声校准问题,并获得最优的权衡。
换句话说,新方法实现了相同数量的隐私有更好的准确性,或等价,准确性和以前一样用一个更高层次的隐私。看到完整的更多细节,包括说明情节和详细的实验评价。