亚马逊努力成为地球上最以客户为中心的公司。这一强大的信条驱动着我们在亚马逊的每一天所做的一切。在设计我们自豪地提供的每一项产品和服务时,我们都从客户需求出发,在设计为我们全球业务提供动力的所有系统和流程时也是如此。
到目前为止,所有这些系统和服务都使用机器学习技术随着时间不断提高.我们的客户在许多方面受益于这些改进:亚马逊新鲜、音乐和Prime视频上更好的个性化和推荐;Alexa设备中更精确的语音识别和问题回答;为我们所有的零售产品提供更快的交付-仅举几例。
一般来说,机器学习技术可以帮助我们发现数据中有用的模式,并利用这些模式为客户做出更好的决策。
我们的数据处理系统中不经常共享的一个方面是:我们如何确保亚马逊的客户数据在摄取、传输、存储以及最终处理和建模的整个过程中都受到保护?
简而言之,我们使用最先进的隐私保护技术。然而,这个答案只反映了一个更大的图景的技术方面。亚马逊使用的每一项隐私增强技术的设计和实现,其核心都是受到我们对客户不懈追求的启发。这一原则指导我们最大限度地尊重客户的隐私,并嵌入到我们如何处理客户数据的各个方面。在实践中,这转化为一套公司范围内的流程和政策,用于管理亚马逊系统中每条数据记录的处理和存储方式。
差异隐私确保算法可以学习数据中的任何频繁模式,同时防止它们记住数据集中任何特定个体的具体细节。
例如,这些数据处理策略指定了任何处理客户数据的系统在通信和存储方面都必须满足的加密要求。它们还指定了这些系统如何在亚马逊公司网络内处理身份验证,有效地限制了任何员工或系统访问客户数据,除非这种访问是执行关键业务功能绝对必要的。
在每个系统和服务的整个生命周期(从设计到实现、beta测试、发布和运行时操作)中执行和监控这些策略的遵从性。确保现有系统按照数据保护的最高标准运行是亚马逊数千名工程师的日常工作。与此同时,科学家和工程师专注于不断创新,使我们能够为客户带来更好的产品和服务。
在隐私增强技术领域中,我们代表客户进行创新的领域之一是差异隐私,这是隐私感知数据处理的一个著名标准。差异隐私提供了一个框架,用于测量和限制可以从数据分析算法的输出中恢复的关于人群中个人的信息量。从技术上讲,差异隐私可以防止成员攻击:一个假设的对手知道数据分析算法的结果,将无法确定某个特定个人的数据是否被用于分析。
在机器学习的背景下,差异隐私确保算法可以学习数据中的任何频繁模式,同时防止它们记住数据集中任何特定个体的具体细节。例如,使用差异私人机器学习来分析城市中个人的通勤模式,将产生一个反映大部分人口经常使用的所有路线的模型,但不会记住任何特定个人的通勤模式。
这个例子显示了差异隐私如何为个人提供强有力的保护,同时允许数据分析师有效地执行他们的工作。此外,差异隐私提供了工具来量化正在恢复的模式的保真度与给定数据集中提供给每个人的隐私级别之间的权衡。在数据隐私的科学基础上,这种权衡是一个不可避免的前提:在不降低其效用(在上面的例子中,恢复模式的准确性)的情况下,不可能使算法具有不同的隐私性。因此,使差异隐私成为一种有用的技术的关键在于理解和优化每个特定应用中的隐私-效用权衡。
这就引出了今年夏天将在第35届会议上发表的一篇论文的背景机器学习国际会议(ICML)在瑞典斯德哥尔摩。本文研究了差分隐私的基本构建块之一,即所谓的高斯机制。这是差分隐私中的一种著名方法:它提出通过将来自高斯分布的噪声添加到其输出中来私有化数据分析算法。
例如,在分析通勤模式的上下文中,使用此思想的一种方法是构建一个模型,该模型计算城市中每对点之间的每日通勤数量,然后向每个计数添加高斯噪声。由高斯分布的方差控制的噪声量应该经过校准,以掩盖任何特定个体的数据对最终结果的贡献。多年来,人们已经知道这种方法可以提供一定程度的差别隐私,但不清楚这种方法是否在隐私和效用权衡的意义上是最佳的。
在这篇新论文中,我们表明,事实上,研究人员一直用来决定添加多少噪音的方法存在根本性的局限性,导致准确性和隐私之间的次优权衡。我们的新方法依赖于对噪声校准问题进行更深入的数学分析,并得到最优权衡。
换句话说,新方法以更好的准确性获得了与以前相同的隐私量,或者等价地,以更好的隐私水平获得了与以前相同的准确性。详见全文,包括说明性的情节和详细的实验评价。