Amazon SageMaker角色管理器使管理员更容易控制访问和定义权限,以改进机器学习治理

Amazon SageMaker模型卡使得在整个机器学习生命周期中更容易记录和审查模型信息

Amazon SageMaker Model Dashboard提供了一个中央接口来跟踪模型、监视性能和回顾历史行为

Amazon SageMaker Studio notebook中的新数据准备功能可帮助客户在几次单击中直观地检查和解决数据质量问题

数据科学团队现在可以在亚马逊SageMaker Studio Notebook中进行实时协作

客户现在可以自动将笔记本代码转换为可用于生产的作业

自动化模型验证使客户能够使用实时推断请求测试新模型

对地理空间数据的支持使客户能够更轻松地开发用于气候科学、城市规划、灾害响应、零售规划、精准农业等领域的机器学习模型


亚马逊公司(NASDAQ: AMZN)旗下的亚马逊网络服务公司(AWS)今天在AWS re:Invent上宣布了其端到端机器学习(ML)服务Amazon SageMaker的八项新功能。开发人员、数据科学家和业务分析师使用Amazon SageMaker使用其完全托管的基础设施、工具和工作流快速、轻松地构建、训练和部署ML模型。随着客户继续使用ML进行创新,他们创建的模型比以往任何时候都要多,并且需要高级功能来有效地管理模型开发、使用和性能。今天的公告包括新的Amazon SageMaker治理功能,可以在整个ML生命周期中提供模型性能的可见性。新的Amazon SageMaker Studio Notebook功能提供了增强的笔记本体验,使客户能够在短短几次点击中检查和解决数据质量问题,促进数据科学团队之间的实时协作,并通过将笔记本代码转换为自动化作业,加速从实验到生产的过程。最后,Amazon SageMaker中的新功能将自动化模型验证,并使其更容易处理地理空间数据。要开始使用Amazon SageMaker,请访问aws.amazon.com/sagemaker

“今天,成千上万的不同规模和不同行业的客户依赖亚马逊SageMaker。AWS客户正在建立数百万个模型,用数十亿个参数训练模型,每月生成数万亿次预测。许多客户正在以几年前闻未闻的规模使用ML,”AWS人工智能和机器学习副总裁Bratin Saha说。今天宣布的亚马逊SageMaker新功能使团队更容易加快ML模型的端到端开发和部署。从专门构建的治理工具,到下一代笔记本电脑体验,再到简化的模型测试,再到对地理空间数据的增强支持,我们正在以亚马逊SageMaker的成功为基础,帮助客户大规模利用ML。”

云使更多用户能够访问ML,但直到几年前,构建、训练和部署模型的过程仍然是艰苦而乏味的,需要小团队的数据科学家持续迭代数周或数月,才能将模型投入生产。Amazon SageMaker于五年前推出,旨在应对这些挑战,从那时起,AWS已经增加了250多个新特性和功能,使客户更容易在其业务范围内使用ML。如今,一些客户雇佣了数百名从业人员,他们使用Amazon SageMaker进行预测,以帮助解决围绕改善客户体验、优化业务流程以及加速新产品和服务开发的最棘手挑战。随着机器学习应用的增加,客户想要使用的数据类型,以及客户支持机器学习负责任使用所需的治理、自动化和质量保证级别也在增加。今天的声明建立在Amazon SageMaker支持全球所有技能水平从业者的创新历史的基础上。

Amazon SageMaker中的新ML治理功能

Amazon SageMaker提供了新的功能,帮助客户在ML模型生命周期中更轻松地扩展治理。随着组织中模型和用户数量的增加,设置最小权限访问控制和建立治理过程来记录模型信息(例如,输入数据集、训练环境信息、模型使用描述和风险评级)变得更加困难。一旦模型部署,客户还需要监控偏差和特征漂移,以确保它们按预期执行。

  • Amazon SageMaker角色管理器可以更容易地控制访问和权限:适当的用户访问控制是治理的基石,支持数据隐私,防止信息泄露,并确保从业人员可以访问完成工作所需的工具。随着数据科学团队膨胀到数十人甚至数百人,实现这些控制变得越来越复杂。ML管理员(创建和监控组织的ML系统的个人)必须在简化开发的同时控制对ML工作流中的任务、资源和数据的访问。如今,管理员创建电子表格或使用临时列表来导航数十个不同活动(例如,数据准备和培训)和角色(例如,ML工程师和数据科学家)所需的访问策略。维护这些工具是手动的,确定新用户有效地完成工作所需的具体任务可能需要数周时间。Amazon SageMaker角色管理器使管理员更容易控制访问和定义用户的权限。管理员可以根据不同的用户角色和职责选择和编辑预构建的模板。然后,该工具在几分钟内自动创建具有必要权限的访问策略,减少了安装和管理用户的时间和精力。
  • 亚马逊SageMaker模型卡片简化了模型信息收集:今天,大多数从业者依赖于不同的工具(例如,电子邮件、电子表格和文本文件)来记录模型开发和评估期间的业务需求、关键决策和观察。从业者需要这些信息来支持批准工作流、注册、审计、客户查询和监控,但是为每个模型收集这些详细信息可能需要几个月的时间。一些从业者试图通过构建复杂的记录保存系统来解决这个问题,这是手动的、耗时的、容易出错的。Amazon SageMaker模型卡提供了在AWS控制台中存储模型信息的单一位置,简化了模型生命周期中的文档。新功能自动将训练细节(如输入数据集、训练环境和训练结果)直接填充到Amazon SageMaker模型卡中。从业人员还可以使用自我引导的问卷来记录模型信息(例如,性能目标,风险评级)、培训和评估结果(例如,偏差或准确性测量)以及观察结果,以供将来参考,以进一步改进治理并支持ML的负责任使用。
  • Amazon SageMaker Model Dashboard提供了一个中央接口来跟踪ML模型:一旦将模型部署到生产环境中,实践者希望随着时间的推移跟踪他们的模型,以了解它是如何执行的,并识别潜在的问题。这项任务通常是针对每个模型单独完成的,但是随着组织开始部署数千个模型,这将变得越来越复杂,需要更多的时间和资源。Amazon SageMaker Model Dashboard提供了已部署模型和端点的全面概述,使从业者能够在一个地方跟踪资源和建模行为。在仪表板上,客户还可以使用与Amazon SageMaker Model Monitor (AWS的模型和数据漂移监控功能)和Amazon SageMaker Clarify (AWS的ML偏差检测功能)的内置集成。这种对模型行为和性能的端到端可见性提供了必要的信息,以简化ML治理流程并快速排除模型问题。

要了解更多关于Amazon SageMaker治理功能的信息,请访问aws.amazon.com/sagemaker/ml-governance

新一代笔记本电脑

Amazon SageMaker Studio Notebook为从业者提供了从数据探索到部署的完全管理的笔记本体验。随着团队规模和复杂性的增长,许多实践者可能需要使用笔记本协作开发模型。AWS继续为用户提供最佳的笔记本体验,推出了三个新功能,帮助客户协调和自动化他们的笔记本代码。

  • 简化数据准备:从业人员希望在为训练准备数据时直接在笔记本中探索数据集,以发现和纠正潜在的数据质量问题(例如,缺失信息、极端值、倾斜数据集和偏差)。从业者可能花费数月时间编写样板代码,以可视化和检查数据集的不同部分,以识别和修复问题。Amazon SageMaker Studio Notebook现在提供了内置的数据准备功能,允许从业人员通过几次点击即可直观地查看数据特征并修复数据质量问题——所有这些都直接在他们的笔记本环境中进行。当用户在他们的笔记本中显示数据帧(即数据的表格表示)时,Amazon SageMaker Studio notebook会自动生成图表,以帮助用户识别数据质量问题,并建议数据转换以帮助解决常见问题。一旦从业者选择了数据转换,Amazon SageMaker Studio Notebook就会在笔记本中生成相应的代码,以便在每次运行笔记本时都可以重复应用它。
  • 加快数据科学团队之间的协作:在数据准备好之后,从业人员就可以开始开发模型了——这是一个迭代过程,可能需要团队成员在单个笔记本中协作。如今,团队必须通过电子邮件或聊天应用程序交换笔记本电脑和其他资产(例如,模型和数据集),以便一起实时处理笔记本电脑,从而导致通信疲劳、延迟反馈循环和版本控制问题。Amazon SageMaker现在为团队提供了一个工作区,在这里他们可以一起实时阅读、编辑和运行笔记本电脑,以简化协作和沟通。队友可以一起查看笔记本结果,立即了解模型的表现,而无需来回传递信息。通过对BitBucket和AWS CodeCommit等服务的内置支持,团队可以轻松管理不同的笔记本版本,并随着时间的推移比较变化。附属资源,如实验和ML模型,也会自动保存,以帮助团队保持组织。
  • 将笔记本代码自动转换为生产就绪作业:当从业者想要将已完成的ML模型转移到生产环境中时,他们通常会将笔记本中的代码片段复制到脚本中,将脚本及其所有依赖项打包到容器中,并安排容器运行。为了按照计划重复运行此作业,他们必须设置、配置和管理持续集成和持续交付(CI/CD)管道,以实现自动化部署。设置所有必要的基础设施可能需要数周的时间,这占用了核心ML开发活动的时间。Amazon SageMaker Studio Notebook现在允许从业者选择一个笔记本,并将其作为一个可以在生产环境中运行的作业自动化。一旦选择了笔记本,Amazon SageMaker Studio notebook将对整个笔记本进行快照,将其依赖项打包到容器中,构建基础设施,按照从业者设置的时间表将笔记本作为自动化作业运行,并在作业完成时取消基础设施的配置,从而将将笔记本转移到生产所需的时间从几周减少到几小时。

要开始使用下一代Amazon SageMaker Studio笔记本电脑和这些新功能,请访问aws.amazon.com/sagemaker/notebooks

使用实时推断请求自动验证新模型

在部署到生产环境之前,从业者会测试和验证每个模型,以检查性能并识别可能对业务产生负面影响的错误。通常,他们使用历史推断请求数据来测试新模型的性能,但这些数据有时无法解释当前的、真实的推断请求。例如,用于规划最快路线的ML模型的历史数据可能无法解释严重改变交通流的事故或突然的道路封闭。为了解决这个问题,实践者将推理请求的副本路由到生产模型到他们想要测试的新模型。构建这个测试基础设施,镜像推理请求,并比较模型在关键指标(例如,延迟和吞吐量)上的表现可能需要数周的时间。虽然这为从业者提供了模型如何执行的更大信心,但为数百或数千个模型实现这些解决方案的成本和复杂性使其不可伸缩。

Amazon SageMaker Inference现在提供了一种功能,可以让从业者更容易地比较新模型与生产模型的性能,使用相同的真实世界推理请求数据进行实时比较。现在,他们可以轻松地将测试同时扩展到数千个新模型,而无需构建自己的测试基础设施。首先,客户选择他们想要测试的生产模型,Amazon SageMaker Inference将新模型部署到具有完全相同条件的托管环境中。Amazon SageMaker将生产模型接收到的推理请求的副本路由到新模型,并创建一个仪表板来显示关键指标之间的性能差异,因此客户可以实时查看每个模型的差异。一旦客户验证了新模型的性能,并确信它没有潜在的错误,他们就可以安全地部署它。要了解更多关于Amazon SageMaker Inference的信息,请访问aws.amazon.com/sagemaker/shadow-testing

亚马逊SageMaker新的地理空间功能使客户更容易使用卫星和位置数据进行预测

今天,大多数捕获的数据具有地理空间信息(例如,位置坐标、天气图和交通数据)。然而,只有一小部分用于ML目的,因为地理空间数据集很难处理,而且通常大小可能是pb,横跨整个城市或数百英亩的土地。要开始构建地理空间模型,客户通常会通过购买卫星图像或地图数据等第三方数据源来增强其专有数据。从业者需要组合这些数据,为训练做准备,然后编写代码将数据集划分为可管理的子集,因为地理空间数据的规模很大。一旦客户准备部署他们训练过的模型,他们必须编写更多的代码来重新组合多个数据集,以关联数据和ML模型预测。为了从完成的模型中提取预测,从业者需要花费数天时间使用开源可视化工具在地图上进行渲染。从数据丰富到可视化的整个过程可能需要几个月的时间,这使得客户很难利用地理空间数据并及时生成ML预测。

Amazon SageMaker现在加速和简化了生成地理空间ML预测,使客户能够丰富他们的数据集,训练地理空间模型,并在几小时内可视化结果,而不是几个月。只需几次点击或使用API,客户就可以使用Amazon SageMaker访问AWS(例如亚马逊位置服务)、开源数据集(例如亚马逊开放数据)或他们自己的专有数据,包括来自第三方提供商(如Planet Labs)的一系列地理空间数据源。一旦从业者选择了他们想要使用的数据集,他们就可以利用内置操作符将这些数据集与他们自己的专有数据结合起来。为了加速模型开发,Amazon SageMaker提供了访问预训练的深度学习模型的用例,例如通过精准农业提高作物产量,在自然灾害后监测区域,以及改善城市规划。训练后,内置的可视化工具将数据显示在地图上,以揭示新的预测。要了解更多关于Amazon SageMaker新的地理空间功能的信息,请访问aws.amazon.com/sagemaker/geospatial。

Capitec银行是南非最大的数字银行,拥有超过1000万的数字客户。Capitec Bank机器学习工程师Dean Matter表示:“在Capitec,我们的产品线中有广泛的数据科学家,他们构建不同的机器学习解决方案。”“我们的机器学习工程师管理着一个建立在Amazon SageMaker上的集中式建模平台,以支持所有这些机器学习解决方案的开发和部署。如果没有任何内置的工具,跟踪建模工作往往会导致文档脱节和缺乏模型可见性。使用Amazon SageMaker模型卡,我们可以在统一的环境中跟踪大量的模型元数据,Amazon SageMaker模型仪表板提供了对每个模型性能的可见性。此外,Amazon SageMaker角色管理器简化了不同产品线中数据科学家的访问管理。这些都有助于我们的治理模式足以保证客户对我们作为金融服务提供商的信任。”

EarthOptics是一家土壤数据测量和测绘公司,利用专有传感器技术和数据分析来精确测量土壤的健康状况和结构。EarthOptics公司首席执行官Lars Dyrud表示:“我们希望使用ML技术来帮助客户通过具有成本效益的土壤地图提高农业产量。”Amazon SageMaker的地理空间ML功能允许我们使用多个数据源快速建立算法原型,并将研究和生产API部署之间的时间缩短至一个月。多亏了亚马逊SageMaker,我们现在为美国各地的农场和牧场部署了土壤碳封存的地理空间解决方案。”

HERE Technologies是领先的位置数据和技术平台,可帮助客户创建基于高精度位置数据的自定义地图和位置体验。HERE Technologies首席产品和技术官Giovanni Lanfranchi表示:“我们的客户需要实时环境,因为他们需要利用空间模式和趋势的洞察力来做出商业决策。”“我们依靠ML来自动摄取来自不同来源的基于位置的数据,以丰富上下文并加速分析。Amazon SageMaker的新测试功能使我们能够在生产中更严格、更主动地测试ML模型,并避免由于部署模型中的错误而对客户造成不利影响和任何潜在的中断。这一点至关重要,因为我们的客户依赖我们根据每分钟都在变化的实时位置数据提供及时的见解。”

Intuit是全球金融技术平台,通过TurboTax、Credit Karma、QuickBooks和Mailchimp为全球1亿多客户带来繁荣。Intuit工程和产品开发总监Brett Hollman表示:“我们正在释放数据的力量,在我们的平台上改变消费者、个体经营者和小企业的财务状况。”“为了进一步提高团队效率,将人工智能驱动的产品快速推向市场,我们与AWS密切合作,设计了SageMaker Studio notebook新的基于团队的协作功能。我们很高兴能够简化沟通和协作,使我们的团队能够通过Amazon SageMaker Studio扩展ML开发。”

关于亚马逊网络服务

15年来,亚马逊网络服务一直是世界上最全面、最广泛采用的云服务。AWS一直在不断扩展其服务,以支持几乎任何云工作负载,现在它拥有200多种功能齐全的服务,涉及计算、存储、数据库、网络、分析、机器学习和人工智能(AI)、物联网(IoT)、移动、安全、混合、虚拟和增强现实(VR和AR)、媒体以及应用程序开发、部署和管理,覆盖30个地理区域的96个可用区。宣布计划在澳大利亚、加拿大、以色列、新西兰和泰国再增加15个可用性区域和5个AWS区域。数以百万计的客户(包括增长最快的初创公司、最大的企业和领先的政府机构)都信任AWS为他们的基础设施提供动力,使其变得更加敏捷,并降低成本。要了解AWS的更多信息,请访问aws.amazon.com

对亚马逊

亚马逊遵循四项原则:以客户为中心而不是以竞争对手为中心;对发明充满热情;致力于卓越运营;亚马逊致力于成为地球上最以客户为中心的公司、地球上最好的雇主和地球上最安全的工作场所。顾客评论、一键购物、个性化推荐、Prime、亚马逊履约、AWS、Kindle直接出版、Kindle、职业选择、Fire平板电脑、Fire电视、亚马逊Echo、Alexa、Just Walk Out技术、亚马逊工作室和气候承诺都是亚马逊首创的一些东西。欲了解更多信息,请访问amazon.com/about并关注@AmazonNews。



Amazon.com Inc .)
媒体热线
Amazon-pr@amazon.com
www.amazon.com/pr

资料来源:亚马逊公司