部署在EC2 ultraccluster中的新亚马逊EC2 P5实例经过充分优化,可以利用NVIDIA Hopper gpu加速大规模生成式AI训练和推理
西雅图和圣克拉拉,加州——(商业通讯)——亚马逊网络服务公司(Amazon Web Services, Inc., NASDAQ: AMZN)和NVIDIA (NASDAQ: NVDA)今天宣布了一项多部分合作,重点是构建世界上最可扩展的按需人工智能(AI)基础设施,用于训练日益复杂的大型语言模型(LLMs)和开发生成式人工智能应用程序。
此次合作的特色是下一代亚马逊弹性计算云(Amazon EC2) P5实例,由NVIDIA H100 Tensor Core gpu和AWS最先进的网络和可扩展性提供支持,可提供高达20exaflops的计算性能,用于构建和训练最大的深度学习模型。P5实例将是第一个利用AWS第二代弹性织物适配器(EFA)网络的基于gpu的实例,该网络提供3,200 Gbps的低延迟、高带宽网络吞吐量,使客户能够在EC2 ultraccluster中扩展到20,000个H100 gpu,按需访问人工智能的超级计算机级性能。
AWS首席执行官Adam Selipsky表示:“AWS和NVIDIA已经合作了超过12年,根据AI/ML、图形、游戏和高性能计算等各种应用的需求,提供大规模、高成本效益的基于gpu的解决方案。”AWS在交付基于gpu的实例方面拥有无与伦比的经验,每一代都推动了可伸缩性的极限,许多客户今天将机器学习训练工作负载扩展到10,000多个gpu。通过第二代EFA,客户将能够将他们的P5实例扩展到超过20,000个NVIDIA H100 gpu,为从初创公司到大型企业的客户提供所需的超级计算机功能。”
“加速计算和人工智能已经到来,而且来得正是时候。加速计算提供了步进函数加速,同时降低了成本和功耗,因为企业力求事半功倍。生成式人工智能唤醒了企业重新想象他们的产品和商业模式,成为颠覆者,而不是被颠覆者,”英伟达创始人兼首席执行官黄仁勋表示。AWS是NVIDIA的长期合作伙伴,也是首家提供NVIDIA gpu的云服务提供商。我们很高兴能够结合我们的专业知识、规模和覆盖面,帮助客户利用加速计算和生成式人工智能,抓住未来的巨大机遇。”
新型超级计算集群
新的P5实例建立在AWS和NVIDIA之间十多年的AI和HPC基础设施合作的基础上,并建立在P2、P3、P3dn和P4d(e)实例之间的四次合作的基础上。P5实例是由NVIDIA gpu支持的第五代AWS产品,距离最初部署NVIDIA gpu(从CG1实例开始)已有近13年。
P5实例非常适合训练和运行日益复杂的llm和计算机视觉模型的推理,这些模型背后是要求最高和计算密集型的生成式AI应用程序,包括问答、代码生成、视频和图像生成、语音识别等。
专为企业和初创公司打造,以可扩展和安全的方式将人工智能驱动的创新推向市场,P5实例具有8个NVIDIA H100 gpu,能够在一个EC2实例中实现16 petaFLOPs的混合精度性能、640 GB的高带宽内存和3200 Gbps的网络连接(比上一代高出8倍)。P5实例性能的提高使机器学习(ML)模型的训练时间加快了6倍(将训练时间从几天缩短到几个小时),并且额外的GPU内存帮助客户训练更大、更复杂的模型。P5实例预计将使ML模型的训练成本比上一代降低40%,为客户提供比不太灵活的云产品或昂贵的本地系统更高的效率。
Amazon EC2 P5实例部署在称为EC2 ultracclusters的超大规模集群中,这些集群由云中的最高性能计算、网络和存储组成。每个EC2 UltraCluster都是世界上最强大的超级计算机之一,使客户能够运行最复杂的多节点ML训练和分布式HPC工作负载。它们具有pb级的无阻塞网络,由AWS EFA提供支持,AWS EFA是Amazon EC2实例的网络接口,使客户能够在AWS上运行需要大规模高级别节点间通信的应用程序。EFA定制的操作系统(OS)绕过硬件接口,并与NVIDIA GPUDirect RDMA集成,通过降低延迟和提高带宽利用率来提高实例间通信的性能,这对于在数百个P5节点上扩展深度学习模型的训练至关重要。通过P5实例和EFA, ML应用程序可以使用NVIDIA集合通信库(NCCL)扩展到20,000个H100 gpu。因此,客户可以通过AWS的按需弹性和灵活性,获得本地HPC集群的应用程序性能。在这些尖端的计算能力之上,客户可以使用业界最广泛和最深入的服务组合,例如用于对象存储的Amazon S3,用于高性能文件系统的Amazon FSx,以及用于构建、培训和部署深度学习应用程序的Amazon SageMaker。P5实例将在未来几周内提供有限的预览。如需访问,请访问https://pages.awscloud.com/EC2-P5-Interest.html.
借助新的EC2 P5实例,Anthropic、Cohere、hug Face、Pinterest和Stability AI等客户将能够大规模构建和训练最大的ML模型。通过额外几代EC2实例的合作,将帮助初创公司、企业和研究人员无缝扩展,以满足他们的机器学习需求。
Anthropic构建可靠、可解释和可引导的人工智能系统,将有许多机会为商业和公共利益创造价值。“在Anthropic,我们正在努力构建可靠、可解释和可控制的人工智能系统。虽然今天的大型通用人工智能系统可以带来巨大的好处,但它们也可能是不可预测的、不可靠的和不透明的。我们的目标是在这些问题上取得进展,并部署人们认为有用的系统,”Anthropic的联合创始人汤姆·布朗(Tom Brown)说。“我们的组织是世界上为数不多的在深度学习研究中建立基础模型的组织之一。这些模型非常复杂,为了开发和训练这些前沿模型,我们需要在大型gpu集群中有效地分布它们。今天我们正在广泛使用Amazon EC2 P4实例,我们对即将发布的P5实例感到兴奋。我们希望它们能够提供比P4d实例更大的性价比优势,并且它们将在构建下一代大型语言模型和相关产品所需的大规模可用。”
Cohere是语言AI领域的领先先驱,使每个开发人员和企业都能够使用世界领先的自然语言处理(NLP)技术构建令人难以置信的产品,同时保持数据的私密性和安全性。“Cohere领先于帮助每个企业利用语言人工智能的力量,以自然和直观的方式探索、生成、搜索和处理信息,在数据环境中跨多个云平台部署,最适合每个客户,”Cohere首席执行官Aidan Gomez说。NVIDIA h100支持的Amazon EC2 P5实例将释放企业的能力,通过其计算能力结合Cohere最先进的LLM和生成式人工智能功能,更快地创建、增长和扩展。”
拥抱脸的使命是让优秀的机器学习大众化。“作为增长最快的机器学习开源社区,我们现在在我们的平台上提供超过15万个预训练模型和2.5万个数据集,用于NLP、计算机视觉、生物学、强化学习等,”hug Face的首席技术官兼联合创始人朱利安·绍蒙德(Julien Chaumond)说。“随着大型语言模型和生成式人工智能的显著进步,我们正在与AWS合作,构建和贡献未来的开源模型。我们期待着通过Amazon SageMaker在带EFA的UltraClusters中大规模使用Amazon EC2 P5实例,以加速为每个人提供新的基础AI模型。”
如今,全球有超过4.5亿人使用Pinterest作为视觉灵感平台,购买符合自己口味的个性化产品,寻找线下创意,并发现最鼓舞人心的创作者。Pinterest首席架构师David Chaiken表示:“我们在整个平台上广泛使用深度学习,例如对上传到我们平台的数十亿张照片进行标签和分类,以及为用户提供从灵感到行动的视觉搜索。”“我们已经通过利用AWS GPU实例(如P3和最新的P4d实例)构建和部署了这些用例。我们期待使用亚马逊EC2 P5实例,具有H100 gpu、EFA和超集群,以加速我们的产品开发,并为客户带来新的基于同理心的人工智能体验。”
作为多模式、开源人工智能模型开发和部署的领导者,Stability AI与公共和私营部门合作伙伴合作,将这一下一代基础设施带给全球受众。“在Stability AI,我们的目标是最大限度地利用现代人工智能来激发全球的创造力和创新,”Stability AI首席执行官Emad Mostaque说。“我们最初在2021年与AWS合作,使用亚马逊EC2 P4d实例构建了一个潜在的文本到图像扩散模型Stable Diffusion,我们大规模使用了该实例,将模型训练时间从几个月缩短到几周。当我们致力于下一代开源生成人工智能模型并扩展到新的模式时,我们很高兴能在第二代EC2 ultraccluster中使用亚马逊EC2 P5实例。我们预计P5实例将进一步将我们的模型训练时间缩短4倍,使我们能够以更低的成本更快地提供突破性的人工智能。”
针对可扩展、高效AI的新服务器设计
在H100发布之前,NVIDIA和AWS拥有热、电和机械领域专业知识的工程团队合作设计了服务器,利用gpu大规模提供人工智能,重点关注AWS基础设施的能源效率。在某些AI工作负载下,gpu的能效通常比cpu高20倍,对于llm, H100的能效最高可达cpu的300倍。
双方的合作工作包括开发系统热设计、集成安全和系统管理、AWS Nitro硬件加速管理程序的安全性,以及针对AWS定制efa网络结构的NVIDIA GPUDirect™优化。
基于AWS和NVIDIA专注于服务器优化的工作,两家公司已经开始在未来的服务器设计上进行合作,以提高后续系统设计、冷却技术和网络可伸缩性的扩展效率。
关于亚马逊网络服务
自2006年以来,亚马逊网络服务一直是世界上最全面和最广泛采用的云。AWS一直在不断扩展其服务,以支持几乎任何工作负载,现在它拥有200多种功能齐全的服务,涉及计算、存储、数据库、网络、分析、机器学习和人工智能(AI)、物联网(IoT)、移动、安全、混合、虚拟和增强现实(VR和AR)、媒体以及应用程序开发、部署和管理,覆盖31个地理区域的99个可用区域。宣布计划在加拿大、以色列、马来西亚、新西兰和泰国再增加15个可用性区域和5个AWS区域。数以百万计的客户(包括增长最快的初创公司、最大的企业和领先的政府机构)都信任AWS为他们的基础设施提供动力,使其变得更加敏捷,并降低成本。要了解AWS的更多信息,请访问aws.amazon.com.
关于英伟达
自1993年成立以来,英伟达(纳斯达克代码:NVDA)一直是加速计算领域的先驱。该公司在1999年发明的GPU刺激了PC游戏市场的增长,重新定义了计算机图形,点燃了现代人工智能时代,并推动了元宇宙的创建。NVIDIA现在是一家全栈计算公司,其数据中心规模的产品正在重塑行业。更多资料,请浏览https://nvidianews.nvidia.com/.
本新闻稿中的某些声明包括但不限于以下声明:NVIDIA与AWS和Amazon EC2 P5实例合作的好处、影响、性能、可用性和特性;NVIDIA产品和技术的优势、影响、性能、功能和可用性,包括NVIDIA Hopper gpu、NVIDIA H100 Tensor Core gpu、NVIDIA GPUDirect RDMA、NVIDIA Collective Communications Library和NVIDIA GPUDirect优化;第三方(包括Pinterest、Stability AI、coherence和hug Face)使用亚马逊EC2 P5实例时的好处、影响和性能;NVIDIA和AWS在未来的服务器设计上进行合作,以通过下一代系统设计、冷却技术和网络可伸缩性提高扩展效率,这些前瞻性陈述都存在风险和不确定性,可能导致结果与预期有很大不同。可能导致实际结果存在实质性差异的重要因素包括:全球经济状况;我们依赖第三方来制造、组装、包装和测试我们的产品;技术发展和竞争的影响;开发新产品和技术或改进我们现有的产品和技术;本公司产品或合作伙伴产品的市场接受程度;设计、制造或软件缺陷; changes in consumer preferences or demands; changes in industry standards and interfaces; unexpected loss of performance of our products or technologies when integrated into systems; as well as other factors detailed from time to time in the most recent reports NVIDIA files with the Securities and Exchange Commission, or SEC, including, but not limited to, its annual report on Form 10-K and quarterly reports on Form 10-Q. Copies of reports filed with the SEC are posted on the company’s website and are available from NVIDIA without charge. These forward-looking statements are not guarantees of future performance and speak only as of the date hereof, and, except as required by law, NVIDIA disclaims any obligation to update these forward-looking statements to reflect future events or circumstances.
©2023 NVIDIA Corporation。版权所有。NVIDIA、NVIDIA标志和GPUDirect是NVIDIA公司在美国和其他国家的商标和/或注册商标。其他公司和产品名称可能是与其相关的各自公司的商标。功能、价格、可用性和规格如有更改,恕不另行通知。
Amazon.com Inc .)
媒体热线
Amazon-pr@amazon.com
www.amazon.com/pr
艾莉考特尼
英伟达公司
+ 1-408-706-8995
acourtney@nvidia.com
资料来源:亚马逊公司