亚马逊云科技计算和机器学习服务副总裁 david brown
北京 2025年7月10日 /美通社/ -- 设想这样一个系统,它可以探索解决复杂问题的多种方法,依托对海量数据的理解——从科学数据集到源代码,再到商业文档——并能够实时推理各种可能性。这种闪电般极速的推理不是未来的设想,而是如今亚马逊云科技客户ai生产环境中正在发生的事情。当前我们的客户在药物研发、企业搜索、软件开发等多个领域构建的ai系统规模令人惊叹,而这仅是开始。
为了加速推理模型、agentic ai系统等新兴生成式ai技术的发展,亚马逊云科技宣布由nvidia grace blackwell superchips加速的现已正式可用。p6e-gb200 ultraserver专为训练和部署最大规模、最复杂的ai模型而设计。今年早些时候,亚马逊云科技已推出了基于nvidia blackwell gpu的实例,支持多样化的ai和高性能计算工作负载。
基于亚马逊云科技在大规模、安全可靠gpu基础设施的丰富经验,amazon ec2 p6e-gb200 ultraserver和amazon p6-b200实例能够帮助客户持续推动ai技术的边界。
满足 ai 工作负载不断增长的计算需求
amazon ec2 p6e-gb200 ultraserver是亚马逊云科技迄今为止最强大的gpu产品,配备最多72个nvidia blackwell gpu,这些gpu通过第五代nvidia nvlink互连,并作为单一计算单元运行。每台ultraserver可提供高达360 petaflops的高密度fp8算力,以及13.4tb的高带宽显存(hbm3e)——相比p5en实例,在单个nvlink域内的计算能力提升超过20倍,内存容量提升超过11倍。amazon ec2 p6e-gb200 ultraserver支持高达28.8 tbps的第四代elastic fabric adapter(efav4)网络带宽。
amazon ec2 p6-b200实例为广泛ai场景提供灵活选择。每个实例配备8个通过nvlink互连的nvidia blackwell gpu,拥有1.4tb高带宽显存和最高3.2 tbps的efav4网络带宽,以及第五代intel xeon scalable处理器。与amazon ec2 p5en实例相比,amazon ec2 p6-b200实例的gpu计算能力是其2.25倍,显存容量为其1.27倍,显存带宽为其1.6倍。
如何在amazon ec2 p6e-gb200与amazon ec2 p6-b200之间进行选择?关键取决于客户的具体工作负载需求和架构偏好:
基于亚马逊云科技核心优势的持续创新
将nvidia blackwell引入亚马逊云科技不仅仅是一项技术突破,更是对基础设施的全面创新。基于在计算、网络、运维和托管服务等领域的多年深耕与实践,亚马逊云科技将nvidia blackwell的全部功能融入其中,同时满足客户期望在亚马逊云科技获得的高可靠性和性能。
实例强大的安全性与稳定性
客户在选择将gpu工作负载部署在亚马逊云科技上的原因中,有一点反复被提及:他们高度认可亚马逊云科技在云端对实例安全性与稳定性上的重视。系统的专用硬件、软件和固件具备强制隔离机制,确保包括亚马逊云科技员工在内的任何人都无法访问客户的敏感ai负载与数据。
除了安全性,amazon nitro系统还从根本上革新了基础设施的维护与优化方式。该系统负责处理网络、存储及其他i/o功能,并支持在系统持续运行的情况下完成固件升级、漏洞修复和性能优化。这种无需停机即可更新的能力,被称为"实时更新",在当前对连续性要求极高的ai生产环境中尤为关键,任何中断都可能对业务进度造成严重影响。
amazon ec2 p6e-gb200和amazon ec2 p6-b200均搭载第六代nitro系统。但这些安全与稳定性的优势并非首次出现,自2017年起,创新型nitro架构就已在持续保护和优化上的工作负载。
大规模环境下的可靠性能保障
对于ai基础设施的挑战不仅在于实现超大规模,更在于如何在这一规模下持续保障性能和可靠性。amazon ec2 p6e-gb200 ultraserver已部署至第三代amazon ec2 ultracluster中,创建了单一架构,可覆盖亚马逊云科技规模最大的数据中心。第三代ultracluster最多可将功耗降低40%、布线需求减少超过80%,不仅显著提升了能效,也有效减少了潜在故障点。
为了在超大规模部署中提供一致性能,亚马逊云科技采用了及其可扩展可靠数据报协议(scalable reliable datagram),该协议可在多条网络路径之间智能路由流量,即使在出现拥堵或故障的情况下,也能保持系统稳定运行。亚马逊云科技持续对四代efa进行性能优化。配备efav4的amazon ec2 p6e-gb200和amazon ec2 p6-b200实例,在分布式训练中的集体通信速度相比使用efav3的amazon ec2 p5en实例提升最高可达18%。
基础设施效率
amazon ec2 p6-b200 实例采用经过验证的空气冷却架构,而amazon ec2 p6e-gb200 ultraserver 则采用液冷方案,使大型 nvlink 域架构能够实现更高的计算密度,从而提升系统整体性能。p6e-gb200 配备创新的机械冷却设计,可在新建和既有数据中心中实现灵活的芯片级液冷,从而在同一设施内同时支持液冷加速器与空气冷却的网络和存储设备。凭借这一灵活的冷却架构,亚马逊云科技能够以更低成本实现更高性能与效率。
在亚马逊云科技上启用 nvidia blackwell
亚马逊云科技通过多种部署路径简化amazon ec2 p6e-gb200 ultraserver和amazon ec2 p6-b200实例的启用过程,客户可快速开始使用blackwell gpu,同时保持其现有的运维模式。
amazon sagemaker hyperpod
如果客户希望加速ai开发,并减少对基础设施和集群运维的投入,正是理想之选。该服务提供托管式、可靠的基础设施,能够自动完成大型gpu集群的配置与管理。亚马逊云科技也在持续增强amazon sagemaker hyperpod,新增灵活训练计划等创新功能,帮助客户获得可预测的训练周期,并将训练任务控制在预算范围内。
amazon sagemaker hyperpod将支持amazon ec2 p6e-gb200 ultraserver和amazon ec2 p6-b200实例,并通过优化使工作负载保持在同一nvlink域内,以实现性能最大化。亚马逊云科技还在构建一套完整的多层级恢复机制:amazon sagemaker hyperpod可在同一nvlink域内自动用预配置的备用实例替换故障节点。内置仪表板将提供从gpu利用率、内存使用情况到工作负载指标和ultraserver运行状态的全面可视化信息。
amazon eks
对于大规模ai工作负载,如果客户更倾向于使用kubernetes管理基础设施,通常是首选控制平面。amazon eks持续推动amazon eks的创新,例如功能,可支持在同一个集群中同时管理本地和amazon ec2 gpu,从而为ai工作负载带来更大灵活性。
amazon eks将通过托管节点组支持对amazon ec2 p6e-gb200 ultraserver和amazon ec2 p6-b200实例的自动配置与生命周期管理。针对amazon ec2 p6e-gb200 ultraserver,亚马逊云科技正在为其构建拓扑感知能力,以识别gb200 nvl72架构,并自动为节点添加ultraserver id和网络拓扑信息,从而实现最优的工作负载调度。客户可选择将节点组部署在多个ultraserver之间,或专用于单个ultraserver,从而在训练基础设施架构上获得更高的灵活性。amazon eks还会监控gpu和加速器错误,并将相关信息传递至kubernetes控制平面,以支持后续处理。
亚马逊云科技上的 nvidia dgx cloud
amazon ec2 p6e-gb200 ultraserver也将通过nvidia dgx cloud提供。dgx cloud是一个统一的ai平台,在各层架构均经过优化,具备多节点ai训练与推理能力,并集成英伟达完整的ai软件栈。客户可充分利用英伟达最新的性能优化方案、基准测试方法和技术专长,以提升效率与性能。该平台还提供灵活的服务期限选择,以及由英伟达专家提供的全面支持与服务,助力客户加速推进ai项目。
此次发布是一个重要的里程碑,但这仅仅是一个开始。随着ai能力持续的快速演进,客户需要的基础设施不仅要满足当下需求,更要为未来的多种可能性提供支撑。通过在计算、网络、运维和托管服务等多个层面的持续创新,amazon ec2 p6e-gb200 ultraserver和amazon ec2 p6-b200实例已做好充分准备来实现这些可能。我们期待看到客户的未来构建。