NVIDIA 去年 9 月推出 AI 運算 GPU H100 之後,公共雲平台陸續採購和完成安裝,相繼正式可用,最新有 AWS 推出 P5 執行個體,利用 AMD 第三代 EPYC 處理器,配最多 8 個 NVIDIA H100 Tensor Core GPU 。相較上一代用 A100 GPU 的 P4 執行個體, P5 可以將訓練時間縮減六倍,也節省最多 40% 訓練成本。
P5 執行個體採用 AMD 第三代 EPYC 7R13 處理器,2TB 記憶體,30TB 本地 NVMe 快閃記憶體儲存,配上最多 8 個 NVIDIA H100 GPU,具備 640GB 高頻寬記憶體。P5 執行個體採用 3200 Gbps 聚合網絡頻寬,支援 GPUDirect RDMA 繞過 CPU 直接在 GPU 之間傳送數據。
P5 執行個體適用於訓練大型語語模型和電腦視覺模型,也可用於運行生成式 AI 程式。較上一代用 A100 GPU 的 P4 執行個體, P5 可以將訓練時間縮短六倍。使用 FP8 數據類型的運算,如 Transformer 框架的語言模型,由 NVIDIA Transformer Engine 支援提升六倍效能。
NVIDIA 將 H100 GPU 用於建立超級電腦,AWS 亦以此技術加入在第二代 Amazon EC2 UltraClusters。這伺服器叢集目前有兩萬個 H100 GPU,在內的 P5 執行個體提供合共 20EFLOPS 運算能力。
P5 執行個體目前只在美國東部北維珍尼亞州( us-east-1 )和西部俄勒岡州( us-west-2 )區域可用。