社交平台 Facebook 母公司 Meta 計畫建造 AI Research SuperCluster(RSC) 超級電腦,預計在今年年中建成後會搭載 1.6 萬顆 GPU,混合精度運算( mixed precision compute )效能接近 5 Exaflops,成為全球最快 AI 超級電腦。
Meta 在公司網誌上發表 RSC 計畫,其行政總裁 Mark Zuckerberg 表示,目前 RSC 已是全球運行中最快的 AI 超級電腦之一,到建成時將成為全球之冠,而 RSC 更是為加速實現元宇宙( Metaverse )的願景。
目前,Meta 的 AI 研發人員已可以從數以兆計的實例建立 AI 運算模型,並能夠處理數百種不同語言,即時分析文字、圖像及影片,並開發新的擴增實境( AR )工具等。
RSC 由數個運算節點組成,並以高速網絡連接而成。目前已包括 760 個 Nvidia DGX A100 系統節點,合共 6,080 顆 GPU。跟現有的訓練系統相比,RSC 的電腦視覺運算速度提升 20 倍,執行 Nvidia Collective Communication Library( NCCL )的速度快超過 9 倍,訓練大型 NLP 模型的效能增 3 倍。
另外,RSC 每個 DGX 節點都透過 Nvidia Quantum 1600 Gb/s InfiniBand 二層 Clos 網絡架構連接,減少網絡超載。儲存系統方面則採用 Pure Storage 的方案,分別有 175PB FlashArray 、 46PB Penguin Altus 快取儲存及 10PB Pure Storage FlashBlade 。 RSC 的快取及儲存系統設計計畫可提供 16TB/s 頻寬及 1 Exabyte 儲存容量。