AWS 在美國拉斯維加斯舉行大會 re:Invent 2024,今年繼續全攻生成式 AI,發表大量產品和服務。當中的重點產品是採用訓練晶片 Trainium2 的 Trn2 執行個體正式可用(GA),蘋果公司的 Apple Intelligence 模型亦經由這晶片訓練。AWS 還發表 Trn2 UltraServer,提供逾 83FLOPS 運算效能,強勁可比超級電腦。
AWS 新上任的行政總裁 Matt Garman 首次主持 re:Invent 大會,內容主攻生成式 AI,先由基建運算說起。AWS 去年發表內部研發訓晶片 Trainium2,今年正式可用並推出強調成本效益的 Trn2 執行個體。每個 Trn2 執行個體由 16 枚 Trainium2 支援,運算效能最高 20.8PFLOPS。Trn2 執行個體的成本,較其他 GPU 訓練模型的執行個體低 30% 至 40%。
蘋果公司試用 Trn2 效能升級
Trn2 執行個體在正式可用之前已有多間企業試用,包括蘋果公司的 Apple Intelligence 在內。蘋果公司機械學習及 AI 高級總監 Benoit Dupin 在主題演講上分享,試用 Trainium2 預先訓練推動 Apple Intelligence 模型,成效較前一代提升 50%。
Benoit Dupin 還指出,旗下的硬件產品(如 iPhone、iPad、Apple TV)至軟件服務(如 Apple Music、Sports、News 等),背後的機械學習功能和伺服器基建均由 AWS 支援。用 Arm 處理器 Graviton 和推理晶片 Inferentia 處理這些工作負載,比 x86 執行個體的效能提升 40%。
Benoit Dupin 是今年 re:Invent 大會的首個驚喜嘉賓,在公共雲平台競爭激烈的環境,尤其微軟和 Google Cloud 積極用 AI 服務搶佔 AWS 的市場,有蘋果公司的代表站台,等於注入強心針。Benoit Dupin 亦是前 Amazon 員工,A9 部門副總裁負責搜尋引擎和廣告。
蘋果公司以外,還有 Adobe 的生成式 AI 模型 Firefly、開發程式 AI 創業公司 Poolside.ai、Databricks 和 Qualcomm 等試用 Trainium2。
Trn2 UltraServer 可比超級電腦
除了 Trn2 執行個體,Matt Garman 還發表運算效能更強大的 Trn2 UltraServer,用 NeuronLink 互連 4 個 Trn2 執行個體,合共 64 枚 Trainium2 並行運算,提供最多 83.2PFLOPS 效能。這水平相當於 TOP500 超級電腦上月公布名單第 18 位德國的 JETI。
AWS 效用運算資深副總裁 Peter Desantis 指出,Trn2 UltraServer 總共兩個標準 42U 機櫃,6TB 記憶體,185TBps 超高頻寬記憶體。連接技術 NeuronLink 直接連接各枚 Trainium2 晶片,速度 2Tbps,時延僅 1 微秒。
AWS 投資 40 億美元的大型語言模型創業公司 Anthropic 將使用 Trn2 UltraServer 建起超級叢集,用數以十萬計 Trainium2 晶片組成地上最強 ML 訓練環境。anthropic 聯合創辦人兼技術總監 Tom Brown 稱這超級叢集為 Project Rainier,提供多 5 倍運算效能訓練下一代模型,起碼達 1 EFLOPS 級數。最新的 Claude 3.5 Haiku 亦會在 Trainium2 晶片上運行推理,配合 Bedrock 時延優化推理服務,推理反應速度提升 60%。
Trainium2 配合 Bedrock 時延優化推理服務,大幅縮減生成內容的回應時間。Peter Desantis 稱,以 Llama 3.1 405B 模型為例,生成回應僅用 3.9 秒,幾乎是在 Azure 運行的一半,比在 Google Cloud Vertex 上更快 10 秒之多。
Matt Garman 又預告,將在明年發表 3 納米製程的 Trainium3 晶片,雙倍效能、多 40% 能源效益。除了自研 AI 晶片,還繼續與業界合作供應 GPU 基建,明年推出新執行個體 P6,採用 NVIDIA Blackwell 。