更多

    Google Cloud 第 6 代 TPU 快 4.7 倍 超級電腦架構訓練 AI 模型

    Eric Chong
    Eric Chong
    商業・科技・創業・編輯

    Google Cloud 最近發表多項硬件加速訓練 AI,包括第 6 代 TPU Trillium。Google Cloud 運算及機械學習基建業務副總裁暨總經理 Mark Lohmeyer 稱,AI 基建正在朝著軟硬件整合方向發展,建 AI Hypercomputer 超級電腦架構,加速訓練和推理成效。

    科技企業的 LLM 大戰由微軟和 OpenAI 合作領先市場,令 Google 要急起直追,如去年 5 月推出 PaLM 2,年底又改為用 Gemini 應戰。即使 Google 的 LLM 屢次變陣,背後採用自行研發的 AI 加速晶片 TPU 訓練。最前正式推出 TPU v5e,上月又發表第 6 代 TPU Trillium,預計今年底給企業客戶試用。

    Lohmeyer 稱,TPU Trillium 的運算效能較前一代高 4.7 倍,高頻寬記憶體(HBM)增加 1 倍,晶片之間互連頻寬增 1 倍,耗能效善改善超過 67%。將多個 TPU 晶片串連,可以建起效能可比超級電腦的叢集。例如 Gemini 用上由 8,960 顆前一代 TPU v5e 建的叢集訓練而成。

    Google Cloud 上目前提供的 AI 運算基建有 TPU v5e、NVIDIA H100 GPU,而明年會有 TPU Trillium、NVIDIA Blackwell GPU,以及自訂的 Arm 處理器 Axion。

    AWS 設有 SageMaker 及 Bedrock,或微軟 Azure 的 AI Studio 管理 AI 模型,而 Google Cloud 在 2021 年推出同類方案 VertexAI。Lohmeyer 指出,VertexAI 從選擇 AI 模型、用數據調整、檢視成效,到最後整合至企業的應用程式。其中在 Vertex AI 設有模式園地(model garden),提供逾 150 模型給企業選用,如 Gemini、Gemma,以至第三方模型 AnthropicClaude 3​​。

    Google Cloud 在去年推出 AI Hypercomputer 方案,將硬件、軟件整合,加快執行 AI 工作負載的效能。Lohmeyer 形容,有如 20 年前用軟件優化 x86 架構建立雲端平台一樣,現時同樣通過軟件整合硬件平台。AI Hypercomputer 方案調整、管理及動態協調管理硬件上的 AI 訓練及推論工作負載。

    最新影片

    您會感興趣的內容

    相關文章