更多

    GTC2020 NVIDIA 發佈全新 7nm Ampere A100 繪圖核心

    Yeung Chun Fat
    Yeung Chun Fat
    曾經在香港各間主要電腦雜誌工作,隨後轉行到電腦公司任職產品經理,最近重回媒體工作。個人出版的作品包括替香港工業總會轄下香港電子業總會(HKEIC)撰寫《香港電子業穩步向前- 回顧與前瞻》紀念書刊。

    在 GTC2020 , NVIDIA 如期發佈新一代 7nm Ampere A100 繪圖核心,率先用於數據中心。由於 7nm Ampere 也會用於遊戲卡市場,取代目前的 12nm Turing 架構,所以這次發佈會也是下一代遊戲卡的預演。 A100 核心面積 826mm2 ,略大於 GeForce RTX 2080 Ti 的 754mm2 。但因為改用 7nm 製程的關係,內建電晶體數目達到破紀錄的 542 億顆,即意味著可集成更多的功能。

    [ot-video][/ot-video]

    6912 CUDA Cores

    由於 A100 屬於數據中心、科研用的 GPU ,很多功能都未必會用於遊戲卡,如所用的 HBM2 記憶體。因此本文將去蕪存菁,選擇最會影響到遊戲卡的部分加以說明。在 CUDA Cores 的數目上, A100 增至 6912 ,較 Quadro RTX 6000 4608 及 GeForce RTX 2080 Ti 4352 有 50% 及 58.8% 增長,相當可觀,誰說 7nm 製程作用不大呢!

    再看看大家最關心的功耗問題。 A100 TDP 為 400W ,估計下一代 GeForce RTX 3080 Ti 可繼續現在的 6+8pin 供電設計。

    Ampere 核心採用 TSMC 7nm 製程,並未採用傳說中的 Samsung 5/7nm 製程。
    Ampere 核心採用 TSMC 7nm 製程,並未採用傳說中的 Samsung 5/7nm 製程。
    Ampere 新架構與現有架構的比較
    Ampere 新架構與現有架構的比較

    第 3 代 Tensor Cores

    在 NVIDIA 的設計中, Tensor 用於 AI 等用途,其中最為 Gamers 所熟識的應用是 DLSS 功能,可用於抵消啟動 Ray Tracing 功能後對效能的影響。在 Ampere A100 架構下, NVIDIA 採用第 3 代 Tensor Cores ,最大的改變是在 FP32 與 FP16 之間新增 Tensor Float32(19bit) Cores ,提供高性能又不失精度的運算單元。不過目前遊戲卡所用的 Tensor Cores 主要為 INT4 及 INT8 等低精度運算,加上 NVIDIA 市場定位策略,用在遊戲卡的機會應不大。

    Ampere A100 架構新增Tensor Float32 Cores
    Ampere A100 架構新增 Tensor Float32 Cores
    新架構在 AI 運算有 2X 速度的提升,尤其優化 Sparse AI Tensor 運作。
    新架構在 AI 運算有 2X 速度的提升,尤其優化 Sparse AI Tensor 運作。
    NVIDIA 表示若與上一代 V100 相比,A100 可有10X 效能增長、Sparse TF32 模式下更有 20X 效能的增長。
    NVIDIA 表示若與上一代 V100 相比, A100 可有 10X 效能增長、 Sparse TF32 模式下更有 20X 效能的增長。

    NVIDIA 採用 AMD EPYC CPU

    從來在商場上沒有永遠的敵人。同場 NVIDIA 發表 NVIDIA DGX A100 第 3 代 AI 系統,以 Single Node 提供高達 5 PetaFLOPS 峰值性能。不過最特別還是它採用了兩顆 64 核心 AMD Rome (即 Zen2 架構的工作站版本) CPU,令人聯想到 NVIDIA 也認同 AMD EPYC 優於 Intel Xeon 的性能。其餘規格也屬一時之選,如 1TB 記憶體、 8 顆 NVIDIA A100 GPUs 、 6x NVIDIA NVSwitches 及 15TB Gen4 NVMe SSD 。如此規格, NVIDIA 表示較高階 Server CPU 方案有 150X AI Compute 、 40X 記憶體頻寬及 40x I/O 頻寬的性能增長。

    NVIDIA DGX A100 系統採用 AMD Server 級 CPU
    NVIDIA DGX A100 系統採用 AMD Server 級 CPU
    NVIDIA DGX A100 系統擁有高達5 PetaFLOPS峰值性能。如果是 INT8 的話,更有10 PetaOPS 峰值性能。
    NVIDIA DGX A100 系統擁有高達 5 PetaFLOPS 峰值性能。如果是 INT8 的話,更有 10 PetaOPS 峰值性能。

    您會感興趣的內容

    相關文章