更多

    $23,000 一張 Titan V 都計錯數 NVIDIA 暗示:誰叫你不買 Tesla 卡?

    呀粗
    呀粗
    覺得科技很有趣,努力增補電腦知識中。喜歡儲設計精美的電腦產品包裝盒。

    上星期我們報導過 NVIDIA TITAN V 於科學研究的運算中,偶爾會出現錯誤,即使運算同一組數據兩次,都可能會出現兩個不同的答案。雖然這只是個別事件,但因為 TITAN V 是 NVIDIA 屹今最頂級的 GeForce 顯示卡,而且售價高達驚人的 $23,000 港元,所以消息一出就惹起轟動,更有讀者於我們的 Facebook 帖子回應中,張帖以下一幅 Meme 圖諷刺。不過後來 NVIDIA 向傳媒解說,原來上述意外竟是因為用錯顯示卡所致?

    NVIDIA TITAN V 規格強勁,確實是運算得很快,但運算得不準確又有何用處呢?
    NVIDIA TITAN V 規格強勁,確實是運算得很快,但運算得不準確又有何用處呢?

    NVIDIA TITAN V 規格強悍,具備多達 5,120 個 CUDA Core 、 640 個專為 AI 加速而設的 Tensor Core 、以及多達 12GB HBM2 記憶體,不論是打機,還是用於 AI 運算、科學研究的電腦 / 工作站,都同樣適宜。但為何在 GeForce 系列中規格舉世無雙的 GPU,都會發生計錯數如此「低級」的錯誤呢?原來 GeForce TITAN 系列顯示卡的記憶體,均不支援 ECC 偵錯校正功能,所以當處理科學研究這類龐大的數據時,就可能因為運算不及,而導致部分結果出錯,卻沒有 ECC 功能自動偵測糾正。

    TITAN V 不具備 ECC RAM,所以偶爾會在大型運算中出岔子。
    TITAN V 不具備 ECC RAM,所以偶爾會在大型運算中出岔子。

    據了解,目前已有一款名為 Amber 的分子動力學( Molecular Dynamics )科學模擬程式,受到上述問題影響,程式的官網更警告用戶注意使用 TITAN V 或會導致運算錯誤。 NVIDIA 官方則向事件的消息來源 The Register 解釋:「我們所有 GPU 產品都能正確計算數據,而 Tesla GPU 產品線則具備 ECC 除錯功能,專用來運算這類大型的科學模擬。」言下之意即是指科學家不應使用 TITAN V 作研究?應該付更多更多錢去買天價的伺服器專用 Tesla 繪圖卡?那麼 TITAN V 所針對的科學研究市場,究竟是哪一種「小型」的應用,才能穩定地每次運算都毫無出錯?研究學者、大專院校及企業又會否願意用 $23,000 來博取 TITAN V 是否足夠應付他們的應用呢?雖然大型運算確實是用 ECC RAM 的 GPU 比較安全,但 NVIDIA 的回答對於付了錢購買 TITAN V 的顧客而言,也不太負責任吧……

    [blockquote style=”1″]NVIDIA 回應事件:
    “All of our GPUs add correctly,”
    “Our Tesla line, which has ECC [error-correcting code memory], is designed for these types of large scale, high performance simulations. Anyone who does experience issues should contact support@nvidia.com.”[/blockquote]

    Amber 科學程式於官網提醒用戶使用 TITAN V 運算時,可能會出現錯誤。
    Amber 科學程式於官網提醒用戶使用 TITAN V 運算時,可能會出現錯誤。
    即使是上一代 Pascal 架構的 Tesla P100,在香港都賣近 5 萬元,TITAN V 本身都很昂貴,NVIDIA 你還叫人再買貴一倍?
    即使是上一代 Pascal 架構的 Tesla P100,在香港都賣近 5 萬元, TITAN V 本身都很昂貴, NVIDIA 你還叫人再買貴一倍?

    Source:The RegisterAmber Molecular Dynamics

    您會感興趣的內容

    相關文章