蘋果公司的 Apple Intelligence 幾日前在 iOS 18.1 Beta 發放,與此同時公開更多技術細節。根據蘋果公司的論文披露,背後的人工智能模型由 Google Cloud 上的 TPU 訓練,而非目前市場主流的 NVIDIA GPU。
蘋果公司上載的論文《Apple Intellgience Foundation Language Models》長達 47 頁,內有詳盡的技術細節,其中提到用 Google TPUv4 和 TPUv5p 訓練模型。在伺服器上執行的模型 AFM-server 由 8,192 個 TPUv4 晶片所組成的叢集訓練,先用 6.3 兆字符的數據訓練,再精練 1 兆字符重新訓練,然後 1,000 億字符內容補充。在設備上運行的模型 AFM-on-device 則用 2,048 個 TPUv5p 晶片訓練。
Google 的 TPU 為公共雲平台最先提供的自訂 AI 晶片,在 2015 年推出第一代晶片但只限內部使用。至 2017 年的第二代正式在 Google Cloud 上供客戶租用,至今最新為 TPUv5p。根據網站的定價,3 年合約期的 TPUv5p 每小時可低至 1.89 美元。不過以蘋果公司的大規模租用,可能獲特惠價。
可能只是 Apple Intelligence 的開始,早前據報蘋果公司內部實行 Project ACDC,投資 50 億美元更新數據中心,包括購置伺服器等以支援 AI 程式。不過,Google 的 TPU 只限雲端供應,蘋果公司自建的伺服器由哪些 AI 加速晶片支援,有待業界發掘。