更多

    手機原生運行人工智能 Apple、Microsoft 相繼公開小型語言模型

    Mickey Chan
    Mickey Chan
    愛模擬飛行、希望終有一日回到單車上的宅,眼鏡娘控。座右銘: 1.膽固醇跟美味是成正比的; 2.所有人都可以騙,但絕對不能騙自己; 3.賣掉的貨才是錢,不賣的收藏品不值一文; 4.踩單車,是為了吃更多美食! 5.正義的話語,不一定出自正義之人的口;

    AI 手機成為今後手機潮流的趨勢,而要在手機上原生運行人工智能,需要適合手機環境的小型語言模型。繼 Microsoft 昨日發表可在手機上運行的小型語言模型 (SLM) Phi-3 之後,Apple 也公開了可在 iPhone 上運行的高效語言模型 (ELM) OpenELM。兩款模型都已經可以在 Hugging Face 等平台下載。

    OpenELM

    Apple 公開的模型稱為 OpenELM,當中的 ELM 即高效語言模型 (Efficient Language Model)。Apple 同時公開了預訓練模型和指令調整模型,以所含參數多少分為 2.7 億 (270M)、4.5 億 (450M)、11 億 (1.1B) 和 30 億 (3B) 4 級規模。預訓練模型使用 GitHub 的 RedPajama 數據集、大量書籍、Wikipedia 等公開資料來訓練,共約 18,000 億 Token。

    OpenELM 採用分層縮放策略,在轉換器模型的每一層中有效地分配參數,從而提高準確性。除了公開模型之外,Apple 還同時發布在公開數據集上訓練和評估語言模型的完整框架,與及將模型轉換為 MLX 庫(應用在 Apple 自家研發晶片上的陣列框架)的代碼,以便開發者在 Apple 裝置上進行推理和微調。

    Apple 表示今次全面公開 OpenELM 旨在增強和鞏固開放研究社群,為未來的開放研究工作鋪平道路。

    Phi-3

    Microsoft 公開的 Phi-3 小型語言模型 (SLM) 分為 mini、small 和 medium 三種大小,參數量分別為 38 億、70 億和 140 億。當中 Phi-3-mini 又分為支援上下文長度為 4K 和 128K Token 的兩個版本,已可以在 Microsoft Azure AI StudioHugging FaceOllama 平台下載使用,亦可在商業業務上使用。

    Microsoft 表示雖然 Phi-3 參數較少,但由於使用高質素數據來訓練,在主要評測中,效能較相同規模甚至較大規模的大型語言模型 (LLM) 還要優勝。以 Phi-3-small 為例,它較據知有 175 億參數的 GPT-3.5 Turbo 跑分成績更好。

    而最小型的 Phi-3-mini 模型性能不單能與規模大 10 倍的大型語言模型媲美,由於體積較小,運行成本也低得多。據 Microsoft 公開的論文表示,經 4-bit 量化的 Phi-3-mini 在配備 Apple A16 Bionic 晶片的 iPhone 上原生運行,每秒可生成超過 12 個 Token 的內容。

    NVIDIA 方面亦表示,Phi-3-mini 模型可以在配備 RTX GPU 的工作站,或配備 GeForce RTX GPU 的電腦上本地端運行。Microsoft 表示 Phi-3 已經在難以取用互聯網的農業領域上展現價值,而且可降低運行成本,使人工智能科技更加普及。

    最新影片

    您會感興趣的內容

    相關文章