在 2023 年的人工智能大戰中,Google 總是給人慢郎中的感覺,不過自今年 Google I/O 開始,他們似乎終於上力。Google 今日就發表他們旗下最大型、最強大的人工智能模型 Gemini,可以同時理解和操作文本、代碼、音頻和視頻等不同類型訊息。Gemini 已經陸續在不同裝置和 Google 平台各種服務上引入。
Gemini 是一款多模態模型,能處理文本、文本、代碼、音頻和視頻等不同類型訊息,Gemini 1.0 有三種不同尺寸的模型,包括:
- Gemini Ultra:最大型、最強大的模型,專為處理高度複雜的任務而設;
- Gemini Pro:最適合處理各種任務擴充的高度優化模型;
- Gemini Nano:專為裝備內置任務,如手機而設的高效模型。
Google 表示 Gemini Ultra 在 32 項普遍用於大型語言模型(LLM)研究的學術基準中,超越其中 30 項,成為了首個在大規模多任務語言理解(MMLU)勝過人類專家的模型。Gemini 1.0 可以同時識別和理解文字、圖像、音訊等,可以更好地理解資訊微妙之處,並能就較複雜的題材解答相關問題。它擁有從數十萬份文件中閱讀、過濾和理解資訊並提取見解的能力,可幫助科學以至金融等實現新的突破。
而編程方面,Gemini 1.0 能理解、解釋和生成包括 Python、Java、C++ 等多種流行編程語言的高品質程式碼。Google 利用 Gemini 的專門版本創造更先進的程式碼生成系統 AlphaCode2,較上一代解決多近兩倍的問題。
Cloud TPU v5p
Google 同時又發表自家研發人工智能晶片 (TPU) Cloud TPU v5p,它專為訓練尖端 AI 模型而設,同時能夠比以往更迅速地訓練大規模生成式 AI 模型,令新產品和新功能能更早推出市場。
Gemini 1.0 現已在 Google 一系列產品和平台上推出,其中聊天機械人 Bard 今日開始就會使用經特別調整的 Gemini Pro 版本,進行更高端的推理、規劃及理解等工作。它將會先在 170 多個國家和地區以英語提供服務,並計劃在不久的將來擴展到不同的模態及支援新的語言和地區。
Bard 使用的 Gemini Pro 進行了特別的調整,在總結、推理、構思、寫作和規劃等領域都有更好表現。在八項行業基準測試中,Gemini Pro 就有六項比 OpenAI 上一代模型 GPT-3.5 表現更出色。
明年年初,Google 還會推出 Bard Advanced,到時還可以使用到 Gemini Ultra 模型。
此外, Google 亦已經在美國的英語搜尋中試用 Gemini 模型,為用戶提供更迅速的搜尋生成體驗,令時延下降 40%,同時搜尋質素亦有明顯提升。
Gemini Nano 已在 Pixel 8 Pro 手機使用
至於最小型的 Gemini Nano,其實它早已用在剛推出的 Google Pixel 8 Pro 手機。這一代 Pixel Pro 手機提供多種人工智能功能,包括錄音機應用程式中的「摘要」,並在 Gboard 中新增智能回覆功能,此功能將率先應用於 WhatsApp,明年會陸續推出至更多通訊應用程式。在未來數月,Gemini 將應用於 Google 更多產品和服務中,例如搜尋、廣告、Chrome 和 Duet AI 等。
從 12 月 13 日起,開發人員和企業客戶可以透過 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 使用 Gemini Pro。Android 開發人員還可以透過 Android 14 提供的新系統功能 AICore 使用為裝備內置任務而設的最高效模型 Gemini Nano 進行開發工作。而 Gemini Ultra 就會在完成全面的可信性和安全檢查才正式推出市場。