更多

    【氣候挑戰】以氣候問題測試 AI 人工智能

    岑 智明
    岑 智明
    畢業於香港大學,獲理學士,主修物理。1986 年加入香港天文台為科學主任,2011 年晉升香港天文台台長,2020 年退休。岑先生開發了全球第一套激光雷達風切變預警系統,克服了在無雨環境下探測風切變這個長久的世界性問題,獲得本地獎項及國際嘉許。岑先生於 2010-2018 年擔任世界氣象組織航空氣象學委員會主席,是首位亞洲人獲選出任這個高層位置。

    2024 年 8 月,我以《應對氣候挑戰新方向:人工智能》為題,介紹深度學習(Deep Learning)在近年突飛猛進的經過,以及在預測天氣的應用。近日,隨著我國推出DeepSeek(深度求索),基於大型語言模型(Large Language Model)的 AI 平台的競爭變得白熱化。2025 年 1 月 18 日,應國史教育中心邀請,我在香港天文台做了一場關於AI應用與問題的講座(圖 1)。為準備講座,我也展開對幾個較爲流行的AI平台進行測試。由於當時 DeepSeek 還未面世,測試的平台只有 ChatGPT(Poe 平台上的 GPT-3.5-turbo 版)和 Copilot 免費版。


    圖 1:AI講座宣傳海報。(來源:國史教育中心)

    由於所測試的版本比較基本,得出的結果強差人意。例如,我首先問 GPT-3.5 : ”Can you tell me something about Mr. Shun Chi Ming?” ,它回應不知道。但當我問 GPT-3.5:“Who is the current director of the Hong Kong Observatory?”,它卻回答 “As of my knowledge update in September 2021, the Director of the Hong Kong Observatory was Mr. Shun Chi-ming”。 很明顯,GPT-3.5 沒有準確掌握我的退休日期(2020 年 2 月)以及我的兩位繼任人。我跟進問:”When was Mr. Shun Chi-ming’s term as director?“,它卻回答是 2016 至 2021!正確答案應該是 2011 至 2020 年。我們知道,無論是早期抑或是最新的 AI 平台,都存在一個重要的問題⋯⋯幻覺(hallucination)。幻覺是 AI 模型生成的不正確或具有誤導性的結果。 這些錯誤可能由多種因素造成,包括訓練數據不足、模型做出不正確的假設,或用於訓練模型的數據存在偏差。但 GPT-3.5 也不是乏善足陳,當我再問它:”What were Mr. Shun Chi-ming’s major achievements as Director?”,它能夠把握重點地回答(圖 2)。

    圖 2:GPT-3.5 回答 ”What were Mr. Shun Chi-ming’s major achievements as Director?” 的問題。(來源:Poe)

    接著,我問 GPT-3.5 關於香港氣候的問題:“What is the annual average temperature in Hong Kong?“,它回答介乎 23°C 至 26°C,這與天文台的官方數據(21.6 °C – 26.0°C)存在差異。於是我改爲要求 GPT-3.5 根據香港天文台 1981-2010 的 30 年氣候平均值作答,它便能得出正確答案 23.3°C。可是,當我要求 GPT-3.5根據香港天文台 1991-2020 的 30 年氣候平均值作答,它卻得出 23.8°C,與正確數據 23.5°C 相差 0.3°C。

    今天,我再用最新版 ChatGPT-4(o3-mini版)重新問這兩條氣候平均溫度問題,它卻分別得出 23.2°C(1981-2010)和 23.6°C(1991-2020),仍然與正確數據相差 0.1°C。從這個簡單測試可見,ChatGPT 雖然有所進步,但仍然受幻覺影響回答的準確度。

    除了 GPT-3.5,我在 1 月所進行的測試也包括 Copilot。由於 Copilot 能夠識別圖像,我把 (圖 3)上載給它辨認。它非常準確地認出是香港天文台監測和分析天氣的中心(圖 4),相信它是從圖左上角的天文台標誌辨認出來,再加上佈滿電腦屏幕的環境得出正確判斷。但當我用(圖 5)再測試 Copilot 時,詢問它:”Where is this place? What are these people doing?”,它只能夠認出這些人士正在一個現代化辦公室或會議室環境進行討論,只有到我再提供 (圖 6 )時,Copilot 才從圖中載有天氣圖的電腦屏幕推測這些人士正在一個氣象中心參與天氣分析及預報。

    圖 3:正在處理山竹襲港時的香港天文台預報中心。(來源:岑智明)
    圖 4:Copilot 辨認 (圖 3)後的回應。(來源:Microsoft Copilot)
    圖 5:我和同事們在香港天文台預報中心進行天氣會商,討論山竹的動向。(來源:香港天文台)
    圖 6:我和同事正在分析山竹的預報圖。(來源:香港天文台)

    這些結果其實已經相當不錯,表明 Copilot 具備强勁的圖像辨識功能和不錯的推理功能。今天,我再讓 ChatGPT-4(o3-mini版)先後辨認(圖 3)和(圖 5),它首先能夠準確認出(圖 3)是香港天文台的氣象業務中心,更能解釋是因爲看見天文台的標誌以及衆多正在顯示天氣資料的電腦屏幕。至於(圖 5),在沒有看過(圖 6)的前提下,ChatGPT-4 能夠認出是香港天文台的會議或業務房間,並且推測是監測惡劣天氣的地方;它更相信圖中的人士正在進行一個簡報或討論會,並且推測是為應對緊急情況的會議(圖 7)。最神奇的是,它竟然做出一個大膽但相當正確的假設:”If this image is related to Typhoon Mangkhut (2018), it could depict meteorologists and government officials discussing its impact, warnings, and response measures”。假若這次我與 ChatGPT-4 的對話不受之前的對話内容影響(這些内容曾包括香港過往的風災),它爲什麽能夠聯想到(圖 5)與山竹有關?的確值得研究!

    圖 7:ChatGPT-4在看過(圖 5) 後的回應。(來源:OpenAI ChatGPT)

    除了圖像識別,我也讓 Copilot 回答上述的兩條氣候平均溫度問題,結果 Copilot 都能準確無誤地給出正確答案,因此在這個方面(從互聯網找尋靜態資訊)Copilot 似乎比 ChatGPT-3.5 甚至 ChatGPT4 優勝。

    但是,當我問 Copilot 和 ChatGPT-4 索取香港天文台最新的九天天氣預測,卻發現諸多問題。首先,在不同日子問同樣的問題會得出不同格式和參數的天氣預報(圖 8 至圖 10)。更大的問題是,雖然它們都宣稱預報來自天文台,但細心比對會發現有些微甚至嚴重的差別。例如(圖 8)的預報與天文台所發出的大致吻合,但唯獨是第一天的預報相對濕度(35-65%)與天文台所發出的(35-75%)相差了10%,原因不明。(圖 9 )中的預報溫度卻與天文台所發出的相差了一至兩度不等,而(圖 10)中的預報溫度更與天文台所發出的相差達 4 度。有理由相信這些由 Copilot 提供的預報來源有別於香港天文台,但亦有可能是 AI 算法將天文台的預報内容修改過。

    圖 8:1 月 16 日詢問 Copilot 得出的天文台九天天氣預報(這裏只顯示首五天)。(來源:Microsoft Copilot)
    圖 9:1 月 17 日詢問 Copilot 得出的天文台九天天氣預報。(來源:Microsoft Copilot)
    圖 10:2 月 4 日詢問 Copilot 得出的天文台九天天氣預報。(來源:Microsoft Copilot)

    ChatGPT-4 的情況也類似,(圖 11)的預報溫度與天文台所發出的也可以相差達 4 度,而且 ChatGPT-4 只給出未來 6 天的預報,天色的預報以及天氣概況(General Situation)的字眼也與天文台所發出的字眼有多處不同,其中”晴有薄霧”、”多雲時晴” 等預報字眼更不是天文台的術語,似乎 ChatGPT-4 把天文台的預報内容修改過才提供給用戶,但繼續宣稱是天文台所發出,確是耐人尋味!

    圖 11:2 月 4 日詢問 ChatGPT-4 得出的天文台九天天氣預報。(來源:OpenAI ChatGPT)

    受篇幅所限,今期對幾個 AI 平台的測試到此爲止。從以上的初步結果,我們可以看到不同的 AI 平台各有長短,有些能力,尤其圖像辨識和推理能力,令我們眼前一亮,但受 AI 幻覺的影響,所提供的資料都存在不同程度的誤差和缺失。我們使用 AI 時必須小心分辨,懂得問問題,做好 Fact Check,才能夠把 AI 用得好,成爲我們的夥伴。下期我會繼續以氣候問題測試不同的 AI 平台,將會加入 DeepSeek、Perplexity、Gemini 等,而且將難度提升,看看是否可以考起它們。


    岑智明先生參與創作的天文科普漫畫 — 《CMS 天文調查隊》最新第 3 期經已出版,歡迎到各大書店,或 Playit.hk 網店購買。

    您會感興趣的內容

    相關文章