更多

    【氣候挑戰】以氣候問題 挑戰 13 個 AI 平台分析力

    岑 智明
    岑 智明
    畢業於香港大學,獲理學士,主修物理。1986 年加入香港天文台為科學主任,2011 年晉升香港天文台台長,2020 年退休。岑先生開發了全球第一套激光雷達風切變預警系統,克服了在無雨環境下探測風切變這個長久的世界性問題,獲得本地獎項及國際嘉許。岑先生於 2010-2018 年擔任世界氣象組織航空氣象學委員會主席,是首位亞洲人獲選出任這個高層位置。

    上期我以氣候問題初步測試幾個免費人工智能平台,今期我會用程度較深的氣候問題,進一步測試不同的 AI 平台,加入上篇文章刊登之後出現的 DeepSeek 和 Grok,還有 ChatGPT、Perplexity、Copilot、Gemini 等。


    我用的測試題目是:列出 1841 年以來導致香港最多人死亡的十大颱風,並按香港的死亡人數排序。

    要正確回答這個問題,除了需要掌握有哪些在香港出現過的歷史風災,還需要從參差的死亡數據中選出當中十大,並且以死亡人數的多寡來排列次序。筆者曾參與研究這個題目,並且為「香港志」撰寫《自然環境》卷的氣象部分,其中第五章《自然災害》記載了以往影響香港的颱風,包括災情和死亡人數。上述問題的擬定答案,將會基於這個參考資料(表一),作為 AI 表現評估。

    表一:香港十大歷史颱風列表,以死亡人數排序

    排名颱風名稱發生日期死亡人數
    1丁丑颱風1937 年 9 月 2 日11,000
    2丙午颱風1906 年 9 月 18 日超過 10,000
    3甲戌颱風1874 年 9 月 22-23 日超過 2,000
    4無名1908 年 7 月 27-28 日近 1,000
    5庚子颱風1900 年 11 月 9-10 日超過 200
    6溫黛1962 年 9 月 1 日130
    7露絲1971 年 8 月 14-17 日110
    8癸亥颱風1923 年 8 月 17-18 日超過 100
    9瑪麗1960 年 6 月 4-9 日45
    10露比1964 年 9 月 4-6 日38

    超出預期的 AI 强項

    在測試過程中,當向 Perplexity (Deep Research mode) 提問時,它將 1841 年 7 月 20-21 日的颱風包括在内,並指出香港的死亡人數約為 300。但根據地方志《自然環境》卷的資料,該颱風雖然造成大量船民死亡,但沒有給出死亡人數,因此沒有被納入到以上的「表一」。筆者翻查 Perplexity 所提供的一個參考來源内所載的 1842 年《航海雜誌和海軍紀事》,[1]發現以下關鍵資料:“The loss of life in the harbour of Hong-kong was computed at 300 persons, chiefly Chinese.“ 由於證據確鑿,筆者必須信納Perplexity 的發現更新「表一」,並且利用新的列表「表二」評估測試的結果。

    表二:香港十大歷史颱風列表(2025 年更新),以死亡人數排序

    排名颱風名稱發生日期死亡人數
    1丁丑颱風1937 年 9 月 2 日約 11,000
    2丙午颱風1906 年 9 月 18 日超過 10,000
    3甲戌颱風1874 年 9 月 22-23 日超過 2,000
    4無名1908 年 7 月 27-28 日近 1,000
    5無名1841 年 7 月 20-21 日約 300
    6庚子颱風1900 年 11 月 9-10 日超過 200
    7溫黛1962 年 9 月 1 日130
    8露絲1971 年 8 月 14-17 日110
    9癸亥颱風1923 年 8 月 17-18 日超過 100
    10瑪麗1960 年 6 月 4-9 日45

    [1] “The Typhoon of July 21st, 1841, in the Canton River.”. The Nautical Magazine and Naval Chronicle for 1842: A Journal of Papers on Subjects Connected With Maritime Affairs. Vol. 1842. London: Simpkin, Marshall & Company. 1842. pp. 513–518.


    另一個 AI 對研究有所增值的例子是:筆者在初步測試 DeepSeek(R1)時,曾與 DeepSeek 討論關於丁丑颱風的死亡人數。DeepSeek 起初一直認爲丁丑颱風的 11,000死亡人數(主要是水上人口)包括香港以外的珠三角洲一帶,因此該數字不代表香港的死亡數字。但 DeepSeek 始終都未能提供確鑿的參考來源(它所提供的參考來源都被筆者核實為無中生有),而筆者能夠確認這個 11,000 數字的來源,為一份由時任天文台台長 CW Jeffries 所撰寫的天文台報告 –《The Typhoons of August 16 to 17, 1936 and September 1 to 2, 1937》;報告中清楚記載海上船民的死亡人數為 11,000。[2]

    筆者亦在英國檔案舘找到一份由香港政府向英國殖民地部提交的丁丑颱風報告,也記載了同一個死亡人數,是由船政廰(即今天的海事處)估算的數字。 [3] 但在測試「通義千問」(Qwen-2.5 Max)時,AI 卻提供了另一份參考資料,證實船政廰後來將海上的死亡人數大幅降低至 2,565。雖然筆者仍然對這個數字有所保留而暫時不予採納,但測試過程清楚顯示 AI 能夠在較爲複雜的研究課題中,提供新觀點和非常有用的資料。


    [2]Of the 101 steam vessels berthed in Hong Kong harbour and its environs 28 were stranded; of the 3,500 junks and sailing craft 1,255 were reported sunk and 600 seriously damaged. The strandings of the steam vessels caused the deaths of 1 European and 4 Chinese, while the estimated fatalities connected with loss and damage to sailing craft was 11,000.“

    [3] “But of the floating population no accurate account can be given. The Harbour Master suggests 11,000 as a probable figure. It is certain that thousands were drowned and that the number of deaths reported bears little relation to the lives actually lost as a direct result of the typhoon.”


    測試結果

    筆者首先以英文問 AI 這個問題:“Please list out the ten most deadliest typhoons in Hong Kong since 1841 in terms of the fatalities. Rank the list by the fatalities”,然後按需要跟進再問。例如,若果 AI 遺漏了一些應該納入列表的颱風,會跟進問:”How about the typhoon of (year XX)? Please update the list if necessary”;又或者當 AI 給出錯誤的死亡人數,會跟進問:”Please critically review the typhoon of (year XX). Update the list if necessary”;又如果 AI 的排序出錯,會跟進發出指示:”Please update the list in order of the fatalities”。

    在理想的情況下,這些問題已經能夠令 AI 達至正確的答案。若果 AI 無法糾正錯誤的死亡人數,筆者會提供更多資料,例如正確的參考源,有需要時更會指示 AI 閲讀正確的參考源,務求可以達至正確的答案;又若果 AI 仍然不能依照死亡人數排序,筆者會再問 AI 為甚麽那個死亡人數較低的颱風會排在死亡人數較高的颱風之上?務求令排序正確。

    當 AI 得出正確的颱風列表,筆者會作出統計:1. AI 首次回答的準確率(以捕捉到多少個正確的颱風為準);及 2. 需要進行多少次額外的問答,以達至正確的列表。

    由於國内研發的 AI 大模型在處理英文問題時效果未如理想,筆者改用中文問題進行測試,問題是:“请列出香港十大最致命的台风,并以死亡人数排序”,發現它們的表現都有明顯改善。

    筆者共測試 13 個 AI 平台,包括最新推出的 Grok 3 和 ChatGPT 4.5,結果見「表三」。一些 AI 平台縱使需要使用 VPN,但仍然因用戶資料包含地區資訊而未能提供服務(例如Meta 的 Llama AI、Anthropic 的 Claude AI),因此筆者沒有進行測試。

    表三:筆者對 13 個 AI 平台進行測試的結果

    (按圖放大)

    「表三」的測試結果顯示,ChatGPT-4o(Deep Research 模式)獨占鰲頭,在第一次回答時已經能夠答對 8 個颱風,而且死亡數字基本正確,隨後它亦只需要兩次跟進問答便能找出正確的列表。

    Perplexity AI(Deep Research 模式)亦不遑多讓,它只需要三次跟進問答便能找出正確的列表,而且它能夠在第一次回答時提供筆者之前所忽略的 1841 年颱風死亡人數(見上文),令筆者需要修訂列表,證明 Perplexity AI 對科研極具價值。Perplexity AI 的另一個强項是它把參考資料和思考過程都顯示出來,幫助用戶瞭解它是如何得到答案。難怪NVIDIA 的創辦人黃仁勳曾公開推薦(圖一)。

    圖一:黃仁勳在一個關於 AI 的訪談中說:“And so notice how often we do search, and these days notice how often we ask questions. Any random question, I’ll be asking Perplexity.”
    (來源:https://www.youtube.com/watch?v=8Pfa8kPjUio

    其他達至接近成績的 AI 平,包括 Perplexity 的 DeepSeek (R1) 及 Perplexity 的 o3-mini 推理模型 — 它們都只需要四次跟進問答便能找出正確的列表。

    「表三」的結果也反映幾個非常有趣的問題。首先,爲甚麽同是採用 o3-mini 推理模型,Perplexity 的 o3-mini 模式比 ChatGPT 的 o3-mini 模式優勝?同樣地,將 DeepSeek (R1) 推理模型放在 Perplexity 平台上表現相當好,但放在其他平台上運行(包括 DeepSeek 自己運作的平台)卻得到強差人意的結果?筆者大膽推測,這是因爲 Perplexity 的搜索功能做得相當出色,能夠提供可靠的參考資料,令它有優勢(圖二)。我亦留意到 DeepSeek (R1) 在自己運作的平台上表現不好,很可能是它無法正常進行聯網搜索(圖三),在缺乏資料的情況下出現幻覺,影響表現。

    圖二:Perplexity 把參考資料來源放在答案的首位,並在旁邊一一列出,顯示它非常重視參考資料和數據透明。
    (來源:perplexity.ai)
    圖三:DeepSeek (R1) 回覆筆者稱“由于技术原因,联网搜索暂不可用”。
    (來源:chat.deepseek.com)

    另一個問題是:為甚麼幾個内地研發的 AI 平台,包括最近「爆紅」的 DeepSeek,都在回答中文問題時表現較回答英文問題好?筆者相信原因未必是語言本身的問題,因爲我留意到多個 AI 平台都傾向以問題所用的語言來搜尋聯網資料,例如用戶如果用英文發問,它們都會主要搜尋英文的資源,相反亦然。就「香港十大颱風」這個問題來説,事實上比較多的重要資料都是來自英文網站,這或者可以解釋外國研發的 AI 平台在這個測試中佔優。

    還有一個耐人尋味的問題:為甚麼最新推出的 Grok 3 和 ChatGPT 4.5 的表現只屬一般?尤其是 Elon Musk 在今年 1 月 9 日的一個訪談(圖四)中提到:“AI is advancing on the hardware front, and on the software front, it’s now moving to synthetic data, because we’ve actually run out of all human data. We’ve literally run out of the entire internet, all books ever written, and all interesting videos.  We’ve now exhausted the cumulative sum of human knowledge in AI training and that happened last year ” — 倘若我們已經用盡了人類纍積的知識來訓練人工智能,那麽 Elon Musk 旗下 X.Ai 所開發最新版 Grok 3 的表現為甚麼還是強差人意(見表三)?同時,宣稱具有更廣泛的知識基礎和已經減低幻覺問題的 ChatGPT 4.5 ,在這次測試又爲什麽竟然被 ChatGPT (o3-mini) 、Perplexity (o3-mini) 甚至 Perplexity (R1) 比下去呢?或者筆者所能夠測試的只是初步實驗版本?希望將來有機會再探討這些問題。

    圖四:Elon Musk 在訪談中提到“去年我們已經用盡了人類纍積的知識來訓練人工智能”
    (來源:https://www.youtube.com/watch?v=_wTA90BYo30

    寫到這裏,筆者本應暫且打住,但意猶未盡,再問三大 AI 平台以下的氣候問題:”請列出香港在世紀中將會面對的五個最重要的氣候風險”。它們分別答覆如下:

    ChatGPT-4o.海平面上升與沿海洪災
    .極端高溫與熱浪
    .颱風強度增強
    .極端降雨與內陸洪水
    .季節性乾旱與水資源短缺
    Perplexity (Deep Research).海平面上升疊加風暴潮
    .降雨誘發山體滑坡
    .城市內澇
    .水資源短缺
    .極端熱浪
    DeepSeek (R1).海平面上升與風暴潮複合災害
    .極端高溫與熱浪
    .短時極端降雨引發山洪與城市內澇
    .超強颱風頻率與破壞力上升
    .水資源問題 / 海洋生物多樣性喪失

    以上的結果,與筆者近年的結論(圖五)非常吻合。但需要指出一點,DeepSeek 特別提到 “海洋生物多樣性喪失”(marine biodiversity loss)可能會是一個具有 “隱性代價” 的深遠問題,值得我們進一步探討。

    圖五:筆者在講座中經常提及的香港氣候風險。
    (來源:岑智明)


    岑智明先生參與創作的天文科普漫畫 — 《CMS 天文調查隊》最新第 3 期經已出版,歡迎到各大書店,或 Playit.hk 網店購買。

    您會感興趣的內容

    相關文章