由美國史丹佛教授 Stefano Ermon 創立的創業公司 Inception Labs,推出首個大規模擴散式語言模型(dLLM)Mercury Coder。跟傳統的順序生成式大型語言模型(LLMs)不同,Mercury Coder 使用擴散方法、由粗到細同時處理整個序列,類似人工智能圖像和視頻生成,所以 Inception Labs 聲稱該模型的運行速度達到現有模型的十倍,且成本顯著降低。
Mercury Coder 基於擴散式大型語言模型(dLLM),採用粗到細的方法生成文本,而不是順序預測標記,因此速度比傳統 LLMs 快十倍。據 Inception Labs 的資料,即使是速度優化的自回歸模型(Autoregressive model,AR),通常最多只能以每秒 200 個標記的速度運行, Mercury Coder 則可在 NVIDIA H100 GPU 上每秒生成超過 1,000 個標記。從初步基準測試顯示,此模型的表現可與 OpenAI 的 GPT-4o Mini 和 Anthropic 的 Claude 3.5 Haiku 等模型媲美,但成本更低。
Mercury Coder 跟 Claude 及ChatGPT 比較速度
dLLM 與 AR 的分別
擴散模型(dLLM)與自迴歸模型(AR)在生成文本的方式和架構上有明顯的分別:
dLLM | AR | |
生成方式 | 採用不同策略,通常從一個粗略的文本表示開始,然後通過多次迭代來精煉和生成完整的文本。這種方法允許同時處理整個序列,而不是逐步生成。 | 以 DeepSeek、 GPT 系列為例,逐字生成文本,並基於前面的單詞來預測下一個單詞,這種方法是順序的,即每次生成一個標記,直到生成結束。 |
效率 | 能夠以每秒千個標記的速度生成文本,因可並行處理整個文本序列。 | 由於其順序生成的特性,在生成速度上受到限制,通常在每秒數百個標記的範圍內。 |
錯誤修正 | 能夠利用錯誤修正技術,快速修正生成過程中的錯誤,提高最終答案的準確性。 | 在生成過程中可能會出現幻覺或錯誤,且修正這些錯誤通常需要重新生成文本。 |
可控性 | 允許用戶以靈活的方式編輯生成內容,並可以按需生成特定格式的文本,提供更高的可控性。 | 可以在一定程度上控制輸出,但主要是基於上下文的順序生成,對於用戶的具體需求調整相對有限。 |