人工智能新範式 促進公平開發大型語言模型
通過將多個小型的領域特定模型整合成一個強大模型,可將集中式人工智能的訓練成本大減 99.9%
今年一月,中國的人工智能初創公司 DeepSeek 開發的大型語言模型(LLM)橫空出世,旋即登上各大報章頭條。最令媒體關註的,是這個新模型在資金和技術資源都較少的情況下,表現卻超越了由人工智能科技巨擘所推出的 LLM。理大電子計算學系楊紅霞教授認為,DeepSeek 最突出之處是其LLM模型完全開源。她指出,如結合她的研究團隊首創的「模型驅動模型」(Model-over-Models,MoM)方法,將能協助小型公司、初創企業和個人開發者顛覆 LLM 開發的傳統模式,增強 LLM 的功能,同時加速其開發。
克服 LLM 的發展障礙
楊教授曾任字節跳動的 LLM 負責人和阿裏巴巴達摩院的人工智能科學家,她認為人工智能的發展因壟斷而受阻。這是因為由零開始訓練 LLM 的話,需要使用集中式的圖形處理單元(GPU)資源,但其高昂的費用,只有少數科技公司負擔得起。這對於以企業為本的生成式人工智能影響最大,因為它們僅使用一般網絡數據訓練模型,在多個特定領域中,例如醫療、材料智能、能源等,表現並不理想。
楊教授說:「由於這些領域的許多數據無法從一般網絡中取得,因此在開發人工智能模型時未能納入,導致出現偏差。」
她認為,要建立一個在所有領域均持續有良好表現的綜合模型,目前仍然是一項挑戰。
楊教授在香港理工大學高等研究院舉辦的論壇上,以「DeepSeek 及更遠的未來」為題,向包括創科界領袖在內的逾千名觀眾發表演講。
「MoM」方法
為應對此挑戰,楊教授及其團隊正帶頭開發「MoM」方法,即是使用較小型、可堆疊、領域特定的模型,來建構基礎模型。
這個方案名為 InfiFusion,能夠有效地從不同來源和結構的模型中提煉知識,克服詞匯不匹配和計算效率低的問題。
此方案還包括一個持續預訓練平台,可為日後開展特定領域的人工智能訓練工作鋪平道路。目前,團隊已經能夠充分發揮各領域特定模型的獨特優勢,將眾多特定模型整合成一個單一模型,從而避免了重新訓練一個龐大單一模型所需的工作。
實驗數據顯示,InfiFusion 在推理、編碼、數學、執行指令等 11 項基準任務中,表現均勝過其他最先進的模型,例如阿裏巴巴的 Qwen-2.5-14BInstruct 和微軟的 Phi-4;該模型還能僅以傳統集中式方法的 0.015% 成本完成訓練。
這個方法可以讓比較低階的異構計算資源達到效用最大化,使國產芯片能更有效地用於小型模型訓練。這種效率讓香港在生成式人工智能發展中處於領先位置,同時通過最大限度地使用異構計算資源,可以促進中國人工智能硬件生態系統的發展。
~ 楊紅霞教授
楊教授對 InfiFusion 充滿信心,認為它能成為一個高效和可擴展的高性能 LLM 方案。她相信去中心化 LLM 是生成式人工智能的未來,而 InfiFusion 為去中心化 LLM 創造了條件。
「我們可以通過 MoM 架構,善用例如數碼港、科學園和之江實驗室 (浙江 HPC 中心)的分布式高性能計算(HPC)中心所配備的多樣化計算加速器;我們高效地利用異構的入門級GPU,這與傳統訓練方法形成了鮮明對比,傳統方法需要把同類高端 GPU 大型集群,從零開始訓練。」
領導人工智能高等研究院
理大新成立的「香港理工大學人工智能高等研究院」,由楊教授領導。該研究院旨在推動基礎科學突破,並提升大學作為人工智能領導者的聲譽。楊教授的職責包括開發創新的 MoM機器學習範式。
香港理工大學人工智能高等研究院將促進理大研究人員的跨學科合作,其目標是開發具有特定領域知識的人工智能模型,從而利用 MoM 訓練出更通用的人工智能模型。完成訓練的模型將適用於大學的各種應用,包括研究和教學,或會改變學生的語言學習模式。
楊教授及其團隊正在為尖端領域開發基礎模型,這些領域包括醫療、製造業、能源和金融等。最近,團隊與浙江和北京的頂尖醫院合作,共同開發與癌症相關的基礎模型。
儘管當前的 LLM 在通用智能方面發展良好,但在特定範疇,例如製造業和醫學領域,仍有不足之處。
~ 楊紅霞教授

楊紅霞教授 | |
• | 電腦及數學科學學院副院長 (環球事務) |
• | 電子計算學系教授 |
• | 香港理工大學人工智慧高等研究院執行院長 |