人工智能新范式 促进公平开发大型语言模型
通过将多个小型的领域特定模型整合成一个强大模型,可将集中式人工智能的训练成本大减 99.9%
今年一月,中国的人工智能初创公司 DeepSeek 开发的大型语言模型(LLM)横空出世,旋即登上各大报章头条。最令媒体关注的,是这个新模型在资金和技术资源都较少的情况下,表现却超越了由人工智能科技巨擘所推出的 LLM。理大电子计算学系杨红霞教授认为,DeepSeek 最突出之处是其 LLM 模型完全开源。她指出,如结合她的研究团队首创的 “模型驱动模型” (Model-over-Models,MoM)方法,将能协助小型公司、初创企业和个人开发者颠覆 LLM 开发的传统模式,增强LLM的功能,同时加速其开发。
克服 LLM 的发展障碍
杨教授曾任字节跳动的 LLM 负责人和阿里巴巴达摩院的人工智能科学家,她认为人工智能的发展因垄断而受阻。这是因为由零开始训练 LLM 的话,需要使用集中式的图形处理单元 (GPU)资源,但其高昂的费用,只有少数科技公司负担得起。这对于以企业为本的生成式人工智能影响最大,因为它们仅使用一般网络数据训练模型,在多个特定领域中,例如医疗、材料智能、能源等,表现并不理想。
杨教授说: “由于这些领域的许多数据无法从一般网络中取得,因此在开发人工智能模型时未能纳入,导致出现偏差。”
她认为,要建立一个在所有领域均持续有良好表现的综合模型,目前仍然是一项挑战。
杨教授在香港理工大学高等研究院举办的论坛上,以 “ DeepSeek 及更远的未来” 为题,向包括创科界领袖在内的逾千名观众发表演讲。
“MoM” 方法
为应对此挑战,杨教授及其团队正带头开发 “MoM” 方法,即是使用较小型、可堆叠、领域特定的模型,来建构基础模型。
这个方案名为 InfiFusion,能够有效地从不同来源和结构的模型中提炼知识,克服词汇不匹配和计算效率低的问题。
此方案还包括一个持续预训练平台,可为日后开展特定领域的人工智能训练工作铺平道路。目前,团队已经能够充分发挥各领域特定模型的独特优势,将众多特定模型整合成一个单一模型,从而避免了重新训练一个庞大单一模型所需的工作。
实验数据显示,InfiFusion在推理、编码、数学、执行指令等11项基准任务中,表现均胜过其他最先进的模型,例如阿里巴巴的 Qwen-2.5-14BInstruct 和微软的 Phi-4;该模型还能仅以传统集中式方法的 0.015% 成本完成训练。
这个方法可以让比较低阶的异构计算资源达到效用最大化,使国产芯片能更有效地用于小型模型训练。这种效率让香港在生成式人工智能发展中处于领先位置,同时通过最大限度地使用异构计算资源,可以促进中国人工智能硬件生态系统的发展。
~ 杨红霞教授
杨教授对 InfiFusion 充满信心,认为它能成为一个高效和可扩展的高性能 LLM 方案。她相信去中心化 LLM 是生成式人工智能的未来,而 InfiFusion 为去中心化 LLM 创造了条件。
“我们可以通过 MoM 架构,善用例如数码港、科学园和之江实验室 (浙江 HPC 中心)的分布式高性能计算(HPC)中心所配备的多样化计算加速器;我们高效地利用异构的入门级GPU,这与传统训练方法形成了鲜明对比,传统方法需要把同类高端 GPU 大型集群,从零开始训练。”
领导人工智能高等研究院
理大新成立的 “香港理工大学人工智能高等研究院” ,由杨教授领导。该研究院旨在推动基础科学突破,并提升大学作为人工智能领导者的声誉。杨教授的职责包括开发创新的 MoM 机器学习范式。
香港理工大学人工智能高等研究院将促进理大研究人员的跨学科合作,其目标是开发具有特定领域知识的人工智能模型,从而利用 MoM 训练出更通用的人工智能模型。完成训练的模型将适用于大学的各种应用,包括研究和教学,或会改变学生的语言学习模式。
杨教授及其团队正在为尖端领域开发基础模型,这些领域包括医疗、制造业、能源和金融等。最近,团队与浙江和北京的顶尖医院合作,共同开发与癌症相关的基础模型。
尽管当前的LLM在通用智能方面发展良好,但在特定范畴,例如制造业和医学领域,仍有不足之处。
~ 杨红霞教授

杨红霞教授 | |
• | 计算机及数学科学学院副院长 (环球事务) |
• | 电子计算学系教授 |
• | 香港理工大学人工智能高等研究院 执行院长 |