理大科研大幅降低特定领域专属生成式人工智能(GenAI)训练成本,推动人工智能民主化发展,加速向通用人工智能(AGI)迈进

 

人工智能正迅速改变产业界与学术界,但其在专业领域的应用仍面临挑战。以GPT、DeepSeek为代表的GenAI模型虽在通用任务中表现卓越,却难以在专业领域保持持稳定的精准度——其生成内容往往缺乏细致的技术深度,亦无法与专业标准充分契合。在医疗诊断等高风险场景中,这类模型输出的内容尤其需要严格核查。

 

此外,高校研究人员、行业从业者等领域专家,因缺乏计算资源,难以在自身领域大规模开展人工智能模型训练。数据碎片化问题,以及隐私、知识产权相关限制,带来更多阻碍。

 

香港理工大学人工智能高等研究院(PAAI)执行院长杨红霞教授带领一支来自 PAAI 生成式人工智能研究院的研究团队,研发出一种全新方法,能以极低成本为特定领域训练并构建高稳定性、去中心化且针对特定任务的 GenAI 模型。团队还开放了该训练框架的源代码,让更多专家学者可参与研发,贡献各自领域的专业知识。

 

去中心化与融合发展

杨教授指出:“领域专家掌握大量高质量的领域专属数据,这类数据是 OpenAI 等主流人工智能企业无法从互联网获取的。PAAI辖下的生成式人工智能研究院,为高校及医院、金融机构等专业机构破除障碍,让它们能充分利用自有数据,借助人工智能挖掘知识、实现高效应用。”

 

杨教授的突破性成果带来的创新包含两个层面。其团队研发的去中心化”协作式生成人工智能”(Co-GenAI)平台,采用通过低比特训练,可以大幅减少领域专属模型的训练所需计算资源,且不会減弱模型的表現,为小规模专业模型的开发创造了有利条件。同时,杨教授团队采用模型融合技术对领域专属模型进行融合,使模型在保留既有知识的同时,用极低的成本获取全新的领域专属知识。实践证,这种创新协作模式与中心化的大模型训练方法相比,无需依赖集中式计算资源,就能高效合并多个模型,构建出全面的领域专属GenAI模型。在“共同构建模型、数据本地留存”的模式下,团队的创新成果支持跨机构、跨学科协作,且在推理、编程、数学、指令遵循等11项广泛应用的基准测试中,性能超越当前最先进模型。通过大幅降低对高端图形处理器(GPU)集群的依赖,团队为领域专家参与模型训练、共同推动GenAI创新发展打开了大门。

 

 

低资源基础模型训练结合高效模型融合技术,让全球学术研究者能通过协作创新,推动 GenAI 研究进步。
~ 杨红霞教授

 

深入认识一点

GenAI 模型训练通常包含预训练和后训练两个阶段。预训练是基础阶段,模型通过海量无标注数据集学习通用模式、语言结构及世界知识,此过程需大量计算资源支撑。预训练赋予模型广泛能力后,再通过在较小规模、针对特定任务的数据集上进行微调,使其适用于聊天机器人、翻译等具体应用场景。后训练在预训练之后开展,旨在进一步提升模型性能与安全性,尽可能满足用户预期。借助监督微调、偏好调整、强化学习等技术,可确保模型输出结果准确、可靠且符合伦理规范。

 

集中式训练 GenAI 模型通常需耗费数百万 GPU 小时,仅有少数机构具备如此庞大的计算能力。与之相反,杨教授研发的分布式 Co-GenAI 平台,能以极少资源训练本地模型。在集中式模型训练仍以 FP16 精度为主流时,她的团队已率先采用一套 FP8 训练流程,开展持续的预训练与后训练工作。这种方法在保持模型性能的同时,将计算时间缩短了22%。通过研发这项前沿技术,PAAI 团队使香港理工大学成为全球少数掌握该创新技术的机构之一。

 

团队的模型融合策略与这项突破相辅相成,能够同时将多个原始模型的知识迁移至一个枢纽模型中。团队仅用 160 个 GPU 小时,就成功融合了 Qwen-2.5-14B-Instruct、Phi-4 等 4 个先进模型,无需耗费数百万 GPU 小时进行训练。融合后的模型在多项权威基准测试中,性能持续优于原始模型,实现了以极低计算成本获取卓越性能的目标。

 

target spot

医疗领域应用

目前,PAAI 已启动医疗相关研究支持工作。团队与香港伊利莎伯医院、中山大学肿瘤防治中心等领先医疗机构合作,开发癌症基础模型。

 

癌症基础模型可支持多项任务,其中之一便是放射治疗靶区识别。杨教授团队研发的模型能协助医生完成识别工作,预计每个病例可节省三分之二的时间。通过分布式策略,杨教授希望以低成本为医疗行业打造强大且可靠的 GenAI 模型,同时保障医疗数据与患者隐私安全。

 

我们需要处理海量医疗数据,这些数据不仅包括文字,还涵盖影像、视频等形式。如果能解决癌症领域的相关问题,那么其他医疗问题的解决也将更具可行性。
~ 杨红霞教授

 

理大计划借助分布式 Co-GenAI 平台,进一步推动 GenAI 在多个领域的协同研究与应用,涉及城市能源、企业转型、智能制造、机器人、智慧临床推理、电网升级、智能建筑、智能材料等领域。

 

杨教授表示:“我们开放这一训练平台的源代码,长远目标是让 GenAI 惠及大众。这将提升社会整体智能水平,确保技术成果能广泛共享。”

 

我们团队致力于打通大模型落地应用的‘最后一公里’,帮助企业、医院、政府机构在实际场景中有效运用人工智能。将领域专属数据与专业知识融入模型,是实现人工智能成功应用的关键。
~ 杨红霞教授

 

杨教授还举例介绍了两个成熟的项目构想:“一个是为物联网边缘设备开发人工智能模型,该项目将与香港理工大学高等研究院(PAIR)合作,重点聚焦机器人领域;另一个与教育相关,计划开发类似 OpenAI 深度研究系统的工具,协助博士阶段研究人员撰写学术论文。”

 

为实现通用人工智能贡献力量

杨教授对 PAAI 在搭建 (Artificial General Intelligence, AGI) 基础架构方面取得的扎实进展感到振奋。AGI 是一种设想中的未来人工智能形态,指具备人类般跨领域认知能力的人工智能系统,用途广泛、能力全面,目标是达到甚至超越人类智能水平。

 

目前,业界普遍认为“缩放定律”是实现AGI的关键。根据“模型缩放定律”,增加模型参数量、扩大数据集规模、提升计算能力,可增强人工智能的智能水平与复杂认知能力。然而,随着模型规模不断扩大,效果递减、性能遇到瓶颈的问题逐渐显现。此外,缺乏持续训练模型所需的高质量数据,也使这问题更加复杂。

 

过去,将多个模型合并为一个模型的过程多依赖经验,效果难以预测。如今,人工智能初创公司 Thinking Machines Lab 大力倡导的 “模型融合” 概念,首次由杨教授的研究团队通过理论验证。团队通过严谨的数学推导,提出 “模型融合缩放定律”,这意味着借助去中心化人工智能实现AGI或许是一条可行路径。

 

有机会通过去中心化与模型融合技术推动 AGI 实现,我们感到十分兴奋。理大已准备好搭建基础设施,不仅助力学术界取得科学突破,也为实现 AGI 这一全球重要目标贡献力量。
~ 杨红霞教授

 

 

杨红霞教授

杨红霞教授

  • 香港理工大学人工智能高等研究院执行院长

  • 计算机及数学科学学院副院长(国际事务)

  • 电子计算学系教授

  • 大数据分析中心实验室主任

杨红霞教授在2024年7月加入理大,此前曾担任字节跳动美国公司大型语言模型负责人、阿里巴巴集团人工智能科学家兼总监、雅虎公司首席数据科学家,以及 IBM T.J. Watson研究中心研究员。值得一提的是,她在阿里巴巴和字节跳动期间,均牵头组建了基础模型团队,是GenAI领域的先驱者。

 

杨教授在GenAI领域的研究得到香港科学园、阿里巴巴、复旦大学附属华山医院等产业合作伙伴的支持。其研究项目还先后获得了以下项目的资助:香港研究资助局2025/26年度主题研究计划(TRS)、中华人民共和国香港特别行政区政府创新科技署 “产学研 1 + 计划”(RAISe+),以及香港数码港人工智能资助计划。