Skip to main content Start main content

理大开发崭新长视频推理多模态框架

2025年6月10日

研究成果

由理大高等研究院管理委员会成员丶计算器及数学科学学院暂任院长及视觉计算讲座教授陈长汶教授带领的研究团队开发多模态智能体VideoMind,令人工智能模型能通过模仿人类思考过程,理解长视频及回答内容提问,并结合创新的链式低秩适应(Low-Rank Adaptation,LoRA)策略,大大减低消耗资源和所需算力,推动生成式人工智能于视频分析的商业化应用。研究成果已投稿至人工智能顶级会议。

团队参考了人类理解视频的过程,在其开发的VideoMind框架内设计角色化流程,以渐进式推理的方式,解决模型在理解时序上的困难。框架内的四个角色分别为负责决定如何调用其他角色的「规划者」、搜寻及定位与问题相关片段的「定位者」、透过裁剪片段及放大画面等方法验证片段的「验证者」,以及分析选定片段并生成答案的「回答者」。

VideoMind的另一核心创新在于采用了链式LoRA(Chain-of-LoRA)的策略。LoRA是最近两年新兴的大型语言模型微调技术,透过在既有模型内进行低阶调整,令模型不需要重新接受全量训练,亦能执行特定功能。团队提出的创新链式LoRA策略,只需要在同一基础模型上,加载四个轻量级的LoRA适应器,对应不同角色,即可令模型按需要自行启动不同的适应器,动态切换角色,减省了需要动用的模型量及相关成本,同时提高单一模型的效能及灵活度。

VideoMind框架不但突破了人工智能在视频处理的限制,更可作为一个模块化、可扩展、具解释能力的多模态推理框架。展望将来,团队开拓更多广泛的生成式人工智能应用范围,如智能保安监控、体育竞技及娱乐视频分析、视频搜寻功能等领域。

新闻稿: https://www.polyu.edu.hk/tc/media/media-releases/2025/0610_polyu-develops-novel-multi-modal-agent-to-facilitate-long-video-understanding-by-ai/


研究部门 香港理工大学高等研究院 | 香港理工大学

您的浏览器不是最新版本。如果继续浏览本网站,部分页面未必能够正常运作。

建议您更新至最新版本或选用其他浏览器。您可以按此连结查看其他相容的浏览器。