由理大高等研究院管理委員會成員丶計算機及數學科學學院暫任院長及視覺計算講座教授陳長汶教授帶領的研究團隊開發多模態智能體VideoMind,令人工智能模型能通過模仿人類思考過程,理解長視頻及回答內容提問,並結合創新的鏈式低秩適應(Low-Rank Adaptation,LoRA)策略,大大減低消耗資源和所需算力,推動生成式人工智能於視頻分析的商業化應用。研究成果已投稿至人工智能頂級會議。
團隊參考了人類理解視頻的過程,在其開發的VideoMind框架內設計角色化流程,以漸進式推理的方式,解決模型在理解時序上的困難。框架內的四個角色分別為負責決定如何調用其他角色的「規劃者」、搜尋及定位與問題相關片段的「定位者」、透過裁剪片段及放大畫面等方法驗證片段的「驗證者」,以及分析選定片段並生成答案的「回答者」。
VideoMind的另一核心創新在於採用了鏈式LoRA(Chain-of-LoRA)的策略。LoRA是最近兩年新興的大型語言模型微調技術,透過在既有模型內進行低階調整,令模型不需要重新接受全量訓練,亦能執行特定功能。團隊提出的創新鏈式LoRA策略,只需要在同一基礎模型上,載入四個輕量級的LoRA適應器,對應不同角色,即可令模型按需要自行啟動不同的適應器,動態切換角色,減省了需要動用的模型量及相關成本,同時提高單一模型的效能及靈活度。
VideoMind框架不但突破了人工智能在視頻處理的限制,更可作為一個模組化、可擴展、具解釋能力的多模態推理框架。展望將來,團隊開拓更多廣泛的生成式人工智能應用範圍,如智能保安監控、體育競技及娛樂視頻分析、視頻搜尋功能等領域。
新聞稿: https://www.polyu.edu.hk/tc/media/media-releases/2025/0610_polyu-develops-novel-multi-modal-agent-to-facilitate-long-video-understanding-by-ai/
研究部門 | 香港理工大學高等研究院 | 香港理工大學 |
---|