理大開發嶄新長視頻推理多模態框架 加速生成式人工智能應用於視頻分析
2025年6月10日
人工智能發展迅速,但不少模型在理解長視頻時仍面對不少挑戰。香港理工大學(理大)研究團隊開發多模態智能體VideoMind,令人工智能模型能通過模仿人類思考過程,理解長視頻及回答內容提問,並結合創新的鏈式低秩適應(Low-Rank Adaptation,LoRA)策略,大大減低消耗資源和所需算力,推動生成式人工智能於視頻分析的商業化應用。研究成果已投稿至人工智能頂級會議。
視頻,尤其是長視頻(15分鐘以上),不單純是疊加的靜態畫面,其內容包含隨時間推移產生的資訊,例如事件的發生時序、前因後果、連貫性及場景轉換等。人工智能模型要理解視頻,不但要識別當中的事物,還要兼顧時間維度的訊息,即事物如何隨時間變化。由於畫面佔用了大量標記(token),導致視頻推理需要消耗龐大算力和記憶體,令一般大模型難以應付太長的視頻。
理大計算機及數學科學學院暫任院長及視覺計算講座教授陳長汶教授帶領的研究團隊在長視頻推理研究取得突破,團隊參考了人類理解視頻的過程,在其開發的VideoMind框架內設計角色化流程,以漸進式推理的方式,解決模型在理解時序上的困難。框架內的四個角色分別為負責決定如何調用其他角色的規劃者(Planner)、搜尋及定位與問題相關片段的定位者(Grounder)、透過裁剪片段及放大畫面等方法驗證片段的驗證者(Verifier),以及分析選定片段並生成答案的回答者(Answerer)。
VideoMind的另一核心創新在於採用了鏈式LoRA(Chain-of-LoRA)的策略。LoRA是最近兩年新興的大型語言模型微調技術,透過在既有模型內進行低階調整,令模型不需要重新接受全量(full-parameter)訓練,亦能執行特定功能。團隊提出的創新鏈式LoRA策略,只需要在同一基礎模型上,載入四個輕量級的LoRA適應器,對應不同角色,即可令模型按需要自行啟動不同的適應器,動態切換角色,減省了需要動用的模型量及相關成本,同時提高單一模型的效能及靈活度。
研究團隊已在GitHub和HuggingFace平台開源VideoMind項目,以公開測試的長視頻任務,涉及14個人工智能模型基準測試集。團隊將VideoMind與多個先進大語言模型及多模態模型作比較,發現VideoMind在處理平均時長達27分鐘的長視頻時,定位準確度較GTP-4o、Gemini 1.5等尖端大模型更優勝。值得注意的是,團隊同時測試了較小的20億(2B)參數量及較大的70億(7B)參數量的VideoMind,發現2B模型的VideoMind性能已足以媲美其他7B或以上的大模型。
陳長汶教授表示:「人類觀看視頻時會切換思維方式,先拆解問題,再找出相關片段,然後反覆重溫及核對,才對內容下結論。此過程效率極高;大腦總功耗僅25瓦左右,比相同算力的超級電腦要低100萬倍。我們從這種人類的思考模式中獲得啟發,設計角色化流程,真正讓人工智能像人類一樣理解視頻,並成功透過鏈式LoRA策略降低算力和記憶體需求。」
人工智能浪潮席捲全球,但算力不足和耗能過高的情況日益嚴重。VideoMind以開源、參數量少的多模態模型Qwen2-VL為骨幹,配置優化工具,降低了技術成本和部署門檻,為人工智能模型功耗過高的問題提出可行解決途徑。陳教授補充:「VideoMind框架不但突破了人工智能在視頻處理的限制,更可作為一個模組化、可擴展、具解釋能力的多模態推理框架,拓展生成式人工智能的應用範圍,如智能保安監控、體育競技及娛樂視頻分析、視頻搜尋功能等領域。」
***完***
詳情查詢
鄭秀賢女士
公共事務副經理
- 2766 4570
- hazel-sy.cheng@polyu.edu.hk
詳情查詢
蕭郁鵬先生
公共事務高級經理
- 2766 5096
- edmond.siu@polyu.edu.hk
你可能也感興趣