Skip to main content Start main content

最新動態

Photo 1

趙汝恒教授榮獲美國採暖、製冷與空調工程師學會頒授「2025年度Louise and Bill Holladay傑出院士獎」

香港理工大學(理大)副校長(研究及創新)及熱能及環境工程講座教授趙汝恒教授最近獲美國採暖、製冷與空調工程師學會(ASHRAE)頒授「2025年度Louise and Bill Holladay傑出院士獎」,並於6月21日親臨於美國亞利桑那州鳳凰城舉行的ASHRAE年會上接受此項殊榮。 成立於1894年的ASHRAE是一個全球性的專業協會,致力於推動暖氣、通風、空調、冷凍及相關領域的技術與科學進步,以造福廣大社群。「Louise and Bill Holladay傑出院士獎」於1979年設立,是ASHRAE最權威的榮譽之一,旨在表彰在工程及研究工作方面持續取得卓越成就的人士。此獎項每年最多只授予一位院士,如無合適人選則不會頒授。 趙教授是亞洲第三位獲得此殊榮的學者,另外兩位學者分別來自香港大學和新加坡國立大學。 作為當日唯一受邀上台致獲獎感言的得獎者,趙教授表示:「本人深感榮幸獲得ASHRAE頒授此項殊榮。這個獎項不僅是對我個人工作的肯定,更彰顯了理大同儕們多年來的努力和創新。我們會繼續攜手推動建築能源與環境領域的研究與創新,為一直激勵我們突破界限和追求卓越的學術界和專業界作出更大的貢獻。」 趙教授的研究融合智慧建築系統與傳染病防控,通過人工智能能源優化技術構建抗感染、高效節能的建築環境,成為健康與可持續發展的關鍵基礎設施。 趙教授的獲獎彰顯了理大在推動卓越研究和創新的不懈努力,並鞏固其作為區內領先大學的地位。他在可持續發展建築技術領域的貢獻,對學術和實際應用均帶來了深遠的影響。 想了解更多有關美國採暖、製冷與空調工程師學會「Louise and Bill Holladay傑出院士獎」的詳情,請參閱ASHRAE 網站。

2025年7月2日

獎項及成就

20250630 - Tea and the Gut-01

茶與腸道:透過生物活性成份解鎖健康之門

由茶樹種植而成的茶,是中國乃至全球最受歡迎的飲品之一。除了其深厚的文化意義外,茶還富含生物活性成份,例如多酚、多醣、咖啡因,尤其是表沒食子兒茶素沒食子酸酯(EGCG),它是一種強效抗氧化劑,能為人體帶來健康。 香港理工大學食品科學及營養學系助理教授甘人友教授致力研究這些成份如何與腸道微生物群互動,當中的腸道菌群在分解茶的活性成份、提升其生物可利用性和生物活性方面發揮著重要作用。例如,EGCG在原始形態下的吸收率極低,但大腸中的細菌能將其轉化為更容易吸收的代謝物,讓其在人體內發揮功效,有助帶來心血管健康,甚至能預防癌症。 甘教授的另一個研究重點是茶葉的發酵過程如何帶來裨益。六大茶類中的黃茶、白茶、烏龍茶、紅茶和黑茶,都需要經過不同程度的氧化與發酵過程,每種都會產生獨特的化學成份。例如,未氧化發酵的綠茶保留了較高水準的兒茶素如EGCG,而後發酵的黑茶則產生出茶褐素,這種物質具有獨特成份,可對抗非酒精性脂肪肝和肥胖等疾病。 雖然日常飲茶能令身體健康,例如改善心血管健康、幫助調節血糖和提升認知功能等,甘教授提醒大眾應避免過量攝取濃縮綠茶萃取物,因其或會帶來肝臟損害等副作用。他的研究目的是確保保健食品所使用的劑量安全有效。 另外,茶在功能性食品、飲品甚至化妝品方面的應用越來越廣泛,顯示出其商業及藥用價值所在。而甘教授在專利方面的經驗,將有助將茶葉活性成份引入到健康產業之中。 雖然這些研究大部份都基於體外與動物實驗,但其已為將來進行臨床研究奠定了基礎。在中國,飲茶既是日常習慣亦是傳統療法,甘教授把古老智慧與現代科學結合起來,推動茶成為預防醫學的重要工具,最終令茶成為「以食為藥」的經典例子。 資料來源: PolyU Science Newsletter  https://www.polyu.edu.hk/fs/publication/e-newsletter/issue-6/interview---fsn/  

2025年6月30日

研究及創新

20250616 - Prof Harry QIN-01

實現精準心血管診斷影像: 以時間感知及抗雜訊技術革新超聲波心動圖影片分割

理大創新科研利用先進記憶提示技術克服超聲波影像難題   心血管疾病是香港主要健康問題之一,不少市民會定期進行心臟檢查,以便及早發現及治療。作為重要的診斷影像工具,超聲波心動圖在評估心臟功能方面非常重要,能以非侵入性方式洞察心血管健康狀況,有助及時介入治療。然而,由於影像中常出現斑點雜訊與模糊邊界等問題,要人工解讀這些超聲波影像極具挑戰,需要大量的專業知識和時間。因此,常規的年度身體檢查計劃中,較少涵蓋心臟相關檢查。    香港理工大學護理學院秦璟教授與團隊開發了一項名為「MemSAM」的創新模型,透過改良Meta AI的人工智能(AI)模型「Segment Anything Model(SAM)」配合醫學影像的特定需求,從而革新超音波心動圖影片分割技術。  MemSAM透過時間感知與抗雜訊提示方案,引入了一套獨特的超聲波心動圖影片分割方法。由Meta AI推出的SAM,是專門用於影像分割的先進AI模型,可以快速識別並分割任何影像中的元素。  雖然傳統的SAM應用在自然影像分割方面表現出色,但由於缺乏時間一致性,並且有顯著的雜訊,限制其在醫學影像中的直接應用。針對這些問題,MemSAM加入了一套時空記憶機,可以同時捕捉空間及時間資訊,確保跨影片畫面分割的一致性與準確度。  引入MemSAM有望大幅降低成本及解讀影像所需的專業知識門檻,從而減輕漫長從而等待高級心臟影像設備的負擔。此外,該技術還能將簡易心臟評估納入常規健康篩查,不僅提升檢查的便利性,並有助提高疾病的早期發現率。     眾所周知,超聲波心動圖影片的分割存在許多固有挑戰,難度極高。影像中大量斑點雜訊和偽影,加上心臟結構邊界的模糊性,令分割過程更加複雜。  此外,由於心臟運動的動態特性,導致目標物件在不同畫面之間會出現顯著差異。MemSAM採用了記憶強化機制,利用預測遮罩加強記憶提示的質素,可有效減輕雜訊的不良影響,並改善分割精準度。 MemSAM的一大特色,是能夠在標註資料有限的情況下仍能展現頂尖表現。在臨床實務中,超聲音波心動圖影片的標註工作需要大量人力,通常會導致標註稀疏,一般僅限於收縮末期和舒張末期等關鍵畫面。MemSAM在半監督設定下表現出色,其表現媲美完全監督模型,同時所需的標註及提示遠少於後者。   MemSAM的效用已在CAMUS及EchoNet-Dynamic兩個公共資料集上,進行了嚴格測試,表現比現有模型更為優勝。值得注意的一點,該模型能夠以最少的提示保持高度的分割準確率,對簡化臨床工作流程及減輕醫護專業人員負擔方面,顯示出莫大潛力。   MemSAM所採用的技術,源自SAM模型與先進記憶提示技術的融合。SAM以其強大的影像理解與分割能力聞名,經改良後,可解決醫學影片的獨特難題。其核心創新在於時間感知提示方案,透過時空記憶引導分割過程。該記憶機制包含了空間及時間線索,使模型能夠維持在不同畫面之間保持一致,並避免由遮罩傳播而導致的錯誤識別問題。   記憶強化機制是MemSAM的另一項關鍵設計。由於超聲波影像經常會受到複雜的雜訊影響,因而降低影像嵌入的質素。為了解決這問題,MemSAM採用了一種強化策略,利用分割結果突顯前景特徵,並降低背景雜訊的影響。該方法不僅提升特徵顯示的辨識度,還防止傳播錯誤資訊以及在記憶中累積。   MemSAM的架構建基於醫學基礎模型SAMUS,而SAMUS則是建基於SAM,針對醫學影像的最佳化模型。該模型會逐個畫面順序處理影片,處理後續畫面時不用依靠外部提示,而是靠記憶提示。這個設計大幅降低對密集標註及外部提示的需要,特別適合半監督作業。   雖然 MemSAM可視為超聲波心動圖像影片分割領域的一大突破,未來的研究目標是提升模型的穩健性,尤其是針對初始畫面質素較差的情況。此外,探索MemSAM在其他醫學影像領域的應用,以及提升其運算效率,將會是未來的重要發展方向。     MemSAM不僅解決了超聲波影片分割存在已久的難題,還為先進機器學習技術與醫學影像的融合樹立新基準。透過彌合尖端技術與臨床應用之間的差距,MemSAM有望改善心血管護理的診斷準確度與患者預後。這個創新模型體現了人工智能在革新醫護行業的潛力,讓人窺見自動化、準確及高效的診斷工具成為常態的未來。    資料來源: Innovation Digest

2025年6月23日

研究及創新

1

理大研究項目獲「產學研1+計劃」支持

香港特區政府創新科技署日前公布第二批「產學研1+計劃」督導委員會建議資助的項目。香港理工大學(理大)研究團隊領導的四個項目獲得該計劃資助,充分展現理大的科研實力,以及推動科研成果商品化的決心。 理大副校長(研究及創新)趙汝恒教授對獲得該計劃支持的理大研究團隊表示祝賀:「我們非常高興四個理大科研項目獲得這一輪『產學研1+計劃』的資助,這不僅彰顯理大雄厚的科研實力,更體現社會各界對我們推動科研創新和成果轉化工作的充分肯定。未來,理大將繼續深化『政、產、學、研』的高效協作,加速科研項目的進度,促進研究成果轉化,為香港、國家以至全球的發展貢獻力量。」 理大四個獲資助的項目涵蓋多個創科範疇,包括:人工智能及機械人、中醫藥、計算機科學/資訊科技和電機及電子工程,詳情如下:   項目名稱 項目負責人 項目簡介 高速3D堆疊的AI視覺傳感器 柴揚教授 理學院副院長(研究)、應用物理學系半導體物理學講座教授及微電子聯合研究中心主任 項目旨在開發高速、高動態範圍、低功耗的AI視覺傳感器,以克服現有圖像傳感器在高速運動場景成像模糊的限制。該款傳感器可廣泛應用於智慧城市中的安全監控系統和自主導航設備;機械人和自動化領域的高速物體辨識檢測,以及延展實境裝置和智能手機等電子消費產品的運動追蹤分析。 該AI視覺傳感器可通過集成傳統圖像傳感器及視覺處理晶片,或採用3D堆疊技術與市面成熟的圖像傳感器結合,以實現高速、高動態範圍和低功耗成像。 新型營養素與藥物在神經系統疾病防治中的全球化開發與應用 李銘源教授 鄺美雲生物醫學與中醫藥創新教授、食品科學及營養學系生物醫學講座教授、香港理工大學-華大全球海洋資源基因組與合成生物學聯合研究中心主任 項目立足天然產物資源,依托自主研發的Life Chip生命芯片技術平台,深度融合新一代DNA測序與AI智能發現、三重五維化學分離、活體生物高通量篩選及合成生物學等尖端技術,構建完整的創新研發體系。圍繞阿茲海默症、帕金遜症等神經退行性疾病,以及失眠、抑鬱、焦慮等神經亞健康領域,開發具有獨特作用機制的新型營養素與藥物,打造涵蓋預防、治療的一體化綜合解決方案。項目已成功推出天然產物神經營養素系列產品,核心品種「Oxyphylla®益智素」作為全球首創候選藥物,靶向全新藥物靶點α-突觸核蛋白(alpha-synuclein),針對輕中度帕金遜症等適應症,有望成為新一代疾病修飾療法,為神經健康領域帶來新突破。 Reallm:世界領先的企業級生成式人工智慧基礎設施解決方案 楊紅霞教授 人工智能高等研究院執行院長、計算機及數學科學學院副院長(環球事務)及電子計算學系教授 項目旨在開發全面的生成式人工智能(GenAI)基礎架構解決方案,包括:建立支援去中心化預訓練系統架構,以支援分散式模型訓練框架;開發領域適應性持續預訓練系統,透過領域特定未標記數據持續優化大型語言模型,以實現目標領域分布;低比特訓練框架,僅需傳統訓練一半的計算與儲存資源,便可高品質完成預訓練到後訓練的全鏈路流程,顯著降低企業使用門檻。最終推出專門設計用於透過企業級GenAI服務(軟件即服務SaaS、平台即服務PaaS、基礎設施即服務IaaS)增強各領域合作的平台。 基於超表面結構的可調諧激光器芯片及其應用 余長源教授 理大晉江技術創新研究院院長、電機及電子工程學系教授   項目致力於突破先進激光芯片製造領域的核心技術瓶頸,開發一款新型寬帶可調諧激光芯片。通過全球首創將超構表面反射鏡和相變材料集成至垂直腔面發射激光器中,實現了極高品質因子的諧振腔以及超寬帶(40nm)的輸出波長動態連續調控。相較於傳統激光器結構,此可調諧激光器不僅設計更簡潔,在實現與國際頂級競爭品相同的kHz級調諧速度的同時,成本僅為市場同類產品的二十分之一。激光器可望大規模應用於電池監測、工業生產、自動駕駛和高速光通訊模塊等領域。 獲特區政府撥款港幣100億元成立的「產學研1+計劃」於2023年正式推出,以配對形式資助不少於百支來自大學教育資助委員會資助大學、有潛質成為成功初創企業的研發團隊。每個獲批項目可獲港幣一千萬元至港幣一億元不等的資助。

2025年6月20日

獎項及成就

Photo 1

理大參與BIO 2025國際生物科技大會 展示人工智能及醫工結合創新科研成果

香港理工大學(理大)科研團隊參與於6月16至19日在美國波士頓舉行的「國際生物科技大會2025」(BIO 2025),向來自世界各地的業界領袖展示大學的突破性研究及成果轉化,包括多項橫跨人工智能、醫學及工程領域的創新發明,彰顯理大於醫療及健康領域跨學科研究方面的雄厚實力及領導地位。 BIO 2025是全球最具規模及影響力的生物科技大會,匯聚來自近70 個國家或地區逾 20,000 名業界領袖和專業人士。大會內容涵蓋多個範疇,從科研開發、臨床試驗、製造,到投資、業務拓展及市場營銷等,全面覆蓋整個生物科技生態圈。 理大於大會展示的十項跨學科研究成果,涵蓋藥物研發、醫療儀器與診斷、生物醫學工程、復康科技、視光學及食品科學等多個領域。此外,理大代表亦參與了大會舉辦的多場商業論壇及專題研討,與全球生物科技業界領袖進行深度交流,積極拓展國際協作網絡,開拓多元嶄新機遇。 理大副校長(研究及創新)趙汝恒教授表示:「理大憑藉堅實學術基礎及卓越創新能力,在轉化研究上表現出色,尤其於醫工結合及人工智能醫療方面取得顯著成果。在政府與業界夥伴的大力支持下,我們成功推動多項突破性技術,並屢獲國際殊榮,獲得全球廣泛認可。過去十多年來,理大積極參與 BIO 國際大會,充分利用此全球平台展示科研及創新實力,同時積極拓展國際合作網絡,建立具價值的策略夥伴關係。」 理大於BIO 2025展出的創新成果包括: 由生物醫學工程學系副教授李銘鴻教授領導的「PocNova™: 便攜式超快速核酸檢測系統」 由生物醫學工程學系副教授胡曉翎教授領導的「多模態足踝機械人助中風患者遙距復康」 由工業與系統工程學系高級講師鄧育明博士領導的「視覺訓練VR設備」 由醫療科技及資訊學系副教授王志明教授領導的「用於治療糖尿病及相關代謝併發症的創新激素」 由護理學院副教授楊琳教授領導的「HAND-HEART:基於人工智能的手部衛生擴增實境工具」 由應用生物及化學科技學系教授梁潤松教授領導的「ABarginase:首創新藥治療肥胖相關代謝疾病」 由應用生物及化學科技學系副教授馬聰教授領導的「突破性抗生素療法」 由食品科學與營養學系講座教授李銘源教授領導的「治療神經退化性疾病的新型營養保健品」 由食品科學與營養學系助理教授(研究)常金輝博士領導的「AkkMore™: 新型菇菌脂肪替代品抗肥胖和前期糖尿病劑」 由時裝及紡織學院研究員張子恆博士領導的「環保安全的抗菌材料 」 其中,馬聰教授在大會的商業報告環節中,分享了在抗生素療法方面的最新研究成果,備受業界關注。馬教授帶領的研究團隊首次發現具有獨特作用機制的抗微生物藥物,為應對抗生素抗藥性問題提供突破性方向,其創新方向聚焦於干擾細菌轉錄複合物內蛋白質與蛋白質之間的相互作用,進一步為開發新型抗菌藥物帶來新希望。 理大在醫療及健康領域擁有堅實的科研實力和基礎,一直致力推動結合醫學與人工智能、工程學及數據科學的跨學科研究項目,引領新世代醫療科技發展,助力香港建設成為國際醫療創新樞紐。  

2025年6月19日

活動

WhatsApp Image 20250619 at 152716512d3eaa

媒體專訪:理大新創企業運用科技探索香港社區故事

在繁忙的都市節奏下,香港人生活忙碌,往往忽略身邊社區的獨特故事。為此,理大研究及創新事務處職員劉海晴女士與理大應用社會科學系畢業生周建斌先生,萌生了將社會議題與解謎遊戲結合的想法,於2022年共同創立初創企業「搵呢搵路 Puzzle Weekly」,旨在透過互動遊戲的嶄新方式,鼓勵大眾關注身邊的小故事,重新連結人與社區。 在最近媒體訪問中,團隊成員分享了他們的初創理念。該項目設計基於香港社區的真實故事,團隊憑著視覺語言的專業知識,與商業夥伴攜手合作,巧妙地結合社會議題和引人入勝的解謎遊戲。參與者在多元文化遊戲的過程中,不僅能探索香港鮮為人知的文化遺產,還能增進社會凝聚力。 經過不斷嘗試與摸索,「搵呢搵路 Puzzle Weekly」奪得2022年青年企業家發展局「敢闖。敢創」創業比賽的「社會關愛精神獎」。在理大支持下,該項目更獲得「理大微型基金計畫」資助,發展得以漸趨成熟。 團隊期望其服務擴展至更多地區,吸引國際合作機會,將香港豐富的社區故事呈現到世界各地,推廣本地文化並得以傳承。  

2025年6月19日

研究及創新

20250612 - Top50-01

理大學者獲選為CoinDesk「Web3 與AI 領域50 位女性」

香港理工大學(理大)致力於推動創新和跨學科研究,結合人工智能(AI)為多個領域帶來突破。理大計算機及數學科學學院副院長(環球事務)、電子計算學系教授、理大人工智能高等研究院行政總監楊紅霞教授,憑藉其開創領先技術的影響力,榮登CoinDesk「Web3及AI 50位女性」榜單。 這份首屆榜單從全球評選出 50 位在塑造加密貨幣和AI未來發展最具影響力的女性。楊教授對AI發展的開創性貢獻備受肯定,特別是在將先進技術與醫療、金融等行業實際應用相結合方面的成果。 楊教授是一位傑出的AI科學家,擁有超過15年的經驗,專注於大規模機器學習、資料探勘、深度學習、以及大型語言模型(LLM)的實際系統部署。在她卓越的職業生涯中,她開套了十個重要的算法系統,提升了多家企業的運營效率。 推進醫療及其他領域的AI 致力為AI去中心化創造條件的楊教授,首創了「模型驅動模型」(Model-over-Models,MoM),即是使用較小型、可堆疊、領域特定的模型,來建構基礎模型。這套名為 InfiFusion的新方案,作為一種高效且可擴展的LLM,將使更多行業受益於先進的AI技術。楊教授及其團隊目前正在開發基礎模型,涵蓋醫療、製造、能源和金融等前沿領域。 楊教授熱衷於結合統計學與醫療保健和精算學並開發創新方案,與人類未來福祉息息相關。楊教授獲邀請在「裘槎高級研討會」(Croucher Advanced Study Institute)為「AI與統計學」課題擔任主講。 該裘槎高級研討會旨在探索生成AI和統計學的前沿交匯,深入發掘可強化數據驅動決策和創新方法和應用。 楊教授表示:「通過結合統計原則與生成式AI的能力,我們旨在開發出更穩健的模型,能夠生成真實數據,提高預測準確性,並為複雜數據集提供更深入的見解。這一探索旨在推動可能性的邊界,促進可應用於各行業的技術進步,最終創造更明智和有效的解決方案。」 CoinDesk的遴選過程涉及全球300多個提名,經由多元化的評審團評選,著重創新、關聯能力和影響力。最終名單展示了在加密貨幣和AI領域中多方面專長的佼佼者,涵蓋技術開發、商業策略、法規監管和倫理框架。

2025年6月13日

獎項及成就

WhatsApp Image 20250611 at 16381915613cac

媒體報導:理大與AELIS Couture 攜手打造可持續時尚材料

時裝設計日益創新,隨著科技進步,法國高級訂製服品牌AELIS Couture(AELIS)與香港理工大學(理大)攜手合作,將尖端科研成果轉化為可持續時尚材料,共同設計2024/25秋冬高級訂製服系列,為時尚界注入新活力。 AELIS採用了由理大時裝及紡織學院教授姜綬祥教授帶領團隊,特別設計和製作的金和銀金屬鍍覆的有機絲綢柯根紗。理大科研團隊利用應用金屬鍍覆膜技術,將納米級的超薄金屬薄膜鍍覆於紡織品,不但保持了傳統紡織品的舒適感和飄柔性,更增添了瑰麗的珠光效果,為時尚設計帶來嶄新的視覺體驗。 理大致力研發環保材料,與AELIS的品牌理念完美契合,此創新合作展現出材料創新的突破,成功融合科學技術與時尚設計,體現雙方對環境可持續發展的承諾,推動時尚界邁向更可持續的未來。 面對業界對環保材料日益增長的需求,理大與AELIS的合作融合創新思維與可持續發展理念,加強時尚界與科研界的聯繫,促進創新材料的研發與應用,助時尚設計師發揮更豐富的創作靈感。  

2025年6月11日

研究及創新

Photo 1

理大開發嶄新長視頻推理多模態框架 加速生成式人工智能應用於視頻分析

人工智能發展迅速,但不少模型在理解長視頻時仍面對不少挑戰。香港理工大學(理大)研究團隊開發多模態智能體VideoMind,令人工智能模型能通過模仿人類思考過程,理解長視頻及回答內容提問,並結合創新的鏈式低秩適應(Low-Rank Adaptation,LoRA)策略,大大減低消耗資源和所需算力,推動生成式人工智能於視頻分析的商業化應用。研究成果已投稿至人工智能頂級會議。 視頻,尤其是長視頻(15分鐘以上),不單純是疊加的靜態畫面,其內容包含隨時間推移產生的資訊,例如事件的發生時序、前因後果、連貫性及場景轉換等。人工智能模型要理解視頻,不但要識別當中的事物,還要兼顧時間維度的訊息,即事物如何隨時間變化。由於畫面佔用了大量標記(token),導致視頻推理需要消耗龐大算力和記憶體,令一般大模型難以應付太長的視頻。 理大計算機及數學科學學院暫任院長及視覺計算講座教授陳長汶教授帶領的研究團隊在長視頻推理研究取得突破,團隊參考了人類理解視頻的過程,在其開發的VideoMind框架內設計角色化流程,以漸進式推理的方式,解決模型在理解時序上的困難。框架內的四個角色分別為負責決定如何調用其他角色的規劃者(Planner)、搜尋及定位與問題相關片段的定位者(Grounder)、透過裁剪片段及放大畫面等方法驗證片段的驗證者(Verifier),以及分析選定片段並生成答案的回答者(Answerer)。 VideoMind的另一核心創新在於採用了鏈式LoRA(Chain-of-LoRA)的策略。LoRA是最近兩年新興的大型語言模型微調技術,透過在既有模型內進行低階調整,令模型不需要重新接受全量(full-parameter)訓練,亦能執行特定功能。團隊提出的創新鏈式LoRA策略,只需要在同一基礎模型上,載入四個輕量級的LoRA適應器,對應不同角色,即可令模型按需要自行啟動不同的適應器,動態切換角色,減省了需要動用的模型量及相關成本,同時提高單一模型的效能及靈活度。 研究團隊已在GitHub和HuggingFace平台開源VideoMind項目,以公開測試的長視頻任務,涉及14個人工智能模型基準測試集。團隊將VideoMind與多個先進大語言模型及多模態模型作比較,發現VideoMind在處理平均時長達27分鐘的長視頻時,定位準確度較GTP-4o、Gemini 1.5等尖端大模型更優勝。值得注意的是,團隊同時測試了較小的20億(2B)參數量及較大的70億(7B)參數量的VideoMind,發現2B模型的VideoMind性能已足以媲美其他7B或以上的大模型。 陳長汶教授表示:「人類觀看視頻時會切換思維方式,先拆解問題,再找出相關片段,然後反覆重溫及核對,才對內容下結論。此過程效率極高;大腦總功耗僅25瓦左右,比相同算力的超級電腦要低100萬倍。我們從這種人類的思考模式中獲得啟發,設計角色化流程,真正讓人工智能像人類一樣理解視頻,並成功透過鏈式LoRA策略降低算力和記憶體需求。」 人工智能浪潮席捲全球,但算力不足和耗能過高的情況日益嚴重。VideoMind以開源、參數量少的多模態模型Qwen2-VL為骨幹,配置優化工具,降低了技術成本和部署門檻,為人工智能模型功耗過高的問題提出可行解決途徑。陳教授補充:「VideoMind框架不但突破了人工智能在視頻處理的限制,更可作為一個模組化、可擴展、具解釋能力的多模態推理框架,拓展生成式人工智能的應用範圍,如智能保安監控、體育競技及娛樂視頻分析、視頻搜尋功能等領域。」

2025年6月10日

研究及創新

Photo 1

理大研究發現感官及運動信息有助大語言模型表達複雜概念

沒有聞過花香、觸摸過花瓣,或在花園散步過,有可能真正了解什麼是「花」嗎?這個問題引發了不少的哲學與認知科學爭論;有認知理論專家認為,親身感受和體驗是概念形成的關鍵,但目前飛速發展的大語言模型研究卻表明,僅憑語言便有可能建立對現實具有意義的真實表徵。 由香港理工大學(理大)研究人員與合作者組成的團隊,透過分析大語言模型和人類在概念表徵上的相似度,為語言能在多大程度上推動複雜概念的形成和學習提出了新見解。研究並揭示「具身化訓練」(grounding),即為大語言模型提供感官(如視覺)及運動信息,讓模型能將抽象與具體概念聯繫起來,可以影響其對複雜概念的理解並生成接近人類的表徵。此研究與俄亥俄州立大學、普林斯頓大學及紐約市立大學的研究人員合作進行,成果最近於《Nature Human Behaviour》上發表。 理大冼為堅基金人文與科技講座教授、人文學院院長兼理大杭州技術創新研究院副院長李平教授領導的研究團隊選取大語言模型ChatGPT(GPT-3.5和GPT-4)和 Google LLMs(PaLM 和 Gemini)所生成的詞彙評分,並將其與公開發表及經過驗證的《格拉斯哥詞彙範本》(Glasgow Norms)和《蘭卡斯特詞彙範本》(Lancaster Norms)數據集中近4,500個詞語的人類評分進行比較。這些評分涵蓋了非感官運動領域,包括情感效價、具體性、可意象性等維度;感官領域,包括視覺、嗅覺、聽覺等維度,以及運動領域,包括腿/腳、嘴巴/喉嚨等維度。 研究團隊以人與人之間的配對結果作為基準,首先將個別人類和大語言模型生成的數據進行比較,以探究人類與大語言模型的詞彙評分在上述領域各維度中的相似程度,從中找出大模型和人類在理解不同領域概念上的一致性,例如兩者是否都認為某些概念相較其他概念更加具體。然而,這種分析或會忽略不同維度如何共同影響詞彙的整體表徵。以「pasta」(意大利麵)和「 roses」(玫瑰)為例,兩者同樣在嗅覺維度擁有較高的評分,但實際上「pasta」與「roses」遠遠不及「pasta」與「noodles」(麵)接近,因為概念之間的相似度需要綜合考慮其外觀和味道。因此,團隊再運用了表徵相似性分析(representational similarity analysis),將每個詞彙在各領域多個範疇的評分數據整合成一個向量(vector),以進行更全面的人類與模型比對。 研究結果表明大語言模型生成的詞彙表徵與人類表徵的相似度,在非感官運動領域最高,感官領域次之,而在運動領域表現最差。這凸顯了大語言模型在表徵人類概念上的局限;模型雖然能夠有效掌握非感官運動領域的概念,但在理解涉及視覺外觀、味覺等感官概念,或需要肢體動作體驗的運動概念時,表現明顯較為遜色。其中,動作性概念較少被文字完整描述,且高度依賴具身經驗,相對於色彩一類能從文本數據學習到的感官概念,對模型而言更具挑戰性。 根據研究結果,研究人員進一步檢驗具身化訓練能否提升大語言模型的表現。他們比較了同時接受語言及視覺輸入訓練的具身化模型(如GPT-4和Gemini),跟僅接受語言訓練的模型(如GPT-3.5和PaLM)之間的差異,結果發現結合視覺輸入的模型生成的表徵與人類表徵相似度明顯更高。 李平教授表示:「純語言訓練及語言+視覺輸入(如圖像及視頻等)訓練的大語言模型,為研究感官及運動信息如何影響人類概念形成提供了獨特的機遇。我們的研究具體展現了多模態學習的潛在優勢,因為實時整合多種模態的信息正是人類學習和表徵的特點,如大模型能吸取到這個特徵,就可更趨近人類的認知模式以及更如人類行為一樣高效率。」 值得注意的是,這項發現與以往提出人類表徵遷移現象的研究結果吻合。人類透過視覺和觸覺的多模態經驗獲取物件形狀知識,如當我們觀看或觸摸物件時,大腦中同一區域會被激活。研究人員指出,正如人類一樣,經過多模態輸入訓練的大語言模型在接收了多種信息後,或能在連續的高維度空間中進行表徵融合或遷移。李教授續解釋:「大語言模型嵌入空間所具有的平滑及連續特性或許能解釋為何我們觀察到源自單一模態的知識能夠擴散至其他相關模態。此發現也可能揭示了先天失明人士與視力正常者之間為何會在某些領域上有相似表徵。目前的大語言模型在這方面還有明顯不足。」 展望未來,研究團隊指出今後可以透過類人型機械人技術把大語言模型與多模態數據整合,使其能主動解讀真實世界,並作出相應行動。李教授指:「相關技術發展或將催化大語言模型真正實現具身人工表徵,從而更切實反映出人類認知所具有的複雜性和豐富性,屆時人們將無法指出大模型對玫瑰花的表徵與人類的表徵有何分別。」

2025年6月10日

研究及創新

您的瀏覽器不是最新版本。如果繼續瀏覽本網站,部分頁面未必能夠正常運作。

建議您更新至最新版本或選用其他瀏覽器。您可以按此連結查看其他相容的瀏覽器。