Skip to main content Start main content

最新动态

Photo 1

赵汝恒教授荣获美国采暖丶制冷与空调工程师学会颁授「2025年度Louise and Bill Holladay杰出院士奖」

香港理工大学(理大)副校长(研究及创新)及热能及环境工程讲座教授赵汝恒教授最近获美国采暖丶制冷与空调工程师学会(ASHRAE)颁授「2025年度Louise and Bill Holladay杰出院士奖」,并於6月21日亲临於美国亚利桑那州凤凰城举行的ASHRAE年会上接受此项殊荣。 成立於1894年的ASHRAE是一个全球性的专业协会,致力於推动暖气丶通风丶空调丶冷冻及相关领域的技术与科学进步,以造福广大社群。「Louise and Bill Holladay杰出院士奖」於1979年设立,是ASHRAE最权威的荣誉之一,旨在表彰在工程及研究工作方面持续取得卓越成就的人士。此奖项每年最多只授予一位院士,如无合适人选则不会颁授。 赵教授是亚洲第三位获得此殊荣的学者,另外两位学者分别来自香港大学和新加坡国立大学。 作为当日唯一受邀上台致获奖感言的得奖者,赵教授表示:「本人深感荣幸获得ASHRAE颁授此项殊荣。这个奖项不仅是对我个人工作的肯定,更彰显了理大同侪们多年来的努力和创新。我们会继续携手推动建筑能源与环境领域的研究与创新,为一直激励我们突破界限和追求卓越的学术界和专业界作出更大的贡献。」 赵教授的研究融合智慧建筑系统与传染病防控,通过人工智能能源优化技术构建抗感染丶高效节能的建筑环境,成为健康与可持续发展的关键基础设施。 赵教授的获奖彰显了理大在推动卓越研究和创新的不懈努力,并巩固其作为区内领先大学的地位。他在可持续发展建筑技术领域的贡献,对学术和实际应用均带来了深远的影响。 想了解更多有关美国采暖丶制冷与空调工程师学会「Louise and Bill Holladay杰出院士奖」的详情,请参阅ASHRAE 网站。

2025年7月2日

奖项及成就

20250630 - Tea and the Gut-01

茶与肠道:透过生物活性成份解锁健康之门

由茶树种植而成的茶,是中国乃至全球最受欢迎的饮品之一。除了其深厚的文化意义外,茶还富含生物活性成份,例如多酚丶多醣丶咖啡因,尤其是表没食子儿茶素没食子酸酯(EGCG),它是一种强效抗氧化剂,能为人体带来健康。 香港理工大学食品科学及营养学系助理教授甘人友教授致力研究这些成份如何与肠道微生物群互动,当中的肠道菌群在分解茶的活性成份丶提升其生物可利用性和生物活性方面发挥着重要作用。例如,EGCG在原始形态下的吸收率极低,但大肠中的细菌能将其转化为更容易吸收的代谢物,让其在人体内发挥功效,有助带来心血管健康,甚至能预防癌症。 甘教授的另一个研究重点是茶叶的发酵过程如何带来裨益。六大茶类中的黄茶丶白茶丶乌龙茶丶红茶和黑茶,都需要经过不同程度的氧化与发酵过程,每种都会产生独特的化学成份。例如,未氧化发酵的绿茶保留了较高水准的儿茶素如EGCG,而後发酵的黑茶则产生出茶褐素,这种物质具有独特成份,可对抗非酒精性脂肪肝和肥胖等疾病。 虽然日常饮茶能令身体健康,例如改善心血管健康丶帮助调节血糖和提升认知功能等,甘教授提醒大众应避免过量摄取浓缩绿茶萃取物,因其或会带来肝脏损害等副作用。他的研究目的是确保保健食品所使用的剂量安全有效。 另外,茶在功能性食品丶饮品甚至化妆品方面的应用越来越广泛,显示出其商业及药用价值所在。而甘教授在专利方面的经验,将有助将茶叶活性成份引入到健康产业之中。 虽然这些研究大部份都基於体外与动物实验,但其已为将来进行临床研究奠定了基础。在中国,饮茶既是日常习惯亦是传统疗法,甘教授把古老智慧与现代科学结合起来,推动茶成为预防医学的重要工具,最终令茶成为「以食为药」的经典例子。 资料来源: PolyU Science Newsletter  https://www.polyu.edu.hk/fs/publication/e-newsletter/issue-6/interview---fsn/  

2025年6月30日

研究及创新

20250616 - Prof Harry QIN-01

实现精准心血管诊断影像: 以时间感知及抗噪声技术革新超声波心动图影片分割

理大创新科研利用先进记忆提示技术克服超声波影像难题   心血管疾病是香港主要健康问题之一,不少市民会定期进行心脏检查,以便及早发现及治疗。作为重要的诊断影像工具,超声波心动图在评估心脏功能方面非常重要,能以非侵入性方式洞察心血管健康状况,有助及时介入治疗。然而,由于影像中常出现斑点噪声与模糊边界等问题,要人工解读这些超声波影像极具挑战,需要大量的专业知识和时间。因此,常规的年度身体检查计划中,较少涵盖心脏相关检查。    香港理工大学护理学院秦璟教授与团队开发了一项名为「MemSAM」的创新模型,透过改良Meta AI的人工智能(AI)模型「Segment Anything Model(SAM)」配合医学影像的特定需求,从而革新超音波心动图影片分割技术。  MemSAM透过时间感知与抗噪声提示方案,引入了一套独特的超声波心动图影片分割方法。由Meta AI推出的SAM,是专门用于影像分割的先进AI模型,可以快速识别并分割任何影像中的元素。  虽然传统的SAM应用在自然影像分割方面表现出色,但由于缺乏时间一致性,并且有显著的噪声,限制其在医学影像中的直接应用。针对这些问题,MemSAM加入了一套时空记忆机,可以同时捕捉空间及时间信息,确保跨影片画面分割的一致性与准确度。  引入MemSAM有望大幅降低成本及解读影像所需的专业知识门坎,从而减轻漫长从而等待高级心脏影像设备的负担。此外,该技术还能将简易心脏评估纳入常规健康筛查,不仅提升检查的便利性,并有助提高疾病的早期发现率。     众所周知,超声波心动图影片的分割存在许多固有挑战,难度极高。影像中大量斑点噪声和伪影,加上心脏结构边界的模糊性,令分割过程更加复杂。  此外,由于心脏运动的动态特性,导致目标对象在不同画面之间会出现显著差异。MemSAM采用了记忆强化机制,利用预测屏蔽加强记忆提示的质素,可有效减轻噪声的不良影响,并改善分割精准度。 MemSAM的一大特色,是能够在标注数据有限的情况下仍能展现顶尖表现。在临床实务中,超声音波心动图影片的标注工作需要大量人力,通常会导致标注稀疏,一般仅限于收缩末期和舒张末期等关键画面。MemSAM在半监督设定下表现出色,其表现媲美完全监督模型,同时所需的标注及提示远少于后者。   MemSAM的效用已在CAMUS及EchoNet-Dynamic两个公共数据集上,进行了严格测试,表现比现有模型更为优胜。值得注意的一点,该模型能够以最少的提示保持高度的分割准确率,对简化临床工作流程及减轻医护专业人员负担方面,显示出莫大潜力。   MemSAM所采用的技术,源自SAM模型与先进记忆提示技术的融合。SAM以其强大的影像理解与分割能力闻名,经改良后,可解决医学影片的独特难题。其核心创新在于时间感知提示方案,透过时空记忆引导分割过程。该记忆机制包含了空间及时间线索,使模型能够维持在不同画面之间保持一致,并避免由屏蔽传播而导致的错误识别问题。   记忆强化机制是MemSAM的另一项关键设计。由于超声波影像经常会受到复杂的噪声影响,因而降低影像嵌入的质素。为了解决这问题,MemSAM采用了一种强化策略,利用分割结果突显前景特征,并降低背景噪声的影响。该方法不仅提升特征显示的辨识度,还防止传播错误信息以及在记忆中累积。   MemSAM的架构建基于医学基础模型SAMUS,而SAMUS则是建基于SAM,针对医学影像的优化模型。该模型会逐个画面顺序处理影片,处理后续画面时不用依靠外部提示,而是靠记忆提示。这个设计大幅降低对密集标注及外部提示的需要,特别适合半监督作业。   虽然 MemSAM可视为超声波心动图像影片分割领域的一大突破,未来的研究目标是提升模型的稳健性,尤其是针对初始画面质素较差的情况。此外,探索MemSAM在其他医学影像领域的应用,以及提升其运算效率,将会是未来的重要发展方向。     MemSAM不仅解决了超声波影片分割存在已久的难题,还为先进机器学习技术与医学影像的融合树立新基准。透过弥合尖端技术与临床应用之间的差距,MemSAM有望改善心血管护理的诊断准确度与患者预后。这个创新模型体现了人工智能在革新医护行业的潜力,让人窥见自动化、准确及高效的诊断工具成为常态的未来。    数据源: Innovation Digest

2025年6月23日

研究及创新

1

理大研究项目获「产学研1+计划」支持

香港特区政府创新科技署日前公布第二批「产学研1+计划」督导委员会建议资助的项目。香港理工大学(理大)研究团队领导的四个项目获得该计划资助,充分展现理大的科研实力,以及推动科研成果商品化的决心。 理大副校长(研究及创新)赵汝恒教授对获得该计划支持的理大研究团队表示祝贺:「我们非常高兴四个理大科研项目获得这一轮『产学研1+计划』的资助,这不仅彰显理大雄厚的科研实力,更体现社会各界对我们推动科研创新和成果转化工作的充分肯定。未来,理大将继续深化『政、产、学、研』的高效协作,加速科研项目的进度,促进研究成果转化,为香港、国家以至全球的发展贡献力量。」 理大四个获资助的项目涵盖多个创科范畴,包括:人工智能及机械人、中医药、计算器科学/信息科技和电机及电子工程,详情如下:   项目名称 项目负责人 项目简介 高速3D堆栈的AI视觉传感器 柴扬教授 理学院副院长(研究)、应用物理学系半导体物理学讲座教授及微电子联合研究中心主任 项目旨在开发高速、高动态范围、低功耗的AI视觉传感器,以克服现有图像传感器在高速运动场景成像模糊的限制。该款传感器可广泛应用于智能城市中的安全监控系统和自主导航设备;机械人和自动化领域的高速物体辨识检测,以及延展实境装置和智能手机等电子消费产品的运动追踪分析。 该AI视觉传感器可通过集成传统图像传感器及视觉处理芯片,或采用3D堆栈技术与市面成熟的图像传感器结合,以实现高速、高动态范围和低功耗成像。 新型营养素与药物在神经系统疾病防治中的全球化开发与应用 李铭源教授 邝美云生物医学与中医药创新教授、食品科学及营养学系生物医学讲座教授、香港理工大学-华大全球海洋资源基因组与合成生物学联合研究中心主任 项目立足天然产物资源,依托自主研发的Life Chip生命芯片技术平台,深度融合新一代DNA测序与AI智能发现、三重五维化学分离、活体生物高通量筛选及合成生物学等尖端技术,构建完整的创新研发体系。围绕阿兹海默症、帕金逊症等神经退行性疾病,以及失眠、抑郁、焦虑等神经亚健康领域,开发具有独特作用机制的新型营养素与药物,打造涵盖预防、治疗的一体化综合解决方案。项目已成功推出天然产物神经营养素系列产品,核心品种「Oxyphylla®益智素」作为全球首创候选药物,靶向全新药物靶点α-突触核蛋白(alpha-synuclein),针对轻中度帕金逊症等适应症,有望成为新一代疾病修饰疗法,为神经健康领域带来新突破。 Reallm:世界领先的企业级生成式人工智能基础设施解决方案 杨红霞教授 人工智能高等研究院执行院长、计算器及数学科学学院副院长(环球事务)及电子计算学系教授 项目旨在开发全面的生成式人工智能(GenAI)基础架构解决方案,包括:建立支持去中心化预训练系统架构,以支持分布式模型训练框架;开发领域适应性持续预训练系统,透过领域特定未标记数据持续优化大型语言模型,以实现目标领域分布;低比特训练框架,仅需传统训练一半的计算与储存资源,便可高质量完成预训练到后训练的全链路流程,显著降低企业使用门坎。最终推出专门设计用于透过企业级GenAI服务(软件即服务SaaS、平台即服务PaaS、基础设施即服务IaaS)增强各领域合作的平台。 基于超表面结构的可调谐激光器芯片及其应用 余长源教授 理大晋江技术创新研究院院长、电机及电子工程学系教授   项目致力于突破先进激光芯片制造领域的核心技术瓶颈,开发一款新型宽带可调谐激光芯片。通过全球首创将超构表面反射镜和相变材料集成至垂直腔面发射激光器中,实现了极高质量因子的谐振腔以及超宽带(40nm)的输出波长动态连续调控。相较于传统激光器结构,此可调谐激光器不仅设计更简洁,在实现与国际顶级竞争品相同的kHz级调谐速度的同时,成本仅为市场同类产品的二十分之一。激光器可望大规模应用于电池监测、工业生产、自动驾驶和高速光通讯模块等领域。 获特区政府拨款港币100亿元成立的「产学研1+计划」于2023年正式推出,以配对形式资助不少于百支来自大学教育资助委员会资助大学、有潜质成为成功初创企业的研发团队。每个获批项目可获港币一千万元至港币一亿元不等的资助。

2025年6月20日

奖项及成就

Photo 1

理大参与BIO 2025国际生物科技大会 展示人工智能及医工结合创新科研成果

香港理工大学(理大)科研团队参与于6月16至19日在美国波士顿举行的「国际生物科技大会2025」(BIO 2025),向来自世界各地的业界领袖展示大学的突破性研究及成果转化,包括多项横跨人工智能、医学及工程领域的创新发明,彰显理大于医疗及健康领域跨学科研究方面的雄厚实力及领导地位。 BIO 2025是全球最具规模及影响力的生物科技大会,汇聚来自近70 个国家或地区逾 20,000 名业界领袖和专业人士。大会内容涵盖多个范畴,从科研开发、临床试验、制造,到投资、业务拓展及市场营销等,全面覆盖整个生物科技生态圈。 理大于大会展示的十项跨学科研究成果,涵盖药物研发、医疗仪器与诊断、生物医学工程、复康科技、视光学及食品科学等多个领域。此外,理大代表亦参与了大会举办的多场商业论坛及专题研讨,与全球生物科技业界领袖进行深度交流,积极拓展国际协作网络,开拓多元崭新机遇。 理大副校长(研究及创新)赵汝恒教授表示:「理大凭借坚实学术基础及卓越创新能力,在转化研究上表现出色,尤其于医工结合及人工智能医疗方面取得显著成果。在政府与业界伙伴的大力支持下,我们成功推动多项突破性技术,并屡获国际殊荣,获得全球广泛认可。过去十多年来,理大积极参与 BIO 国际大会,充分利用此全球平台展示科研及创新实力,同时积极拓展国际合作网络,建立具价值的策略伙伴关系。」 理大于BIO 2025展出的创新成果包括: 由生物医学工程学系副教授李铭鸿教授领导的「PocNova™: 便携式超快速核酸检测系统」 由生物医学工程学系副教授胡晓翎教授领导的「多模态足踝机械人助中风患者遥距复康」 由工业与系统工程学系高级讲师邓育明博士领导的「视觉训练VR设备」 由医疗科技及信息学系副教授王志明教授领导的「用于治疗糖尿病及相关代谢并发症的创新激素」 由护理学院副教授杨琳教授领导的「HAND-HEART:基于人工智能的手部卫生扩增实境工具」 由应用生物及化学科技学系教授梁润松教授领导的「ABarginase:首创新药治疗肥胖相关代谢疾病」 由应用生物及化学科技学系副教授马聪教授领导的「突破性抗生素疗法」 由食品科学与营养学系讲座教授李铭源教授领导的「治疗神经退化性疾病的新型营养保健品」 由食品科学与营养学系助理教授(研究)常金辉博士领导的「AkkMore™: 新型菇菌脂肪替代品抗肥胖和前期糖尿病剂」 由时装及纺织学院研究员张子恒博士领导的「环保安全的抗菌材料 」 其中,马聪教授在大会的商业报告环节中,分享了在抗生素疗法方面的最新研究成果,备受业界关注。马教授带领的研究团队首次发现具有独特作用机制的抗微生物药物,为应对抗生素抗药性问题提供突破性方向,其创新方向聚焦于干扰细菌转录复合物内蛋白质与蛋白质之间的相互作用,进一步为开发新型抗菌药物带来新希望。 理大在医疗及健康领域拥有坚实的科研实力和基础,一直致力推动结合医学与人工智能、工程学及数据科学的跨学科研究项目,引领新世代医疗科技发展,助力香港建设成为国际医疗创新枢纽。  

2025年6月19日

活动

WhatsApp Image 20250619 at 152716512d3eaa

媒体专访:理大新创企业运用科技探索香港小区故事

在繁忙的都市节奏下,香港人生活忙碌,往往忽略身边小区的独特故事。为此,理大研究及创新事务处职员刘海晴女士与理大应用社会科学系毕业生周建斌先生,萌生了将社会议题与解谜游戏结合的想法,于2022年共同创立初创企业「搵呢搵路 Puzzle Weekly」,旨在透过互动游戏的崭新方式,鼓励大众关注身边的小故事,重新连结人与小区。 在最近媒体访问中,团队成员分享了他们的初创理念。该项目设计基于香港小区的真实故事,团队凭着视觉语言的专业知识,与商业伙伴携手合作,巧妙地结合社会议题和引人入胜的解谜游戏。参与者在多元文化游戏的过程中,不仅能探索香港鲜为人知的文化遗产,还能增进社会凝聚力。 经过不断尝试与摸索,「搵呢搵路 Puzzle Weekly」夺得2022年青年企业家发展局「敢闯。敢创」创业比赛的「社会关爱精神奖」。在理大支持下,该项目更获得「理大微型基金计划」资助,发展得以渐趋成熟。 团队期望其服务扩展至更多地区,吸引国际合作机会,将香港丰富的小区故事呈现到世界各地,推广本地文化并得以传承。  

2025年6月19日

研究及创新

20250612 - Top50-01

理大学者获选为CoinDesk「Web3 与AI 领域50 位女性」

香港理工大学(理大)致力于推动创新和跨学科研究,结合人工智能(AI)为多个领域带来突破。理大计算机及数学科学学院副院长(环球事务)、电子计算学系教授、理大人工智能高等研究院行政总监杨红霞教授,凭藉其开创领先技术的影响力,荣登CoinDesk「Web3及AI 50位女性」榜单。 这份首届榜单从全球评选出 50 位在塑造加密货币和AI未来发展最具影响力的女性。杨教授对AI发展的开创性贡献备受肯定,特别是在将先进技术与医疗、金融等行业实际应用相结合方面的成果。 杨教授是一位杰出的AI科学家,拥有超过15年的经验,专注于大规模机器学习、资料探勘、深度学习、以及大型语言模型(LLM)的实际系统部署。在她卓越的职业生涯中,她开套了十个重要的算法系统,提升了多家企业的运营效率。 推进医疗及其他领域的AI 致力为AI去中心化创造条件的杨教授,首创了「模型驱动模型」(Model-over-Models,MoM),即是使用较小型、可堆叠、领域特定的模型,来建构基础模型。这套名为 InfiFusion的新方案,作为一种高效且可扩展的LLM,将使更多行业受益于先进的AI技术。杨教授及其团队目前正在开发基础模型,涵盖医疗、制造、能源和金融等前沿领域。 杨教授热衷于结合统计学与医疗保健和精算学并开发创新方案,与人类未来福祉息息相关。杨教授获邀请在「裘槎高级研讨会」(Croucher Advanced Study Institute)為「AI与统计学」课题担任主讲。 该裘槎高级研讨会旨在探索生成AI和统计学的前沿交汇,深入发掘可强化数据驱动决策和创新方法和应用。 杨教授表示:「通过结合统计原则与生成式AI的能力,我们旨在开发出更稳健的模型,能够生成真实数据,提高预测准确性,并为复杂数据集提供更深入的见解。这一探索旨在推动可能性的边界,促进可应用于各行业的技术进步,最终创造更明智和有效的解决方案。」 CoinDesk的遴选过程涉及全球300多个提名,经由多元化的评审团评选,着重创新、关联能力和影响力。最终名单展示了在加密货币和AI领域中多方面专长的佼佼者,涵盖技术开发、商业策略、法规监管和伦理框架。

2025年6月13日

奖项及成就

WhatsApp Image 20250611 at 16381915613cac

媒体报导:理大与AELIS Couture 携手打造可持续时尚材料

时装设计日益创新,随着科技进步,法国高级订制服品牌AELIS Couture(AELIS)与香港理工大学(理大)携手合作,将尖端科研成果转化为可持续时尚材料,共同设计2024/25秋冬高级订制服系列,为时尚界注入新活力。 AELIS采用了由理大时装及纺织学院教授姜绶祥教授带领团队,特别设计和制作的金和银金属镀覆的有机丝绸柯根纱。理大科研团队利用应用金属镀覆膜技术,将纳米级的超薄金属薄膜镀覆于纺织品,不但保持了传统纺织品的舒适感和飘柔性,更增添了瑰丽的珠光效果,为时尚设计带来崭新的视觉体验。 理大致力研发环保材料,与AELIS的品牌理念完美契合,此创新合作展现出材料创新的突破,成功融合科学技术与时尚设计,体现双方对环境可持续发展的承诺,推动时尚界迈向更可持续的未来。 面对业界对环保材料日益增长的需求,理大与AELIS 的合作融合创新思维与可持续发展理念,加强时尚界与科研界的联系,促进创新材料的研发与应用,助时尚设计师发挥更丰富的创作灵感。  

2025年6月11日

研究及创新

Photo 1

理大开发崭新长视频推理多模态框架 加速生成式人工智能应用于视频分析

人工智能发展迅速,但不少模型在理解长视频时仍面对不少挑战。香港理工大学(理大)研究团队开发多模态智能体VideoMind,令人工智能模型能通过模仿人类思考过程,理解长视频及回答内容提问,并结合创新的链式低秩适应(Low-Rank Adaptation,LoRA)策略,大大减低消耗资源和所需算力,推动生成式人工智能于视频分析的商业化应用。研究成果已投稿至人工智能顶级会议。 视频,尤其是长视频(15分钟以上),不单纯是叠加的静态画面,其内容包含随时间推移产生的信息,例如事件的发生时序、前因后果、连贯性及场景转换等。人工智能模型要理解视频,不但要识别当中的事物,还要兼顾时间维度的讯息,即事物如何随时间变化。由于画面占用了大量标记(token),导致视频推理需要消耗庞大算力和内存,令一般大模型难以应付太长的视频。 理大计算器及数学科学学院暂任院长及视觉计算讲座教授陈长汶教授带领的研究团队在长视频推理研究取得突破,团队参考了人类理解视频的过程,在其开发的VideoMind框架内设计角色化流程,以渐进式推理的方式,解决模型在理解时序上的困难。框架内的四个角色分别为负责决定如何调用其他角色的规划者(Planner)、搜寻及定位与问题相关片段的定位者(Grounder)、透过裁剪片段及放大画面等方法验证片段的验证者(Verifier),以及分析选定片段并生成答案的回答者(Answerer)。 VideoMind的另一核心创新在于采用了链式LoRA(Chain-of-LoRA)的策略。LoRA是最近两年新兴的大型语言模型微调技术,透过在既有模型内进行低阶调整,令模型不需要重新接受全量(full-parameter)训练,亦能执行特定功能。团队提出的创新链式LoRA策略,只需要在同一基础模型上,加载四个轻量级的LoRA适应器,对应不同角色,即可令模型按需要自行启动不同的适应器,动态切换角色,减省了需要动用的模型量及相关成本,同时提高单一模型的效能及灵活度。 研究团队已在GitHub和HuggingFace平台开源VideoMind项目,以公开测试的长视频任务,涉及14个人工智能模型基准检验集。团队将VideoMind与多个先进大语言模型及多模态模型作比较,发现VideoMind在处理平均时长达27分钟的长视频时,定位准确度较GTP-4o、Gemini 1.5等尖端大模型更优胜。值得注意的是,团队同时测试了较小的20亿(2B)参数量及较大的70亿(7B)参数量的VideoMind,发现2B模型的VideoMind性能已足以媲美其他7B或以上的大模型。 陈长汶教授表示:「人类观看视频时会切换思维方式,先拆解问题,再找出相关片段,然后反复重温及核对,才对内容下结论。此过程效率极高;大脑总功耗仅25瓦左右,比相同算力的超级计算机要低100万倍。我们从这种人类的思考模式中获得启发,设计角色化流程,真正让人工智能像人类一样理解视频,并成功透过链式LoRA策略降低算力和内存需求。」 人工智能浪潮席卷全球,但算力不足和耗能过高的情况日益严重。VideoMind以开源、参数量少的多模态模型Qwen2-VL为骨干,配置优化工具,降低了技术成本和部署门槛,为人工智能模型功耗过高的问题提出可行解决途径。陈教授补充:「VideoMind框架不但突破了人工智能在视频处理的限制,更可作为一个模块化、可扩展、具解释能力的多模态推理框架,拓展生成式人工智能的应用范围,如智能保安监控、体育竞技及娱乐视频分析、视频搜寻功能等领域。」

2025年6月10日

研究及创新

Photo 1

理大研究发现感官及运动信息有助大语言模型表达复杂概念

没有闻过花香丶触摸过花瓣,或在花园散步过,有可能真正了解什麽是「花」吗?这个问题引发了不少的哲学与认知科学争论;有认知理论专家认为,亲身感受和体验是概念形成的关键,但目前飞速发展的大语言模型研究却表明,仅凭语言便有可能建立对现实具有意义的真实表徵。 由香港理工大学(理大)研究人员与合作者组成的团队,透过分析大语言模型和人类在概念表徵上的相似度,为语言能在多大程度上推动复杂概念的形成和学习提出了新见解。研究并揭示「具身化训练」(grounding),即为大语言模型提供感官(如视觉)及运动信息,让模型能将抽象与具体概念联系起来,可以影响其对复杂概念的理解并生成接近人类的表徵。此研究与俄亥俄州立大学丶普林斯顿大学及纽约市立大学的研究人员合作进行,成果最近於《Nature Human Behaviour》上发表。 理大冼为坚基金人文与科技讲座教授丶人文学院院长兼理大杭州技术创新研究院副院长李平教授领导的研究团队选取大语言模型ChatGPT(GPT-3.5和GPT-4)和 Google LLMs(PaLM 和 Gemini)所生成的词汇评分,并将其与公开发表及经过验证的《格拉斯哥词汇范本》(Glasgow Norms)和《兰卡斯特词汇范本》(Lancaster Norms)数据集中近4,500个词语的人类评分进行比较。这些评分涵盖了非感官运动领域,包括情感效价丶具体性丶可意象性等维度;感官领域,包括视觉丶嗅觉丶听觉等维度,以及运动领域,包括腿/脚丶嘴巴/喉咙等维度。 研究团队以人与人之间的配对结果作为基准,首先将个别人类和大语言模型生成的数据进行比较,以探究人类与大语言模型的词汇评分在上述领域各维度中的相似程度,从中找出大模型和人类在理解不同领域概念上的一致性,例如两者是否都认为某些概念相较其他概念更加具体。然而,这种分析或会忽略不同维度如何共同影响词汇的整体表徵。以「pasta」(意大利面)和「 roses」(玫瑰)为例,两者同样在嗅觉维度拥有较高的评分,但实际上「pasta」与「roses」远远不及「pasta」与「noodles」(面)接近,因为概念之间的相似度需要综合考虑其外观和味道。因此,团队再运用了表徵相似性分析(representational similarity analysis),将每个词汇在各领域多个范畴的评分数据整合成一个向量(vector),以进行更全面的人类与模型比对。 研究结果表明大语言模型生成的词汇表徵与人类表徵的相似度,在非感官运动领域最高,感官领域次之,而在运动领域表现最差。这凸显了大语言模型在表徵人类概念上的局限;模型虽然能够有效掌握非感官运动领域的概念,但在理解涉及视觉外观丶味觉等感官概念,或需要肢体动作体验的运动概念时,表现明显较为逊色。其中,动作性概念较少被文字完整描述,且高度依赖具身经验,相对於色彩一类能从文本数据学习到的感官概念,对模型而言更具挑战性。 根据研究结果,研究人员进一步检验具身化训练能否提升大语言模型的表现。他们比较了同时接受语言及视觉输入训练的具身化模型(如GPT-4和Gemini),跟仅接受语言训练的模型(如GPT-3.5和PaLM)之间的差异,结果发现结合视觉输入的模型生成的表徵与人类表徵相似度明显更高。 李平教授表示:「纯语言训练及语言+视觉输入(如图像及视频等)训练的大语言模型,为研究感官及运动信息如何影响人类概念形成提供了独特的机遇。我们的研究具体展现了多模态学习的潜在优势,因为实时整合多种模态的信息正是人类学习和表徵的特点,如大模型能吸取到这个特徵,就可更趋近人类的认知模式以及更如人类行为一样高效率。」 值得注意的是,这项发现与以往提出人类表徵迁移现象的研究结果吻合。人类透过视觉和触觉的多模态经验获取物件形状知识,如当我们观看或触摸物件时,大脑中同一区域会被激活。研究人员指出,正如人类一样,经过多模态输入训练的大语言模型在接收了多种信息後,或能在连续的高维度空间中进行表徵融合或迁移。李教授续解释:「大语言模型嵌入空间所具有的平滑及连续特性或许能解释为何我们观察到源自单一模态的知识能够扩散至其他相关模态。此发现也可能揭示了先天失明人士与视力正常者之间为何会在某些领域上有相似表徵。目前的大语言模型在这方面还有明显不足。」 展望未来,研究团队指出今後可以透过类人型机械人技术把大语言模型与多模态数据整合,使其能主动解读真实世界,并作出相应行动。李教授指:「相关技术发展或将催化大语言模型真正实现具身人工表徵,从而更切实反映出人类认知所具有的复杂性和丰富性,届时人们将无法指出大模型对玫瑰花的表徵与人类的表徵有何分别。」

2025年6月10日

研究及创新

您的浏览器不是最新版本。如果继续浏览本网站,部分页面未必能够正常运作。

建议您更新至最新版本或选用其他浏览器。您可以按此连结查看其他相容的浏览器。