当前位置:首页>财经 > 理大开发崭新长视频推理多模态框架 加速生成式人工智能应用于视频分析

理大开发崭新长视频推理多模态框架 加速生成式人工智能应用于视频分析

香港 -Media OutReach Newswire- 2025年6月10日 - 人工智能发展迅速,但不少模型在理解长视频时仍面对不少挑战。香港理工大学(理大)研究团队开发多模态智能体VideoMind,令人工智能模型能通过模仿人类思考过程,理解长视频及回答内容提问,并结合创新的链式低秩适应(Low-Rank Adaptation,LoRA)策略,大大减低消耗资源和所需算力,推动生成式人工智能于视频分析的商业化应用。研究成果已投稿至人工智能顶级会议。

理大计算器及数学科学学院暂任院长及视觉计算讲座教授陈长汶教授带领的研究团队开发多模态智能体VideoMind,令人工智能模型能通过模仿人类思考过程,理解长视频及回答内容提问,并结合创新的链式低秩适应策略,减低消耗资源和所需算力,推动生成式人工智能视频分析的商业化应用。

视频,尤其是长视频(15分钟以上),不单纯是叠加的静态画面,其内容包含随时间推移产生的信息,例如事件的发生时序、前因后果、连贯性及场景转换等。人工智能模型要理解视频,不但要识别当中的事物,还要兼顾时间维度的讯息,即事物如何随时间变化。由于画面占用了大量标记(token),导致视频推理需要消耗庞大算力和内存,令一般大模型难以应付太长的视频。

理大计算器及数学科学学院暂任院长及视觉计算讲座教授陈长汶教授带领的研究团队在长视频推理研究取得突破,团队参考了人类理解视频的过程,在其开发的VideoMind框架内设计角色化流程,以渐进式推理的方式,解决模型在理解时序上的困难。框架内的四个角色分别为负责决定如何调用其他角色的规划者(Planner)、搜寻及定位与问题相关片段的定位者(Grounder)、透过裁剪片段及放大画面等方法验证片段的验证者(Verifier),以及分析选定片段并生成答案的回答者(Answerer)。

VideoMind的另一核心创新在于采用了链式LoRA(Chain-of-LoRA)的策略。LoRA是最近两年新兴的大型语言模型微调技术,透过在既有模型内进行低阶调整,令模型不需要重新接受全量(full-parameter)训练,亦能执行特定功能。团队提出的创新链式LoRA策略,只需要在同一基础模型上,加载四个轻量级的LoRA适应器,对应不同角色,即可令模型按需要自行启动不同的适应器,动态切换角色,减省了需要动用的模型量及相关成本,同时提高单一模型的效能及灵活度。

研究团队已在GitHub和HuggingFace平台开源VideoMind项目,以公开测试的长视频任务,涉及14个人工智能模型基准检验集。团队将VideoMind与多个先进大语言模型及多模态模型作比较,发现VideoMind在处理平均时长达27分钟的长视频时,定位准确度较GTP-4o、Gemini 1.5等尖端大模型更优胜。值得注意的是,团队同时测试了较小的20亿(2B)参数量及较大的70亿(7B)参数量的VideoMind,发现2B模型的VideoMind性能已足以媲美其他7B或以上的大模型。

陈长汶教授表示:「人类观看视频时会切换思维方式,先拆解问题,再找出相关片段,然后反复重温及核对,才对内容下结论。此过程效率极高;大脑总功耗仅25瓦左右,比相同算力的超级计算机要低100万倍。我们从这种人类的思考模式中获得启发,设计角色化流程,真正让人工智能像人类一样理解视频,并成功透过链式LoRA策略降低算力和内存需求。」

人工智能浪潮席卷全球,但算力不足和耗能过高的情况日益严重。VideoMind以开源、参数量少的多模态模型Qwen2-VL为骨干,配置优化工具,降低了技术成本和部署门槛,为人工智能模型功耗过高的问题提出可行解决途径。陈教授补充:「VideoMind框架不但突破了人工智能在视频处理的限制,更可作为一个模块化、可扩展、具解释能力的多模态推理框架,拓展生成式人工智能的应用范围,如智能保安监控、体育竞技及娱乐视频分析、视频搜寻功能等领域。」

为您推荐
  • 香港国际机场复活节购物礼遇 日本/巴厘岛往返机票、双倍积分及迎新奖赏
    2024-03-21
    香港 - Media OutReach Newswire - 2024年3月21日 - 一连四日复活节长假正是旅游好时机。香港国际机场特意为「HKairport Rewards」会员送上丰富购物三重赏,其中更包括日本或巴厘岛往返机票!立即把握机会
  • 2-4到0-3!西蒙尼最大克星诞生,5连败太耻辱,争四格局大乱
    2024-03-21
    西甲第29轮迎来重头戏,巴萨做客挑战马竞。 巴萨本赛季杀入欧冠八强,这是巴萨近年来罕见的成就。 不过,在四分之一决赛中,巴萨将对阵姆巴佩的巴黎圣日耳曼。 巴塞罗那想要超越巴黎圣日耳曼将是一件很困难的事情。
  • 巴萨青训掀起新浪潮,生温者继皮克而起?
    2024-03-21
    名宿主帅哈维在执教巴塞罗那时面临着巨大的压力,先前他宣布本赛季结束后将辞职。然而,哈维宣布辞职后的巴萨表现却像是接到了转机的信号,自那时起的10场比赛中,巴萨取得了7胜3平的出色战绩,未曾输球。这其中包括
  • 再见曼城!头牌放弃续约!跟队确认,联手穆帅拿高薪,瓜帅不强留
    2024-03-21
    曼城在本赛季依旧延续了上赛季的出色状态,球队在英超和欧冠中都有着很大机会拿到冠军。而曼城队内表现出色和球队核心德布劳内表现出色有着很大关系。德布劳内在本赛季复出之后,直接高效的打出来了顶级表现,他的助
  • 秋季多吃这些碱性蔬菜和水果,帮助避免犯困问题,酸碱平衡身体棒
    2024-03-21
    秋季是一个宜人的季节,但也是一个容易犯困的季节。在这个时候,我们可以通过调整饮食来缓解犯困的问题。今天,我们要聊的是秋季多吃哪些碱性蔬菜和水果,帮助我们避免犯困,保持酸碱平衡,让身体更健康。首先,让我们来看看碱性蔬菜。秋季的碱性蔬菜包括南瓜、胡萝卜、番茄、红薯等。这些蔬菜都含有丰富的维生素和矿物质,可以帮助我们保持酸碱平衡。特别是南瓜,它含有丰富的钴元素,可以促进身体的新陈代谢,增加体力,缓解疲劳
  • 破解婆媳难题,婆婆的两个秘诀帮你打破僵局!
    2024-03-21
    婆媳关系,素来被誉为婚姻中的一块硬石头,难以敲碎。尤其在现代社会,婆媳相处不再只是住在一起、一起吃饭那么简单,思考问题的方式、生活习惯等等都可能成为争执的原因。怎样打破僵局呢?我们就来说说在婆媳关系中,婆婆需要修炼的那两点,给了我们答案。妈宝男与刁蛮媳:最难处理的婆媳关系在此说到婆媳关系,相信许多朋友都深有体会。曾经有一位婆婆直言,看到儿子对媳妇那般宠溺,心里又惊又喜。但这种喜悦很快就被失落取代,
  • 创新服务不止一面,碧桂园服务打造“萌萌哒社区”
    2024-03-21
    碧桂园服务聚焦客户体验升级 探索“萌萌哒社区”化解人宠矛盾美好筑家,用心服务。理想人居不仅仅是优质住宅,更需要贴心的物业服务。作为物业服务行业头部企业,碧桂园服务一直秉承“服务成就美好生活”的理念,不断创新服务模式,提升客户体验,致力满足人民对美好生活的向往。2021年起,碧桂园服务首次启动“客户体验创新节”,并将“客户体验创新节”打造成为碧桂园服务的明星产品,通过群策群力,营造全员服务创新氛围,助力将
  • 缤纷四季,畅游绍兴”春之旅启动仪式 在河南郑州举行
    2024-03-21
     河南与浙江两省高铁相通,绍兴至郑州日直达车辆有四车次,车程在六小时左右,高铁出行成为了两地旅游的重要交通工具。根据2023年假日及2024年春节旅游大数据分析,河南省游客量占绍兴市接待省外游客量比例位列
  • “常扫三地,家中财顺”,说的家中哪三个地方?有啥依据
    2024-03-21
    俗话说:"常扫三地,家中财顺"。这句话虽然简单,但蕴含着深刻的生活智慧。想要生活过得好,家中财运旺盛,客厅、厨房和卧室这三个地方就必须要经常打扫。这句话并非空穴来风,而是老祖宗给我们留下的宝贵经验。客厅是我们生活中最重要的空间之一,它不仅是家人团聚的地方,也是招待客人的场所。试想一下,如果客厅脏乱不堪,灰尘遍布会有什么感受呢?恐怕连自己都无法忍受,更别说邀请朋友来做客了。长期生活在这样的环
  • 2023年美国床垫市场:销售额和销量双双下滑
    2024-03-21
    根据美国床垫协会ISPA最新发布的《2023年床垫行业趋势报告》,与2022年相比,2023年美国床垫市场的销售额下降了6.8%,销量总数也下降了8.0%。2023年,美国生产的床垫和床架的销售额下降7.1%至84亿美元,销量下降9.0%至2630万件。2023年美国生产的所有床垫和床架的平均单价上涨了2.1%。目前,ISPA仅发布《2023年度市场行业趋势报告》预览。预览报告包括美国床垫市场销售情况及美国本土生产床垫销售情况总量。报告全文将于四月发布。