您现在的位置是:首页 >行业资讯 > 科技信息 > 2025-01-21 16:23:07 来源:

中国科研团队重大突破:VideoChat-Flash技术实现长视频处理速度百倍提升

导读 传统视频理解模型在处理长视频时面临复杂上下文理解及效率低下等挑战。研究团队通过HiCo技术,将视频信息进行层次化压缩,保留关键信息,显...

传统视频理解模型在处理长视频时面临复杂上下文理解及效率低下等挑战。研究团队通过HiCo技术,将视频信息进行层次化压缩,保留关键信息,显著降低计算需求。同时,团队利用与用户查询的语义关联,进一步减少视频标记数量。

“VideoChat-Flash”采用多阶段学习方案,通过短视频注释监督微调后引入长视频训练,实现全面理解。团队构建了包含30万小时视频和2亿字注释的庞大数据集,并提出改进任务以提高模型上下文理解能力。实验结果显示,该方法在计算上减少两个数量级,成为短视频理解领域新领导者,并在长视频理解方面超越现有开源模型。