欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 财经 > 金融 > Salesforce AI研究推全新多模态模型BLIP-3-Video:低成本搞定视频理解

Salesforce AI研究推全新多模态模型BLIP-3-Video:低成本搞定视频理解

2024/10/27 5:39:01 来源:https://blog.csdn.net/weixin_41446370/article/details/143237414  浏览:    关键词:Salesforce AI研究推全新多模态模型BLIP-3-Video:低成本搞定视频理解

最近,Salesforce AI 研究团队推出了一款全新的多模态语言模型 ——BLIP-3-Video。随着视频内容的快速增加,如何高效处理视频数据成为了一个亟待解决的问题。这款模型的出现,旨在提升视频理解的效率和效果,适用于从自动驾驶到娱乐等各个行业。

在这里插入图片描述
传统的视频理解模型往往是逐帧处理视频,生成大量的视觉信息。这一过程不仅消耗了大量的计算资源,还极大地限制了处理长视频的能力。随着视频数据量的不断增长,这种方法变得愈发低效,因此,找到一种既能捕捉到视频的关键信息,又能减少计算负担的解决方案至关重要。

在这方面,BLIP-3-Video 表现得相当出色。该模型通过引入 “时序编码器”,成功将视频中所需的视觉信息数量减少到16到32个视觉标记。这一创新设计大大提高了计算效率,让模型能够以更低的成本完成复杂的视频任务。这个时序编码器采用了一种可学习的时空注意力池化机制,能够从每一帧中提取最重要的信息,将其整合成一个紧凑的视觉标记集。

在这里插入图片描述
BLIP-3-Video 的表现也非常出色。通过与其他大型模型的比较,研究发现,该模型在视频问答任务中的准确率与顶尖模型相当。例如,Tarsier-34B 模型处理8帧视频需要4608个标记,而 BLIP-3-Video 只需32个标记,就能实现77.7% 的 MSVD-QA 基准得分。这显示出 BLIP-3-Video 在维持高性能的同时,显著减少了资源消耗。

在这里插入图片描述
此外,BLIP-3-Video 在多项选择问答任务中的表现同样不容小觑。在 NExT-QA 数据集中,模型取得了77.1% 的高分,而在 TGIF-QA 数据集中,也达到了77.1% 的准确率。这些数据都表明,BLIP-3-Video 在处理复杂视频问题时的高效性。

在这里插入图片描述
BLIP-3-Video 通过创新的时序编码器,在视频处理领域开辟了新的可能性。这款模型的推出,不仅提升了视频理解的效率,也为未来的视频应用提供了更多可能性。

项目入口:https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html

感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com