欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 科技 > IT业 > 【大模型系列】LanguageBind(ICLR2024.01)

【大模型系列】LanguageBind(ICLR2024.01)

2024/10/24 7:28:30 来源:https://blog.csdn.net/kabuto_hui/article/details/140910999  浏览:    关键词:【大模型系列】LanguageBind(ICLR2024.01)

在这里插入图片描述

  • Paper:https://arxiv.org/abs/2310.01852
  • Github:https://github.com/PKU-YuanGroup/LanguageBind
  • Huggingface:https://huggingface.co/spaces/LanguageBind/LanguageBind
  • Author:Bin Zhu et al. 北大袁粒团队

文章目录

  • 1 LanguageBind总结(省流版)
    • 1.1 LanguageBind是什么?
    • 1.2 LanguageBind能干什么?
      • 1.2.1 Zero-shot X-Language classification
      • 1.2.2 Zero-shot X-Language retrieval
  • 2 Method
  • 3 VIDAL-10M
  • 4 训练细节
  • 参考资料

核心工作:
● 提出一个LanguageBind框架,将多种模态都映射到一个共享特征空间,实现多模态语义对齐;
● 开源了一个VIDAL-10M数据集,包含Video、Infrared、Depth、Audio、Language;短视频。

1 LanguageBind总结(省流版)

1.1 LanguageBind是什么?

LanguageBind是北大袁粒团队提出的一个多模态语义对其的方法,通过将各种模态(图像、视频、红外、音频、深度)映射到一个共享的特征空间,与文本实现对齐。同时该论文还开源了一个VIDAL-10M的数据集,包含多种模态(≥3)的数据。

1.2 LanguageBind能干什么?

与CLIP类似,CLIP只对齐了图像和文本,而LanguageBind对齐了更多的模态,可以看成是CLIP的加强版。

1.2.1 Zero-shot X-Language classification

零样本分类,即根据文本对图像、视频、音频等进行分类。

1.2.2 Zero-shot X-Language retrieval

零样本检索,即根据文本检索图像、视频、音频等;

2 Method

在这里插入图片描述
LanguageBind的三个部分:

  • Multi-modal encoders: LoRA微调
    • 24-layers、1024 dimension ViT/14,OpenCLIP-Large初始化;
    • Depth和infra数据在维度上复制3次,当作RGB数据处理
    • Audio数据被转换成10s音频数据的频谱图,最后在channel复制3次,少于10s用0补全,超过10s做裁剪;
  • Language encoder: 参数冻结
    • 12-transformers、768-dimension的OpenCLIP
    • 文本tokenizer:BPE tokenizer
  • Multi-modal joint learning:各模态与text进行contrastive learnin

3 VIDAL-10M

在这里插入图片描述
VIDAL-10M数据集:

  • video-text pairs:3M(Youtube shorts:根据搜索词下载、过滤)
  • audio-text pairs:1M(Freesound:根据搜索词下载、过滤)
  • infrared-text pairs:3M(sRGB-TIR:生成视频关键帧对应的红外数据)
  • depth-text pairs:3M(GLPN:生成视频关键帧对应的深度数据)

4 训练细节

  • epoch:LoRA,3epoch
  • batchsize:1024
  • Rank of LoRA:2(增大性能反而会下降)
  • temperature for loss:0.07
  • masked ratio:0.5

参考资料

[1] 自然语言模型(LM)之Tokenizer的介绍(1)–BPE

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com