【视频笔记】基于PyTorch从零构建多模态（视觉）大模型 by Umar Jamil【持续更新】

2025/3/17 22:57:27 来源：https://blog.csdn.net/l963852k/article/details/144312872 浏览: 次关键词：【视频笔记】基于PyTorch从零构建多模态（视觉）大模型 by Umar Jamil【持续更新】

视频链接：
基于PyTorch从零构建多模态（视觉）大模型 by Umar Jamil
从头编写一个视觉语言模型：PloyGamma，是谷歌的一个模型
在这里插入图片描述
1：原始图像
2：视觉编码器（本文是viT），通过对比学习进行训练。这个对比学习最开始是CLIP，后来被谷歌改成了SigLIP
3：线性投影层
4：如何将图像tokens的嵌入与文本token的嵌入结合起来
5：文本提示
6：Tokenizer
7：语言模型本身，基于transformer
8：如何利用条件生成输出

接下来的内容：
1）Vision Transformer
2）对比学习（CLIP、SigLip）
3）多模态语言模型（Gemma）：如何把视觉和文本结合起来
4）KV-cache：希望这个模型用于推理，希望以优化的方式来实现，最佳方法就是使用KV-cache
5࿰

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

【视频笔记】基于PyTorch从零构建多模态（视觉）大模型 by Umar Jamil【持续更新】

相关资讯

热文排行

最新新闻

推荐新闻

热搜词