【图问答】DeepSeek-VL 论文阅读笔记

2025/4/24 0:13:49 来源：https://blog.csdn.net/guotong1988/article/details/147395402 浏览: 次关键词：【图问答】DeepSeek-VL 论文阅读笔记

《DeepSeek-VL: Towards Real-World Vision-Language Understanding》

1. 摘要/引言

基于图片问答（Visual Question Answering，VQA）的任务

1）使用 SigLIP 和 SAM 作为混合的vision encoder，也就用的对比学习和Segment Anything（有监督学习）的混合vision encoder

2）Vision-Language Adaptor 负责将动态分块后的图像特征转换为语言模型可处理的离散的token-ids

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com