OFA：通过简单的序列到序列学习框架统一架构、任务和模态

【摘要】

摘要总结

本文介绍了一种新的统一框架OFA（One For All），旨在通过一个简单的序列到序列学习框架来实现跨模态和单模态任务的统一预训练。OFA框架支持任务无关性和模态无关性，并能实现任务全面性。OFA统一了包括图像生成、视觉定位、图像字幕、图像分类、语言建模等多种跨模态和单模态任务，这些任务都在一个简单的序列到序列学习框架下进行预训练。OFA采用指令驱动的学习方式，从预训练到微调阶段都不需要额外的任务特定层。

与依赖于大规模跨模态数据集的最近的先进视觉与语言模型相比，OFA仅使用200万公开的图像-文本配对进行预训练。尽管OFA相对简单且训练数据规模较小，但在一系列跨模态任务中取得了SOTA性能，同时在单模态任务上也达到了具有竞争力的性能。进一步的分析表明，OFA还可以有效地迁移至未见过的任务和未见过的领域。代码和模型已公开发布在https://github.com/OFA-Sys/OFA。

关键贡献

统一框架：OFA通过一个简单的序列到序列学习框架，统一了跨模态和单模态任务的预训练。
预训练数据：OFA仅使用200万的图像-文本配对数据进行预训练，而最近的先进模型依赖于更大规模的数据集。
性能表现：在一系列跨模态任务中取得了SOTA性能，单模态任务上也达到了具有竞争力的性能。
迁移学习能力：OFA可以有效迁移至未见过的任务和领域，无需微调。

主要任务

跨模态任务：如图像字幕、视觉问答、视觉推断、引用表达理解。
单模态任务：如自然语言理解（GLUE基准）、自然语言生成（Gigaword）、图像分类（ImageNet-1K）。

实验结果

跨模态任务：OFA在VQA和视觉推断等任务上取得了SOTA性能。
单模态任务：在GLUE基准和图像分类等任务上达到了与SOTA模型相当的性能。
零样本学习：OFA在零样本学习方面表现良好，并且能解决带有领域外输入的数据任务。

未来展望

OFA旨在解决复杂任务中的不同模态组合问题，并且在未来，这样的模型可能足以解决涉及不同模态组合的复杂任务。未来的研究将探索如何利用这种统一模型解决实际问题。

关键词

统一框架、多模态预训练、多任务学习、零样本学习

参考文献

本文参考了众多关于多模态预训练、序列到序列学习、自监督学习等领域的研究，涵盖了Transformer架构的发展、多模态数据处理方法、预训练模型设计等多个方面。

【数据来源】

论文数据来源总结

本文提出了OFA（统一架构、任务和模态的预训练框架），旨在构建一个统一的多模态预训练模型，以支持广泛的任务和模态。OFA的数据来源包括以下几部分：

Vision & Language 数据：包括图像-文本对（如Conceptual Caption 12M、Conceptual Captions、SBU等）、图像描述匹配（如COCO图像描述、Visual Genome Captions等）、视觉问答（如VQAv2、VG-QA、GQA等）、视觉定位（如RefCOCO、RefCOCO+、RefCOCOg等）。
Vision 数据：包含原始图像数据和对象标注数据（如OpenImages、Object365、VG和COCO等）。
Language 数据：包含原始文本数据（如Pile数据集）。

具体数据集统计如下（表11）：

跨模态数据：
- 图像生成：CC12M, CC3M, SBU, COCO, VG-Cap
- 图像-文本匹配：VQAv2, VG-QA, GQA
- 视觉定位：RefCOCO, RefCOCO+, RefCOCOg, VG-Cap
单模态数据：
- 视觉数据：包括原始图像（用于图像填充）和对象标注图像（用于对象检测）
- 语言数据：纯文本数据（如Pile数据集的一部分）

这些数据集主要用于预训练OFA模型，确保其在多模态任务中的泛化能力。

主要数据来源

CC12M、CC3M、SBU、COCO、VG-Cap：用于图像生成和图像-文本匹配任务。
VQAv2、VG-QA、GQA：用于视觉问答任务。
RefCOCO、RefCOCO+、RefCOCOg、VG-Cap：用于视觉定位和接地图像描述任务。
OpenImages、Object365、VG、COCO：用于对象检测任务。
Pile：用于语言模型预训练任务。

公开数据集

OFA使用的数据集大多为公开数据集，例如Conceptual Caption 12M、COCO、VG、OpenImages等，这些数据集在预训练阶段没有被公开测试集污染，以确保模型的泛化能力。

【模型架构】

论文《OFA: UNIFYING ARCHITECTURES, TASKS, AND MODALITIES THROUGH A SIMPLE SEQUENCE-TO-SEQUENCE LEARNING FRAMEWORK》提出了一种名为OFA（One For All）的统一框架，旨在统一多模态预训练中的架构、任务和模态。OFA是一个任务无关和模态无关的框架，支持任务全面性，能够统一多种跨模态和单模态任务，如图像生成、视觉定位、图像标题生成、图像分类、语言建模等。OFA采用序列到序列的学习框架，并通过指令驱动的方式进行预训练和微调，不需要为下游任务添加额外的任务特定层。OFA在仅有2000万公开可用的图像文本对上进行预训练，尽管其结构简单且训练数据规模相对较小，但在一系列跨模态任务中取得了新的SOTA性能，同时在单模态任务上也达到了竞争力。