大家好,今日必读的大模型论文来啦!
1.英伟达提出 SANA:利用线性扩散变换器高效合成高分辨率图像
英伟达研究团队及其合作者提出了一个文生图框架 Sana,它可以高效生成分辨率高达 4096×4096 的图像。Sana 可以在笔记本电脑 GPU 上以极快的速度合成高分辨率、高质量的图像,并具有很强的文生图对齐能力。
核心设计包括 (1) 深度压缩自动编码器:与传统的自动编码器只能压缩图像 8 倍不同,他们训练的自动编码器可以压缩图像 32 倍,有效减少了潜在 token 的数量。(2) 线性 DiT:他们用线性注意力取代了 DiT 中的所有 vanilla attention,在不牺牲质量的情况下,线性注意力在高分辨率下效率更高。(3) 纯解码器文本编码器:他们用现代纯解码器小型 LLM 代替 T5 作为文本编码器,并设计了复杂的人机指令与上下文学习,以增强图像与文本的对齐。(4) 高效的训练和采样:他们提出了 Flow-DPM-Solver 以减少采样步骤,并通过高效的标题标注和选择来加速收敛。
因此,Sana-0.6B 与现代巨型扩散模型(如 Flux-12B)相比具有很强的竞争力,体积小了 20 倍,测量吞吐量快了 100 多倍。此外,Sana-0.6B 可在 16GB 笔记本电脑 GPU 上部署,生成 1024×1024 分辨率图像的时间不到 1 秒。Sana 能够以低成本创建内容。
论文链接:
https://arxiv.org/abs/2410.10629
项目地址:
https://nvlabs.github.io/Sana/
2.Lotus:基于扩散的视觉基础模型实现高质量的密集预测
利用预训练文生图扩散模型的视觉先验,为增强密集预测任务中的未知泛化提供了一种很有前景的解决方案。然而,现有的方法往往不加批判地使用原始的扩散公式,由于密集预测和图像生成之间的根本差异,这种公式可能不是最佳的。
在这项工作中,香港科技大学(广州)研究团队及其合作者从质量和效率两个方面对密集预测的扩散公式进行了系统分析。他们发现,图像生成的原始参数化类型,即学习预测噪声,对于密集预测是有害的;多步骤的噪声/去噪扩散过程也是不必要的,并且具有优化的挑战性。基于这些见解,他们推出了基于扩散的视觉基础模型 Lotus,该模型具有简单而有效的适应协议,适用于密集预测。具体来说,Lotus 被训练为直接预测标注而非噪声,从而避免了有害的方差。
他们还将扩散过程重新表述为单步程序,从而简化了优化过程并显著提高了推理速度。此外,他们还提出了一种名为“细节保护器”(detail preserver)的新颖微调策略,可实现更准确、更精细的预测。在不扩大训练数据或模型容量的情况下,Lotus 在各种数据集的零样本深度和法线估计中实现了 SoTA 性能。它还提高了效率,比大多数现有的基于扩散的方法快得多。
论文链接:
https://arxiv.org/abs/2409.18124
项目地址:
https://lotus3d.github.io/
3.阿里巴巴、南大团队提出 CMM: 评估 LMM 在语言、视觉和音频方面的幻觉
多模态大模型(LMM)的最新进展大大提高了在各种任务中的性能,并不断努力进一步整合视频和音频等其他模态。然而,大多数现有的 LMM 仍然容易受到幻觉的影响,即事实多模态输入与生成的文本输出之间的差异,这限制了它们在各种真实世界场景中的适用性。
本项工作首次对涉及语言、视觉和音频三种最常见模式的 LMM 中的幻觉进行了系统研究。来自阿里巴巴集团、新加坡南洋理工大学的研究团队及其合作者的研究揭示了导致幻觉的两个关键因素:过度依赖单模态先验和虚假的模态间相关性。
为了应对这些挑战,他们提出了基准“多模态诅咒”(CMM),该基准全面评估了 LMM 中的幻觉,对其根本问题进行了详细分析。他们的研究结果凸显了关键漏洞,包括模态整合的不平衡和训练数据的偏差,强调了平衡跨模态学习和增强幻觉缓解策略的必要性。
论文链接:
https://arxiv.org/abs/2410.12787
项目地址:
https://cmm-damovl.site/
4.港大团队提出改进文生图扩散模型的长文本对齐方法 LongAlign
文生图(T2I)扩散模型的快速发展使其能够根据给定文本生成前所未有的结果。然而,随着输入文本越来越长,现有的编码方法(如 CLIP)面临着局限性,而且将生成的图像与长文本对齐也变得具有挑战性。
为了解决这些问题,来自香港大学的研究团队及其合作者提出了 LongAlign,其中包括用于处理长文本的段级编码方法和用于有效配准训练的分解偏好优化方法。对于段级编码,长文本被分成多个段并分别处理。这种方法克服了预训练编码模型的最大输入长度限制。在偏好优化方面,他们提供了基于 CLIP 的分解偏好模型来微调扩散模型。具体来说,为了将基于 CLIP 的偏好模型用于 T2I 对齐,他们深入研究了其评分机制,发现偏好评分可分解为两个部分:衡量 T2I 对齐的文本相关部分和评估人类偏好的其他视觉方面的文本无关部分。
此外,他们还发现,与文本无关的部分在微调过程中会导致常见的过拟合问题。为了解决这个问题,他们提出了一种重新分配权重的策略,为这两个部分分配不同的权重,从而减少过拟合,提高对齐度。使用他们的方法对 512×512 Stable Diffusion (SD) v1.5 进行了约 20 个小时的微调后,微调后的 SD 在 T2I 配准方面优于 PixArt-α 和 Kandinsky v2.2 等更强大的基础模型。
论文链接:
https://arxiv.org/abs/2410.11817
GitHub 地址:
https://github.com/luping-liu/LongAlign
5.复旦团队揭示语言智能体在规划中的障碍
自人工智能诞生以来,自主规划一直是人们不断追求的目标。早期的规划智能体基于精心策划的问题求解器,能为特定任务提供精确的解决方案,但缺乏通用性。大语言模型(LLM)的出现及其强大的推理能力,通过自动为给定任务生成合理的解决方案,再次激发了人们对自主规划的兴趣。
然而,先前的研究和复旦大学研究团队及其合作者的实验表明,当前的语言智能体仍然缺乏人类水平的规划能力。即使是最先进的推理模型 OpenAI o1,在一个复杂的真实世界规划基准测试中也只达到了 15.6%。这凸显了一个关键问题: 是什么阻碍了语言智能体实现人类水平的规划?尽管现有研究已经强调了智能体规划的薄弱表现,但对更深层次的根本问题以及为解决这些问题而提出的策略的机制和局限性仍然了解不足。
在这项工作中,他们应用了特征归因研究,并确定了阻碍智能体规划的两个关键因素:限制因素的作用有限和问题的影响力减弱。 他们还发现,尽管目前的策略有助于缓解这些挑战,但并不能完全解决它们,这表明,要达到人类水平的智能,智能体还有很长的路要走。
论文链接:
https://arxiv.org/abs/2410.12409
6.英伟达团队推出 OMCAT 模型: 全上下文感知 Transformer
大语言模型(LLM)在文本生成和理解方面取得了长足的进步,最近的进步延伸到了整合视觉和音频输入的多模态 LLM。然而,这些模型在细粒度、跨模态的时间理解方面仍然存在困难,尤其是在音频和视频流中关联事件时。
英伟达研究团队通过两个关键贡献来应对这些挑战:一个新的数据集和模型,分别称为 OCTAV 和 OMCAT。OCTAV(全方位语境和时态音频视频)是一个新颖的数据集,旨在捕捉音频和视频中的事件转换。其次,OMCAT(Omni Context Aware Transformer)是一个功能强大的模型,它利用 RoPE 的创新扩展 RoTE(Rotary Time Embeddings,旋转时间嵌入)来增强时间锚定任务中的时间基础和计算效率。通过强大的三阶段训练流水线——特征对齐、指令微调和 OCTAV 特定训练——OMCAT 在跨模态时间理解方面表现出色。
他们的模型在视听问答(AVQA)任务和 OCTAV 基准测试中表现出了 SOTA 性能,展示了在时间推理和跨模态对齐方面的显著进步,这一点通过综合实验和消融研究得到了验证。
论文链接:
https://arxiv.org/abs/2410.12109