从古老神话中对世界起源的幻想,到如今科学家们在实验室里对虚拟世界的构建,人类探索世界生成奥秘的脚步从未停歇。如今,随着人工智能和计算机图形学的深度融合,我们已站在一个全新的起点,能够以前所未有的精度和效率去创造、模拟各类世界。
这一领域的突破不仅能让我们打造出更为逼真的虚拟游戏世界、沉浸式的影视场景,还在建筑设计、城市规划、工业模拟等现实应用场景中发挥着巨大作用,帮助人们提前预见方案效果,节省成本与时间。
传统的视觉生成评估基准,如 VBench,主要聚焦于文本到视频任务,在评估世界生成能力方面存在明显局限性。它们往往缺乏对场景空间布局的明确控制,难以对当前最先进的 3D 和 4D 场景生成方法进行有效评估,无法满足世界生成模型在不同领域全面评估的需求。
想要深入了解世界生成的奥秘?赶快扫描下方二维码,免费获取李飞飞等大神的精选论文,探索世界生成的更多可能!
点击【AI十八式】的主页,获取更多优质资源!
【论文1】WorldScore: A Unified Evaluation Benchmark for World Generation
WorldScore metrics
1.研究方法
Overview of the WorldScore benchmark design
该论文提出 WorldScore 这一世界生成的统一评估基准,旨在解决现有基准无法统一评估多种世界生成模型的问题,通过构建多样化数据集和多维度评估指标,对不同类型模型进行全面评估。并将世界生成任务分解为一系列基于明确相机轨迹布局规范的下一场景生成任务;构建包含 3000 个高质量测试示例的多样化数据集,涵盖静态和动态世界生成场景;设计 WorldScore 评估指标,从可控性、质量和动态性三个关键方面的 10 个指标对生成的世界进行评估。
2.论文创新点
Showcasing of the current scene images
-
统一评估基准:首次提出WorldScore基准,可对3D、4D、图像到视频(I2V)和文本到视频(T2V)等多种模型进行统一评估,解决了现有基准评估局限性的问题。
-
多样化数据集:精心策划了涵盖不同视觉领域的高质量、多样化数据集,包括多种场景类型、视觉风格以及静态和动态场景,为全面评估模型提供数据支持。
-
综合评估指标:引入WorldScore指标,综合考量世界生成模型性能的多个关键方面,通过多维度评估指标更全面准确地衡量模型表现。
-
揭示研究方向:通过对19种模型的全面评估,揭示了当前世界生成方法的关键见解和挑战,为未来研究在弥合3D和4D表示差距、增强可控性机制等方面提供指导。
论文链接:https://arxiv.org/abs/2504.00983
【论文2】4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models
4Real is a 4D generation framework that can generate near-photorealistic dynamic scenes from text prompts
1.研究方法
Reconstructing Deformable 3DGS
论文提出了一种基于视频扩散模型的逼真 4D 场景生成方法,核心是利用视频生成模型和 3D 高斯溅射技术,实现从文本到 4D 场景的转换,为该领域研究开辟了新方向。采用可变形 3D 高斯溅射(D-3DGS)表示动态场景,通过文本到视频扩散模型生成参考视频,再利用参考视频生成冻结时间视频,以构建规范 3D 表示并学习每帧变形;最后,基于规范表示重建时间变形,从而生成逼真的 4D 场景。
2.论文创新点
Generate reference and freeze-time videos
-
全新生成框架:提出首个逼真的文本到4D场景生成管道4Real,摒弃对多视图生成模型的依赖,利用在大规模真实世界视频上训练的视频生成模型,生成更逼真、多样化的4D场景。
-
转换生成问题:将生成问题转化为重建问题,通过生成参考视频和冻结时间视频,减少对耗时的分数蒸馏采样步骤的依赖,提高生成效率。
-
灵活高效生成:为用户提供选择和编辑视频的灵活性,能在更合理的计算预算内生成高质量样本,相比竞争方法显著缩短生成时间。
论文链接:https://arxiv.org/abs/2406.07472
点击【AI十八式】的主页,获取更多优质资源!