影视级 3D 生成新王 Direct3D-S2 全面开源 8 块 GPU 超越闭源登顶 HF

近日，DreamTech联手南大、复旦、牛津发布的一款名为Direct3D-S2的革命性 3D 生成模型宣布全面开源，其在多个基准测试中展现出影视级的生成效果，甚至超越了闭源模型，仅用 8 块 GPU 便登顶 Hugging Face 排行榜，预示着 3D 内容生成领域的新突破。

在人工智能飞速发展的今天，AI 在文本、图像、视频生成领域已取得令人瞩目的成就。然而，作为下一个前沿阵地，3D 内容的生成一直面临巨大的挑战。如今，这一局面正被一款名为 Direct3D-S2 的模型所改变。它不仅实现了影视级别的 3D 生成效果，更以全面开源的姿态，仅用 8 块 GPU 便在 Hugging Face 排行榜上超越了众多闭源模型，加冕“3D 生成新王”。HuggingFace在线体验Demo

Direct3D-S2 的开源，无疑为 3D 内容创作、游戏开发、元宇宙构建等领域带来了革命性的机遇。它降低了 3D 内容生成的门槛，使得更多开发者和研究人员能够接触并利用这一前沿技术。官网

挑战与突破 3D 生成的“卡脖子”难题

传统的 3D 内容生成，无论是建模还是动画，都依赖于专业软件和大量人工。即便 AI 参与，也面临着诸多难题

数据稀缺与标注复杂 相比于 2D 图像，3D 数据集的获取和标注成本极高。
模型复杂性与计算成本 3D 模型的表示方法多样（点云、网格、体素等），生成高质量、高细节的 3D 内容需要巨大的计算资源。
效果真实性与泛化能力 现有模型往往难以生成具有真实感、细节丰富且能够泛化到不同场景的 3D 内容。

Direct3D-S2 正是在这些挑战中取得了突破。它结合了最新的扩散模型技术与多视图几何、神经渲染等先进理念，实现了从文本或图像到高质量 3D 模型的直接生成。注意：以 512 分辨率生成至少需要 10GB 的 VRAM，而 1024 分辨率需要大约 24GB 的 VRAM。我们不建议以 512 分辨率生成模型，因为这只是 1024 模型的中间步骤，质量明显较低。

Direct3D-S2 的核心技术揭秘

Direct3D-S2 能够实现影视级 3D 生成，其核心技术在于以下几点

高效的 3D 表示学习 模型能够有效学习和表示 3D 空间中的复杂几何与纹理信息，从而生成高保真度的 3D 模型。
多视图一致性优化 通过在训练过程中引入多视图几何约束，确保生成的 3D 模型在不同视角下都具有良好的连贯性和真实感，解决了传统 3D 生成中常见的“鬼影”或“崩坏”问题。
先进的扩散模型 借鉴了 2D 图像生成领域的成功经验，Direct3D-S2 将扩散模型引入 3D 生成，通过迭代去噪过程逐步生成高质量的 3D 内容。
优化的训练策略 论文中详细描述了其训练策略，包括如何有效利用现有 2D 数据进行蒸馏，以及如何进行高效的 3D 数据增强，从而在有限的计算资源下实现卓越性能。