高德发布世界模型FantasyWorld 登顶WorldScore并将开源

匿名作者
2026-01-10 11:5590

导语 阿里巴巴旗下高德地图在 AI 基础模型领域取得重大突破,正式推出自研世界模型“FantasyWorld”。该模型凭借独特的几何与视频联合建模技术,在国际权威基准 WorldScore 上夺得榜首,并已率先应用于“飞行街景”等具身智能场景。

几何与视频的联合建模

FantasyWorld 的核心创新在于解决了传统视频生成模型缺乏物理一致性的痛点。高德团队提出了一种新颖的架构:在冻结的视频基础模型骨干上,增设一个可训练的几何分支。这种设计实现了“视频潜变量”和“隐式 3D 场”的联合建模,且仅需一次前向计算即可完成,极大地提升了推理效率。

这一技术突破使得 FantasyWorld 在生成视频时,不仅能保持极高的视觉真实感,还能确保多视角下的一致性和几何保真度。即使在面对 180° 旋转等极端视角的物体形状与纹理保持上,其表现也远超近期的其他几何一致性方法。模型生成的 3D 潜变量可直接解码为深度图或点云,为下游任务提供了即插即用的 3D 数据支持。

Google_AI_Studio_2026-01-10T03_50_17.220Z.png

图源备注:图片由AI生成

权威评测与开源计划

作为由斯坦福大学李飞飞团队主导的统一世界生成基准,WorldScore 涵盖了静态场景、动态场景、可控性及一致性等多维度的严苛评估。FantasyWorld 在该榜单上以综合得分第一的成绩强势登顶,特别是在静态世界得分(78.55)和动态世界得分(66.89)等关键指标上,超越了多家国内外知名模型。

学术界的认可紧随其后,相关论文已被 ICLR2025、NeurIPS2025 等顶级 AI 会议收录。高德方面已明确表示,将于近期开源该模型,此举预计将大幅推动学术界与产业界在 3D 世界构建领域的合作与创新。

从飞行街景到具身智能

FantasyWorld 的商业价值已在高德地图的“飞行街景”功能中初现端倪。商家只需上传几段简单的手机视频,模型即可低成本、快速地生成高保真的 3D 虚拟漫游街景。这种“技术平权”不仅让普通商家拥有了展示空间细节的能力,也为用户提供了身临其境的预览体验。

更长远的布局在于具身智能。随着自动驾驶向端到端视觉语言行动(VLA)方案演进,追求物理真实性的世界模型变得至关重要。高德内部已成立具身业务部,探索机器人、机器狗等方向,利用 FantasyWorld 在空间智能上的优势,加速从数字地图服务商向物理 AI 领军者的转型。

评论 (0)

暂无评论,快来发表第一条评论吧!

AI 技术峰会

2025 AI 技术峰会

AI 实战课程

AI 实战课程

热门工具

AI 助手

智能对话,提升效率

智能图像处理

一键美化,智能修图

AI 翻译

多语言实时翻译