腾讯开源具备原生 3D 重建能力的超长程世界模型:HunyuanWorld-Voyager

腾讯开源具备原生 3d 重建能力的超长程世界模型:hunyuanworld-voyager

腾讯开源具备原生 3D 重建能力的超长程世界模型:HunyuanWorld-Voyager

腾讯近期正式推出HunyuanWorld-Voyager,一款突破性的视频扩散框架,能够基于单张图像生成具有世界一致性的3D点云,支持用户按照自定义的相机轨迹进行沉浸式场景探索。

该模型被官方称为全球首个原生支持3D重建的超长距离世界模型,有望重塑AI驱动的虚拟现实、游戏开发以及仿真环境中的空间智能应用。HunyuanWorld-Voyager不仅能同步输出高精度的深度图与RGB视频,还可无需额外后处理步骤,直接用于高质量三维建模。

  • 原生3D输出能力:摆脱对COLMAP等外部工具的依赖,可直接将点云视频导出为标准3D格式,实现即生成即使用的便捷流程。
  • 创新3D内存机制:引入可扩展的世界缓存系统,确保在任意相机路径下保持几何结构的一致性。
  • 卓越性能表现:在斯坦福WorldScore基准测试中位列榜首,同时在视频生成和3D重建任务中均展现出领先水平。

HunyuanWorld-Voyager的架构由两大核心模块构成。其一是“世界一致的视频扩散”模块,采用统一架构设计,能够在已有场景观测基础上,同步生成对齐的RGB视频与深度视频序列,保障全局场景的空间连贯性。其二是“长距离世界探索”模块,通过结合点云筛选机制与自回归推理,并引入上下文感知的一致性优化技术,实现高效、平滑的视频采样与场景延展。

为支撑模型训练,研发团队开发了一套高度自动化的数据构建引擎。该引擎能对任意输入视频自动估算相机位姿与真实尺度深度信息,完全无需人工标注,从而实现大规模、多场景训练数据的高效生成。依托这一流程,HunyuanWorld-Voyager融合了真实拍摄视频与虚幻引擎渲染内容,构建出一个涵盖超过10万段视频的大规模数据集。

实验证明,HunyuanWorld-Voyager在视频生成质量方面显著优于现有方法。在与四种开源可控制相机视频生成模型的对比中,其在PSNR、SSIM和LPIPS等多项指标上均取得最优结果,验证了其出色的视觉保真能力。同时,在3D重建任务中,所生成视频也展现出更强的几何一致性。

值得一提的是,HunyuanWorld-Voyager在WorldScore静态基准测试中斩获最高分,充分体现了其在相机路径控制与空间结构一致性方面的领先优势。这一突破不仅彰显了混元系列模型在3D生成领域的巨大潜力,也为未来智能空间建模技术的发展提供了全新方向。

关键词:工具腾讯ai

网友留言(0 条)

发表评论