世界模型可单GPU秒级生成了?腾讯开源FlashWorld,效果惊艳、免费体验
创始人
2025-10-31 16:15:49
0

厦门大学和腾讯合作的最新论文《FlashWorld: High-quality 3D Scene Generation within Seconds》获得了海内外的广泛关注,在当日 Huggingface Daily Paper 榜单位列第一,并在 X 上获得 AK、Midjourney 创始人、SuperSplat 创始人等 AI 大佬点赞转发。

FlashWorld 不仅将三维场景的生成在单卡上做到了 5~10 秒(相比之前方法提速百倍),更统一支持了单张图片或文本输入,生成的场景可以在网页用户端实时渲染,同时质量还胜过其他同类闭源模型。

  • 主页 :https://github.com/imlixinyang/FlashWorld-Project-Page
  • Github:https://github.com/imlixinyang/FlashWorld
  • Huggingface Demo:https://huggingface.co/spaces/imlixinyang/FlashWorld-Demo-Spark
  • 论文:https://arxiv.org/pdf/2510.13678

目前,作者们还提供了 Huggingface 上的免费 Demo 可以试玩。我们迫不及待地进行了尝试,并且在同一个输入下与 WorldLabs 的 Marble 和前两天发布的 RTFM 模型比较了一下:

从上至下:FlashWorld,Marble,RTFM

可以看到 FlashWorld 在预设轨迹下可以产生非常稳定完整高质量的渲染结果,生成速度比 Marble 的快速模式快 5 倍,而且完全通过前端渲染,不需要像 RTFM 一样需要等待连接后端 GPU 才能使用。

这是怎么做到的呢?

FlashWorld 动机

虽然现在视频模型成为了世界模型的主流,但其负载大的特点难以让每个人都能在自己的设备上进行体验。因此,FlashWorld 选择了基于 3DGS 为场景输出形式的技术路线,这也是为什么 FlashWorld 生成的结果可以在本地网页端实时渲染。

在传统生成 3DGS 场景的方法中,大约分为了两类:

一种是以多视角为中心的方案,代表方法为 CAT3D,Wonderland 等。它们使用了先通过扩散模型生成多视角图像或视频,再通过三维重建得到 3DGS 的两步框架。然而,因为使用的扩散模型往往会生成视角不一致的结果,这类方案容易产生杂乱的纹理细节。

另一种则为以三维为中心的方案,代表方法为 Director3D,DiffusionGS 等。它们把 3DGS 作为中介,直接用于多视角的去噪流程中。但因为场景数据相机标注往往不够准确以及模型知识不够强的问题,这类方案容易产生模糊的渲染效果。

FlashWorld 的核心,简而言之,就是用把 以多视角为中心的教师模型 通过蒸馏损失提升 以三维为中心的学生模型 的视觉质量,这样既保证了理论上的多视角一致性,又不断促使模型接近真实场景的图像质量,顺带地,还极大减少了去噪步数

视频为单图到三维场景生成效果,从上到下依次为同一个网络架构在 MV 模式、3D 模式,以及 FlashWorld 提出的跨模式蒸馏结果。

FlashWorld 方法

FlashWorld 包含了两个训练流程:

1. 双模式预训练:基于视频扩散先验,训练一个同时支持 以多视角为中心(MV)/ 以三维为中心(3D) 双模式输出的多视图扩散模型。

2. 跨模式后训练:以 MV 模式为教师、3D 模式为学生,进行分布匹配蒸馏,兼顾高保真与 3D 一致。

FlashWorld 还利用了分布匹配蒸馏不需要 Ground Truth 的特性,将随机的图像、文本和轨迹组合成分布外的输入进行训练,进一步提升学生模型对各种场景、风格、轨迹泛化能力

实验效果

FlashWorld 在各种任务上进行了充分全面的实验和对比。包括:

  • 图生三维场景(最上一行为 FlashWorld 结果):

FlashWorld 竟然成功地生成出了整齐的栅栏(左上),这在以往的工作中几乎是不可能的。

  • 文生三维场景(最上一行为 FlashWorld 结果):

FlashWorld 对于毛发这些细粒度的细节也有着非常好的生成能力,这在密集视角的重建中可能都是非常困难的问题,而 FlashWorld 竟然只需要输入文本。

  • Feifei Li 团队 WorldScore Benchmark(最左列为 FlashWorld 结果):

可以看到,FlashWorld 对于场景风格、语义和三维性也保持得非常好。

  • 文生三维场景定性指标:

FlashWorld 在该 Benchmark 下以最快的速度领先与其他方法。

  • WorldScore 定性指标

FlashWorld 在该 Benchmark 下以最快的速度下获得了最高的平均分。

FlashWorld 还可以在只需要 RGB 监督的情况下自然学到深度信息

卡通风格的场景也手到擒来(文内所有图均为 3DGS 渲染结果):

快速体验

FlashWorld 还开源了基于 SparkJS 的交互式 Demo,并可以在 Huggingface Spaces 上进行免费体验。

体验地址:https://huggingface.co/spaces/imlixinyang/FlashWorld-Demo-Spark

相关内容

热门资讯

迈入“软件定义汽车”创新阶段!... 近日,宝马中国正式宣布加入“开源创新发展推进中心”,成为该中心首个外资车企成员,标志着其“软件定义汽...
亚太首秀!这家高端酒店新亮相,... 东方网记者曹磊10月31日报道:30日,凯悦酒店集团正式宣布上海世博桐森酒店盛大启幕,标志着生活方式...
一文看清深信服2025秋季AI... 导语: 当AI革新产业,我们以全新AI基座加速各行业AI落地! 当AI重塑世界,我们给出「AI+安全...
中电港:2025年上半年AI业... 证券之星消息,中电港(001287)10月30日在投资者关系平台上答复投资者关心的问题。 投资者提问...
近九成香港员工工作中使用AI,... 香港生产力促进局近日发布《2025年香港企业人工智能应用趋势调查》结果,深入探讨本地企业在人工智能(...
信通院何宝宏:未来智能体开源是... 中新网北京10月31日电 (记者 刘育英)在本周举行的2025 OSCAR开源产业大会上,中国信息通...
过路要收100元停车费?一露营... “过路要收费?村民直接索要100元停车费?”10月30日,一则关于“过路收费纠纷”的视频在社交平台迅...
原创 特... 批准韩国建造核动力潜艇无助于地区和平与稳定,对区域和平发展环境构成一定挑战。 近日,在韩美首脑会谈中...
60秒看雄安|共赏秋色如画 3...   金秋十月,河北雄安新区秋色正浓。“300米进公园、1公里进林带、3公里进森林”,这座未来之城呈现...
璞富腾新增中国区成员酒店,多哈... 界面新闻记者 | 张瑶界面新闻编辑 | 汤威​1. 上海虹桥机场香格里拉与盛贸酒店启幕10月28日,...