谷歌4D世界模型来了，比SOTA快300倍！

谷歌DeepMind 发布 4D 世界模型 D4RT,比 SOTA 快 300 倍 - IT之家

谷歌声称 D4RT 比之前的 SOTA 快了300 倍,处理一分钟的视频只需要 5 秒钟。这是真的吗? 答案是:在特定维度上,是真的。这里的「300 倍」指的是吞吐量,具体来说是「在保持相同帧率(FPS)的前提下,模型能同时追踪多少条 3D 轨迹」。数据对比:在24 FPS 的标准电影帧率下,之前的强者 SpatialTrackerV2 只能同时追踪8

谷歌4D世界模型来了,比SOTA快300倍!_ZAKER新闻

谷歌声称 D4RT 比之前的 SOTA 快了300 倍,处理一分钟的视频只需要 5 秒钟。这是真的吗? 答案是:在特定维度上,是真的。这里的「300 倍」指的是吞吐量,具体来说是「在保持相同帧率(FPS)的前提下,模型能同时追踪多少条 3D 轨迹」。数据对比:在24 FPS 的标准电影帧率下,之前的强者 SpatialTrackerV2 ...

“盗梦空间”真要实现了,谷歌 Dreamer 4 世界模型的“梦境”训练法

Dreamer 4 世界模型凭借全新的目标与架构，在单 GPU 上实现了实时交互式推理。下图展示了一位人类玩家在世界模型中执行各类任务，以此展现其反事实生成能力，并与先前的《我的世界》世界模型展开了对比。真实世界视频为了验证 Dreamer 4 是否也能够模拟物理世界中的物体交互，团队在一个机器人数据集上对世界模型进行了...

梦里啥都有?谷歌新世界模型纯靠“想象”训练,学会了在《我的世界...

它还超越了 VLA 智能体,后者利用了 Gemma 3 视觉语言模型的通用知识,在制作铁镐的成功率上几乎是 VLA 智能体的三倍。图4 展示了离线钻石挑战中的智能体消融实验。作者报告了四个关键物品的成功率以及获取物品所需的时间。在这两个指标上,Dreamer 4 的表现均优于基于行为克隆的方法,表明世界模型表示在行为克隆...

4D通用世界模型!中科院NeoVerse用百万单目视频直接构建

这种多功能性证明了其作为一个通用4D世界模型的巨大潜力。与需要特定数据微调的专用模型不同，NeoVerse展示了一种通过扩大数据规模和改进训练策略来实现通用智能的可行路径。NeoVerse通过精巧的架构设计和逆向思维的训练策略，成功将杂乱无章的互联网视频转化为构建高质量4D世界的燃料，让每个人都能仅凭一部手机拍摄的图片...

视觉语言世界模型来了!AI不仅能看懂视频,还能自我反思制定计划,离...

VLWM 在多个评估指标上都有较大提升,在 WorldPrediction 程序化规划任务中也达到了 45% 的准确率,更是创下了SOTA。总结速览解决的问题当前的高级世界模型在理解和推理动作的语义和时间抽象方面发展不足,无法有效支持复杂的规划任务。提出的方案引入视觉语言世界模型(VLWM),利用自然语言作为抽象的世界状态表示...

VerseCrafter:给视频世界模型装上4D方向盘,精准运镜控物

复旦大学与腾讯 PCG ARC Lab 等机构的研究者们提出了 VerseCrafter，这是一个通过显式 4D 几何控制（4D Geometric Control）实现的动态逼真视频世界模型。它不仅能像「导演」一样精准控制运镜，还能同时指挥场景中多个物体的 3D 运动轨迹，为视频生成引入了物理世界维度。自 Sora 问世以来，视频世界模型（Video World...

首个机器人4D世界模型来了,机器视觉是人工智能的基础应用技术之一...

据媒体报道,近日,智元机器人、上海交通大学与上海人工智能实验室共同研发的机器人领域首个4D世界模型EnerVerse亮相,该模型旨在让机器人在任务指引和实时观测的基础上规划未来动作。智元机器人表示,EnerVerse不仅具备卓越的未来空间生成能力,更在机器人动作规划任务中实现了当前最优(SOTA)表现。

首个机器人4D世界模型来了!智元和上交大联合研发

机器人前瞻1月9日报道，这两天，智元机器人、上海交通大学与上海人工智能实验室共同研发的机器人领域首个4D世界模型EnerVerse亮相，该模型旨在让机器人在任务指引和实时观测的基础上规划未来动作。在机器人技术领域中，动作规划始始终是一大难题。现有的机器人动作规划方法，往往难以实现在语言、视觉和动作等多模态空间...

开源世界模型来了,Emu3.5登顶SOTA,性能超谷歌

说出来可能有点让人意外，Emu3.5的“体型”在当今的AI模型里其实不算特别巨大，它的参数量是340亿。能用相对高效的规模实现如此强大的功能，智源的研究团队确实下了一番苦功。首先，是给它“喂”了海量的学习资料。Emu3.5的学习数据超过了10万亿个单位，其中最主要的部分，是来自互联网的无数视频。这就好比一...

突发!谷歌发布史上最强大模型Gemini,打爆GPT-4

这项基准测试是由跨不同领域的多模式任务组成，需要大模型进行一个深思熟虑的推理过程。根据谷歌给出的图像基准测试结果来看，Gemini Ultra在没有OCR系统的帮助下，表现优于之前最先进的模型。△Gemini 在一系列多模态基准测试中达到SOTA 接下来，我们以具体的案例来看一下Gemini的能力。例如科学家们经常要面对从成千上万的文献中提取

谷歌版Sora来了,4K高清暴击OpenAI!视频生图新卷王,更理解物理世界

【新智元导读】OpenAI的Sora翻车后,迎来谷歌的暴击:昨天深夜,Veo 2、Imagen 3、Whisk一套组合拳打来,AI视频和生图根据,再次被谷歌改变了。就在昨天,谷歌再次爆打OpenAI。全新发布的Veo 2,实测效果已经被许多人公认「超越Sora」。作为谷歌最先进的视频生成模型,Veo 2更好地理解现实世界物理和运动的细微差别,理解...

VerseCrafter:给视频世界模型装上4D方向盘,精准运镜控物-腾讯云...

复旦大学与腾讯 PCG ARC Lab 等机构的研究者们提出了 VerseCrafter,这是一个通过显式 4D 几何控制(4D Geometric Control)实现的动态逼真视频世界模型。它不仅能像「导演」一样精准控制运镜,还能同时指挥场景中多个物体的 3D 运动轨迹,为视频生成引入了物理世界维度。

北京人形开源WoW世界模型!140亿参数!200万条互动轨迹!5275项任务...

动作到视频仿真方向,模型以扩散 Transformer 为骨干,结合细粒度动作条件模块,可从 3D 动作轨迹生成 640×480 分辨率、300 帧以上的长视频,还能建模成功与失败 rollout,为机器人政策学习提供可控训练数据,降低真实场景数据采集的风险与成本。 4D 生成式世界模型相较于标准跨视角世界模型的优势 ...

首个机器人 4D 世界模型来了:智元机器人团队提出 EnerVerse 架构...

智元机器人官方称,实验结果表明 EnerVerse 不仅具备未来空间生成能力,更在机器人动作规划任务中实现了当前最优(SOTA)表现。IT之家从智元官方获悉,目前项目主页与论文《EnerVerse:设想机器人操作的具身未来空间》已上线,模型与相关数据集即将开源。 EnerVerse 主要科研成员来自智元机器人研究院具身算法团队。论文共同一...

VerseCrafter:给视频世界模型装上4D方向盘,精准运镜控物__财经...

复旦大学与腾讯 PCG ARC Lab 等机构的研究者们提出了 VerseCrafter,这是一个通过显式 4D 几何控制(4D Geometric Control)实现的动态逼真视频世界模型。它不仅能像「导演」一样精准控制运镜,还能同时指挥场景中多个物体的 3D 运动轨迹,为视频生成引入了物理世界维度。

VerseCrafter:给视频世界模型装上4D方向盘,精准运镜控物__财经...

复旦大学与腾讯 PCG ARC Lab 等机构的研究者们提出了 VerseCrafter,这是一个通过显式 4D 几何控制(4D Geometric Control)实现的动态逼真视频世界模型。它不仅能像「导演」一样精准控制运镜,还能同时指挥场景中多个物体的 3D 运动轨迹,为视频生成引入了物理世界维度。

突发!谷歌发布史上最强大模型Gemini,打爆GPT-4

具体来说,此次谷歌一共带来了Gemini的三个版本: Gemini Ultra:谷歌最大、最强模型,适用于高度复杂的任务 Gemini Pro:可扩展至各种任务的Gemini模型 Gemini Nano:适用于端侧设备的高效Gemini版本(1.8B/3.25B) 其中Gemini Ultra一上来就在32个基准测试中拿...

刚刚,最佳VLA模型GigaBrain-0开源:世界模型驱动10倍数据,真机碾压...

实验结果表明,GigaBrain-0的成功率显著优于现有SOTA方法。关于极佳极佳视界专注「世界模型平台 x 具身基础模型」,双轮闭环走向物理世界通用智能。在「世界模型」方向,极佳视界是国内技术创新和产业落地的领跑者,相关产品技术广泛应用于自动驾驶、具身智能、内容创作等相关方向。

明日主题前瞻首个机器人4D世界模型来了,机器视觉是人工智能的基础...

据媒体报道,近日,智元机器人、上海交通大学与上海人工智能实验室共同研发的机器人领域首个4D世界模型EnerVerse亮相,该模型旨在让机器人在任务指引和实时观测的基础上规划未来动作。智元机器人表示,EnerVerse不仅具备卓越的未来空间生成能力,更在机器人动作规划任务中实现了当前最优(SOTA)表现。