图示对比像素纹理与机器人关心的几何、接触和状态变化。

Dreaming on Pixels 与 Dreaming on Latent 对比图。

latent 表示难以解释、干预和纠错的图示。

源视频展示从像素和 latent 表示转向 3D interaction traces。

GIF 展示 3D interaction traces 的预测点和运动。

LLM words 与 robotics words 的 shared space 类比图。

TraceExtract 从 raw video 到 3D traces 的流程图。

μ₀ 架构图显示冻结 VLM 与 trace expert。

Freeze world model, train an Action Expert 的结构图。

源视频展示 trace prediction 可视化和 0.29 秒预测速度。

机器人实验成功率柱状图对比 μ₀ + action expert 与 VLA baselines。

真实机器人任务 GIF 对比不同 action expert 路线。

μ₀ 标题图标注 Predict traces, not pixels, not latent。

机器之心 · 2026.06.27 · 7 stories · 8:14

机器之心 AI News Digest

机器之心 2026.06.27 digest with 7 source-grounded stories, Chinese captions, synchronized narration, and source media panels.

Stories

0:00 - 1:11

01. 刚刚，DeepSeek V4更新DSpark，推理速度提升80% Source
文章报道，DeepSeek V4 在 Flash 和 Pro 线上服务中加入 DSpark 推测性解码框架，并开源 DeepSpec 全栈代码库。
1:12 - 2:23

02. GPT-5.6突然上线：比Mythos强，普通用户彻底无缘 Source
文章报道 OpenAI 发布 GPT-5.
2:24 - 4:06

03. 机器人不该只在像素里做梦：μ₀和我们想找的「物理语言」 Source
文章介绍 μ₀，一种面向机器人物理交互的结构化 world model。
4:07 - 5:27

04. 首个通用触觉基础模型FTP-1来了！Sharpa 联合清华大学等高校，用一套策略打通21种传感器与多类具身形态 Source
文章介绍 FTP-1，一个面向接触密集操作的通用触觉基础策略，由 Sharpa、清华、UC Berkeley、上海交大、ETH Zurich 等团队提出。
5:27 - 6:05

05. ECCV 2026 | 视频生成模型真的会「推理」吗？303道题全面揭示世界模型的推理短板 Source
文章介绍 ECCV 2026 论文 MME-CoF-Pro，用 303 个图像-文字-视频推理样本评估视频生成模型的推理一致性。
6:05 - 7:12

06. 陈天奇新书上线：面向ML系统的现代GPU编程 Source
文章报道陈天奇发布免费在线书 Modern GPU Programming For MLSys，内容来自 CMU 机器学习系统课程中的 GPU 编程专题。
7:12 - 8:14

07. 大神Karpathy用Claude的方式，原来是这样的？ Source
文章围绕一份被称为 Karpathy 自用的 CLAUDE.