机器人在水果、碗和胡萝卜旁准备操作。

源视频开头展示机器人面对桌面物体的操作环境。

架构图把 object、skill 和 depth head 分别连到动作解码器。

总览图展示技能识别、物体定位和几何感知三块能力。

可视化轨迹把 object、depth 和 skill head 对齐到 move、pick、place 阶段。

机械臂夹取杯子并把它移动到桌面目标位置。

机械臂在实验台前靠近量杯并执行烧杯操作。

LIBERO-Plus 表格列出多个模型在 pick、move、place 等任务上的成功率。可提取数据：w all heads(Ours) 行可见 PutMug 100.0、Pick 95.

柱状图比较 object、skill、depth 与 all heads 在扰动维度下的成功率。

图中同时显示注意力热图、任务曲线和预测分布。

论文标题页列出 GuidedVLA 题目、作者和机构。

机器之心 · 2026.06.12 · 11 stories · 10:39

机器之心 AI News Digest

机器之心 2026.06.12 digest with 11 source-grounded stories, Chinese captions, synchronized narration, and source media panels.

Stories

0:00 - 1:12

01. Anthropic 警告的递归 AI，与 Recursive Superintelligence 的自动化研究第一步 Source
- 文章把 Anthropic 对递归自我改进的警告，和田渊栋联合创立的 Recursive Superintelligence 首个公开成果放在同一条叙事线上。
1:12 - 2:18

02. Fable 5 在 Agent Arena 领先，却在 Agents' Last Exam 最难档失分 Source
- 文章报道，Claude Fable 5 发布后在 Agent Arena 榜单上排名第一，但在伯克利团队开发的 ALE 基准最难任务上表现并不稳定。
2:18 - 3:17

03. Fable 5 安全分类器被声称一轮对话绕过 Source
- 文章报道，一个来自复旦、迪肯、香港城市大学等机构的团队声称，在 Fable 5 发布当天绕过其安全分类器。
3:17 - 4:09

04. 千问高考志愿 Agent 进入真实人生决策场景 Source
- 文章报道，千问上线国内首个全周期高考志愿填报 Agent，并宣布免费向全国考生开放。
4:09 - 5:11

05. 华为云把云服务重写成 Agentic AI 底座 Source
- 文章报道，华为云在 INSPIRE 创想者大会上提出“硅基黑土地”概念，把云服务从算力供给转向智能体生长底座。
5:11 - 6:04

06. 机器人可能等不来一个单独的 ChatGPT 时刻 Source
- 文章转述 IEEE Spectrum 观点，认为 AI 机器人会迎来关键拐点，但不会来自单一的 ChatGPT 式突破。
6:04 - 7:39

07. GuidedVLA 给机器人动作解码器指定可解释注意力分工 Source
- 文章报道，复旦大学可信具身智能研究院、上海交通大学、香港大学 OpenDriveLab 等机构提出 GuidedVLA，并被 RSS 2026 接收。
7:39 - 8:15

08. NeuroFlow 用统一神经流模型连接视觉编码和解码 Source
- 文章报道，上海人工智能实验室、香港大学、香港中文大学等团队提出 NeuroFlow，并入选 CVPR 2026。
8:15 - 8:50

09. 人大团队指出 Transformer 图灵完备讨论依赖上下文管理 Source
- 文章报道，中国人民大学团队在 ICML 2026 观点论文中重新审视 Transformer 能否解决任意可计算问题。
8:51 - 9:29

10. ViT3 用测试时训练缓解视觉 Transformer 复杂度瓶颈 Source
- 文章报道，阿里巴巴与清华合作的 ViT3 入围 CVPR 2026 最佳论文决选。
9:29 - 10:39

11. 2026 智源大会聚焦 Agent 安全、世界模型和物理 AI Source
- 文章报道，第八届北京智源大会以 Agent、世界模型、具身智能和物理 AI 为核心方向。