机器之心 AI NEWS DIGEST
2026 06 12
STORY 01 / 11

Anthropic 警告的递归 AI,与 Recursive Superintelligence 的自动化研究第一步

01-01
Recursive 页面显示自动化 AI 研究系统的标题和简介。
01-02
基准表列出验证损失、训练时间和 kernel 优化三类结果。
01-03
NanoChat 曲线显示 Recursive 线条逐步低于对照方法。
01-04
NanoGPT Speedrun 图中标出 Recursive 77.5 秒节点。
01-05
SOL-ExecBench 图把 Recursive 蓝点与 leaderboard best 橙点分组比较。
01-06
英文摘录讨论在递归自我改进阶段保留临时暂停选项。
01-07
推文截图展示 Recursive Superintelligence 团队公开亮相。
01-08
封面人物照片对应报道中的 Recursive 联合创始人背景。
STORY 02 / 11

Fable 5 在 Agent Arena 领先,却在 Agents' Last Exam 最难档失分

02-01
Claude Fable 5 黑底封面图。
02-02
Agent Arena 截图显示 Fable 5 High 排在榜首。
02-03
Agents' Last Exam 轮盘图覆盖多个职业领域。
02-04
ALE 分类图周围排列硬件验证、医学、法律和工程等任务。
02-05
柱状图对比 ALE-CLU 与 Terminal-Bench、SWE-Bench-Pro。
02-06
散点图把模型通过率和总 API 成本放在同一坐标系。
02-07
任务流水线图显示专家、智能体和质检委员会的协作流程。
02-08
评估管线架构图展示智能体、环境和评分器如何闭环。
STORY 03 / 11

Fable 5 安全分类器被声称一轮对话绕过

03-01
Fable 5 警示风格封面图。
03-02
代码与输出截图展示触发流程片段。
03-03
Claude Fable 5 使用量曲线在发布后快速升高。
03-04
项目页写有 Internal Safety Collapse in Frontier Large Language Models。
03-05
攻击流程图分解安全分类器与模型响应之间的绕过过程。
03-06
风险类别图把多个高风险领域连接到统一触发器。
03-07
表格列出 Claude Fable 5、Claude Opus、GPT 与 Gemini 等模型。可提取数据:模型列包含 Claude Fable 5、Claude Opus 4.8、GPT-
03-08
模型触发记录表继续列出 Claude、GPT、Gemini、Grok、Kimi 等系统。可提取数据:表中可见 Claude Sonnet 4.5、GPT-5.1、Kimi K2.5、ERNIE
STORY 04 / 11

千问高考志愿 Agent 进入真实人生决策场景

04-01
原文摘录图显示高考志愿 Agent 文章标题。
STORY 05 / 11

华为云把云服务重写成 Agentic AI 底座

05-01
演讲画面写有“创想,共建智能时代硅基黑土地”。
05-02
2026 华为云 INSPIRE 大会舞台封面。
05-03
Agentic Infra 页面列出智能体所需的新基础设施能力。
05-04
ModelArts 发布页展示训练、部署和智能体开发能力。
05-05
演讲画面写有 Agent-native 面向智能体。
05-06
RuiPath 病理智能服务案例出现在大会演讲页上。
05-07
行业 AI 梦工厂图分为四个专区。
05-08
华为云大会会场全景图展示发布活动规模。
STORY 06 / 11

机器人可能等不来一个单独的 ChatGPT 时刻

06-01
机器人走在多种任务场景之间的插画。
06-02
纵向拼图展示机器人在仓库、工厂和家庭环境中的场景。
06-03
插画中的机器人面向不同能力模块。
06-04
服务机器人头部特写,背景是室内真实环境。
06-05
拼图中同时出现工业设备、机器人和家庭场景。
06-06
机器人传感器和头部摄像模组特写。
06-07
机器人插画对应多模块组合式进展。
STORY 07 / 11

GuidedVLA 给机器人动作解码器指定可解释注意力分工

07-01
机器人在水果、碗和胡萝卜旁准备操作。
源视频开头展示机器人面对桌面物体的操作环境。
07-03
架构图把 object、skill 和 depth head 分别连到动作解码器。
07-04
总览图展示技能识别、物体定位和几何感知三块能力。
07-05
可视化轨迹把 object、depth 和 skill head 对齐到 move、pick、place 阶段。
机械臂夹取杯子并把它移动到桌面目标位置。
机械臂在实验台前靠近量杯并执行烧杯操作。
07-08
LIBERO-Plus 表格列出多个模型在 pick、move、place 等任务上的成功率。可提取数据:w all heads(Ours) 行可见 PutMug 100.0、Pick 95.
07-09
柱状图比较 object、skill、depth 与 all heads 在扰动维度下的成功率。
07-10
图中同时显示注意力热图、任务曲线和预测分布。
07-11
论文标题页列出 GuidedVLA 题目、作者和机构。
STORY 08 / 11

NeuroFlow 用统一神经流模型连接视觉编码和解码

08-01
总览图把 neural activity 与 visual stimulus 通过 NeuroFlow 连接。
08-02
统一框架图把解码、编码和跨模态流匹配放在同一结构中。
08-03
架构图展示视觉编码器、神经编码器和 cross-modal flow matching。
08-04
结果图包含视觉刺激、fMRI 活动、合成图像和解释方差示例。
08-05
NeuroFlow 总览图强调视觉与神经活动的双向建模。
STORY 09 / 11

人大团队指出 Transformer 图灵完备讨论依赖上下文管理

09-01
截图合集展示近年关于 Transformer 图灵完备的报道和论文。
动态图对比固定系统和随输入扩展的一族模型。
动态图展示固定系统在上下文限制下的能力边界。
09-04
能力层级图把常数空间、线性空间和图灵完备放在同一轴上。
09-05
论文标题页写明自回归 Transformer 图灵完备依赖上下文管理。
STORY 10 / 11

ViT3 用测试时训练缓解视觉 Transformer 复杂度瓶颈

10-01
ViT3 字样的论文风格封面。
10-02
TTT Block 图展示计算模块和线性层结构。
10-03
结构图对比 Softmax Attention、Linear Attention 和 Test-Time Training Layer。
10-04
指标表列出 inner model 的参数、FLOPs、FPS 和 Top-1。可提取数据:Conv(x) 为 25.5M 参数、5.27G FLOPs、979 FPS、79.9 Top-1;
10-05
论文标题页列出 ViT3 题目、作者和机构。
STORY 11 / 11

2026 智源大会聚焦 Agent 安全、世界模型和物理 AI

11-01
BAAI Conference 第八届北京智源大会封面。
11-02
大会幻灯片写有 Next-Token Prediction 到 Next Physical State Prediction。
11-03
Whitfield Diffie 在大会讲台发言。
11-04
世界模型方向幻灯片展示多项研究和应用布局。
11-05
下一代基础模型幻灯片展示语言模型、物理世界模型和智能体。
11-06
悟界 Physis-v0.1 幻灯片展示世界物理建模基础模型结构。
11-07
RoboBrain Croc v0 幻灯片展示具身大脑相关结构。
11-08
Nature 网页截图展示多模态学习论文页面。
11-09
Agent 数据获取、管控和生态能力布局幻灯片。
今天这条新闻把递归自我改进的风险讨论,拉回到一个已经公开运行的自动化 AI 研究系统上。
文章称,Recursive Superintelligence 的系统可以替研究者跑实验,并在三个基准上给出可量化结果。
在 NanoChat Autoresearch 里,系统把验证 BPP 降到 0.9109,文章写成约 1.3 倍训练速度提升。
在 NanoGPT Speedrun 里,报道给出的关键数字是训练到目标损失只需要 77.5 秒。
SOL-ExecBench 则把问题放到 kernel 优化上,显示自动化系统能在硬件相关任务里找到更优解。
这也解释了为什么 Anthropic 的警告会被反复引用:当 AI 开始帮助构建 AI,研发速度和安全边界会同时变得更敏感。
文章没有把这称为真正的递归自我改进,但它展示了自动化研究系统从概念走向工程结果的一步。
接下来要看的,是这些系统能否在更多开放任务上复现收益,并让每一步实验都有可审计轨迹。
Fable 5 的智能体成绩今天出现了一个很有意思的反差:一个榜单领先,另一个最难考试却不轻松。
在 Agent Arena 上,文章称 Fable 5 High 排名第一,GPT-5.5 xHigh 排名第二。
但伯克利团队的 Agents' Last Exam,把测试拉到更长、更真实的专业工作流里。
这个基准包含 55 个非体力职业和 1500 多项任务,评价的是最终结果是否可验证。
文章特别强调,ALE-CLU 比常见终端或软件工程基准更宽、更长,难度也更高。
一旦把成本也放进来,模型强弱就不只是通过率问题,还包括每次完成任务要花多少钱。
任务的构建流程也很重,从专家提交到自动审核、执行和质量检查,目标是减少玩榜空间。
所以这条新闻的结论很克制:有用的智能体已经来了,但真正胜任工作的智能体还没有稳定到来。
Fable 5 的安全新闻,今天不是能力榜单,而是安全分类器被声称一轮对话绕过。
文章称,联合研究团队在发布当天完成攻击,整个过程只需要一次对话和不到五秒。
这件事之所以敏感,是因为 Fable 5 发布后使用量迅速拉升,风险会被更快放大。
研究团队把问题称为前沿大模型的内部安全崩溃,而不是传统提示词绕行。
文章给出的机制图显示,攻击目标是安全分类器和模型之间的职责断点。
风险范围也不只在网络安全,图中还列出生物、化学、医学和模型滥用等领域。
报道还把这个问题放到更广的模型生态里,列出多个前沿模型的触发记录。
这条新闻最重要的提醒是,智能体安全不能只靠一个前置分类器,还要覆盖任务执行全过程。
千问这次把 Agent 放进了一个很现实的场景:高考志愿填报。
文章称,考生和家长要在有限时间里处理近三千所高校、两千多个专业和复杂批次规则。
千问的方案,是上线一个全周期志愿填报 Agent,并免费开放给全国考生。
报道提到,它基于千问高考志愿大模型和夸克八年高考数据经验。
三个核心能力分别是志愿报告、志愿日历和志愿问答,目标是覆盖填报全流程。
真正的问题不只是能不能回答,而是 AI 在人生决策里怎样保证可靠、可信和克制。
所以这条新闻更像一个信号:Agent 正在从办公流和代码流,进入教育选择这样的社会服务场景。
华为云这篇报道的关键词,是把云从算力黑土地,改写成智能体时代的硅基黑土地。
文章说,Agent 流行以后,底层云服务被反向挤压,需要支撑更复杂的工具和工作流。
华为云的答案,是一组 Agentic AI 新品,覆盖基础设施、开发平台和行业应用。
在模型和开发层,文章重点提到 ModelArts,要让智能体开发更像平台化工程。
这背后的判断是,未来做 AI 不只是买卡和调模型,而是开发并用好智能体。
行业案例里,文章举了医院病理服务,说明智能体底座要和具体业务流程绑定。
行业 AI 梦工厂则把具身智能、智慧医疗、智能制造和科学计算放进同一张路线图。
所以这不是一条单点产品新闻,而是云厂商在 Agent 时代重新包装基础设施价值的信号。
这篇机器人文章的核心判断很反直觉:机器人可能不会等来一个单独的 ChatGPT 时刻。
作者认为,AI 会推动机器人拐点,但真正落地要靠多种工具和系统工程一起工作。
文章提醒,很多惊艳演示仍然是脚本、剪辑和排练后的结果。
真正困难的,是让机器人在非结构化环境里理解变化、执行任务并承担失败成本。
文章还给出一个行业背景:2025 年机器人公司融资达到 407 亿美元。
但资本热度不等于通用能力成熟,落地还要同时解决感知、控制、数据和安全。
所以判断具身智能,不能只看一段视频,而要看系统能否长期、稳定、低成本地工作。
GuidedVLA 这篇 RSS 论文,解决的是机器人动作解码器到底在看哪里的问题。
文章说,很多端到端 VLA 模型会完成动作,但注意力仍像黑箱,换场景时容易看错重点。
GuidedVLA 的做法,是显式指定不同 attention head 的职责,而不是让动作解码器自己悟。
其中 object head 负责看目标物,depth head 负责空间几何,skill head 负责判断任务阶段。
这让机器人的动作生成不只是更强,也更容易解释:错误来自哪里可以被拆开看。
第一段实机视频里,机械臂在桌面上对杯碗进行操作,动作从靠近、夹取到移动。
这种视频比静态图更能说明,论文关心的是动作生成过程里的注意力和控制稳定性。
第二段实机视频换成实验室器具,机械臂靠近量杯并完成烧杯相关动作。
在 LIBERO-Plus 基准上,文章图表显示加入各类 head 后,任务成功率整体提高。
扰动测试里,深度 head 和全 head 组合也在多种噪声条件下保持更高表现。
论文还用热图和曲线说明,不同 head 不是装饰,而是在任务中承担可观察的功能。
所以 GuidedVLA 的意义,是把具身智能里的黑箱动作,拆成可调、可解释、可诊断的模块。
NeuroFlow 这篇 CVPR 论文,目标是让视觉脑机从单向读脑走向双向交互。
过去视觉编码和解码常常分开训练,缺少统一潜空间和双向一致性。
文章称,NeuroFlow 用可逆神经流结构,把读脑和写脑放进同一个模型。
实验图里能看到视觉刺激、fMRI 活动、合成结果和解释方差等评估维度。
这还不是应用落地,但为视觉假体和双向脑机接口提供了新的建模范式。
这篇 ICML 观点论文,重新拆开了一个热门说法:Transformer 到底是不是图灵完备。
人大团队提醒,很多证明讨论的是会随输入变长而扩大的模型族。
但我们日常部署的模型,通常是固定权重、固定精度和固定上下文窗口。
论文的关键判断是,能力上限取决于上下文管理,而不只是 Transformer 本身。
所以这篇文章的价值,是把理论模型族和真实部署系统的边界讲清楚。
ViT3 这篇论文入围 CVPR 最佳论文决选,目标是缓解视觉 Transformer 的复杂度瓶颈。
文章称,它把测试时训练引入视觉模型,让上下文信息被写进一个紧凑内部模型。
和传统注意力相比,ViT3 更强调在当前输入上快速更新内部状态。
报道给出的亮点数字是,高分辨率图像上速度达到 DeiT-T 的四点六倍,显存降低九成。
如果这条路线继续成立,它会给高分辨率视觉和长视频理解提供更省资源的架构选择。
这篇智源大会报道,不只是会议信息,而是把 Agent、世界模型和物理 AI 放到同一条主线里。
文章用一句话概括趋势:AI 正从预测下一个词元,走向预测下一个物理状态。
Diffie 的发言把 Agent 安全拆成两面:既要保护智能体,也要防范智能体。
Barto 的强化学习主题,则把控制、搜索和联想记忆重新放回下一代智能系统讨论。
智源自己的路线图里,世界模型从数字世界扩展到物理世界,成为核心方向。
悟界 Physis-v0.1 被描述为全栈世界物理建模基础模型,覆盖动力学和交互。
RoboBrain Croc v0 则把具身大脑和动作相关能力放进物理 AI 版图。
文章还提到多模态学习、开放复杂系统和 FlagOS 等生态方向,说明大会关注的是全栈能力。
最后,展区和 Agent 能力布局说明,这些议题已经从报告厅延伸到产品和生态展示。
机器之心 AI News Digest

机器之心 · 2026.06.12 · 11 stories · 10:39

机器之心 AI News Digest

机器之心 2026.06.12 digest with 11 source-grounded stories, Chinese captions, synchronized narration, and source media panels.

Stories

  1. 0:00 - 1:12
    01. Anthropic 警告的递归 AI,与 Recursive Superintelligence 的自动化研究第一步 Source
    - 文章把 Anthropic 对递归自我改进的警告,和田渊栋联合创立的 Recursive Superintelligence 首个公开成果放在同一条叙事线上。
  2. 1:12 - 2:18
    02. Fable 5 在 Agent Arena 领先,却在 Agents' Last Exam 最难档失分 Source
    - 文章报道,Claude Fable 5 发布后在 Agent Arena 榜单上排名第一,但在伯克利团队开发的 ALE 基准最难任务上表现并不稳定。
  3. 2:18 - 3:17
    03. Fable 5 安全分类器被声称一轮对话绕过 Source
    - 文章报道,一个来自复旦、迪肯、香港城市大学等机构的团队声称,在 Fable 5 发布当天绕过其安全分类器。
  4. 3:17 - 4:09
    04. 千问高考志愿 Agent 进入真实人生决策场景 Source
    - 文章报道,千问上线国内首个全周期高考志愿填报 Agent,并宣布免费向全国考生开放。
  5. 4:09 - 5:11
    05. 华为云把云服务重写成 Agentic AI 底座 Source
    - 文章报道,华为云在 INSPIRE 创想者大会上提出“硅基黑土地”概念,把云服务从算力供给转向智能体生长底座。
  6. 5:11 - 6:04
    06. 机器人可能等不来一个单独的 ChatGPT 时刻 Source
    - 文章转述 IEEE Spectrum 观点,认为 AI 机器人会迎来关键拐点,但不会来自单一的 ChatGPT 式突破。
  7. 6:04 - 7:39
    07. GuidedVLA 给机器人动作解码器指定可解释注意力分工 Source
    - 文章报道,复旦大学可信具身智能研究院、上海交通大学、香港大学 OpenDriveLab 等机构提出 GuidedVLA,并被 RSS 2026 接收。
  8. 7:39 - 8:15
    08. NeuroFlow 用统一神经流模型连接视觉编码和解码 Source
    - 文章报道,上海人工智能实验室、香港大学、香港中文大学等团队提出 NeuroFlow,并入选 CVPR 2026。
  9. 8:15 - 8:50
    09. 人大团队指出 Transformer 图灵完备讨论依赖上下文管理 Source
    - 文章报道,中国人民大学团队在 ICML 2026 观点论文中重新审视 Transformer 能否解决任意可计算问题。
  10. 8:51 - 9:29
    10. ViT3 用测试时训练缓解视觉 Transformer 复杂度瓶颈 Source
    - 文章报道,阿里巴巴与清华合作的 ViT3 入围 CVPR 2026 最佳论文决选。
  11. 9:29 - 10:39
    11. 2026 智源大会聚焦 Agent 安全、世界模型和物理 AI Source
    - 文章报道,第八届北京智源大会以 Agent、世界模型、具身智能和物理 AI 为核心方向。