机器之心 AI NEWS DIGEST
2026 06 05
STORY 01 / 11

北大发布全球首个「自进化」5D世界模型EvoPhys-World,基于摩尔线程全国产算力底座,以「人」为中心,实现场景级万物可控

01-01
北大发布全球首个「自进化」5D世界模型EvoPhys-World相关原文图片。
01-02
原文图片展示报道中的模型结构或背景信息。
原文演示视频 01,展示 EvoPhys-World 相关能力。
原文演示视频 02,展示 EvoPhys-World 相关能力。
原文演示视频 03,展示 EvoPhys-World 相关能力。
原文演示视频 04,展示 EvoPhys-World 相关能力。
原文演示视频 05,展示 EvoPhys-World 相关能力。
原文演示视频 06,展示 EvoPhys-World 相关能力。
原文演示视频 07,展示 EvoPhys-World 相关能力。
原文演示视频 08,展示 EvoPhys-World 相关能力。
原文演示视频 09,展示 EvoPhys-World 相关能力。
原文演示视频 10,展示 EvoPhys-World 相关能力。
STORY 02 / 11

Claude Code团队成员亲述:动态工作流该怎么用

02-01
Claude Code团队成员亲述:动态工作流该怎么用相关原文图片。
02-02
原文图片展示报道中的关键图示、截图或结果。
02-03
原文图片展示报道中的关键图示、截图或结果。
02-04
原文图片展示报道中的关键图示、截图或结果。
02-05
原文图片展示报道中的关键图示、截图或结果。
02-06
原文图片展示报道中的关键图示、截图或结果。
02-07
原文图片展示报道中的关键图示、截图或结果。
02-08
原文图片展示报道中的关键图示、截图或结果。
STORY 03 / 11

大晓机器人发布全球首个全屋三维可交互世界模型

03-01
大晓机器人发布全球首个全屋三维可交互世界模型相关原文图片。
03-02
原文图片展示报道中的关键图示、截图或结果。
03-03
原文图片展示报道中的关键图示、截图或结果。
03-04
原文图片展示报道中的关键图示、截图或结果。
03-05
原文图片展示报道中的关键图示、截图或结果。
03-06
原文图片展示报道中的关键图示、截图或结果。
03-07
原文图片展示报道中的关键图示、截图或结果。
03-08
原文图片展示报道中的关键图示、截图或结果。
STORY 04 / 11

AI自进化过快,Anthropic呼吁全球中止研发

04-01
AI自进化过快,Anthropic呼吁全球中止研发相关原文图片。
04-02
原文图片展示报道中的关键图示、截图或结果。
04-03
原文图片展示报道中的关键图示、截图或结果。
04-04
原文图片展示报道中的关键图示、截图或结果。
04-05
原文图片展示报道中的关键图示、截图或结果。
04-06
原文图片展示报道中的关键图示、截图或结果。
04-07
原文图片展示报道中的关键图示、截图或结果。
04-08
原文图片展示报道中的关键图示、截图或结果。
STORY 05 / 11

过程比结果更危险:从模型到Harness,AI Agent的下半场该如何评测安全?

05-01
过程比结果更危险:从模型到Harness,AI Agent的下半场该如何评测安全?相关原文图片。
05-02
原文图片展示报道中的关键图示、截图或结果。
05-03
原文图片展示报道中的关键图示、截图或结果。
05-04
原文图片展示报道中的关键图示、截图或结果。
05-05
原文图片展示报道中的关键图示、截图或结果。
05-06
原文图片展示报道中的关键图示、截图或结果。
05-07
原文图片展示报道中的关键图示、截图或结果。
05-08
原文图片展示报道中的关键图示、截图或结果。
STORY 06 / 11

进家大战已经打响,第一个跑出来的不是人形

06-01
进家大战已经打响,第一个跑出来的不是人形相关原文图片。
06-02
原文图片展示报道中的关键图示、截图或结果。
06-03
原文图片展示报道中的关键图示、截图或结果。
06-04
原文图片展示报道中的关键图示、截图或结果。
06-05
原文图片展示报道中的关键图示、截图或结果。
06-06
原文图片展示报道中的关键图示、截图或结果。
06-07
原文图片展示报道中的关键图示、截图或结果。
06-08
原文图片展示报道中的关键图示、截图或结果。
STORY 07 / 11

刺破成功率幻象,直面具身智能的「真灵巧」,机器人精细操作评测新范式来了!

07-01
刺破成功率幻象,直面具身智能的「真灵巧」,机器人精细操作评测新范式来了!相关原文图片。
07-02
原文图片展示报道中的关键图示、截图或结果。
07-03
原文图片展示报道中的关键图示、截图或结果。
07-04
原文图片展示报道中的关键图示、截图或结果。
07-05
原文图片展示报道中的关键图示、截图或结果。
STORY 08 / 11

首字延迟降低3.6倍!腾讯混元提出Stem稀疏注意力算法,长文推理加速新SOTA

08-01
首字延迟降低3.6倍!腾讯混元提出Stem稀疏注意力算法,长文推理加速新SOTA相关原文图片。
08-02
原文图片展示报道中的关键图示、截图或结果。
08-03
原文图片展示报道中的关键图示、截图或结果。
08-04
原文图片展示报道中的关键图示、截图或结果。
08-05
原文图片展示报道中的关键图示、截图或结果。
STORY 09 / 11

全球领先!许锦波团队率先跑通低通量de novo,11大靶点上实现90%成功率!

09-01
全球领先!许锦波团队率先跑通低通量de novo,11大靶点上实现90%成功率!相关原文图片。
09-02
原文图片展示报道中的关键图示、截图或结果。
09-03
原文图片展示报道中的关键图示、截图或结果。
09-04
原文图片展示报道中的关键图示、截图或结果。
09-05
原文图片展示报道中的关键图示、截图或结果。
09-06
原文图片展示报道中的关键图示、截图或结果。
09-07
原文图片展示报道中的关键图示、截图或结果。
09-08
原文图片展示报道中的关键图示、截图或结果。
STORY 10 / 11

模型也需要「睡觉」?CMU新论文让LLM在梦中「巩固记忆」

10-01
模型也需要「睡觉」?CMU新论文让LLM在梦中「巩固记忆」相关原文图片。
10-02
原文图片展示报道中的关键图示、截图或结果。
10-03
原文图片展示报道中的关键图示、截图或结果。
10-04
原文图片展示报道中的关键图示、截图或结果。
10-05
原文图片展示报道中的关键图示、截图或结果。
STORY 11 / 11

Claude的双面人生:在Anthropic内部卷生卷死,在用户面前躺平摆烂

11-01
Claude的双面人生:在Anthropic内部卷生卷死,在用户面前躺平摆烂相关原文图片。
11-02
原文图片展示报道中的关键图示、截图或结果。
11-03
原文图片展示报道中的关键图示、截图或结果。
11-04
原文图片展示报道中的关键图示、截图或结果。
11-05
原文图片展示报道中的关键图示、截图或结果。
11-06
原文图片展示报道中的关键图示、截图或结果。
11-07
原文图片展示报道中的关键图示、截图或结果。
11-08
原文图片展示报道中的关键图示、截图或结果。
这条新闻关注北大发布全球首个「自进化」5D世界模型EvoPhys-World。
项目主页: 智能下一站:从 “看见世界” 到 “撬动世界” 过去一年,世界模型成为 AI 领域最受关注的方向之一。
以 Genie3、Lingbot-World、Marble 等为代表的一系列工作,已经能够构建连续、逼真的虚拟世界,并支持智能体在孪生出的场景中进行观察、预测与漫游。
但一个关键问题始终存在: 这些世界大多仍然只能 “看”,不能真正 “动”。
也就是说,模型可以生成一个场景,可以让视角在场景中移动,却很难真正理解场景中物体的物理属性,更难让“人”或“机器人”与物体发生符合物理规律的交互。
轻轻一推,杯子会滑走、晃动,还是翻倒?
伸手一拿,物体会被顺利拿起,还是从手中滑落?
拉开抽屉时,里面的物品会不会跟着移动?
按下会议室门口开关,灯光会不会随之亮起或熄灭?
换一个力度、角度,会不会产生不同的反馈?
“反物理” 事实推演生成 如果世界模型只能生成 “可观看” 的世界,那么它更像是一个视觉播放器;
而如果世界模型能够理解动作、物体、接触、因果与反馈,它才有机会成为机器人和智能体的 “世界引擎”, 从 “看见世界” 到 “撬动世界”。
这条新闻关注Claude Code团队成员亲述:动态工作流该怎么用。
该功能允许 Claude 根据具体任务即时编写定制化执行框架,协调多个子 Agent 并行工作,解决大规模、高并行、对抗性任务中的系统性失效问题。
近日,Anthropic 工程师 Thariq 发了篇长文,分享了他最初的工作流经验和心得。
在深入技术细节之前,Thariq 先提供了一些示例提示,来让我们理解工作流的潜力: - 「这个测试可能每 50 次运行失败一次。
设置一个工作流,重复运行测试,形成假设,并在工作树中对其进行对抗性验证 / 目标:不停尝试,直到有一个假设成功。
」 - 「使用工作流,回顾我最近的 50 次会话,挖掘我反复犯的错误,并将这些重复性问题生成 CLAUDE.md 规则。
」 - 「用工作流翻查过去六个月 Slack 的 incidents 频道,找出反复出现、但还没有人提交工单的根本原因。
」 - 「拿我的商业计划,运行一个工作流,让不同的 Agent 从投资者、客户和竞争对手的角度进行拆解。
这条新闻关注大晓机器人发布全球首个全屋三维可交互世界模型。
该技术突破了现有室内场景生成仅能覆盖单房间、缺乏全局一致性与可操作性的行业瓶颈,能够一键生成结构连贯、物理合理、功能完整的全屋三维场景。
具身智能的终极目标是走进千家万户,但家庭环境的高度复杂性与个性化,要求机器人必须在海量差异化真实场景中训练。
为此,研究团队同步开源全球规模最大、首个专为中国家庭打造的全屋 3D 数据集。
该数据集包含 30 万套中国真实住宅平面图与 5 千个完整带可交互家具和物体的仿真场景,覆盖全国各类典型家居户型,完整还原中国本土家庭居住特征。
此前,Figure AI 与 Brookfield 依托超 10 万套住宅单元训练机器人;相比之下,Kairos-HomeWorld 用可批量生成的中国家庭仿真场景降低训练成本。
与之相比,Kairos—HomeWorld在家庭机器人训练方面成本低、效率高。
依托模型就能批量生成多样化中国家庭仿真场景,以及自带物理交互属性的物体。
这条新闻关注AI自进化过快,Anthropic呼吁全球中止研发。
据 Anthropic 的内部数据显示, Claude 正在加速 AI 开发进程。
这可能意味着一条通向「递归自我改进」的路径正在出现,也就是 AI 能够自主参与构建一个比自己更强的后继模型。
这种变化发生得比原先预想得更快,其潜在影响值得更多关注。
简单来说,Anthropic 公开了一份迄今为止关于「AI 加速 AI 开发」最为详尽的内部报告。
这份报告参考的不是外部基准测试成绩,而是公司自身实际业务的工程指标、员工调查和内部实验数据。
报告的核心发现着实惊人:截至 2026 年 5 月,Anthropic 合并进代码库的代码中,超过 80% 由 Claude 编写;
在 2026 年第二季度,工程师的代码日产出量是 2024 年的 8 倍。
这条新闻关注从模型到 Harness,AI Agent 的下半场该如何评测安全。
这些问题当然重要,但在今天,它们已经不是唯一、甚至不再是最核心的问题。
真正被部署的 agent,并不是裸模型。
无论是 Claude Code 自动提交 PR、Codex 修复 issue,还是能够直接操作资金的客服助手,它们都运行在一个 execution harness 之中。
Harness 决定了模型能调用哪些工具、能访问哪些资源、信息如何在不同子 agent 之间流动、何时终止执行,以及系统如何处理错误恢复。
模型只是提出动作, 真正决定行为边界的是 harness 。
这意味着,很多真正危险的失败,已经不再发生在“最终回答”这一层,而是发生在执行过程本身。
一个看似“对齐良好”的模型,如果被放进权限边界松散的 harness 中,依然可能悄悄执行越权操作。
这条新闻关注进家大战已经打响,第一个跑出来的不是人形。
2026 年,这个问题变得愈发重要,它直接决定了一家具身智能公司能否靠自己的造血能力活下去,而不是永远等待下一轮融资。
与此同时,市场投票其实已经给出了一些结果。
其中最值得关注的一个现象是:在公认难度极高的家庭消费场景,已经有公司卖出了 25000 多台。
前段时间,他们的新产品 ——BabyAlpha A3 机器狗引发了不小的轰动。
不过,当时,很多行业讨论集中在参数本身:六颗国产芯片组成异构计算集群、端侧运行 70 亿参数大模型、感知系统全面升级。
这背后真正值得重新讨论的,可能不是某一款产品,而是整个具身智能行业的路线选择。
当机器人厂商开始「挤进家门」 不知道大家有没有注意到,最近,喊着要把机器人送进家庭的具身厂商,是越来越多了。
这条新闻关注刺破成功率幻象,直面具身智能的「真灵巧」。
针对这一问题,东南大学魏秀参教授、耿新教授和北京大学彭宇新教授团队提出精细操作元评测基座 MetaFine,从 understanding、perception 和 behavior 三个维度系统诊断具身智能体的操作能力。
MetaFine 不仅能够揭示传统成功率指标下被高估的能力幻象,还可兼容吸收不同机器人评测集,并通过真机-仿真混合评测辅助获得更稳定、更公平的真实能力估计。
该工作推动精细操作评测从“是否成功”的结果排名,走向“为何成功、为何失败”的能力诊断,为构建真正可靠、灵巧、可泛化的具身智能系统提供新的评测基础设施。
论文题为《Beyond Binary Success: A Diagnostic Meta-Evaluation Framework for Fine-Grained Manipulation》。
这条新闻关注首字延迟降低3.6倍!腾讯混元提出Stem稀疏注意力算法。
光标闪烁,模型却迟迟不吐出第一个字 —— 这段 "等待第一个字" 的过程,就是所谓的 预填充(Prefill)阶段。
它背后的瓶颈,是 Transformer 自注意力的二次方计算复杂度:输入越长,预填充越慢,且呈平方级增长。
稀疏注意力(Sparse Attention)是当下最主流的破局方向:只计算“重要”的 token,把不必要的算力省掉。
然而从算法到算子,现有方案都存在明显短板。
这条新闻关注全球领先!许锦波团队率先跑通低通量de novo。
对一个长期被认为“没有高通量就很难有收获”的领域来说,这意味着低通量、跨多靶点的实用级 de novo 纳米抗体发现,第一次被跑成了一条完整可复用的流程。
更重要的是,这样的成绩并不是靠「选简单靶点刷数据」实现的。
报告显示,MMDesign 在被公认为低通量场景下极难命中的浅层三聚体细胞因子 TNFα 上,实现了 14 选 7(50%)的命中率;
在部分 GPCR 等被视为抗体设计「深水区」的高难度靶点上,同样获得了高表达、低聚集且特异性良好的候选。
多数命中分子不仅亲和力达到纳摩尔甚至皮摩尔级别,还在 CHO 表达、SEC 单体比例和非特异性结合等可开发性指标上表现稳健。
支撑这一整套工作流的,是分子之心自研的全原子结构预测模型 MMFold。
在抗体–抗原结构预测的权威基准 FoldBench 上,MMFold 的 Top‑1 成功率达到 68.6%,显著高于当前公开的 AlphaFold 3 等主流系统,Top‑5 成功率进一步提升至 75.6%。
这条新闻关注模型也需要「睡觉」?CMU新论文让LLM在梦中「巩固记忆」。
但问题也随之而来:上下文越长,KV Cache 越臃肿,不仅导致显存瞬间被“吃光”,推理速度愈发缓慢,成本也迅速上升。
更关键的是,把更多 token 放进窗口,并不等于模型真的把信息转化成长期记忆,复杂推理任务仍会因为记不住细节而频频翻车。
这篇论文的题目言简意赅, 《Language Models Need Sleep》,也就是《语言模型需要睡眠》 。
当然,这里的「睡眠」不是真的睡眠,更准确地说, 是一种类似睡眠的「记忆巩固机制」 。
这条新闻关注Claude的双面人生:在Anthropic内部卷生卷死。
公司高层甚至喊话全球同行:兄弟们,要不要一起踩踩刹车?
这份报告的帖子浏览量已经冲破 500 万,讨论热度拉满。
然而,在工作能力进步的同时,摸鱼的水平越来越强大了。
Claude 就是一个典型的例子,似乎都已经学会了「向上管理」。
Reddit 社区上另一个帖子也在疯传。
标题特别朴素,朴素到带着一股怨气: 「Claude 现在完全不能用了」(Claude is completely unusable now)。
Claude 现在就是这么反差:表面上“精通十八般武艺,年产出 top 1%”,实际干活的时候,干了十分钟就开始收拾东西跟你说“今天差不多了吧”。
机器之心 AI News Digest

机器之心 · 2026.06.05 · 11 stories · 12:21

机器之心 AI News Digest

机器之心 2026.06.05 digest with 11 source-grounded stories, Chinese captions, synchronized narration, and source media panels.

Stories

  1. 0:00 - 1:36
    01. 北大发布全球首个「自进化」5D世界模型EvoPhys-World,基于摩尔线程全国产算力底座,以「人」为中心,实现场景级万物可控 Source
    - 近日,北京大学 EvoPhys 团队推出首个以 “人” 为中心的 “场景级万物可控” 5D 世界模型 EvoPhys-World,基于摩尔线程全国产算力底座,团队首次将 AI 生成世界从 “可观看、可漫游,浅交互” 的阶段,推进到 “可操纵…
  2. 1:37 - 2:54
    02. Claude Code团队成员亲述:动态工作流该怎么用 Source
    - 上周,Claude Code 发布了一个新能力: 动态工作流 。
  3. 2:54 - 4:16
    03. 大晓机器人发布全球首个全屋三维可交互世界模型 Source
    - 6月5日,大晓机器人联合香港中文大学多媒体实验室、深圳河套学院发布最新世界模型研究成果 Kairos-HomeWorld,这是全球首个实现全屋生成、个体物体全交互的世界模型统一框架。
  4. 4:17 - 5:21
    04. AI自进化过快,Anthropic呼吁全球中止研发 Source
    - 今天一早,Anthropic 又搞出一个大新闻。
  5. 5:21 - 6:24
    05. 过程比结果更危险:从模型到Harness,AI Agent的下半场该如何评测安全? Source
    - 关于 AI 安全的大部分讨论,长期以来都集中在模型本身。
  6. 6:25 - 7:33
    06. 进家大战已经打响,第一个跑出来的不是人形 Source
    - 编辑|张倩 现在市面上那么多机器人,有哪款是你真的愿意掏钱买回去的?
  7. 7:33 - 8:37
    07. 刺破成功率幻象,直面具身智能的「真灵巧」,机器人精细操作评测新范式来了! Source
    - 精细操作是具身智能迈向真实物理世界的关键能力,但现有评测往往只用 “成功 / 失败” 的二元指标衡量机器人表现,容易掩盖其在语义理解、精细感知和稳定执行中的真实短板。
  8. 8:37 - 9:17
    08. 首字延迟降低3.6倍!腾讯混元提出Stem稀疏注意力算法,长文推理加速新SOTA Source
    - 引言 当你把一篇数万字的长文档丢给大语言模型,点击发送后,是否经历过漫长的等待?
  9. 9:17 - 10:43
    09. 全球领先!许锦波团队率先跑通低通量de novo,11大靶点上实现90%成功率! Source
    - 在最新公开的一份技术报告中,AI 蛋白质设计平台公司分子之心宣布,他们构建的从头纳米抗体设计平台 MMDesign,在真实治疗靶点上跑通了一条此前几乎无人交卷的路线:在每个靶点仅实验测试 14–50 个候选分子的前提下,MMDesign 就在…
  10. 10:43 - 11:30
    10. 模型也需要「睡觉」?CMU新论文让LLM在梦中「巩固记忆」 Source
    - 很长一段时间,「长上下文」一直是各大模型厂商军备竞赛的焦点,从 128K 到 1M,再到更长的上下文窗口,业界已然形成一个固有认知,只要窗口足够大,模型就能记住更多内容,也就能处理更长…
  11. 11:30 - 12:21
    11. Claude的双面人生:在Anthropic内部卷生卷死,在用户面前躺平摆烂 Source
    - Anthropic 今天丢出了一份极其炸裂的内部报告:他们公司代码库里超过 80% 的代码是 Claude 写的,工程师人均产出翻了 8 倍,AI 独立完成任务的时长每四个月翻一番。