STORY 01 / 11
STORY 02 / 11
STORY 03 / 11
STORY 04 / 11
STORY 06 / 11
STORY 09 / 11
STORY 11 / 11
这条新闻关注北大发布全球首个「自进化」5D世界模型EvoPhys-World。
项目主页: 智能下一站:从 “看见世界” 到 “撬动世界” 过去一年,世界模型成为 AI 领域最受关注的方向之一。
以 Genie3、Lingbot-World、Marble 等为代表的一系列工作,已经能够构建连续、逼真的虚拟世界,并支持智能体在孪生出的场景中进行观察、预测与漫游。
但一个关键问题始终存在: 这些世界大多仍然只能 “看”,不能真正 “动”。
也就是说,模型可以生成一个场景,可以让视角在场景中移动,却很难真正理解场景中物体的物理属性,更难让“人”或“机器人”与物体发生符合物理规律的交互。
“反物理” 事实推演生成 如果世界模型只能生成 “可观看” 的世界,那么它更像是一个视觉播放器;
而如果世界模型能够理解动作、物体、接触、因果与反馈,它才有机会成为机器人和智能体的 “世界引擎”, 从 “看见世界” 到 “撬动世界”。
这条新闻关注Claude Code团队成员亲述:动态工作流该怎么用。
该功能允许 Claude 根据具体任务即时编写定制化执行框架,协调多个子 Agent 并行工作,解决大规模、高并行、对抗性任务中的系统性失效问题。
近日,Anthropic 工程师 Thariq 发了篇长文,分享了他最初的工作流经验和心得。
在深入技术细节之前,Thariq 先提供了一些示例提示,来让我们理解工作流的潜力: - 「这个测试可能每 50 次运行失败一次。
设置一个工作流,重复运行测试,形成假设,并在工作树中对其进行对抗性验证 / 目标:不停尝试,直到有一个假设成功。
」 - 「使用工作流,回顾我最近的 50 次会话,挖掘我反复犯的错误,并将这些重复性问题生成 CLAUDE.md 规则。
」 - 「用工作流翻查过去六个月 Slack 的 incidents 频道,找出反复出现、但还没有人提交工单的根本原因。
」 - 「拿我的商业计划,运行一个工作流,让不同的 Agent 从投资者、客户和竞争对手的角度进行拆解。
这条新闻关注大晓机器人发布全球首个全屋三维可交互世界模型。
该技术突破了现有室内场景生成仅能覆盖单房间、缺乏全局一致性与可操作性的行业瓶颈,能够一键生成结构连贯、物理合理、功能完整的全屋三维场景。
具身智能的终极目标是走进千家万户,但家庭环境的高度复杂性与个性化,要求机器人必须在海量差异化真实场景中训练。
为此,研究团队同步开源全球规模最大、首个专为中国家庭打造的全屋 3D 数据集。
该数据集包含 30 万套中国真实住宅平面图与 5 千个完整带可交互家具和物体的仿真场景,覆盖全国各类典型家居户型,完整还原中国本土家庭居住特征。
此前,Figure AI 与 Brookfield 依托超 10 万套住宅单元训练机器人;相比之下,Kairos-HomeWorld 用可批量生成的中国家庭仿真场景降低训练成本。
与之相比,Kairos—HomeWorld在家庭机器人训练方面成本低、效率高。
依托模型就能批量生成多样化中国家庭仿真场景,以及自带物理交互属性的物体。
这条新闻关注AI自进化过快,Anthropic呼吁全球中止研发。
据 Anthropic 的内部数据显示, Claude 正在加速 AI 开发进程。
这可能意味着一条通向「递归自我改进」的路径正在出现,也就是 AI 能够自主参与构建一个比自己更强的后继模型。
这种变化发生得比原先预想得更快,其潜在影响值得更多关注。
简单来说,Anthropic 公开了一份迄今为止关于「AI 加速 AI 开发」最为详尽的内部报告。
这份报告参考的不是外部基准测试成绩,而是公司自身实际业务的工程指标、员工调查和内部实验数据。
报告的核心发现着实惊人:截至 2026 年 5 月,Anthropic 合并进代码库的代码中,超过 80% 由 Claude 编写;
在 2026 年第二季度,工程师的代码日产出量是 2024 年的 8 倍。
这条新闻关注从模型到 Harness,AI Agent 的下半场该如何评测安全。
这些问题当然重要,但在今天,它们已经不是唯一、甚至不再是最核心的问题。
无论是 Claude Code 自动提交 PR、Codex 修复 issue,还是能够直接操作资金的客服助手,它们都运行在一个 execution harness 之中。
Harness 决定了模型能调用哪些工具、能访问哪些资源、信息如何在不同子 agent 之间流动、何时终止执行,以及系统如何处理错误恢复。
模型只是提出动作, 真正决定行为边界的是 harness 。
这意味着,很多真正危险的失败,已经不再发生在“最终回答”这一层,而是发生在执行过程本身。
一个看似“对齐良好”的模型,如果被放进权限边界松散的 harness 中,依然可能悄悄执行越权操作。
这条新闻关注进家大战已经打响,第一个跑出来的不是人形。
2026 年,这个问题变得愈发重要,它直接决定了一家具身智能公司能否靠自己的造血能力活下去,而不是永远等待下一轮融资。
其中最值得关注的一个现象是:在公认难度极高的家庭消费场景,已经有公司卖出了 25000 多台。
前段时间,他们的新产品 ——BabyAlpha A3 机器狗引发了不小的轰动。
不过,当时,很多行业讨论集中在参数本身:六颗国产芯片组成异构计算集群、端侧运行 70 亿参数大模型、感知系统全面升级。
这背后真正值得重新讨论的,可能不是某一款产品,而是整个具身智能行业的路线选择。
当机器人厂商开始「挤进家门」 不知道大家有没有注意到,最近,喊着要把机器人送进家庭的具身厂商,是越来越多了。
这条新闻关注刺破成功率幻象,直面具身智能的「真灵巧」。
针对这一问题,东南大学魏秀参教授、耿新教授和北京大学彭宇新教授团队提出精细操作元评测基座 MetaFine,从 understanding、perception 和 behavior 三个维度系统诊断具身智能体的操作能力。
MetaFine 不仅能够揭示传统成功率指标下被高估的能力幻象,还可兼容吸收不同机器人评测集,并通过真机-仿真混合评测辅助获得更稳定、更公平的真实能力估计。
该工作推动精细操作评测从“是否成功”的结果排名,走向“为何成功、为何失败”的能力诊断,为构建真正可靠、灵巧、可泛化的具身智能系统提供新的评测基础设施。
论文题为《Beyond Binary Success: A Diagnostic Meta-Evaluation Framework for Fine-Grained Manipulation》。
这条新闻关注首字延迟降低3.6倍!腾讯混元提出Stem稀疏注意力算法。
光标闪烁,模型却迟迟不吐出第一个字 —— 这段 "等待第一个字" 的过程,就是所谓的 预填充(Prefill)阶段。
它背后的瓶颈,是 Transformer 自注意力的二次方计算复杂度:输入越长,预填充越慢,且呈平方级增长。
稀疏注意力(Sparse Attention)是当下最主流的破局方向:只计算“重要”的 token,把不必要的算力省掉。
这条新闻关注全球领先!许锦波团队率先跑通低通量de novo。
对一个长期被认为“没有高通量就很难有收获”的领域来说,这意味着低通量、跨多靶点的实用级 de novo 纳米抗体发现,第一次被跑成了一条完整可复用的流程。
更重要的是,这样的成绩并不是靠「选简单靶点刷数据」实现的。
报告显示,MMDesign 在被公认为低通量场景下极难命中的浅层三聚体细胞因子 TNFα 上,实现了 14 选 7(50%)的命中率;
在部分 GPCR 等被视为抗体设计「深水区」的高难度靶点上,同样获得了高表达、低聚集且特异性良好的候选。
多数命中分子不仅亲和力达到纳摩尔甚至皮摩尔级别,还在 CHO 表达、SEC 单体比例和非特异性结合等可开发性指标上表现稳健。
支撑这一整套工作流的,是分子之心自研的全原子结构预测模型 MMFold。
在抗体–抗原结构预测的权威基准 FoldBench 上,MMFold 的 Top‑1 成功率达到 68.6%,显著高于当前公开的 AlphaFold 3 等主流系统,Top‑5 成功率进一步提升至 75.6%。
这条新闻关注模型也需要「睡觉」?CMU新论文让LLM在梦中「巩固记忆」。
但问题也随之而来:上下文越长,KV Cache 越臃肿,不仅导致显存瞬间被“吃光”,推理速度愈发缓慢,成本也迅速上升。
更关键的是,把更多 token 放进窗口,并不等于模型真的把信息转化成长期记忆,复杂推理任务仍会因为记不住细节而频频翻车。
这篇论文的题目言简意赅, 《Language Models Need Sleep》,也就是《语言模型需要睡眠》 。
当然,这里的「睡眠」不是真的睡眠,更准确地说, 是一种类似睡眠的「记忆巩固机制」 。
这条新闻关注Claude的双面人生:在Anthropic内部卷生卷死。
公司高层甚至喊话全球同行:兄弟们,要不要一起踩踩刹车?
这份报告的帖子浏览量已经冲破 500 万,讨论热度拉满。
然而,在工作能力进步的同时,摸鱼的水平越来越强大了。
Claude 就是一个典型的例子,似乎都已经学会了「向上管理」。
标题特别朴素,朴素到带着一股怨气: 「Claude 现在完全不能用了」(Claude is completely unusable now)。
Claude 现在就是这么反差:表面上“精通十八般武艺,年产出 top 1%”,实际干活的时候,干了十分钟就开始收拾东西跟你说“今天差不多了吧”。