机器之心 AI NEWS DIGEST
2026 06 29
STORY 01 / 12

百亿真实数据,首个面向AI Infra的运维智能体评测基准正式开源

01-01
首个智算运维智能体评测基准封面。
01-02
AISHPerf 问题类型与评测框架示意图。
01-03
AISHPerf 开源与数据规模信息长图。
01-04
不同模型在故障诊断任务上的柱状对比图。
01-05
Benchmark 评分流程与 Agent 评测框架图。
01-06
问题类型、数据工程和任务构成示意图。
01-07
训练任务卡死案例的智能体排查流程图。
01-08
AIops-Chaos 项目能力和故障模拟类型截图。
01-09
AIops-Eval 任务执行与评测闭环图。
01-10
AISHPerf 榜单分数散点图。
01-11
多模型在运维问题上的柱状结果图。
01-12
运维基准综合结果的模型对比柱状图。
STORY 02 / 12

Nvidia都在点赞的LoopWM世界模型,竟然来自一家中国初创FaceMind?

02-01
Looped World Model 概念封面。
02-02
LoopWM 整体架构和参数效率曲线。
02-03
Adaptive early exit 的推理说明截图。
LoopWM 概念动画展示循环世界模型。
02-05
LoopWM 架构图和参数效率曲线。
02-06
Deferred decoding 任务效果对比截图。
LoopWM 视频中的场景生成与标题画面。
STORY 03 / 12

OMG多模态人形机器人运动生成框架:一句话、一段音乐即可操纵机器人完成全身动作

03-01
人形机器人做全身动作的封面画面。
03-02
OMG 论文标题和作者信息。
03-03
OMG 系统总览与多模态动作生成示意图。
03-04
不同输入条件下的人形机器人动作示例。
机器人根据文本提示向前行走。
机器人根据音乐条件做全身动作。
03-07
OMG-DiT 模型结构图。
03-08
OMG-DiT 模型规模和 MPJPE 关系图。
人形机器人在真实场地里完成多种动作。
STORY 04 / 12

AI助手不该只等人提问:清华团队两项新研究,探索理解用户与适时互动

04-01
人与数字助手的概念封面图。
04-02
EgoIntrospect 论文标题页。
04-03
EgoIntrospect 视频流与内在状态推理示例图。
EgoIntrospect 的视频标注与问题界面。
04-05
IPIBench 论文标题页。
04-06
IPIBench 标注和评估框架图。
IPIBench 页面展示连续监控和任务覆盖。
IPIBench 场景视频展示主动提醒时机。
04-09
IPIBench 任务流和主动互动场景示例图。
STORY 05 / 12

登顶权威榜单!无界动力发布全球首个「长时序双向物理因果链」隐空间世界模型 MWA™

05-01
RoboCasa GR1 Tabletop SOTA 封面图。
05-02
隐空间世界模型与动作因果链示意界面。
05-03
MWA 模型结构图。
05-04
MWA 在 RoboCasa GR1 Tabletop 的榜单卡片。
05-05
多任务成功率对比结果截图。
05-06
多个机器人操作任务场景九宫格。
机器人桌面操作 GIF。
机器人床边整理操作 GIF。
05-09
真实机器人实验室操作场景。
STORY 06 / 12

给Transformer变个形,LLM竟能变得更聪明

06-01
Tapered LM 封面图。
06-02
沿模型深度平滑重新分配 MLP 宽度的图示。
06-03
研究者社交媒体介绍截图。
06-04
Taper range 和 perplexity 结果截图。
06-05
层更新方向与残差流对齐曲线图。
STORY 07 / 12

OceanBase发布湖库一体AI数据库:让Agent真正“读懂”企业

07-01
OceanBase 湖库一体 AI 数据库发布现场。
07-02
OceanBase 湖库一体 AI 数据库架构说明屏幕。
07-03
下一代 AI 时代 OceanBase 发布现场屏幕。
07-04
OceanBase 面向 AI 时代产品家族现场图。
07-05
OceanBase 数据能力架构说明屏幕。
07-06
OceanBase AI 时代产品家族现场图。
07-07
下一代 AI 时代 OceanBase 发布现场。
STORY 08 / 12

国家队+千亿产业+头部财投集体入局,智平方200亿估值筑就大湾区具身智能名片

08-01
智平方活动现场照片。
08-02
智平方现场沟通和媒体活动照片。
08-03
人形机器人在工厂场景中操作。
08-04
多台人形机器人列阵图。
08-05
人形机器人规模化列阵图。
08-06
机器人操作台和机械执行场景。
08-07
工厂场景中的人形机器人操作。
08-08
智平方活动现场照片。
STORY 09 / 12

大湾区有了第一家估值破200亿的「具身大脑」,自变量达成融资奇迹

09-01
人形机器人封面图。
09-02
自变量发布现场图。
09-03
XRZero-GO 灵巧操作框架图。
09-04
机器人操作衣架场景图。
09-05
人类演示到跨本体策略迁移示意图。
09-06
自变量发布现场图。
09-07
机器人在真实场景中执行衣架操作。
09-08
人形机器人封面图。
STORY 10 / 12

ICML 2026|上智院、上交大、复旦联合提出FLAG扩散框架,还原空间转录组的基因-空间双重结构

10-01
空间转录组概念封面图。
10-02
FLAG 框架图。
10-03
FLAG 不同数据集上的指标结果截图。
10-04
Gene Dimension Curse 线图。
10-05
FLAG 论文标题页。
STORY 11 / 12

近80年后,埃尔德什经典「拉姆齐数下界」,被三位中国学者首次指数级改进

11-01
拉姆齐数主题插画封面。
11-02
大小为 3 的单色团示例图。
11-03
5 节点和 6 节点对比图。
11-04
保罗・埃尔德什照片。
11-05
拉姆齐数下界指数级改进论文首页。
STORY 12 / 12

Agentic AI迈过爆发拐点,亚马逊云科技解锁企业AI转型新路径

12-01
Agentic AI 爆发拐点演讲现场图。
12-02
亚马逊云科技峰会演讲现场。
12-03
Agentic AI 主题演讲现场。
12-04
亚马逊云科技 Agentic AI 峰会现场图。
12-05
Agentic AI 爆发拐点演讲现场。
12-06
亚马逊云科技峰会演讲现场。
12-07
Agentic AI 主题演讲现场。
12-08
亚马逊云科技 Agentic AI 演讲现场。
今天最硬核的一条来自 AI 基础设施:文章称,中国信通院推出首个面向 AI Infra 运维智能体的 AISHPerf 基准。
它的目标不是考模型会不会聊天,而是看智能体能不能在真实 GPU 集群里定位故障、调用工具并完成修复。
文章给出的背景是,AI 基础设施投资快速增长,但运维人力、故障损失和闲置资源正在吞掉大量成本。
无问芯穹的早期实践被描述为让工单平均处理时长缩短一半,关键故障处理效率提升约六倍。
基准从近百亿条真实运维数据中筛选,最终抽象出一百零三条高保真评测用例。
这些用例覆盖宿主机、高性能设备、容器平台、训推脚本、安全与运营商五大类问题。
难点在于,智能体只能拿到有限现象描述,需要自己复现问题、验证假设并找到根因。
配套的 AIops-Chaos 负责模拟 GPU 掉卡、显存错误、NVLink 故障和网络分区等集群异常。
评估体系还看综合得分、时延、Token 消耗和工具调用效率,而不只看答案是否像标准答案。
榜单图显示,人类专家仍处在明显优势位置,现有模型和 Agent 还有生产级差距。
多组柱状结果说明,不同模型在不同故障类别上的表现并不稳定,通用语言能力不能直接等价为运维能力。
这条新闻的关键,是 AI for Infra 开始有可复现的考试场,而不是只靠厂商案例判断智能体水平。
FaceMind 这篇 LoopWM 文章的核心,是让世界模型不只变大,而是学会在潜空间里多想几轮。
它用共享参数的循环 Transformer 块反复精炼潜状态,把迭代潜深度变成新的扩展轴。
传统世界模型每一步给固定计算量,而 LoopWM 试图让复杂状态多算几轮,简单状态提前退出。
视频里可以看到,模型用循环结构表达世界状态的持续演化,而不是一次性拍板下一帧。
文章还强调谱稳定性约束,避免循环越推越发散,这对长程 rollout 很关键。
Deferred Decoding 则让模型先在潜空间连续推演,需要输出时再解码,减少频繁解码带来的成本。
报道引用的实验称,约一十亿参数的 LoopWM 在 ScienceWorld 上取得 68.4% EM 和 85.3% Token F1。
这项工作最值得看的,是它把世界模型 scaling 从参数规模,扩展到更聪明的内部计算过程。
OMG 这篇机器人研究,想把一句话、一段音乐或者一段人类动作,直接变成人形机器人的全身运动。
论文标题是 Omni-Modal Motion Generation,重点是多模态输入,而不是单一动作指令。
系统把 OMG-Data、OMG-DiT 和机器人控制链路连在一起,从数据到模型再到实机动作。
文章展示了文本、音频、人类参考、组合条件和 VR 图片条件下的动作生成。
演示视频中,文本提示可以让机器人向前走,并在真实硬件上完成连续动作。
音频条件也能驱动全身节奏动作,让机器人跟随音乐做出更复杂的姿态变化。
从模型结构看,OMG-DiT 通过条件输入和扩散式生成来输出动作序列。
结果图强调,模型规模和数据条件会影响 MPJPE 等运动质量指标。
这项工作的意义,是把机器人控制接口推向更自然的人类语言和声音输入。
清华这两项研究讨论的是同一个方向:AI 助手不该只等人提问,而要理解用户状态和互动时机。
EgoIntrospect 关注第一人称视角下,模型能不能推理用户正在想什么、需要什么。
文章展示的样例把视频流、日常行为和用户内部状态标注连接起来。
对应视频里,研究者通过注释界面为第一人称片段标出观察和问题。
IPIBench 则进一步考察多模态大模型在连续流里是否能主动、适时地行动。
它把任务覆盖、连续监控和主动响应组织成一个评估流程。
第二个视频展示了从单轮监测走向连续互动的过程,以及模型何时应该发起提醒。
在场景样例里,模型需要判断何时建议关门、何时提示环境风险,而不是无条件插话。
这类基准的真正难点,是在有帮助和打扰之间找到边界,同时保护用户隐私和授权。
无界动力这条新闻,核心是发布面向机器人长时序操作的 MWA 隐空间世界模型。
文章称它主打长时序双向物理因果链,用来理解动作、环境和后续结果之间的关系。
模型结构上,MWA 把输入、编码器、解码器和损失模块组织成一条世界建模链路。
榜单图显示,在 RoboCasa GR1 Tabletop 上,MWA+WALA 的平均成功率为 75.2。
结果对比中,它在 TrayToPlate、PlateToPlate、PlateToBowl 等任务上和多种基线比较。
文章还展示了桌面、厨房和日常整理场景,说明任务不只停留在单一抓取。
GIF 里可以看到机器人在桌面上执行物品操作,强调真实物理交互。
另一组 GIF 展示床边整理任务,呈现更长时序、更生活化的动作链。
需要注意的是,报道来自公司发布,榜单和泛化能力仍要看公开复现和更多任务验证。
这篇 Tapered Language Models 研究问了一个很小但重要的问题:Transformer 每一层真的都该一样宽吗?
论文把 MLP 中间维度沿深度重新分配,让有些层更宽、有些层更窄,但总体参数和计算保持相近。
作者在社交截图中称,困惑度从 16.28 降到 14.44,同时参数和计算量不变。
结果截图显示,taper range 设为 1.50 到 0.50 时,cosine 配置的 perplexity 为 14.44。
它的启发是,LLM 架构优化不一定只靠堆规模,也可以调整每一层承担的计算容量。
OceanBase 这条新闻,讲的是湖库一体 AI 数据库,目标是让企业 Agent 真正读懂企业数据。
文章的基本判断是,企业 AI 不只缺模型,还缺统一、可治理、可调用的数据底座。
发布会强调的是下一代 AI 时代的 OceanBase,也就是把数据库能力和 Agent 应用场景绑定起来。
湖库一体的意义在于,让事务数据、分析数据和 AI 检索调用更接近同一个系统。
对企业来说,Agent 要回答复杂业务问题,必须先能访问可信数据、理解业务语义,并保持权限边界。
这也是数据库厂商转向 AI 基础设施的信号:数据平台本身正在成为智能体运行环境的一部分。
但它是否真能降低企业 Agent 落地成本,还要看真实客户负载、性能和治理案例。
智平方这条融资新闻,重点是约二百亿元估值,以及大湾区具身智能产业资本继续升温。
文章把它放在国家队、产业资本和头部财投集体入局的背景下理解。
具身智能融资的核心,不只是钱,而是机器人本体、感知、控制、供应链和场景资源能否协同。
配图中的机器人列阵,说明文章强调的是规模化能力,而不只是单机演示。
大湾区的优势在于制造、电子、汽车和资本密集,适合把具身智能从实验室推向生产线。
但融资故事最终要落到真实任务,机器人必须在工厂、物流和服务场景里稳定工作。
所以这条新闻的信号,是具身智能仍在拿到长期资本下注。
需要保留的疑问是,估值能否被量产交付、客户复购和安全可靠性支撑。
自变量这条融资新闻,关键词是估值破二百亿和具身大脑。
文章把它描述为大湾区具身智能赛道的代表公司之一。
所谓具身大脑,重点是让机器人在不同本体和任务之间迁移操作能力。
配图中的衣架操作,说明公司强调的是真实物理环境中的动作决策。
XRZero-GO 图还展示从人类演示到机器人执行的转移路径。
资本愿意给出高估值,说明通用机器人智能仍被视为长期基础设施机会。
但估值之外,真正需要验证的是数据闭环、任务成功率和规模化交付。
这条新闻反映的是,大湾区机器人公司正在从本体制造,继续向模型和策略层上探。
FLAG 这篇 ICML 研究,目标是用扩散模型还原空间转录组里的基因和空间结构。
它把空间图编码器、预训练基因基础模型和扩散模块组合在一起。
结果截图显示,FLAG 在 HER2ST 和 KIDNEY 数据集上的 PCC、GSC、SSC 等指标领先。
线图还显示,当基因数量增加时,FLAG 的 positive accuracy 下降更慢。
这条研究的意义,是把生成模型和空间结构约束一起放进生物数据预测任务。
这条研究新闻讲的是拉姆齐数下界,文章称三位中国学者带来了近八十年来的首次指数级改进。
拉姆齐数问的是,一个图大到什么程度,就不可避免地出现某种单色团。
图示里,想避开大小为三的单色团,五个节点还可以,六个节点就必然失败。
文章把这项工作放在埃尔德什概率方法的历史脉络里,它影响了离散数学和计算机科学。
最终论文题目写得很直接:An exponential improvement for Ramsey lower bounds。
亚马逊云科技这条新闻,把 Agentic AI 描述为已经跨过爆发拐点。
文章的核心不是单个模型发布,而是一套企业生产级智能体落地方法。
它强调五个维度:业务结果、企业数据、Agentic 平台、信任治理和组织协作。
技术栈则从基础设施、模型、数据知识、Agent 平台一路到应用层。
文章还提到白皮书和开源资源,试图把评估、开发、上线和持续监控变成标准流程。
案例层面,报道列举小鹏、影石、Kimi 和猎豹移动等中国企业实践。
它反映出云厂商正在把 Agent 从工具调用,推向平台治理和组织流程重构。
但这些价值主张仍需要客户项目的成本、效果和安全治理数据来验证。
机器之心 AI News Digest

机器之心 · 2026.06.29 · 12 stories · 10:24

机器之心 AI News Digest

机器之心 2026.06.29 digest with 12 source-grounded stories, Chinese captions, synchronized narration, and source media panels.

Stories

  1. 0:00 - 1:32
    01. 百亿真实数据,首个面向AI Infra的运维智能体评测基准正式开源 Source
    文章称,中国信通院推出 AISHPerf 智算运维智能体评测基准,无问芯穹作为重点技术支持单位参与建设,基准来自近百亿条真实运维数据,并抽象出高保真评测用例。
  2. 1:33 - 2:32
    02. Nvidia都在点赞的LoopWM世界模型,竟然来自一家中国初创FaceMind? Source
    文章介绍 FaceMind Research Asia 的 Looped World Model,称其用参数共享的循环 Transformer 块反复精炼潜状态,把迭代潜深度作为世界模型新的扩展轴。
  3. 2:33 - 3:31
    03. OMG多模态人形机器人运动生成框架:一句话、一段音乐即可操纵机器人完成全身动作 Source
    文章介绍清华团队 OMG 框架,目标是把文本、音频、人类动作和组合条件转成泛化人形机器人的全身运动控制。
  4. 3:31 - 4:28
    04. AI助手不该只等人提问:清华团队两项新研究,探索理解用户与适时互动 Source
    文章介绍清华团队围绕主动式 AI 助手的两项研究:EgoIntrospect 关注用户中心的内在状态推理,IPIBench 评估多模态大模型在连续流中的互动主动性。
  5. 4:29 - 5:27
    05. 登顶权威榜单!无界动力发布全球首个「长时序双向物理因果链」隐空间世界模型 MWA™ Source
    文章称无界动力发布 MWA 隐空间世界模型,强调长时序双向物理因果链,并展示其在 RoboCasa GR1 Tabletop 等机器人操作任务上的表现。
  6. 5:27 - 6:06
    06. 给Transformer变个形,LLM竟能变得更聪明 Source
    文章介绍 Tapered Language Models,核心是把 Transformer 层宽做成前后逐步变化的 tapered 结构,而不是每层保持相同 MLP 中间维度。
  7. 6:06 - 6:56
    07. OceanBase发布湖库一体AI数据库:让Agent真正“读懂”企业 Source
    文章报道 OceanBase 发布湖库一体 AI 数据库,主张企业 Agent 要真正读懂企业,需要把事务、分析、湖仓和 AI 数据能力放进统一数据底座。
  8. 6:56 - 7:48
    08. 国家队+千亿产业+头部财投集体入局,智平方200亿估值筑就大湾区具身智能名片 Source
    文章报道智平方完成新一轮融资并达到约 200 亿元估值,强调国资、产业资本和头部财务投资方共同入局大湾区具身智能。
  9. 7:48 - 8:32
    09. 大湾区有了第一家估值破200亿的「具身大脑」,自变量达成融资奇迹 Source
    文章报道自变量完成融资并被称为大湾区估值破 200 亿的具身大脑公司,重点围绕其通用机器人智能、XRZero-GO 和场景扩展能力。
  10. 8:32 - 9:04
    10. ICML 2026|上智院、上交大、复旦联合提出FLAG扩散框架,还原空间转录组的基因-空间双重结构 Source
    文章介绍 FLAG 扩散框架,用 latent diffusion alignment 和图结构建模来预测空间基因表达,目标是同时还原基因和空间结构。
  11. 9:05 - 9:36
    11. 近80年后,埃尔德什经典「拉姆齐数下界」,被三位中国学者首次指数级改进 Source
    文章介绍三位中国学者对拉姆齐数下界的改进,称其在埃尔德什经典概率方法近八十年后带来首次指数级提升。
  12. 9:36 - 10:24
    12. Agentic AI迈过爆发拐点,亚马逊云科技解锁企业AI转型新路径 Source
    文章报道亚马逊云科技中国峰会围绕 Agentic AI 展开,称模型能力和 Agentic 工程体系形成飞轮,企业 AI 正进入生产级落地阶段。