机器之心 AI NEWS DIGEST
2026 06 03
STORY 01 / 11

ChatGPT 与 Codex 合并了

01-01
ChatGPT 与 Codex 整合主题封面
Codex 入口与分享流程演示
01-03
OpenAI 发布中的产品更新信息
数据分析插件演示画面
01-05
岗位插件与工作场景信息
从业务问题到图表报告的演示
产品素材与页面生成演示
Sites 生成与权限分享界面
结构化数据批注与检查演示
01-10
数据分析结果与图表界面
01-11
创意制作插件生成内容
01-12
Sites 与 Codex 项目入口
01-13
结构化数据处理与批注界面
STORY 02 / 11

高通用计算连续体重搭智能体新基建

02-01
高通智能体新基建主题封面
02-02
COMPUTEX 智能体主题演讲画面
02-03
终端与设备生态相关画面
02-04
计算节点与系统能力说明
02-05
端侧 AI 与 PC 能力说明
02-06
数据中心与云端算力信息
02-07
端云协同与计算连续体场景
02-08
智能体应用与平台生态信息
02-09
边缘设备与机器人相关场景
STORY 03 / 11

OpenClaw 入驻 Windows

03-01
OpenClaw 与 Windows Agent 基础设施主题图
STORY 04 / 11

LLaVA-OneVision-2.0 全帧率技术解读

04-01
LLaVA-OneVision-2.0 技术解读封面
04-02
Codec-Stream 视频证据流框架
目标跟踪与分割连续演示
04-04
模型架构与视觉编码组件
04-05
开源资源与项目页面信息
04-06
视频、空间推理与跟踪评测摘要
04-07
多任务指标与 JumpScore 相关结果
连续帧事件变化示例
04-09
参考帧、运动向量与残差信息
04-10
视频理解与空间推理结果图
04-11
跟踪与事件理解结果图
04-12
模型项目与技术说明页面
STORY 05 / 11

Spirit v1.6 反超 Cosmos 3

05-01
Spirit v1.6 与 Cosmos 3 排名反超主题
05-02
RoboArena 榜单与评测信息
05-03
真实机器人任务评测说明
Spirit v1.6 与 Cosmos 3 打开笔记本对比
Spirit v1.6 与 pi 0.5 物体操作对比
05-06
机器人评测机制与能力说明
05-07
RoboArena 评测机制说明
05-08
具身模型任务对比信息
05-09
任务、排名与技术信息补充
05-10
RoboArena 榜单仍需持续验证
STORY 06 / 11

跨维智能登顶 WorldArena

06-01
跨维智能登顶 WorldArena 主题封面
06-02
WorldArena 榜单与排名信息
06-03
Track 2 数据引擎能力说明
机器人任务与世界模型相关演示
在线数据流式生成流程图
06-06
WorldArena 指标与任务流程信息
06-07
世界模型数据引擎与落地说明
06-08
WorldArena 榜单仍需持续验证
STORY 07 / 11

LingBot-VA 自回归因果世界模型

07-01
LingBot-VA 机器人世界模型封面
07-02
LingBot-VA 论文与项目主题
07-03
视频与动作 token 因果序列
07-04
视频预测与动作推理统一架构
07-05
视频专家与动作专家结构说明
07-06
长序列推理与效率机制
07-07
机器人任务实验结果
07-08
LingBot-VA 架构仍需跨场景验证
STORY 08 / 11

WorldCache 加速扩散世界模型

08-01
WorldCache 论文主题封面
08-02
WorldCache 方法总览
08-03
Token 曲率与分组策略
08-04
混沌优先自适应跳步机制
08-05
WorldCache 加速与质量对比结果
STORY 09 / 11

W-Flow 重写一步生成模型

09-01
W-Flow 一步生成模型封面
09-02
Wasserstein 梯度流训练流程
09-03
W-Flow 方法结构图
09-04
ImageNet 一步生成质量与计算量对比
09-05
W-Flow 实验结果与验证边界
STORY 10 / 11

SFT 底层机理与训练窗口

10-01
SFT 底层机理论文封面
10-02
SFT 争议与问题设定
10-03
SFT 有效窗口与交互指标
10-04
模型差异、训练窗口与样本容量
10-05
SFT 实验曲线与机制分析
10-06
交互指标与训练窗口验证结果
10-07
数据多样性与训练窗口分析
10-08
SFT 样本容量与能力风险总结
10-09
SFT 训练停止条件分析
10-10
SFT 与继续监督训练的边界
10-11
交互机理指标的验证结果
10-12
SFT 结论的适用范围
STORY 11 / 11

SynCell Asia 公布合成细胞十年路线图

11-01
SynCell Asia 合成细胞路线图封面
11-02
SynCell Asia 倡议与官网信息
11-03
合成细胞构建框架与关键模块
11-04
合成细胞路线图补充信息
OpenAI 这次把 ChatGPT 和 Codex 放到同一个入口里,文章称这是一次面向知识工作的产品合并。
它的含义不是少开一个应用,而是 ChatGPT 负责对话入口,Codex 负责把任务真正执行出来。
文章称 Codex 每周活跃用户已经超过 500 万,桌面版上线以来增长超过 6 倍。
更关键的是,知识工作者正在快速涌入,目前已经约占全部用户的五分之一。
所以 OpenAI 同时推出了六个角色插件,覆盖数据分析、创意制作、销售、产品设计、股权投资和投资银行。
数据分析插件的演示里,用户提出业务问题后,系统会读取数据、生成图表,并把结果组织成报告。
创意制作插件则把产品素材、文案和页面组织在一起,面向的是营销和设计团队的日常产出。
Sites 是另一条线,它让项目结果可以变成可分享的网页,而不只是停留在对话记录里。
Annotations 则把结构化数据、文档和批注拉进同一个执行闭环,让模型可以围绕具体内容继续工作。
这些更新合在一起,指向的是 ChatGPT 从问答产品变成企业任务界面。
对开发者来说,Codex 仍然是执行层;对更多岗位来说,它会被包装成更接近业务语言的插件。
这也解释了为什么 OpenAI 要把入口放回 ChatGPT:企业用户更熟悉聊天入口,也更容易从那里发起多步骤任务。
但报道里的能力仍要看实际开放节奏,尤其是权限、审计、数据隔离和执行失败时的恢复机制。
高通这次把智能体时代的重点放在基础设施,而不是某一个终端功能。
文章称,未来的智能体会持续运行、保留上下文,还会在后台规划和调用多个服务。
这就要求设备不只是响应人的点击,而是能在手机、PC、汽车、机器人和边缘之间分配任务。
高通给出的关键词是计算连续体,把不同层级的计算节点连成一套调度网络。
实时交互和隐私敏感任务更适合留在端侧,因为延迟和数据边界都更可控。
现场化任务可以交给边缘设备,复杂的大规模推理再交给数据中心。
这种叙事对高通很重要,因为它把芯片、连接、系统软件和生态能力放在同一条主线上。
对智能体应用来说,真正的门槛可能不只是模型多强,而是上下文怎样跨设备迁移、任务怎样低功耗执行。
不过这仍是厂商战略,是否能变成用户可感知的体验,还要看开发工具、终端成本和真实应用密度。
这条 OpenClaw 新闻讲的是 Agent 运行时终于补上了 Windows 这块拼图。
文章称,OpenClaw 的 Gateway 和 Node 现在可以原生跑在 Windows 上。
更重要的是,它集成了微软 MXC 安全框架,让 Agent 有进程隔离、身份标识和策略管控。
这说明 Windows 不只是能运行 Agent,而是开始给 Agent 提供生产环境里的安全边界。
报道还提到,微软 Scout 这类永远在线的 Agent,正是构建在 OpenClaw 框架之上。
明略科技的 Mano-CUAskill 则把 GUI 自动化接进 OpenClaw,让 Agent 可以看屏幕、动鼠标、跨应用执行任务。
而 Octo 被写成 Agent 协作网络,解决的是越来越多 Agent 之间怎样沟通和协作的问题。
这条新闻的信号是,Agent 竞争正在从模型和工具,扩展到操作系统、运行时和协作网络。
LLaVA-OneVision-2.0 的核心问题是,多模态模型能不能不用抽帧的方式看视频。
文章给出的答案是 Codec-Stream,把视频编码里的参考帧、运动向量和残差当成连续证据流。
这样模型不必平均观看每一帧,而是把注意力放到真正发生变化的位置和时刻。
报道称,OV2-8B 基于 Qwen3-8B 语言模型和自研 OneVision-Encoder。
它的训练流程、数据和权重都开源,文章同时给出技术报告、GitHub、模型和数据地址。
在评测上,文章称模型覆盖 18 项视频任务、11 项空间推理任务和 4 项跟踪任务。
自研 JumpScore 关注重复动作里的关键次数,比如模型是否记住第几次事件发生。
这和传统抽帧路线不同,因为抽帧很容易错过稍纵即逝的事件。
文章还把 Codec 解释成一种工程先验:可继承的部分写成状态,无法忽略的变化写成差分。
放到模型里,这就把视频拆成上下文和增量证据,而残差往往正是世界变化的位置。
如果这条路线成立,长视频理解可以少一些冗余观察,多一些事件级建模。
不过它仍需要在不同编码质量、不同帧率和真实视频噪声下验证稳定性。
NVIDIA 刚发布 Cosmos 3 一天后,文章称千寻智能 Spirit v1.6 就在 RoboArena 上反超。
这件事真正有意思的地方,是 RoboArena 不是普通静态跑分,而是真实机器人双盲对决。
文章把它类比成具身机器人版本的 LMArena,只是这里比的是现实任务完成能力。
第一组视频是打开笔记本,机器人要识别位置、判断接触点,再控制手和机械臂配合。
这类任务难在任何一个环节出错,笔记本都可能打不开,模型也很难只靠仿真跑分掩盖问题。
第二组视频展示物体操作,对比对象变成 pi 0.5,任务更像真实桌面上的精细控制。
文章认为,Spirit v1.6 的优势来自多任务执行、真实环境适应和泛化能力。
RoboArena 的机制包括分布式协作、双盲对决、Elo 动态排名和开放评测网络。
这让具身模型更接近真实任务压力,而不是只在固定数据集上展示漂亮数字。
如果这样的榜单持续更新,机器人基础模型的竞争会更像体育赛事,模型要不断接受新任务检验。
但排名领先不等于所有场景领先,真实机器人还要面对硬件差异、环境扰动和长期可靠性。
跨维智能这条新闻讲的是 WorldArena Track 2 榜首易主。
文章称,DSCFuncWorld 在最终榜单中登顶数据引擎赛道,并拉开了和第二名的差距。
这个赛道不主要看画面漂不漂亮,而是看模型能否生成可用于机器人任务的数据和策略线索。
源视频里可以看到机器人任务片段,重点是把世界模型输出接到真实操作流程。
另一段视频展示在线数据流式流程,说明数据合成、策略训练和任务评估被放在同一条链路里。
文章强调 WorldArena 包含 16 项细分指标和 3 大真实应用任务。
所以这里的信号是,世界模型正在从生成演示走向具身数据和训练闭环。
但榜单第一还不是商业落地,仍要看数据成本、虚实迁移和更多第三方任务验证。
LingBot-VA 这条研究新闻,试图让机器人一边预测未来画面,一边推断该怎么动作。
文章说,通用操作的难点不是只看懂当前画面,而是理解动作会怎样改变物理世界。
LingBot-VA 把视频 token 和动作 token 交错成同一个因果序列。
它不是直接学动作分布,而是先预测视觉世界如何演变,再从这些预测里推断动作。
架构上,文章提到一种混合 Transformer:高容量视频专家看场景变化,轻量动作专家负责解码动作。
为了处理长程任务,模型还利用 KV 缓存保留过去观察和动作历史。
文章称,它通过大规模视频学物理先验,再用少量机器人演示把先验转成动作能力。
真正要验证的是,这种视频先验能否跨机器人本体、摄像头视角和复杂任务稳定迁移。
WorldCache 要解决的是扩散世界模型推理太贵的问题。
文章称,它不重新训练模型,而是判断哪些 Token 可以缓存,哪些时刻必须重算。
方法用曲率把 Token 分成 Stable、Linear 和 Chaotic 三类,分别复用、外推或阻尼更新。
重算触发也不看全局平均,而是优先盯住最容易失稳的 Chaotic Token。
文章报告的结果是,视频世界模型近似无损提速 3.7 倍,且几乎不增加显存。
W-Flow 这篇论文想做的是,一步出图,但训练逻辑仍然像有原则的分布演化。
文章称,它不是把扩散模型蒸馏成一步,而是从头训练静态生成器。
核心工具是 Sinkhorn 散度和 Wasserstein 梯度流,让生成分布沿最优传输的下山方向移动。
报道最醒目的数字是,W-Flow-XL/2 在 ImageNet 256x256 上达到 1.29 FID。
但一步生成能否兼顾小众模式覆盖和训练稳定性,还需要更多数据集和独立复现。
这篇 SFT 文章要解决一个长期争议:监督微调到底是在增强模型,还是在伤害泛化。
作者把问题限定得很清楚:讨论的是高度同源、同质化数据上的 SFT。
在这种条件下,SFT 可能短时间有效,但继续训练很快会滑向过拟合。
文章提出要从交互机理看三个问题:哪些模型适用,训练窗口多长,最多能用多少样本。
这意味着后训练不应该只靠固定 epoch 或固定 loss 阈值来决定停止。
报道的关键判断是,不同 LLM 的最适宜窗口不同,需要一个可验证指标逐个模型判断。
如果数据更多样,单一数据类型上的训练速度会被稀释,窗口也可能相应拉长。
但在同质化数据上,继续堆样本和算力不一定带来收益,反而可能削弱基座能力。
这对工程团队很直接:SFT 不是默认越久越好,而是应该有提前设定的退出条件。
文章还提醒,基座模型上 SFT 和一般继续监督训练不能混为一谈。
所以它的价值,是把实践争议转成可以监控、可以验证的模型特定问题。
但这些结论主要针对同质化数据,面对高多样性指令数据和 RLHF 流程还需要单独验证。
SynCell Asia 这条新闻不是说人工细胞已经做成,而是公布了一条十年路线图。
文章称,中科院牵头,亚洲 100 多个课题组参与,目标是从头构建合成细胞。
路线图把难题拆成代谢能量、核糖体组装、膜和体积耦合,以及细胞周期同步。
这说明从一堆分子到一个可持续生长和分裂的系统,中间缺的是多模块协同。
因此它更像一份工程组织方案,真正突破还要看后续能否把能量、表达、膜生长和分裂同步起来。
机器之心 AI News Digest

机器之心 · 2026.06.03 · 11 stories · 12:39

机器之心 AI News Digest

机器之心 2026.06.03 digest with 11 source-grounded stories, Chinese captions, synchronized narration, and source media panels.

Stories

  1. 0:00 - 1:51
    01. ChatGPT 与 Codex 合并了 Source
    文章称,OpenAI 将在未来几周把 Codex 的核心能力直接整合进 ChatGPT,把对话入口、代码执行、岗位插件、Sites 和 Annotations 放进同一个工作流。
  2. 1:51 - 3:03
    02. 高通用计算连续体重搭智能体新基建 Source
    文章称,高通在 COMPUTEX 上把智能体 AI 的底层需求讲成一套计算连续体,连接可穿戴、手机、PC、汽车、机器人、边缘设备和数据中心。
  3. 3:04 - 4:07
    03. OpenClaw 入驻 Windows Source
    文章称,OpenClaw 的 Gateway 和 Node 已经可以原生运行在 Windows 上,并集成微软 MXC 安全框架,使 Windows 和 macOS 都成为 Agent 可持续运行的平台。
  4. 4:07 - 5:39
    04. LLaVA-OneVision-2.0 全帧率技术解读 Source
    文章介绍 LLaVA-OneVision-2.
  5. 5:39 - 7:10
    05. Spirit v1.6 反超 Cosmos 3 Source
    文章称,NVIDIA 刚发布 Cosmos 3 后,千寻智能 Spirit v1.
  6. 7:11 - 8:10
    06. 跨维智能登顶 WorldArena Source
    文章称,跨维智能的世界模型 DSCFuncWorld 登顶 WorldArena Track 2 数据引擎赛道,领先 WoW、BLM 等国际模型。
  7. 8:10 - 9:12
    07. LingBot-VA 自回归因果世界模型 Source
    文章称,蚂蚁灵波等机构提出 LingBot-VA,把视频动态预测和动作推理统一到自回归扩散框架中,用 50 条机器人数据解锁通用机器人操控。
  8. 9:12 - 9:48
    08. WorldCache 加速扩散世界模型 Source
    文章介绍 WorldCache,通过异构 Token 缓存和混沌优先自适应跳步,在不重新训练模型、几乎不增加显存的前提下加速扩散世界模型。
  9. 9:48 - 10:28
    09. W-Flow 重写一步生成模型 Source
    文章介绍斯坦福 W-Flow,用 Wasserstein 梯度流训练一步生成器,在 ImageNet 256x256 class-conditional 生成上报告 W-Flow-XL/2 达到 1
  10. 10:28 - 12:00
    10. SFT 底层机理与训练窗口 Source
    文章介绍论文 Reconciling Contradictory Views on the Effectiveness of SFT in LLMs,从交互机理角度解释高度同源、同质化数据上 SFT 的有效窗口、样本容量和失效原因。
  11. 12:00 - 12:39
    11. SynCell Asia 公布合成细胞十年路线图 Source
    文章称,中国科学院牵头的 SynCell Asia Initiative 在 Nature Biotechnology 发表评论文章,公布从头构建人工合成细胞的十年战略路线图。