机器之心 AI NEWS DIGEST
2026 06 04
STORY 01 / 12

李飞飞讲清楚世界模型

01-01
世界模型定义争论主题图
01-02
世界模型不同方向关系图
生成场景示例动图
01-04
世界模型层级与行动关系
可交互世界变化示例
01-06
世界模型概念框架
01-07
世界模型定义仍需任务验证
STORY 02 / 12

谷歌 I/O 最大赢家不是谷歌

02-01
谷歌 I/O 与视频生成竞争主题
02-02
Gemini Omni Flash 功能说明
医疗解释生成视频样例
风格化场景与现实语境生成样例
真实地点人物讲解样例
数字分身与角色一致性样例
多场景人物连续编辑样例
02-08
Seedance 与 Omni Flash 对比信息
Seedance 2.0 与 Google Omni Flash 多场景对比
动漫风格生成对比样例
动作和功夫场景生成对比
人群和活动连续性样例
02-13
SynthID 水印与验证说明
人物动作短片生成样例
02-15
Gemini Omni 产品与上线信息
STORY 03 / 12

Vibe Working 轮到白领了

03-01
Vibe Working 主题封面
03-02
知识工作者进入 Agent 工作流
03-03
Kimi Work 办公任务界面
03-04
Kimi Work 官方入口与公告
03-05
本地 Agent 处理任务流程
Kimi Work 连续操作演示
03-07
Kimi Work 功能与设置界面
03-08
Kimi Work 任务结果界面
STORY 04 / 12

Gemma 4 12B 跑进笔记本

04-01
Gemma 4 12B 发布主题
04-02
Gemma 下载量与模型信息
04-03
Gemma 4 12B 模型定位与能力说明
Gemma 4 12B 语音输入编辑演示
04-05
Gemma 4 12B 架构与功能说明
04-06
本地运行与应用场景信息
Gemma 能力演示动图
STORY 05 / 12

Token 经济学定义 Agent 资源分配

05-01
Token 经济学主题封面
05-02
Token 消耗增长与资源压力
05-03
Token 经济学分析框架
05-04
计算与经济双视角
05-05
协作、安全与治理成本
05-06
智能体资源分配框架
05-07
Token 经济学未来方向
STORY 06 / 12

Agent 知不知道自己花了多少

06-01
预算意识 Agent 主题封面
06-02
内部预算与外部预算定义
06-03
BAGEN rollout-replay 评测协议
06-04
预算意识评测结果
06-05
预算预测表现与企业成本管理
STORY 07 / 12

NeurIPS AI 检测拒稿争议

07-01
NeurIPS AI 检测拒稿争议主题
07-02
Reddit 投稿人控诉截图
07-03
AI 检测器与拒稿流程说明
07-04
检测分数与拒稿逻辑争议
07-05
NeurIPS 政策与验证说明
07-06
检测器在审稿流程中的角色
07-07
AI 使用政策与程序公正讨论
07-08
个案争议仍需官方澄清
STORY 08 / 12

把论文改写成 Agent 原生研究包

08-01
Agent 原生研究包主题封面
08-02
论文题目与作者信息
08-03
传统 PDF 与 Agent 原生研究包对比
08-04
Agent 原生研究包结构
08-05
可执行研究流程组件
08-06
评审与复现交互流程
08-07
Agent 原生科研生态未来方向
08-08
论文范式转型仍在早期
STORY 09 / 12

OmniVTG 补齐开放世界语义盲区

09-01
OmniVTG 论文主题封面
09-02
视频时序定位问题设定
09-03
开放世界语义盲区示意
09-04
Self-Correction CoT 训练流程
09-05
OmniVTG 零样本性能结果
STORY 10 / 12

小鹏谈自动驾驶基座模型部署

10-01
小鹏 CVPR 自动驾驶主题封面
10-02
CVPR 具身智能基座模型部署研讨会
10-03
自动驾驶基座模型部署讨论
10-04
VLA 与世界模型技术路线
10-05
自动驾驶模型路线说明
10-06
车端模型与道路场景信息
10-07
自动驾驶量产落地与验证
10-08
自动驾驶基座模型路线仍需车队验证
STORY 11 / 12

MMDesign 让抗体发现可编程

11-01
MMDesign AI 抗体发现主题
11-02
抗体发现范式转变
11-03
MMDesign 生成-过滤设计流程
11-04
低通量湿实验验证流程
11-05
MMDesign 靶点成功率与亲和力结果
11-06
AI 生物药设计平台流程
11-07
AI 抗体发现仍需成药验证
STORY 12 / 12

打字正在变成古老技艺

12-01
语音输入与 Vibe Working 主题
12-02
Vibe Coding 与自然语言工作方式
12-03
语音转文本与工作流示例
手机端语音输入生成和修改消息
12-05
Mac Mini 麦克风问题讨论
语音输入与即时通讯示例
12-07
语音输入使用场景与限制
12-08
键盘与语音输入并存的界面
李飞飞这篇整理想解决的,是世界模型这个词到底在说什么。
文章指出,现在视频生成、机器人、强化学习和物理仿真都在使用同一个词,但含义并不相同。
一个能生成漂亮火焰的视频模型,未必理解火焰的物理过程。
而机器人真正需要的,是知道环境状态如何变化,以及行动会带来什么后果。
所以报道里的重点,是把视觉逼真、物理一致、可交互和可规划这几件事分开。
这对具身智能很关键,因为机器人评测不能只看画面,也要看模型是否支持真实行动。
文章的信号是,世界模型竞争会从谁的视频更像,走向谁的世界表示更能用。
但这仍是定义层面的澄清,最终还要靠可交互任务和机器人控制结果来验证。
谷歌 I/O 发布了 Gemini Omni Flash,但文章的标题说,最大赢家可能不是谷歌。
Gemini Omni Flash 支持视频、图像、音频、文本和草图输入,用自然语言生成和连续编辑视频。
医疗样例里,模型把膝盖结构和医生讲解放进同一个生成视频场景。
文章还强调模型要理解现实世界,不只是拼接画面,也要给出背景、物理和文化语境。
另一类样例是人物和地点的真实感生成,把讲解者放到街景中。
数字分身和角色一致性也是重点,视频里同一角色短时间内保持外观和表情连贯。
更长的连续编辑样例展示同一个人物跨攀岩、街头、侦探和宠物场景切换。
但文章真正想比较的是 Seedance 2.0 和 Google Omni Flash 的公开样例。
对比视频里,动作、汽车、机场和人物近景都被放到上下两路画面里直接比较。
动漫风格样例说明,竞争不只在真实感,也在不同视觉风格和镜头语言。
动作场景则考验身体运动、接触关系和镜头稳定性。
还有一段人群和活动场景,重点是多主体、遮挡和连续运动是否稳定。
谷歌的防线之一是 SynthID 水印,文章称生成视频内嵌不可见水印,方便验证来源。
短片展示了动作生成能力。
不过这些样例还不是严格基准,真实能力仍要看统一提示、成本、时长和版权治理。
Vibe Coding 之后,文章说下一个词可能是 Vibe Working。
背景是 Codex 将并入 ChatGPT,知识工作者正以很快速度进入 Agent 平台。
文章称,增长最快的不是程序员,而是做报告、数据和 PPT 的普通白领。
月之暗面推出的 Kimi Work,就是这条趋势下的本地通用 Agent 模式。
它面向的不是写代码本身,而是整理文件、分析材料、自动化工作流和生成交付物。
动图里可以看到,Agent 模式更像桌面工作助手,而不是传统聊天窗口。
这也解释了为什么企业 Agent 不只来自 OpenAI,Anthropic、Kimi 这类产品也在抢白领入口。
但真正落地还要看权限、文件安全、任务恢复和实际成功率。
Gemma 4 12B 的卖点,是把多模态智能体能力带到普通笔记本上。
文章称,Gemma 系列下载量突破 1.5 亿次,谷歌借这个节点推出新的 12B 成员。
它介于边缘 E4B 和 26B MoE 之间,目标是在较小内存里提供更强能力。
文章特别强调,这是谷歌首个支持原生音频输入的中等规模模型。
视频里的界面展示了本地任务、转写、摘要和编辑,不只是静态问答。
它还采用统一架构,让视觉和音频输入可以进入 LLM 主干,而不是依赖传统多模态编码器。
如果 16GB 本地运行成立,桌面 Agent 可以更少依赖云端,也更容易处理隐私敏感任务。
但真实体验还要看量化、硬件和延迟,12B 不会自动解决所有复杂任务。
Token 经济学这篇综述,把 Agent 的成本问题从工程层面推到经济层面。
文章说,现代 Agent 的记忆、规划、工具调用和自我修正,会让一次任务消耗大量 Token。
OpenRouter 数据被报道为,周 Token 处理量 15 个月内从 0.4 万亿涨到 27.0 万亿。
论文把 Token 重新定义为生产要素、交换媒介和记账单位。
这意味着推理加速不只是快不快,还要回答谁付费、怎样分配预算、怎样治理滥用。
在多 Agent 系统里,协作会带来额外通信和协调成本,安全防御也会消耗隐藏预算。
文章的价值,是给 Agentic AI 提供一套可定价、可扩展、可治理的共同语言。
但它仍是综述框架,不同平台上一个 Token 的价值和风险还需要重新标定。
BAGEN 研究问的是,Agent 会做任务,是否也知道自己要花多少钱。
文章把预算分成两类:模型生成消耗的内部预算,以及环境行动承诺的外部预算。
研究用 rollout-replay 协议,在四个环境和五个前沿模型上评估预算意识。
结论方向是,任务能力和成本感知并不是同一件事。
这对企业很直接:没有成本感知,Token 上限和 ROI 管理很难真正自动化。
NeurIPS 这条新闻的争议点,是 AI 检测器进入了拒稿流程。
发帖人称,自己的 Position Paper 投稿因为所谓违反 AI 使用政策被直接拒稿。
文章称,这个流程使用了 Pangram,一个闭源 AI 文本检测器。
问题在于,如果高检测分数被用来判断声明不一致,再用声明不一致证明拒稿,就可能形成循环论证。
NeurIPS 博客提到做过审计和测试,但投稿真实写作过程本身并没有 ground truth。
这让闭源检测器的角色变得敏感:它到底是辅助信号,还是事实上的裁决者。
对学术会议来说,AI 辅助写作已经很难完全禁止,透明流程比单一检测分数更重要。
但具体个案仍要等官方说明,报道目前更多呈现的是制度风险。
这篇文章抛出的问题很激进:如果论文主要由 AI 写、由 AI 读,还需要 PDF 吗。
作者团队有 37 人,来自 Stanford、Michigan、CMU、MIT 等机构。
他们认为,PDF 是为人类认知带宽设计的,但 AI 科学家需要可执行、可检查的研究对象。
Agent-Native Research Artifacts 想把问题、代码、数据、实验和评审线索组织成研究包。
这样 AI 不只是读摘要,而是可以直接运行实验、检查依赖、追踪结果。
对评审来说,这可能让复现从人工阅读变成更自动化的验证过程。
但这也带来新问题:格式标准、版本控制、安全执行环境和审计责任都要重新设计。
所以它更像一份科研基础设施宣言,而不是说 PDF 明天就会消失。
OmniVTG 关注的是开放世界视频时序定位里的语义盲区。
任务本身是根据自然语言查询,在未剪辑视频里定位事件起止时间。
文章说,现有数据集词汇覆盖窄,面对罕见概念时模型容易失效。
团队提出大规模 OmniVTG 数据集,以及 Self-Correction CoT 训练范式。
文章称,这缩小了罕见与常见概念差距,并提升多个基准上的零样本性能。
小鹏这条新闻讲的是自动驾驶基座模型怎样真正部署到车上。
文章称,CVPR 2026 首次设立具身智能基座模型部署研讨会。
现场代表包括特斯拉、Waymo、英伟达和小鹏,说明自动驾驶已进入基座模型落地讨论。
文章强调下一步不是 VLA 和世界模型二选一,而是把两者放进同一套真实道路系统。
VLA 负责把视觉、语言和行动连起来,世界模型则帮助预测未来场景和验证策略。
这也呼应小鹏过去几年的演进:从 BEV 感知,到 VLA 控车,再到基座模型部署。
真正难点仍是复杂道路里的稳定性、可验证性和长期安全表现。
所以这条新闻更像是路线信号,最终还要看量产车队数据来证明。
MMDesign 这条新闻讲的是,抗体发现能否从盲盒筛选走向可编程设计。
文章称,传统抗体发现要筛数百万到数十亿候选分子,成本和不确定性都很高。
MMDesign 采用生成-过滤策略,先生成大量候选,再用结构可靠性、序列自然性和界面评估压缩候选池。
文章称,每个靶点只让 14 到 50 个分子进入湿实验验证。
在 12 个高价值靶点中,11 个确认特异性结合,靶点成功率超过 90%。
这说明 AI 蛋白设计开始接近产业化干湿闭环,而不只是计算机上的漂亮结构。
但结合成功率还不是成药成功,稳定性、免疫原性、递送和生产工艺仍要继续验证。
这篇文章说,键盘可能正在从知识工作的默认入口,变成一种古老技艺。
原因是 Vibe Coding 和 Vibe Working 都在把自然语言变成代码、文档和任务执行。
当 AI 接手生成和执行,输入速度就开始受限于人能多快表达想法。
源视频里,手机端语音输入把口语指令转成可编辑文本,再继续修改消息。
这也解释了为什么 Mac Mini 没有内置麦克风,会突然变成 Vibe Coding 用户的真实痛点。
办公场景里,语音输入不仅是听写,还会成为 Agent 的任务启动方式。
不过语音也有边界:噪声、隐私、口音、编辑精度和办公礼仪都会影响使用。
所以键盘不会消失,但它可能从主要创作入口,变成精修和控制工具。
机器之心 AI News Digest

机器之心 · 2026.06.04 · 12 stories · 11:27

机器之心 AI News Digest

机器之心 2026.06.04 digest with 12 source-grounded stories, Chinese captions, synchronized narration, and source media panels.

Stories

  1. 0:00 - 0:57
    01. 李飞飞讲清楚世界模型 Source
    文章整理李飞飞与 World Labs 团队对世界模型的定义,强调当前领域混用概念,需要区分视觉生成、可交互仿真、物理引擎和能支持行动的世界表示。
  2. 0:58 - 2:44
    02. 谷歌 I/O 最大赢家不是谷歌 Source
    文章从谷歌 I/O 的 Gemini Omni Flash 发布讲起,随后用多段 Seedance 2.
  3. 2:44 - 3:38
    03. Vibe Working 轮到白领了 Source
    文章从 Codex 并入 ChatGPT 讲到 Kimi Work,认为 Coding Agent 的能力正在迁移到报告、文件、数据分析和工作流自动化等白领日常任务。
  4. 3:38 - 4:36
    04. Gemma 4 12B 跑进笔记本 Source
    文章称,谷歌在 Gemma 下载量突破 1.
  5. 4:36 - 5:35
    05. Token 经济学定义 Agent 资源分配 Source
    文章介绍浙大与阿里云等机构的综述 Token Economics for LLM Agents,把 Token 重新定义为生产要素、交换媒介和记账单位,研究 Agent 系统中的计算、协作和治理成本。
  6. 5:35 - 6:08
    06. Agent 知不知道自己花了多少 Source
    文章介绍 BAGEN,把预算意识定义为智能体独立能力,并用 rollout-replay 协议评测模型是否知道执行任务时将消耗多少内部和外部预算。
  7. 6:08 - 7:05
    07. NeurIPS AI 检测拒稿争议 Source
    文章报道 NeurIPS 2026 Position Paper Track 使用闭源 AI 文本检测器 Pangram 辅助 desk rejection,引发投稿人对循环论证、验证数据和程序公正的质疑。
  8. 7:05 - 8:04
    08. 把论文改写成 Agent 原生研究包 Source
    文章介绍 The Last Human-Written Paper: Agent-Native Research Artifacts,37 位学者提出把面向人类阅读的 PDF 论文,改造成 AI 能直接执行、检查和复现实验的研究包。
  9. 8:04 - 8:37
    09. OmniVTG 补齐开放世界语义盲区 Source
    文章介绍北大和华为团队的 OmniVTG 数据集与 Self-Correction CoT 训练范式,用于开放世界视频时序定位,目标是缓解罕见概念语义盲区。
  10. 8:38 - 9:35
    10. 小鹏谈自动驾驶基座模型部署 Source
    文章称,小鹏第三次登上 CVPR 演讲台,在具身智能基座模型部署研讨会上讨论自动驾驶下一步不是 VLA 与世界模型二选一,而是要面向量产场景组合落地。
  11. 9:36 - 10:31
    11. MMDesign 让抗体发现可编程 Source
    文章称,分子之心发布 AI 生物药从头设计平台 MMDesign,用生成-过滤策略和 MMFold 结构预测,在十多个高价值靶点上以低实验通量完成纳米抗体设计验证。
  12. 10:31 - 11:27
    12. 打字正在变成古老技艺 Source
    文章把 Vibe Coding、Vibe Working 和语音输入连接起来,认为当 AI 承担更多生成和执行工作时,键盘输入可能不再是知识工作的默认入口。