机器之心 AI NEWS DIGEST
2026 06 22
STORY 01 / 10

告别单科专家:EEVEE 试图让 Agent 在测试时持续进化

01-01
EEVEE 蓝色狐狸标志封面图。
01-02
EEVEE 论文标题页展示测试时提示学习主题。
01-03
三类任务卡片展示 Formula、HumanEval 与 GPQA Diamond 示例。
01-04
多任务实验柱状图对比 EEVEE、ACE 与 GEPA。
01-05
基准结果表格列出 GPQA、Formula、TheoremQA、HumanEval 和平均分。
01-06
Token 使用量柱状图展示输入和输出 token 消耗。
01-07
EEVEE 标志图作为框架主题收束画面。
STORY 02 / 10

PAIWorld 登顶 WorldArena:具身世界模型基准的新排名

02-01
WorldArena 排名表中,PAIWorld 位列第一。
02-02
WorldArena 指标表展示六类评测维度。
02-03
PAIWorld 方法流程图展示多视角输入到 world latent 的路径。
桌面物体 GIF 展示多视角连续生成效果。
小车和桌面物体场景展示模型对空间关系的生成。
02-06
WorldArena 排名表提供榜单背景和分数。
STORY 03 / 10

TerminalWorld:用真实终端录像构建 CLI Agent 基准

03-01
TerminalWorld 封面写有 Real-World Tasks, Real Impact。
03-02
Asciinema 终端录制截图展示人类终端会话记录。
03-03
TerminalWorld 数据构建流程图展示四个主要步骤。
03-04
散点图对比 Terminal-Bench 与 TerminalWorld 通过率。
STORY 04 / 10

MiniT2I:何恺明团队重新审视像素空间文生图

04-01
彩色幻想山景图作为文生图故事封面。
04-02
架构对比图展示 latent 路线和 pixel 路线的差异。
04-03
模型对比表列出 MiniT2I 与 PixelFlow、PixelDiT 等模型指标。
04-04
博客标题页写有 A Minimalist Baseline for Text-to-Image Generation。
STORY 05 / 10

TrustedARI:清华团队关注 AI 中转站的可信路由风险

05-01
TrustedARI 封面展示带锁的中转节点和服务图标。
05-02
攻击示意图标出 Privacy Leakage、Integrity Failure 和 Endpoint Misbinding。
05-03
红蓝对比图展示普通 AI 中转站和 TrustedARI 的差异。
05-04
TrustedARI 协议流程图展示三方 TLS 和可验证计费。
05-05
中文对比表比较传统 AI 中转站与 TrustedARI。
05-06
服务请求准确率表格展示标准 APIBank 与 TrustedARI 兼容模板对比。
STORY 06 / 10

Skill-3D:让三维场景智能体先判断需要什么证据

06-01
Skill-3D 方法对比图展示三维场景任务流程。
06-02
演示截图展示桌面场景问答和分割结果。
STORY 07 / 10

TACO:用拓扑一致性连接医学多模态 3D 影像

07-01
医学 AI 封面图展示 MRI 和医疗监测元素。
07-02
拓扑一致性图标出 caudate、white matter、gray matter 和 thalamus。
07-03
TACO 方法框架图展示两类 contrastive cluster。
07-04
嵌入可视化图比较多种医学影像预训练方法。
STORY 08 / 10

智子芯元两轮融资:AI for Computing 继续升温

08-01
蓝色芯片与数据中心封面表现 AI for Computing 主题。
STORY 09 / 10

LLM 正在重塑软件工程师的职业安全感

09-01
程序员制作木工件的封面图象征职业路径变化。
09-02
Hacker News 帖子截图显示 LLMs are eroding my software engineering career。
09-03
评论截图讨论领域经验和 LLM 对职业壁垒的影响。
09-04
Hacker News 长评论截图展示社区围绕工程经验的讨论。
09-05
封面图呈现软件工程师面对职业转型的个人视角。
STORY 10 / 10

从 57 场面试到 OpenAI offer:AI 研究岗位求职复盘

10-01
求职流程散点图展示多家公司面试阶段和结果。
机器之心报道,EEVEE 想解决的是一个真实部署问题:Agent 能不能在使用中继续变强。
这个框架来自上海交通大学和普林斯顿大学,目标是把测试时提示学习扩展到多任务连续适应。
文章称,EEVEE 会把执行过程中的提示、反馈和失败经验沉淀下来,供后续任务复用。
实验图把一个任务到四个任务放在一起比较,强调的不是单点刷分,而是跨任务迁移。
在表格中,EEVEE 在 Qwen3-4B 和 DeepSeek-V3.2 的平均分上都高于基线。
代价也要看清:文章同时给出 token 消耗图,说明自我改进会带来额外推理成本。
所以 EEVEE 的意义,是把 Agent 持续适应这个目标,变成了一个可以被实验检验的问题。
PAIWorld 登顶 WorldArena,文章把它放在具身世界模型评测的核心位置。
这个榜单不只看图像好不好看,还看运动、物理、三维准确性和可控性。
PAIWorld 的流程图显示,它把多视角图像、相机姿态和动作文本输入合到世界潜变量中。
文章展示的可视化结果强调一点:模型要在视角变化中保持物体和空间关系稳定。
这类能力对机器人和具身智能重要,因为规划系统需要能预测环境如何随动作变化。
不过,榜单第一仍不等于真实机器人闭环可用,长时序和真实控制还需要后续验证。
TerminalWorld 把代码智能体评测拉回真实终端工作流,而不是只看会不会写代码。
文章称,团队使用约八万条人类终端录像,覆盖部署、依赖、云资源和排障等任务。
流程图显示,数据从录像采集进入任务合成,再进入 Agent 执行和自动评测。
结果图说明,模型在传统终端基准上的表现,不一定能直接代表真实 CLI 工作流能力。
MiniT2I 的看点,是何恺明团队把文生图系统故意做简单。
文章称,它去掉 VAE、复杂条件注入、私有数据和 RL 对齐,直接在像素空间训练。
结果表显示,MiniT2I-B 和 MiniT2I-L 在 GenEval 与 DPG 上达到有竞争力的分数。
这篇工作的价值,不是宣布复杂系统过时,而是给文生图研究提供一个更干净的基线。
TrustedARI 关注的是一个不太显眼但很关键的问题:Agent 请求经过中转站时,到底还能不能被信任。
文章把风险拆成三类:提示词可能泄露,返回结果可能被改,服务端点也可能被冒充。
TrustedARI 的路线,是把中转层从靠平台承诺,改成能用协议证明。
协议图里,三方 TLS、隐私保护查询构造和可验证计费,是它想同时解决的核心环节。
中文对比表进一步说明,它试图覆盖数据可信、模型保障、内存完整性和 token 计费。
但这类基础设施能否落地,还要看性能开销、平台接入和企业是否愿意改造调用链。
Skill-3D 解决的是三维场景智能体的工具选择问题。
文章指出,不同问题需要不同证据:距离、方向、边界、深度和三维重建不能混用。
这个方法先读懂场景和问题,再决定应该调用哪一组技能。
这让它更接近真实机器人场景:不是会调用工具就够了,而是要知道为什么调用。
TACO 关注医学 3D 多模态影像中的一个老问题:不同模态外观不同,但解剖拓扑相对稳定。
文章称,它从实例级预训练转向群体级拓扑关系,利用脑部结构之间的稳定位置关系。
方法图显示,TACO 同时使用实例内和实例间的对比聚类来学习表征。
如果这类预训练有效,医学影像模型会更容易跨患者、跨模态迁移,但临床有效性仍需独立验证。
智子芯元两个月完成两轮融资,文章把它放在 AI for Computing 升温的大背景下。
报道认为,科学发现和工业生产的共同瓶颈,是如何把复杂世界转化为可计算的问题。
从 CPU、GPU 到集群,大规模计算已经支撑了 AI,但新的科学计算任务还需要更高层的平台能力。
这类公司瞄准的不是单一模型,而是药物、材料、制造和工程优化中的计算工作流。
但融资新闻不能直接证明技术领先,后续还要看公开产品、客户案例和可复现指标。
这篇文章不是模型发布,而是一个软件工程师对 LLM 冲击职业路径的自述。
Hacker News 截图中的原帖标题很直接:LLM 正在侵蚀我的软件工程职业生涯。
作者过去依赖领域知识、实现经验和代码能力建立壁垒,但这些壁垒正在被重新定价。
文章的价值在于,它把 AI Coding 的影响从工具效率,推进到职业身份和组织分工。
但这仍是个体案例,不同工程领域和公司对经验的需求不会同时、同速消失。
Alisa Liu 的求职复盘火了,是因为它把顶级 AI 研究岗位的流程摊开给大家看。
文章称,她经历五十七场面试,最终拿到 OpenAI 等公司的研究岗位 offer。
图中可以看到 Anthropic、OpenAI、Google、Meta、xAI 和 Cursor 等公司处在不同阶段。
她的研究方向包括 tokenization、数据创建和推理时适应,正好对应基础模型团队关心的问题。
不过这只是个人样本,不能代表所有 AI 公司招聘标准,但能看到顶级岗位的时间和心理成本。
机器之心 AI News Digest

机器之心 · 2026.06.22 · 10 stories · 6:38

机器之心 AI News Digest

机器之心 2026.06.22 digest with 10 source-grounded stories, Chinese captions, synchronized narration, and source media panels.

Stories

  1. 0:00 - 0:57
    01. 告别单科专家:EEVEE 试图让 Agent 在测试时持续进化 Source
    文章报道,上海交通大学和普林斯顿大学团队提出 EEVEE,一个面向 LLM Agent 的测试时提示学习框架。
  2. 0:58 - 1:45
    02. PAIWorld 登顶 WorldArena:具身世界模型基准的新排名 Source
    文章报道,中科院工业人工智能研究所 PAI Lab 的世界模型 PAIWorld 登顶 WorldArena 榜单。
  3. 1:45 - 2:16
    03. TerminalWorld:用真实终端录像构建 CLI Agent 基准 Source
    文章介绍 UCL、南京大学和腾讯团队的 TerminalWorld。
  4. 2:17 - 2:48
    04. MiniT2I:何恺明团队重新审视像素空间文生图 Source
    文章报道何恺明团队提出 MiniT2I,一个极简像素空间文生图模型。
  5. 2:48 - 3:38
    05. TrustedARI:清华团队关注 AI 中转站的可信路由风险 Source
    文章报道清华团队提出 TrustedARI,面向 Agentic AI Routing Infrastructure 的可信原生中转基础设施。
  6. 3:39 - 4:05
    06. Skill-3D:让三维场景智能体先判断需要什么证据 Source
    文章介绍浙江大学提出的 Skill-3D。
  7. 4:05 - 4:40
    07. TACO:用拓扑一致性连接医学多模态 3D 影像 Source
    文章报道上智院、华山医院等团队提出 TACO,一个医学 3D 多模态自监督预训练框架。
  8. 4:40 - 5:20
    08. 智子芯元两轮融资:AI for Computing 继续升温 Source
    文章报道国产 AI for Computing 公司智子芯元在两个月内完成两轮融资,并把叙事放在科学计算、工业计算和 AI 加速计算的交汇处。
  9. 5:21 - 5:59
    09. LLM 正在重塑软件工程师的职业安全感 Source
    文章围绕 Hacker News 上一篇软件工程师自述展开。
  10. 5:59 - 6:38
    10. 从 57 场面试到 OpenAI offer:AI 研究岗位求职复盘 Source
    文章报道华盛顿大学博士生 Alisa Liu 分享顶级 AI 公司研究岗位求职经历。