机器之心 AI NEWS DIGEST
2026 06 06
STORY 01 / 7

AI手机时代,Mobile Agent最缺是更真实的世界

01-01
PhoneWorld 研究主题封面,用于引出 Mobile Agent 环境问题。
01-02
原文图示展示从真实 App 使用轨迹恢复训练环境的思路。
01-03
PhoneWorld 构建流程图展示页面结构、PRD 和数据 schema 的生成。
01-04
原文图示展示 mock App 页面和功能路径示例。
01-05
原文图示呈现 PhoneWorld 的环境与评测信息。
01-06
原文图示展示 PhoneWorld 与其他环境或基线之间的对比。
01-07
PhoneWorld 论文信息图标出研究来源和论文地址。
STORY 02 / 7

视频AI卷向5分钟:全量开源,一次生成,正式告别「盲盒抽卡」

02-01
JoyAI-Echo 长音视频生成框架的文章封面。
源视频展示赛车角色在公路场景中的长片段。
源视频展示黑暗写实动作场景中的角色与环境一致性。
02-04
原文配图展示 JoyAI-Echo 的方法或编辑能力示例。
源视频展示手持自拍风格的街景 vlog 片段。
源视频展示室内人物口播生成效果。
02-07
原文配图展示 JoyAI-Echo 的更多结果或对比信息。
02-08
JoyAI-Echo 原文配图用于说明模型框架和开源项目。
黑暗动作生成视频展示多镜头长片段的内容生产潜力。
vlog 片段用于展示生活化场景下的生成质量。
室内口播生成视频用于收束音画一致性主题。
STORY 03 / 7

DeepSeek V4做数学证明,500倍成本优势:智能体系统刷新多项纪录

03-01
DeepSeek V4 与形式化数学证明主题封面。
STORY 04 / 7

大晓机器人联合南洋理工打通Physical AI全链路!PhysX-Omni补齐物理AI基建

04-01
PhysX-Omni 与 Physical AI 主题封面。
04-02
论文信息图展示 PhysX-Omni 的标题和项目来源。
04-03
原文图示展示 PhysX-Omni 的物理 3D 生成框架。
04-04
原文图示展示不同类型物理 3D 对象的生成示例。
04-05
原文图示展示 PhysXVerse 数据集或 PhysX-Bench 评测信息。
04-06
原文图示展示 PhysX-Omni 的生成资产或实验结果。
04-07
原文图示展示更多物理 3D 资产或评测结果。
STORY 05 / 7

刚刚,何恺明ResNet、YOLO获时间检验奖!CVPR 2026奖项出炉

05-01
CVPR 2026 奖项发布报道封面。
05-02
原文图示展示 CVPR 2026 投稿、审稿和相关统计。
05-03
原文图示展示 CVPR 社区中的计算资源使用情况。
05-04
原文图示展示 CVPR 2026 最佳论文获奖信息。
05-05
原文图示展示 ResNet 时间检验奖相关信息。
05-06
原文图示展示 YOLO 或相关时间检验奖信息。
05-07
原文图示展示 CVPR 奖项和论文列表的后续信息。
STORY 06 / 7

CVPR 2026|LLM会写3D视觉代码吗?清华联合智源用GeoCodeBench给出答案

06-01
GeoCodeBench 与 3D 几何视觉 coding 主题封面。
06-02
原文表格展示 GeoCodeBench 与其他基准的能力覆盖范围。
06-03
原文图示展示主流 LLM 在 GeoCodeBench 上的通过率。
06-04
GeoCodeBench 主页 leaderboard 展示最新模型排名。
06-05
原文图示展示 GeoCodeBench 的任务构建或评测流程。
STORY 07 / 7

大三本科生,一块老泰坦,拿下CVPR最佳学生论文提名

07-01
本科生主导论文获得 CVPR 最佳学生论文提名的报道封面。
07-02
原文截图展示 ChordEdit 获奖论文或奖项信息。
07-03
原文截图展示论文中关于 NVIDIA Titan 24GB GPU 的说明。
07-04
CVPR 2026 算力消耗统计图用于对比 ChordEdit 的低算力实验。
原文 GIF 展示 ChordEdit 图像编辑效果。
文章称,Mobile Agent 的下一道瓶颈,可能不是模型本身,而是缺少足够真实又可控的手机环境。
真实 App 虽然接近目标场景,却很难重置状态,也很难自动验证一次任务到底有没有完成。
PhoneWorld 的做法,是从真实截图和操作轨迹中恢复页面结构、导航路径和状态变化。
随后,系统把这些结构转成页面级 PRD、数据 schema 和组件,再交给 coding agent 自动实现 mock Android App。
这批 App 的重点不是只复刻外观,而是保留真实用户最常经过的页面和可执行交互路径。
对训练来说,可重置和可验证意味着同一任务可以反复执行,失败也可以被稳定复现。
文章的核心判断是,Mobile Agent 要继续 scaling,需要从更大的模型,走向更可靠的世界。
这件事真正重要的地方,是它把手机智能体评测从临时演示,推向可复现的工程基础设施。
文章称,AI 视频生成正在从二十秒以内的样片,卷向五分钟级的长音视频生成。
过去的难点是,一拉长到分钟级,同一角色容易跨镜头变脸,声音也可能漂移。
JoyAI-Echo 的核心卖点,是一次生成最长五分钟,并保持角色外观和说话音色稳定。
文章展示的黑暗动作片段里,角色服装、城市氛围和雨夜质感在频繁切换中保持统一。
另一个关键变化,是用户可以用自然语言做局部修改,不必改一个镜头就重跑整条视频。
vlog 示例强调的是真实感:手持自拍、走路晃动、街景和人物表情需要一起自然过渡。
在人物口播场景中,模型还要同时维持面部、口型、语音和室内光照的一致性。
文章还提到两档实时超分,最高可输出 1472×2560 分辨率的视频和精细化音频。
代码和权重已经公开,这让 JoyAI-Echo 不只是展示页面,而是可下载验证的开源框架。
如果这些能力在更多场景中成立,长视频生成就会更接近专业工作流,而不是靠反复抽卡挑结果。
不过,文章展示的是研究测评样例,真实商业制作还要看版权、成本、多角色和复杂剪辑约束。
这条新闻的重点,是长视频模型开始把时长、一致性和可编辑性放在同一张工程清单上。
文章称,AI 数学正在从证明稀缺,走向证明过剩,真正的瓶颈变成验证和理解。
普林斯顿团队提出 Goedel-Architect,用 DeepSeek-V4-Flash 驱动 Lean 形式化证明流程。
在 PutnamBench 的 672 道题上,文章称 Goedel-Architect 的通过率达到 75.6%。
更刺眼的是成本:Hilbert 跑完约需 17 万美元,而 Goedel-Architect 报道成本约为 294 美元。
Lean 的作用,是把每一步逻辑写成机器可检查的形式,让编译器拒绝有漏洞的证明。
这类系统的价值不只是生成答案,而是把数学 AI 接到可验证、可复核的工作流里。
但通过率和成本还要看模型版本、预算和题目分布,不能直接等同于完全解决数学验证。
这条新闻真正指向的是,数学智能体竞争开始从会不会证明,转向能不能低成本地被验证。
文章称,Physical AI 的关键基础设施,不只是 3D 模型好不好看,而是能不能被仿真和交互。
PhysX-Omni 面向刚体、可形变物体和关节物体,试图把三类物理对象放到统一生成框架里。
它建模的不是单纯外观,还包括绝对尺度、材料、运动学、可供性和语义描述。
文章说,系统采用新的几何表征,用 template-based RLE 高效表示高分辨率三维结构。
为了解决数据稀缺,团队还构建了 PhysXVerse,覆盖超过 8K 个物理 3D 资产。
PhysX-Bench 则从几何、尺度、材料、可供性、运动学和语义描述等维度评估生成结果。
这对机器人很重要,因为可用资产越接近真实物理,仿真训练和世界模型才越有基础。
不过,真正落地还要看仿真到现实的差距,以及这些资产能否支撑复杂机器人任务。
CVPR 2026 公布获奖论文,文章把奖项、投稿数据和时间检验奖放在一起做了现场报道。
今年大会收到 16092 篇投稿,接收 4071 篇,接收率为 25.3%。
文章还提到,今年论文数量比去年增长 23.71%,视觉研究规模继续扩大。
算力统计也被单独展示,文章说如今视觉研究已经是人均多块 GPU、工业界消耗更高。
最佳论文奖最终从 74 篇入围、15 篇决赛论文中产生,获奖方向包括动态场景重建。
更有历史感的是,何恺明参与的 ResNet 获得时间检验奖,说明残差网络仍是深度视觉的底层建筑。
YOLO 也获得时间检验奖,代表目标检测从研究原型走向实时系统的长期影响。
这条新闻的重点是,新奖项看前沿,时间检验奖则告诉我们哪些基础技术真正改变了视觉 AI。
GeoCodeBench 问的是一个更难的问题:大模型能不能把 3D 视觉论文真正写成可执行代码。
这个基准来自清华 AIR、北京智源、北大、南大等团队,包含 47 个仓库和 100 个问题实例。
论文原始评测里,即便是当时最强的 GPT-5,整体通过率也只有 36.6%。
最新 leaderboard 中,文章称 Claude Opus 4.7 以 49.4% 通过率排在第一。
这说明研究级几何代码仍然很硬,模型不仅要会写程序,还要读懂论文里的公式、约束和边界条件。
一篇本科生主导的 ChordEdit 论文,中稿 CVPR Oral,并拿到最佳学生论文提名。
文章称,ChordEdit 提出模型无关、无需训练、无需反演的一步式高保真图像编辑方法。
更有反差的是,作者说实验主要跑在一块 2018 年发布的 NVIDIA Titan 24GB GPU 上。
在 CVPR 算力消耗不断上涨的背景下,这篇论文显得很不一样。
这条新闻的看点,是低成本方法、年轻作者和视觉编辑效果,一起拿到了顶会认可。
机器之心 AI News Digest

机器之心 · 2026.06.06 · 7 stories · 7:33

机器之心 AI News Digest

机器之心 2026.06.06 digest with 7 source-grounded stories, Chinese captions, synchronized narration, and source media panels.

Stories

  1. 0:00 - 1:08
    01. AI手机时代,Mobile Agent最缺是更真实的世界 Source
    文章介绍腾讯混元联合港中深、人大高瓴、武汉大学等机构提出的 PhoneWorld,目标是为 Mobile Agent 构建更接近真实手机使用场景、同时可运行、可重置、可验证的 App 环境。
  2. 1:09 - 2:51
    02. 视频AI卷向5分钟:全量开源,一次生成,正式告别「盲盒抽卡」 Source
    文章介绍京东开源的长音视频生成框架 JoyAI-Echo,主打一次生成最长五分钟的视频,并在跨镜头角色一致性、音画同步、自然语言局部修改和实时超分上解决长视频生成的几个常见痛点。
  3. 2:52 - 3:58
    03. DeepSeek V4做数学证明,500倍成本优势:智能体系统刷新多项纪录 Source
    文章介绍普林斯顿团队提出的 Goedel-Architect 智能体框架,使用 DeepSeek-V4-Flash 进行 Lean 形式化定理证明,并在 PutnamBench 等任务上以极低成本取得高通过率。
  4. 3:58 - 5:05
    04. 大晓机器人联合南洋理工打通Physical AI全链路!PhysX-Omni补齐物理AI基建 Source
    文章介绍南洋理工大学、大晓机器人等团队提出的 PhysX-Omni,用于统一生成刚体、可形变物体和关节物体的 simulation-ready 物理 3D 资产,并配套 PhysXVerse 数据集和 PhysX-Bench 基准。
  5. 5:05 - 6:12
    05. 刚刚,何恺明ResNet、YOLO获时间检验奖!CVPR 2026奖项出炉 Source
    文章报道 CVPR 2026 获奖论文和大会数据,包括投稿规模、接收率、最佳论文奖项,以及 ResNet、YOLO 等长期影响力工作获得时间检验奖。
  6. 6:12 - 6:54
    06. CVPR 2026|LLM会写3D视觉代码吗?清华联合智源用GeoCodeBench给出答案 Source
    文章介绍清华 AIR、北京智源、北大、南大等团队构建的 GeoCodeBench,用 47 个仓库和 100 个问题实例评测大模型能否把 3D 几何视觉论文中的算法逻辑写成可执行代码。
  7. 6:54 - 7:33
    07. 大三本科生,一块老泰坦,拿下CVPR最佳学生论文提名 Source
    文章介绍论文 ChordEdit: One-Step Low-Energy Transport for Image Editing 获得 CVPR 2026 最佳学生论文提名。