机器之心 AI NEWS DIGEST
2026 05 31
STORY 01 / 14

LeetCode C++近满分!Autogenesis要给智能体装上「自进化操作系统」

01-01
论文首页显示 Autogenesis 自进化智能体协议的标题、作者和项目地址。
01-02
架构图把可演化资源、执行应用和自进化控制层放在同一框架中。
01-03
GAIA 成绩表列出 Agent-Evo 与多个基线在不同难度上的准确率。
01-04
科学和数学基准表展示 GPQA、AIME、HLE 等任务上的成绩。
01-05
LeetCode 曲线按 Python3、C++、Java、Go 和 Kotlin 展示通过率与成本趋势。
01-06
协议图再次强调,资源注册、版本接口和闭环控制共同支撑可治理的自进化。
STORY 02 / 14

登顶HuggingFace日榜!英伟达清华团队γ-World:把世界模型从单机打到联机

02-01
项目页展示 Gamma-World 的论文标题、团队信息和多视角生成画面。
多视角动图展示几个玩家在同一生成世界中的同步视角。
02-03
结构图显示每个智能体的输入、动作和身份编码如何进入模型。
动图展示模型在交互场景中的生成过程,用来对应效率改进后的可运行效果。
多路视角动图显示模型在更多玩家条件下仍保持共享世界状态。
机器人场景动图展示 Gamma-World 在真实世界任务上的迁移示例。
STORY 03 / 14

李飞飞造了ImageNet,现在她又带人超越了它

03-01
论文首页显示 GPIC 数据集的标题、作者和视觉生成定位。
03-02
项目共一作者的推文展示 GPIC 发布和开放下载信息。
03-03
数据构建流程图从来源池和授权筛选开始。
03-04
数据统计图汇总 GPIC 的规模、来源占比和 Nano、Lite、Full 版本。
03-05
captioning 模型选择图比较标签、短、中、长描述下的得分。
03-06
评估图展示 FD-DINOv2 与传统 FID/参考集设置的差别。
03-07
JiT 基线表列出不同 CFG 下的 FD、Precision、Recall、Density 和 Coverage。
03-08
JiT 样例图展示参考基线在不同引导强度下生成的图像。
STORY 04 / 14

苹果用AI重新发明了图像压缩:同样画质,文件只要三分之一

04-01
论文标题图显示 PICO 所属的实时自适应图像压缩研究。
04-02
PICO 架构图展示编码器、熵模型、一次性上下文模型和解码器。
04-03
文字保真图对比无 TextFidelityLoss 和加入 TextFidelityLoss 后的路牌文字。
04-04
压缩对比图展示原图、PICO 和其他编解码器在相似码率下的细节差异。
04-05
指标对比表汇总 PICO 与传统和学习型编解码器的质量、速度和部署差异。
STORY 05 / 14

内存暴降50倍且精度无损,MIT提出注意力匹配,能终结大模型显存危机吗?

05-01
论文标题图显示 Fast KV Compaction via Attention Matching。
05-02
机制图展示参考查询、Key 选择和 Value/Bias 计算三步。
05-03
Head sensitivity 曲线显示不同注意力头对 KV 容量的敏感程度不同。
05-04
QuALITY 散点图比较压缩时间、准确率和不同 KV 压缩方法。
05-05
表格列出 Full Context、Summarize 和 Summarize 加 Attention Matching 的缓存占比与准确率。
STORY 06 / 14

只需几个抽象符号替代思维链,就能将推理成本压缩11倍

06-01
论文标题图显示 Thinking Without Words 与 Abstract Chain-of-Thought。
06-02
示例图对比自然语言思维链和抽象符号思维链。
06-03
训练流程图展示 warm-up loop 和 warm-started reinforcement learning。
06-04
主结果表列出数学、指令跟随和高难问答上的 token 数与成绩。
06-05
抽象 token 分布图显示模型训练后会重复使用某些符号模式。
STORY 07 / 14

DeepSeek陈德里AI论文第二弹:从6分到8分,DeliAutoResearch SKILL又进化了

07-01
陈德里推文写到第二篇 DeliAutoResearch SKILL 论文发布,并提到模拟评审提升。
07-02
论文首页显示持续学习与自我迭代综述的题名和作者信息。
07-03
生产统计表对比第一篇和第二篇自动科研论文的评分与生产过程。
07-04
推文说明论文仍有改进空间,但保留粗糙结果作为 DeliAutoResearch SKILL 的反馈。
07-05
三轴分类图把持续学习和自我改进按时间、目标和适应方式组织起来。
07-06
自我改进轨迹曲线展示不同方法在多轮自训练中的性能变化。
07-07
生产统计表把论文质量、人工交互和模型调用放在同一张对比图中。
STORY 08 / 14

超越单体智能|多智能体系统的协作、归因与自我演化综述

08-01
论文首页展示 LIFE 多智能体系统综述的标题和作者机构。
08-02
LIFE 总览图把四个阶段串成一条多智能体系统生命周期。
08-03
Agent 能力模块图展示推理、记忆、规划和工具使用等组成。
08-04
协作结构图展示多智能体系统中的角色分配、通信路径和调度结构。
08-05
失败归因图展示错误观察、诊断线索、传播过程和执行轨迹。
STORY 09 / 14

AI权威清洗:一张肉眼难辨的图片,就能让GPT-5.4、Claude Opus 4.6集体造谣

09-01
论文首页显示“AI 权威清洗”研究标题、作者和 ETH Zurich SPY Lab 背景。
09-02
聊天截图中,模型面对登月和九一一图片时给出“Fake”判断。
09-03
两组 X/Grok 截图显示,模型把不同新闻截图中的人物回答为 Elon Musk。
09-04
画面中,Grok 根据提问生成一张 Elon Musk 被警察带走的图像。
09-05
Google Visual Matches 截图显示,被扰动图片的视觉匹配结果集中到 Musk 相关图片。
09-06
ChatGPT 截图显示,模型把被遮挡的敏感内容评价为适合在 X 上发布。
09-07
Grok 脱衣过滤示例对比正常拒绝与扰动后通过,说明模型安全规则可能被视觉 embedding 牵引。
STORY 10 / 14

ICML 2026 清华姚权铭团队提出 LMNet,让语言模型学会自己组网

10-01
论文首页显示 Language Model Networks 的标题、作者和 ICML 2026 信息。
10-02
示意图对比离散自然语言通信和稠密连续向量通信。
10-03
结构图展示语言模型节点通过可训练通信模块连接成模型网络。
10-04
对比表列出 LMNet-1B 的 1.14B 参数、+0.02T 训练 token 和多项任务准确率。
10-05
方法表中,LMNet 在多项任务上加粗,并给出 +30.5% 相对提升。
10-06
E2E 数据集表显示 LMNet 的 BLEU 为 70.5,平均排名为 1.6。
STORY 11 / 14

开源编程语言 Zig,向 AI 代码说“不”

11-01
Zig 行为准则截图写明,不接受 LLM 生成或 LLM 协助的贡献。
11-02
播客截图中,Kelley 把这类贡献称为会消耗审查资源的负价值提交。
11-03
Jarred Sumner 推文展示 Bun 使用 Claude Code 动态工作流的案例。
11-04
Lunduke Journal 截图列举多个项目对 AI 生成代码的拒绝或限制。
11-05
社区推文追问是否连用 LLM 找 bug 都不允许,显示政策边界仍有争议。
STORY 12 / 14

Rubrics综述:Agent时代,如何定义一个好答案

12-01
论文首页显示 The Rules of the Game: A Survey of Rubrics for Large Language Models。
12-02
综述总览图展示 Rubrics 的章节结构和不同任务上的评价标准示例。
12-03
构造方法图展示直接生成、对比生成、迭代优化和在线演化四类 Rubrics 生成范式。
12-04
流程图展示 Rubrics 作为 reward signal,连接 judge model、逐项评分和 policy model training。
12-05
通用任务清单列出深度研究、Agent 交互、工具轨迹和安全对齐等 Rubrics 评测场景。
12-06
专业领域清单展示医疗、金融法律、长视频和个人助理等高风险任务的 Rubrics 设计。
STORY 13 / 14

一周3.3k star,微软开启 Skills 自我进化

SkillOpt 视频展示项目标题和“agent skill as task-specific playbook”的概念画面。
13-02
流程图展示固定 Agent、技能文档、优化器模型、验证门控和最终 best_skill.md。
13-03
消融表比较默认 lr=4、去掉 lr、是否保留 rejected buffer 和 update memory。
13-04
主实验表按目标模型、执行框架和 benchmark 列出 SkillOpt 的分数增益。
13-05
六个 benchmark 柱状图中,绿色 SkillOpt 柱分别标注 SearchQA +1.9、LiveMath +9.2、ALFWorld +8.9。
13-06
ALFWorld 曲线显示 train rollout 和 selection gate 在多个 step 中变化,体现验证驱动的迭代。
STORY 14 / 14

小学生画了撇胡子骗过 AI 年龄验证

视频中,手指被画成人脸,放入 Discord 年龄验证界面的圆形取景框。
视频末尾显示 “We estimated your age is between 13 and 15”。
14-03
封面图把手指人脸放在识别框中,旁边有锁形符号,强调验证绕过。
Discord 年龄验证视频中,手指简笔画在人脸取景框里按提示移动。
14-05
Meta 相关图写着将用 AI 分析身高和骨骼结构来识别未满 13 岁用户。
今天的智能体头条是 Autogenesis:文章说,它想给会自我修改的 Agent 装上一套可治理的操作系统。
它的关键不是多接几个工具,而是让 Prompt、工具、记忆、环境和 Agent 本身都成为有生命周期的资源。
协议被拆成两层:RSPL 定义什么能进化,SEPL 定义如何经过反思、选择、改进、评估和提交。
文章报告,AGS 在 GAIA Validation 达到九十三点三三,在 Test 达到八十九点零四。
最难的 Level 3 从六十一点二二提升到八十一点六三,说明提升集中在复杂任务上。
在 HLE 全量测试里,文章称 AGS 达到五十九点六;这是把自进化机制放到更宽任务面上观察。
代码侧也被单独测了:LeetCode 覆盖五种语言,C++ 接近满分。
所以这篇文章真正强调的,是当 Agent 开始改变自己,系统必须先能记录、评估和回滚这些变化。
Gamma-World 这篇文章讲的是:世界模型正在从单机时代,走向多智能体共享世界。
它要解决的不是再生成一段视频,而是多个主体互相影响时,世界状态如何保持一致。
文章说,已有方案常把玩家写成固定槽位,两个玩家能跑,但增加玩家就破坏对称性。
Gamma-World 用正单纯形位置编码,让任意两个玩家距离相同,谁也不是特殊的一号位。
复杂度方面,它让玩家先把信息汇入 hub token,再由枢纽广播,计算从平方增长压到线性增长。
文章给出的数字是,八个玩家时算力只有全连接方案的八分之一,延迟从十七点六毫秒降到四点五毫秒。
更关键的是,模型没见过四人训练数据,也能在推理时生成四路同步视角。
文章还展示机器人迁移实验,但它也留下问题:生成交互是否经得起真实物理和因果检验。
GPIC 这篇文章讲的是,视觉生成需要一个新的开放 ImageNet。
原因是旧 ImageNet 面向分类标签,而今天的图像模型靠文本提示和亿级图文数据训练。
GPIC 的第一层价值是授权:只收 Flickr 和 Wikimedia 中许可清晰的图片。
数据规模也很硬:一亿张训练图、二十万验证图、一百万测试图,总量约十二点九 TB。
文章还说,团队用 Qwen3-VL 重新生成四种粒度描述,避免传统 alt text 太脏。
评估上,GPIC 用 FD-DINOv2 和独立百万张测试集,避免模型靠记住训练集刷分。
参考基线是 1.1B 参数 JiT,在八张 H100 上训练约四十小时,最优 FD-DINOv2 是七十六点二五。
所以这不是单个模型新闻,而是视觉生成研究能否公开、可复现、可比较的一块基础设施。
苹果 PICO 的重点是把图像压缩从追求 PSNR,转向追求人眼真的觉得好。
它用一次性上下文模型减少熵编码等待,既保留精度,又接近实时。
针对文字区域,TextFidelityLoss 抑制生成式压缩的幻觉,文章说绝对误差下降一半。
实验数字更直接:同等视觉质量下,文件大小只有传统标准的大约三成到四成。
但文章也提醒,PICO 的 PSNR 不一定最好;这说明感知质量和数学误差本来就是两套目标。
MIT 的 Attention Matching 瞄准的是长上下文推理里最贵的工作记忆:KV Cache。
它不是简单删 token,而是让压缩后的缓存匹配原始注意力输出和注意力质量。
关键小变量是 beta 偏差,用来补偿少量保留 key 在注意力里的权重。
文章称,在 QuALITY 等长文本任务上,五十倍压缩仍能贴近完整缓存表现。
更激进的组合示例把摘要和 Attention Matching 叠加,cache size 低到零点二一个百分点。
Abstract-CoT 的问题很直接:模型一定要用人类语言思考吗?
方法让模型用一组抽象符号推理,例如 TOKEN A 到 TOKEN Z,而不是写长篇自然语言步骤。
训练上,它先用策略迭代热启动,再做强化学习,让新符号不只是随机噪声。
文章给出的核心数字是,MATH-500 上 token 从一千六百七十一降到一百四十四,准确率只降一点八个点。
但代价也明确:这些符号人类读不懂,所以成本下降和可审计性之间会有张力。
陈德里的第二篇 AI 合作论文,重点不只是论文主题,而是 DeliAutoResearch SKILL 又迭代了一轮。
文章称,这次 DeepSeek-V4-Pro 负责文字,GPT-Image-2 负责图像,但 AI 贡献只能写进脚注。
最醒目的数字是,模拟同行评审分数从上一篇的六分,升到这一篇的八分。
更有意思的是,交互轮数下降,但总 token 消耗上升;文章把这解释为系统自己想得更多。
这次模型还首次尝试调用更高级语言模型,自主设计并运行实验。
论文主题本身也贴合这个过程:持续学习和自我改进,本质上都在问模型如何更新自己。
文章提到五类方法和收敛条件,也讨论灾难性遗忘、多模态持续学习、安全对齐和实时学习。
所以这条新闻更像一个自动科研样本:单篇论文还粗糙,但工作流正在把更多步骤交给 AI。
LIFE 这篇综述说,多智能体系统不是简单把几个 Agent 放在一起。
它把系统生命周期拆成四段:个体能力、协作、失败归因和自我演化。
个体层面,推理、记忆、规划和工具使用是协作能否稳定的基础。
协作层面,角色、通信和调度决定系统像不像一个真正的组织。
最后,失败归因和自我演化把重点从记录错误,推进到诊断错误并改进系统。
这篇文章说,视觉语言模型正在成为事实仲裁者,而对抗样本正在把这种权威变成新的攻击面。
所谓 AI 权威清洗,是让图片在肉眼看来几乎不变,却让模型自信地给出错误结论。
一个例子是历史照片核验:文章展示模型把登月和九一一等真实事件图片说成伪造。
另一个例子是身份操控:Grok 被问新闻里是谁,却把不同新闻截图都指向 Elon Musk。
这种错误还会进入生成流程,文章展示 Grok 生成了 Musk 被警察逮捕的画面。
搜索也会被牵动:同样的扰动图会把反向图像搜索导向 Musk 相关视觉匹配。
在内容审核场景里,文章称高置信度 NSFW 图片经扰动后,会被模型评价为适合发布。
文章最后的提醒是,旧的 PGD 和 CLIP 转移攻击已经足够构成现实威胁,防御不能只看 benchmark。
LMNet 这篇论文说,下一代系统不一定只靠更大的单体模型,也可以让多个语言模型学会组网。
它的动机是,自然语言中间消息容易丢信息,也难以让梯度穿过整个多模型系统。
LMNet 把预训练语言模型看成节点,把 attention block 等模块看成边,让通信本身变成可训练对象。
文章称,LMNet-1B 约一点一四 B 参数,额外训练不到零点一 T token,成本不到基础预训练的零点二个百分点。
在 Qwen2.5-0.5B 对比里,LMNet 的相对提升写成三十点五个百分点,明显高于 SFT 和自一致性。
在有限监督场景里,它还报告 MMLU 和 E2E 数据集优势,说明可学习通信可能是一条系统能力路线。
Zig 今天这条新闻的重点,不是 AI 能不能写代码,而是开源项目愿不愿意接收 AI 参与过的代码。
文章说,Zig 的规则很硬:生成、改写、润色、头脑风暴、调试,只要大模型参与过,就不能提交。
Andrew Kelley 的理由是审查资源有限;低质量 AI pull request 会占用核心维护者时间。
文章提到,Zig 当时还有大约两百个未处理 pull request,所以额外噪声会拖慢真正贡献者。
这和 Bun 的态度形成反差:Bun 创始人公开展示用 Claude Code 动态工作流迁移代码。
Zig 并不孤立,文章还列出 QEMU、NetBSD、OBS 等项目也对 AI 代码设限。
所以这条新闻真正指向的是开源治理:效率、审查责任和程序员培养,三者正在重新平衡。
Rubrics 这篇综述讨论一个基础问题:Agent 时代,什么才算一个好答案。
文章说,开放式报告、医疗咨询和多步任务很难只靠标准答案或一个总分评估。
Rubrics 的作用,是把事实性、覆盖度、证据、推理、安全和可用性拆成显式检查项。
训练时,judge model 可以按这些标准逐项打分,再把反馈变成 policy 或 reward model 的信号。
评测时,Rubrics 也能让深度研究、工具调用和专业领域任务的判断更可解释。
但综述也提醒,标准本身可能被 hack、带偏差,甚至成为新的攻击面。
微软 SkillOpt 这条新闻说,Agent 的技能文档也可以像模型参数一样被训练。
它不改模型权重,而是优化 CLAUDE.md、Codex skills 这类自然语言操作手册。
文章把它描述成一个训练循环:rollout 收集轨迹,reflect 分析成败,edit 提出有限改动,再由验证门控决定是否接受。
更细的流程图显示,训练集、验证集和测试集被分开,最终部署只需要 best_skill.md。
文本学习率是关键约束:默认 lr 等于四,每一步最多四个添加、删除或替换操作。
文章称去掉这个约束后,SearchQA 从八十七点一降到八十四点六,LiveMath 从六十一点三降到五十七点三。
主实验覆盖七个模型、六个基准和三种执行环境,文章称五十二个组合全部最优或并列最优。
与最强基线相比,增益最大的是 LiveMath 加九点二和 ALFWorld 加八点九。
所以文章的结论是,Agent 的外部知识文件正在从手工经验,变成可以被验证和迭代优化的工程对象。
最后这条是平台安全新闻:文章说,一个手指简笔画就骗过了 Discord 的 AI 年龄验证。
流程看起来很正式:系统要求居中、左转、右转,然后本地模型估计年龄。
但视频最后给出的结果是,估计年龄在十三到十五岁之间,验证通过。
文章还提到,有十二岁男孩画了胡子,被系统判成十五岁,也顺利过审。
这类方案本来是为了保护隐私:模型在手机或电脑本地运行,只回传年龄区间。
代价是模型不能太重,它会依赖眼睛、嘴巴、轮廓和皮肤纹理等线索。
文章把这个问题放到更大背景里:Meta 也在用 AI 判断用户是否未满十三岁,并结合视觉和账号行为信号。
所以矛盾还会继续:平台用 AI 堵合规漏洞,用户也会继续寻找 AI 的盲区。
机器之心 AI News Digest

机器之心 · 2026.05.31 · 14 stories · 13:08

机器之心 AI News Digest

机器之心 2026.05.31 digest with 14 source-grounded stories, Chinese captions, synchronized narration, and source media panels.

Stories

  1. 0:00 - 1:09
    01. LeetCode C++近满分!Autogenesis要给智能体装上「自进化操作系统」 Source
    文章称,南洋理工大学、斯坦福大学、普林斯顿大学等团队提出 Autogenesis Protocol 和 Autogenesis System,试图把智能体的 Prompt、Agent、Tool、Environment、Memory 变成可注册、可追踪
  2. 1:09 - 2:16
    02. 登顶HuggingFace日榜!英伟达清华团队γ-World:把世界模型从单机打到联机 Source
    文章报道,NVIDIA、清华大学、多伦多大学和 Vector Institute 发布 Gamma-World,目标是把视频世界模型从单一参与者扩展到多个相互影响的主体,并解决玩家身份对称性和计算复杂度问题。
  3. 2:16 - 3:24
    03. 李飞飞造了ImageNet,现在她又带人超越了它 Source
    文章报道,李飞飞团队发布 GPIC 巨型开放图像语料库,包含 1 亿对图像-文本数据和约 28 万亿像素,并配套新的 FD-DINOv2 评估协议,试图为视觉生成时代提供比 ImageNet 和 FID 更合适的开放基础设施。
  4. 3:24 - 4:04
    04. 苹果用AI重新发明了图像压缩:同样画质,文件只要三分之一 Source
    文章介绍苹果团队的 PICO 感知图像编解码器,目标不是优化 PSNR,而是让压缩后的图片在人眼看来更好,同时能在手机端实时运行。
  5. 4:04 - 4:40
    05. 内存暴降50倍且精度无损,MIT提出注意力匹配,能终结大模型显存危机吗? Source
    文章介绍 MIT 团队提出的 Attention Matching,用潜空间方式压缩 LLM 的 KV Cache,目标是在长上下文服务中减少显存占用,同时保持模型输出精度。
  6. 4:40 - 5:20
    06. 只需几个抽象符号替代思维链,就能将推理成本压缩11倍 Source
    文章介绍 IBM Research 的 Abstract Chain-of-Thought 方法,让模型用不可读的抽象符号替代自然语言思维链,从而减少 reasoning token,同时尽量保持推
  7. 5:20 - 6:26
    07. DeepSeek陈德里AI论文第二弹:从6分到8分,DeliAutoResearch SKILL又进化了 Source
    文章报道 DeepSeek 研究员陈德里与 AI 合作完成第二篇论文,主题是持续学习与自我迭代,并把这篇论文视作 DeliAutoResearch SKILL 自主科研流程的一次迭代实验。
  8. 6:27 - 7:00
    08. 超越单体智能|多智能体系统的协作、归因与自我演化综述 Source
    文章介绍一篇 LLM 多智能体系统综述,提出 LIFE progression,把个体能力、多智能体协作、失败归因和自我演化放进一个生命周期框架中观察。
  9. 7:01 - 8:06
    09. AI权威清洗:一张肉眼难辨的图片,就能让GPT-5.4、Claude Opus 4.6集体造谣 Source
    文章称,ETH Zurich 的 Florian Tramer 团队在论文《Laundering AI Authority with Adversarial Examples》中提出“AI 权威清洗”:攻击者只需对图片加入人眼难以察觉的扰动,就可能让
  10. 8:07 - 9:03
    10. ICML 2026 清华姚权铭团队提出 LMNet,让语言模型学会自己组网 Source
    文章介绍清华大学姚权铭团队发表于 ICML 2026 的 Language Model Networks 论文。
  11. 9:04 - 10:02
    11. 开源编程语言 Zig,向 AI 代码说“不” Source
    文章报道,开源编程语言 Zig 在贡献规则中禁止提交由大语言模型生成、改写、润色、头脑风暴或调试过的内容。
  12. 10:03 - 10:47
    12. Rubrics综述:Agent时代,如何定义一个好答案 Source
    文章介绍中国人民大学高瓴人工智能学院的 40 页综述《The Rules of the Game: A Survey of Rubrics for Large Language Models》。
  13. 10:48 - 12:08
    13. 一周3.3k star,微软开启 Skills 自我进化 Source
    文章介绍微软开源的 SkillOpt。
  14. 12:09 - 13:08
    14. 小学生画了撇胡子骗过 AI 年龄验证 Source
    文章报道,Discord 等平台的端侧 AI 年龄验证被用户用极简方式绕过:有人在手指上画脸,对着摄像头按提示转动,系统估计年龄为 13-15 岁;还有 12 岁男孩画胡子,被判为 15 岁并通过验证。