机器之心 AI NEWS DIGEST
2026 05 29
STORY 01 / 11

阶跃发布Step 3.7 Flash:一款为「烧钱时代」准备的Agent模型

01-01
StepFun 封面图。
01-02
关于 AI 使用成本的社交媒体讨论截图。
发布访谈片段,嘉宾在台上讨论模型与应用。
01-04
Step 3.7 Flash 与其他模型的多项 Agent 指标对比。
Pinterest 页面理解演示。
驾驶舱界面操作说明演示。
Deep Research 检索与结果整理页面。
多 Agent 产品评测团演示,画面显示 40 个虚拟角色、MVP 选项、投票分布和吞吐指标。
知识图谱与长文本输出演示。
Manifold 投票界面展示虚拟角色、候选 MVP、投票分布和运行指标。
手机端信息汇总任务演示。
手机端出行规划任务演示。
社媒与电商跨平台 GUI 操作演示。
知识图谱/Cartograph Map 演示展示主题节点和结构化关系展开。
手机信息汇总任务演示中,移动端页面与右侧文字答案同步出现。
社媒与电商跨平台任务演示展示应用页面切换和文本处理过程。
驾驶舱界面演示展示模型围绕 cockpit 页面生成操作说明。
Deep Research 检索和结构化交付界面。
Manifold 投票界面展示多角色并行评估和投票分布。
手机端出行规划任务演示。
社媒与电商跨平台 GUI 操作演示。
01-22
Step 3.7 Flash benchmark 对比图。
STORY 02 / 11

Claude Opus 4.8问世,Anthropic估值暴涨至9650亿美元

02-01
Claude 主题封面图。
02-02
Claude Opus 4.8 发布页面截图。
02-03
Claude Opus 4.8 能力对比截图。
02-04
关于 Opus 4.8 体验的用户反馈截图。
02-05
模型行为评估对比图。
Claude Code 终端与工作流演示。
02-07
Anthropic 融资和估值相关截图。
02-08
Claude Opus 4.8 发布页面截图。
STORY 03 / 11

面壁智能「开源周」:一场定义端侧 AI 终局的系统性「亮剑」

03-01
端侧大模型开源周主视觉。
03-02
开源周主视觉图。
03-03
端侧模型能力趋势图。
03-04
MiniCPM5-1B 性能对比截图。
03-05
端侧 AI 路线说明图。
03-06
面壁智能开源周主视觉。
03-07
端侧大模型开源周主视觉。
STORY 04 / 11

刚刚,智元拿下WorldArena世界模型总分冠军!

04-01
WorldArena 世界模型评测封面。
04-02
WorldArena 排名与指标截图。
04-03
GE-Sim 2.0 技术报告截图。
04-04
GE-Sim 2.0 评测结果截图。
04-05
长时序推演质量曲线图。
04-06
闭环评测与混淆矩阵图。
04-07
奖励模型与策略提升实验图。
04-08
GE-Sim 2.0 技术报告截图。
04-09
WorldArena 世界模型评测封面。
STORY 05 / 11

消耗1830亿token,Meta用AI把数学教材翻译成了一个超大Lean库

05-01
ATLAS 项目标识封面。
05-02
数学文本与 Lean 代码对照截图。
05-03
ATLAS 论文页面截图。
05-04
ATLAS 可视化浏览器截图。
05-05
AutoformBot 工作流截图。
05-06
定理依赖关系图。
05-07
自动形式化运行过程曲线图。
05-08
Lean 代码与原文对照截图。
05-09
关于数学证明基础设施的社交媒体截图。
STORY 06 / 11

「马嘉祺」让大模型翻车,而他一年前洗澡时就发现了问题

06-01
低频词问题主题封面。
06-02
模型输出错误名字的漫画说明图。
06-03
低频 token 事件时间线截图。
06-04
SLoW 论文页面截图。
06-05
Textual Frequency Law 说明图。
06-06
高频改写后的数学推理准确率对比图。
06-07
低频和高频表达的可视化对比。
06-08
训练与频率校正实验对比图。
06-09
低频表达研究相关页面截图。
STORY 07 / 11

CVPR 2026 | 当LoRA遇上RoPE!WaDi:面向单步图像生成的权重方向感知蒸馏

07-01
WaDi 一步生成结果封面。
07-02
权重方向变化和方法动机图。
07-03
WaDi 论文首页截图。
07-04
LoRaD 与 WaDi 方法概览。
07-05
WaDi arXiv 页面截图。
07-06
WaDi 生成图像样例。
07-07
WaDi 与其他方法的多提示定性对比。
07-08
控制生成和高分辨率合成对比。
07-09
关系反演生成示例。
07-10
DreamBooth 个性化生成示例。
07-11
用户研究偏好比例图。
07-12
真实图像场景中的实例示例。
07-13
权重方向低秩旋转动机图。
07-14
多方法定性对比图。
07-15
WaDi 一步生成样例组图。
07-16
权重范数与方向变化分析图。
07-17
WaDi 论文首页截图。
07-18
WaDi 一步生成图像样例。
07-19
可控生成和下游任务对比图。
07-20
painted on、inside、carved 等关系生成示例。
07-21
DreamBooth 个性化生成示例。
07-22
用户研究偏好比例图。
07-23
实例图像编辑与检测框示例。
STORY 08 / 11

让机器人动作流畅丝滑如「连音」,千寻智能高阳团队提出Legato,入选RSS 2026

08-01
Legato 论文封面图。
08-02
机器人轨迹与连续性对比图。
08-03
Legato 动作连续性方法流程图。
机器人倒东西和操作任务演示。
08-05
真实机器人操作任务组图。
STORY 09 / 11

超越TurboQuant,面向长上下文推理的真2-bit KV Quantization算法问世

09-01
OSCAR KV Cache 量化封面。
09-02
OSCAR 论文首页截图。
09-03
OSCAR KV Cache 分段流程图。
09-04
AIME25 32K 推理结果截图。
09-05
100k 长上下文 decode 吞吐图。
STORY 10 / 11

ICML 2026|清华AIR联合水木分子发布CodeFP:离散扩散与双模态协同生成,推动从头功能蛋白设计

10-01
功能蛋白设计主题封面。
10-02
CodeFP 序列与结构协同解码示意图。
10-03
CodeFP 模型全貌图。
10-04
CodeFP 功能一致性和可折叠性结果图。
10-05
自然蛋白、CodeFP 与基线结构对比。
STORY 11 / 11

DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学生模型同时学会构图、文字与美学

11-01
DiffusionOPD 主题封面。
11-02
DiffusionOPD 两阶段训练流程图。
11-03
DiffusionOPD 论文首页截图。
11-04
DiffusionOPD 与多任务基线对比图。
11-05
多任务生成结果定性对比。
这篇文章把 Step 3.7 Flash 放在一个很现实的背景里:Agent 任务正在变强,也正在变贵。
文章开头用开发者和厂商的讨论说明,复杂 Agent 工作流的 token 成本已经成为部署门槛。
发布语境里,Step 3.7 Flash 的卖点不是替代旗舰模型,而是让高频 Agent 任务更容易跑起来。
在 benchmark 部分,文章称它在 ClawEval-1.1 得到 67.1%,工具相关测试也进入领先梯队。
多模态能力是这次更新的第一组重点,文章展示它分析 Pinterest 页面结构和视觉设计。
另一个例子是驾驶舱界面,模型需要识别仪表、按钮和操作流程,而不是只描述画面。
Deep Research 部分强调,检索不是外挂,而是进入推理循环,模型会整合资料后结构化交付。
在多 Agent 演示里,文章把重点放到并发协作:多个虚拟角色同时评估方案,最后形成投票分布。
文章还给出知识图谱式输出,说明模型不只返回文本,也在组织关系和结构。
多 Agent 并行部分则把重点放在吞吐上:400 TPS 决定了并发工作流能跑多快。
最后一组能力是 GUI 操控,第一关让模型在手机页面中完成信息汇总。
第二关是出行规划,任务需要同时处理天气、地图、路线和约束条件。
第三关更复杂,要在社媒和电商页面之间切换,完成跨平台任务。
文章的结论是,Flash 模型不是旗舰版平替,而是面向大量 Agent 调用的成本和速度折中。
但所有这些仍是发布文章和演示素材,真实稳定性还要看独立评测和具体部署链路。
所以这条新闻真正值得看的,是 Agent 模型从“更强”转向“更能规模化运行”的工程趋势。
文章还把 11B 激活规模作为背景:模型不靠无限堆大,而是把核心推理能力留在权重里,把更多感知边界放到任务过程中解决。
这也是为什么文章反复强调工具调用:Agent 模型的竞争点,已经从单轮回答变成持续规划、搜索、调用和校验。
对企业来说,真正的问题不是能不能做一次漂亮演示,而是每分钟几百个并发任务能否在预算内完成。
GUI 三关也说明,模型要处理的是动态界面:按钮、页面状态、跨应用切换和长文本反馈会同时出现。
因此,Step 3.7 Flash 的报道价值,不只是一个新模型名,而是把多模态、工具和 GUI 自动化放进同一条成本曲线。
后续要验证的,是这些能力在非演示任务、长上下文和多工具链里是否仍然稳定。
这篇文章报道的是 Claude Opus 4.8 发布,同时 Anthropic 的估值被推到一个更夸张的高度。
Opus 4.8 被描述为建立在 4.7 之上的小版本更新,重点是判断力、诚实性和更长时间的独立工作。
文章列出的基准覆盖编程、智能体、逻辑推理和知识工作,显示多项指标相对前代提升。
但文章也保留了用户分歧:有人觉得可靠性提高,也有人觉得小版本更新的体感并不明显。
诚实性是文章反复强调的一点:模型更少在证据不足时自信宣布已经完成。
更大的产品变化在 Claude Code,动态工作流让模型规划任务,并启动大量并行子智能体。
文章还提到 claude.ai 的投入度控制,用户可以调节模型在任务中投入多少推理资源。
融资部分同样关键:文章称 Anthropic H 轮融资 650 亿美元,投后估值 9650 亿美元。
所以这条新闻一边是模型能力更新,一边是前沿 AI 公司继续把算力和资本需求推高。
这篇文章讲的是面壁智能和 OpenBMB 的端侧大模型开源周。
文章把五天连续发布解释为一套技术组曲,而不是几个孤立项目。
这套组合包括低比特训练、端侧小模型、训练框架、智能体操作系统和数据集。
文章最核心的判断是,端侧 AI 的竞争不是某个单点能力,而是全链路工程。
其中 MiniCPM5-1B 被写成“小钢炮”式模型,强调小参数量里的能力密度。
BitCPM-CANN、ForgeTrain 和 UltraData 则分别对应低比特训练、训练基础设施和数据供给。
PilotDeck 把端侧模型接到智能体操作系统,说明文章关注的是应用交互,而不只是模型权重。
需要注意的是,文章宣传色彩很强,真实价值还要看仓库、许可证和第三方复测。
这篇文章报道智元 GE-Sim 2.0 拿下 WorldArena 世界模型赛道总成绩冠军。
WorldArena 被文章写成具身世界模型的高强度评测,覆盖 16 项指标和 3 类真实应用任务。
文章强调,GE-Sim 2.0 没有为赛题特别调优,只在榜单数据上做了基础微调。
它补齐的功能包括长时序生成、多视角生成、本体状态、近实时推理和奖励判别。
长时序推演是文章的重点之一,报道称 40 到 50 秒片段的质量衰减弱于基线。
另一个关键是闭环评测:世界模型要能反映真实物理过程,而不只是生成好看的画面。
文章还提到奖励模型会筛选高质量 rollout,把世界模型生成的数据回流给策略模型。
这说明世界模型的目标正在从预测画面,转向为机器人训练提供可试错的仿真环境。
但榜单冠军还不是部署成功,真实价值仍要看后续机器人策略能否稳定迁移到物理世界。
这篇文章讲的是 Meta 的 ATLAS:用 AI 把数学教材翻译成 Lean 可验证代码。
它的目标不是写自然语言证明,而是生成可以被 Lean 逐步检查的形式化证明。
文章称项目覆盖 26 本开放教材,生成 63 万多行代码,其中 Lean 核心代码接近 48.4 万行。
它还提供浏览器,让人比较非正式原文、形式化版本和定理依赖。
AutoformBot 是生成引擎:编排者拆解教材,工作者写证明,审核者和监督者检查进度。
任务之间的依赖关系也很关键,因为一个定理能否证明,往往取决于前置引理是否已经形式化。
文章强调,整个过程消耗超过 1830 亿 token,说明规模化形式化非常昂贵。
风险在于,Lean 通过不等于数学质量完美,模型可能弱化目标或绕开真正证明。
所以 ATLAS 的意义,是把 AI 数学从“能证明”推进到“如何验证、整理和维护证明库”。
这篇文章从“马嘉祺”名字翻车讲起,讨论大模型的低频表达问题。
关键现象是,模型知道人物信息,却反复写错名字里的两个字。
文章把这件事归到低频 token 退化:后训练数据里少见的 token,输出层可能发生偏移。
SLoW 论文先从单词级别处理低频问题,用词典提示帮助模型处理长尾词。
Adam's Law 再把问题推进到句子级,认为高频表达方式通常让模型表现更稳。
文章举例说,仅靠把输入改成高频表述,一些数学推理准确率就能明显提高。
低频问题也会影响翻译和少数语言,因为长尾词往往是模型最不稳定的位置。
产业侧可能会用 tokenizer 调整、合成数据和训练覆盖来补这个洞。
文章最大的提醒是,模型可靠性不只看“大模型懂不懂”,也要看它能不能稳定说出长尾答案。
WaDi 这篇 CVPR 论文关注一个问题:扩散模型能不能在一步里生成高质量图像。
论文的起点是观察蒸馏前后权重变化:方向变化比范数变化更明显。
这让作者把蒸馏重点从“改多少权重”转到“把权重方向转到哪里”。
LoRaD 就是这个思路的模块:用低秩旋转矩阵建模预训练权重方向。
WaDi 再把 LoRaD 放进变分得分蒸馏,让学生模型对齐多步教师分布。
文章称,它只训练大约一成参数,却能保持或提升一步生成质量。
定性对比里,WaDi 在人物、物体和复杂提示上展示了更稳定的细节。
下游任务也被纳入测试,包括控制生成、关系反演和高分辨率合成。
在关系反演示例中,图像需要准确反映 painted on、inside、carved 等空间关系。
DreamBooth 示例说明,方法还被放到个性化生成场景中测试。
用户研究部分则从一致性、质量和偏好角度补充主观评价。
实例图像部分提醒我们,一步生成不只是速度问题,也要保持对象关系和细节。
这篇论文的技术价值,在于把蒸馏过程里的方向结构变成可训练模块。
但它仍需要复现实验和更多基线验证,定性图片不能替代完整评测。
如果结果成立,WaDi 会让单步扩散模型更接近实时交互和低成本部署。
更细一点看,作者先把多步教师和单步学生的 U-Net、DiT 权重拆成范数和方向,再比较蒸馏前后的变化量。
观察结果是,范数几乎不动,方向变化却更大,而且残差矩阵呈现低秩结构。
这就解释了为什么 LoRaD 不是普通 LoRA:它学习的是旋转角,让权重方向移动,同时尽量保留预训练权重的尺度。
在训练目标上,WaDi 仍然借助教师模型和虚假模型的对抗式结构,但把方向适配器放进两侧网络。
这种做法的一个工程含义是,蒸馏后的模型可以少走采样步数,同时不必重新训练全部参数。
文章中的可控生成结果强调,速度提升不能牺牲条件约束,比如边缘、深度或姿态控制。
关系反演结果则考验模型是否真的理解空间关系,而不是只生成风格接近的图片。
DreamBooth 场景考验个性化对象保持能力,也就是同一个猫或鸭子在不同提示下是否还像自己。
用户研究提供的是人的偏好补充,但它仍然要和 FID、CLIP 等自动指标一起看。
所以 WaDi 的重点不是单张图更好看,而是提出了一个解释蒸馏权重变化、再把解释落成模块的路径。
Legato 这篇 RSS 论文解决的是机器人动作分块里的“接缝”问题。
文章说,现有动作分块会让机器人在两段动作交界处停顿、抖动,甚至切换意图。
Legato 的做法,是让模型在训练时就学习如何接着已知前缀继续生成动作。
在真实机器人演示里,可以看到方法对倒东西、叠碗等操作的连续执行效果。
文章称它在五个真实操作任务上超过现有方法,但具体统计还要看论文原文。
OSCAR 这篇论文解决的是长上下文推理里的 KV Cache 显存和带宽问题。
它的核心不是重建原始向量,而是保留 attention 真正会读取的方向。
系统结构保留 BF16 sink 和 recent window,中间最长的历史段压成旋转后的 INT2。
文章称在困难推理任务上,它能接近 BF16,并在 Qwen3-4B-Thinking 上显著超过 TurboQuant。
系统价值在于,如果 2-bit KV 真能稳定服务,长上下文推理的成本会明显下降。
CodeFP 这篇 ICML 论文关注从头功能蛋白设计,目标是同时满足功能和可折叠性。
它把蛋白表示为序列 token 和结构 token,而不是只沿一条路径生成。
在离散扩散去噪中,两类 token 交替更新,让结构和功能互相约束。
文章称,在分布外功能组合上,CodeFP 的 F1-Macro 比基线提升 9.1%。
但计算指标还不是湿实验验证,真实药物研发价值仍要看表达、稳定性和功能实验。
DiffusionOPD 解决的是扩散模型多任务强化学习里的奖励冲突。
它先为构图、OCR 和美学等任务训练单任务教师,再把能力蒸馏给统一学生模型。
关键是在线策略蒸馏:教师在学生自己生成的去噪状态上提供监督。
文章称它比多任务 RL 基线收敛更快,上限也更高。
这条线的意义,是让一个图像生成模型同时学会构图、文字和美学,而不被单一奖励拖偏。
机器之心 AI News Digest

机器之心 · 2026.05.29 · 11 stories · 14:39

机器之心 AI News Digest

机器之心 2026.05.29 digest with 11 source-grounded stories, Chinese captions, synchronized narration, and source media panels.

Stories

  1. 0:00 - 3:12
    01. 阶跃发布Step 3.7 Flash:一款为「烧钱时代」准备的Agent模型 Source
    文章称,阶跃星辰发布 Step 3.7 Flash,定位为面向 Agent 场景的高性价比模型。
  2. 3:12 - 4:27
    02. Claude Opus 4.8问世,Anthropic估值暴涨至9650亿美元 Source
    文章报道 Anthropic 发布 Claude Opus 4.
  3. 4:27 - 5:28
    03. 面壁智能「开源周」:一场定义端侧 AI 终局的系统性「亮剑」 Source
    文章报道面壁智能与 OpenBMB 在 2026 年 5 月 25 日至 29 日进行“端侧大模型开源周”,连续发布 BitCPM-CANN、MiniCPM5-1B、ForgeTrain、PilotDeck 和 UltraData 系列。
  4. 5:29 - 6:41
    04. 刚刚,智元拿下WorldArena世界模型总分冠军! Source
    文章报道智元自研世界模型 Genie Envisioner-Sim 2.
  5. 6:42 - 7:54
    05. 消耗1830亿token,Meta用AI把数学教材翻译成了一个超大Lean库 Source
    文章报道 Meta 联合纽约大学等机构发布 ATLAS(Autoformalized Textbook Library At Scale),把开放数学教材中的非正式定理和证明自动翻译成 Lean 4 可验证代码。
  6. 7:54 - 9:00
    06. 「马嘉祺」让大模型翻车,而他一年前洗澡时就发现了问题 Source
    文章从“马嘉祺”名字输出错误事件切入,讨论大模型对低频 token、低频词和低频句式的处理缺陷。
  7. 9:01 - 12:10
    07. CVPR 2026 | 当LoRA遇上RoPE!WaDi:面向单步图像生成的权重方向感知蒸馏 Source
    文章介绍南开大学 PCA Lab 的 WaDi(Weight Direction-aware Distillation),一套面向单步文本到图像扩散蒸馏的方法。
  8. 12:10 - 12:46
    08. 让机器人动作流畅丝滑如「连音」,千寻智能高阳团队提出Legato,入选RSS 2026 Source
    文章介绍千寻智能高阳团队的 RSS 2026 论文 Learning Native Continuation for Action Chunking Flow Policies。
  9. 12:46 - 13:26
    09. 超越TurboQuant,面向长上下文推理的真2-bit KV Quantization算法问世 Source
    文章介绍 TogetherAI、悉尼大学和 UIUC 等团队的 OSCAR:Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache
  10. 13:26 - 14:04
    10. ICML 2026|清华AIR联合水木分子发布CodeFP:离散扩散与双模态协同生成,推动从头功能蛋白设计 Source
    文章介绍清华 AIR 联合水木分子的 ICML 2026 论文 Co-Generative De Novo Functional Protein Design,方法名为 CodeFP。
  11. 14:05 - 14:39
    11. DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学生模型同时学会构图、文字与美学 Source
    文章介绍 DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models。