机器之心 AI NEWS DIGEST
2026 06 27
STORY 01 / 7

刚刚,DeepSeek V4更新DSpark,推理速度提升80%

01-01
DeepSeek 标志封面图。
01-02
DSpark 架构图展示 target model、parallel block 与 scheduler。
01-03
DeepSeek-V4-Flash 与 Pro 的线上负载吞吐和验证长度曲线。
01-04
主实验表格对比 DSpark、Eagle3 与 DFlash。
01-05
线上负载图展示吞吐和动态验证长度。
01-06
DSpark 技术报告首页。
01-07
DSpark 架构与解码流程图。
STORY 02 / 7

GPT-5.6突然上线:比Mythos强,普通用户彻底无缘

02-01
OpenAI 社交截图介绍 GPT-5.6 Sol、Terra、Luna。
02-02
三档模型定位与价格卡片。
02-03
Terminal-Bench 2.1 柱状图中 GPT-5.6 Sol 系列位于前列。
02-04
GeneBench v1 输出 token 对比折线图。
02-05
ExploitBench 折线图展示 GPT-5.6 系列表现。
02-06
Mythos vs GPT-5.6 Sol 对比图。
02-07
Sam Altman 中文社交截图说明受限预览背景。
02-08
OpenAI 标志封面图。
STORY 03 / 7

机器人不该只在像素里做梦:μ₀和我们想找的「物理语言」

03-01
图示对比像素纹理与机器人关心的几何、接触和状态变化。
03-02
Dreaming on Pixels 与 Dreaming on Latent 对比图。
03-03
latent 表示难以解释、干预和纠错的图示。
源视频展示从像素和 latent 表示转向 3D interaction traces。
GIF 展示 3D interaction traces 的预测点和运动。
03-06
LLM words 与 robotics words 的 shared space 类比图。
03-07
TraceExtract 从 raw video 到 3D traces 的流程图。
03-08
μ₀ 架构图显示冻结 VLM 与 trace expert。
03-09
Freeze world model, train an Action Expert 的结构图。
源视频展示 trace prediction 可视化和 0.29 秒预测速度。
03-11
机器人实验成功率柱状图对比 μ₀ + action expert 与 VLA baselines。
真实机器人任务 GIF 对比不同 action expert 路线。
03-13
μ₀ 标题图标注 Predict traces, not pixels, not latent。
STORY 04 / 7

首个通用触觉基础模型FTP-1来了!Sharpa 联合清华大学等高校,用一套策略打通21种传感器与多类具身形态

04-01
机器人抓取球形物体的文章封面图。
04-02
FTP-1 论文标题页。
04-03
FTP-1-Dataset 数据图展示 3000 小时、26 个来源、21 种传感器。
04-04
FTP-1 总览图展示触觉 token 与触觉专家。
04-05
已见传感器设置图展示 Sharpa North、SharpaX dexterity 和 UniVTAC。
04-06
未见传感器设置图展示新传感器与机器人任务。
04-07
FTP-1 总览图展示异构触觉预训练到真实任务评测。
STORY 05 / 7

ECCV 2026 | 视频生成模型真的会「推理」吗?303道题全面揭示世界模型的推理短板

05-01
视频生成模型推理问号封面图。
05-02
基准类别总览图显示 16 类推理任务。
05-03
No Hint、Text Hint、Visual Hint 的评估设置图。
05-04
Reasoning Score 过程级评估示意图。
05-05
无提示、文字提示、视觉提示的视频推理样例对比图。
STORY 06 / 7

陈天奇新书上线:面向ML系统的现代GPU编程

06-01
陈天奇发布 Modern GPU Programming For MLSys 的社交截图。
06-02
Modern GPU Programming For MLSys 长图目录截图。
06-03
陈天奇发布新书的社交截图。
STORY 07 / 7

大神Karpathy用Claude的方式,原来是这样的?

07-01
网友称获得 Karpathy 使用的 CLAUDE.md 文件的社交截图。
07-02
Karpathy GitHub profile 和贡献热力图截图。
07-03
CLAUDE.md 社交截图。
07-04
坏代码与好代码对比截图。
07-05
Karpathy 与 Elon Musk 关于推荐算法的社交讨论截图。
07-06
坏代码与好代码对比截图。
07-07
CLAUDE.md 来源社交截图。
DeepSeek V4 更新的重点不是新参数,而是把 DSpark 推测性解码部署到真实线上流量。
DSpark 用草稿模型先并行生成候选 token,再由目标模型批量验证,从而降低逐 token 生成的等待时间。
它的关键改动是半自回归生成:保留并行吞吐,同时补上 block 内 token 之间的依赖建模。
另一部分是置信度调度验证,把低存活概率的尾部 token 截掉,避免高负载时浪费批处理算力。
在主实验表里,DSpark 相比 Eagle3 和 DFlash,在多个目标模型和任务上提高了平均接受长度。
文章称,在线上同吞吐量条件下,DSpark 让 Flash 生成速度提升 60% 到 85%,Pro 提升 57% 到 78%。
随它开源的 DeepSpec,把数据准备、草稿模型训练和评估串成了一套可复现流程。
因此这条更新的意义,是把投机解码从论文技巧推进成生产级推理加速工具链。
OpenAI 的 GPT-5.6 预览突然上线,分成 Sol、Terra 和 Luna 三档。
Sol 是旗舰模型,Terra 面向高频日常工作,Luna 则主打低成本和高速场景。
Sol 新增 max 和 ultra 模式,后者通过多个子 Agent 协同处理超出单 Agent 上限的任务。
在 Terminal-Bench 2.1 上,文章列出的 Sol Ultra 为 91.95%,Sol 为 88.8%。
生物学方向也被单独强调,GeneBench 图表显示它在输出 token 和 API 成本下有更好折中。
网络安全是这次发布的高敏感能力,ExploitBench 图表把 GPT-5.6 系列和前代模型放在一起比较。
网友对比认为,Sol 和 Mythos 互有胜负,还没有完全压过 Fable 级模型。
这次发布还带有政策背景:文章称 OpenAI 因美国政府要求,先向少数受信任伙伴开放。
所以 GPT-5.6 的看点,是更强的专业 Agent 能力,也是前沿模型发布流程被重新约束。
μ₀ 的出发点很直接:机器人也许不该只在像素里学习物理。
像素 world model 会花大量容量预测纹理、光照和背景,但这些未必是控制最需要的变量。
纯 latent 又太黑盒,compact 但难以解释、干预和纠错。
μ₀ 给出的答案,是预测三维交互轨迹,也就是少量有语义的物体、工具、手和接触点怎么运动。
这个表示小到可以扩展,又足够结构化,每条 trace 都对应真实世界中的有意义位置。
作者把它类比成机器人自己的 words:不是物体叫什么,而是交互中它如何运动。
TraceExtract 数据引擎负责把普通视频转成 trace supervision:先找什么在动,再估它在哪里动,最后分解它怎么动。
训练时,语义知识留给 vision-language backbone,物理运动交给单独的 trace expert。
预训练阶段不需要 action labels,之后冻结 μ₀,只训练轻量 action expert 把 trace features 转成动作。
文章称,μ₀ 单次预测大约 0.29 秒,在 trace forecasting 上又快又准。
在真实机器人评测里,冻结 μ₀ 后接 action expert,平均成功率超过了 π₀.₅。
机器人实验 GIF 也显示,trace-space 先验可以被控制策略复用,而不只是做漂亮的预测任务。
所以 μ₀ 的核心结论不是“模型更大”,而是 representation 可能选对了方向。
FTP-1 想补上机器人基础模型的一块短板:触觉操作长期缺少可迁移的通用策略。
它由 Sharpa、清华、UC Berkeley、上海交大和 ETH Zurich 等团队提出,面向 contact-rich manipulation。
数据层面,FTP-1-Dataset 汇集约 3000 小时、26 个来源和 21 种触觉传感器。
关键接口是 MTTS,把不同触觉输入映射到 24 个功能区域 token,比如指尖、掌心和腕部力矩。
模型还加入独立触觉 Transformer 专家,避免简单把触觉 token 塞进 VLM 干扰原有语义能力。
评测覆盖 5 家机构、14 个任务,既有预训练见过的传感器,也有完全未见的新传感器。
在真实机器人已见传感器上,文章称 FTP-1 平均成功率比 π₀.₅ 高 17.2 个百分点。
更关键的是未见传感器:FTP-1 只需新训练传感器 encoder,就比最强基线高出 31.6 个百分点。
这说明触觉也可能进入基础模型时代:共享 token、共享数据集、共享预训练专家。
MME-CoF-Pro 问的是一个核心问题:视频生成模型看起来会动,是否真的会推理?
它用 303 个样本和 16 类任务评估推理一致性,而不是只看最后一帧对不对。
基准还把无提示、文字提示和视觉提示分开,只有提示变量变化,方便归因。
过程级 Reasoning Score 会检查每个关键推理步骤是否在视频里正确发生。
文章的结论很清楚:高画质不等于会推理,提示有时还会诱发幻觉或破坏一致性。
陈天奇发布了一本免费在线书,主题是面向机器学习系统的现代 GPU 编程。
它来自 CMU 机器学习系统课程的新 GPU 编程专题,目标是讲清大模型训练和推理里的关键 kernel。
书的主线围绕 Blackwell 架构,把 GEMM 和 FlashAttention 作为贯穿案例。
第一部分讲 GPU 执行模型、性能判断、数据布局、TMA、Tensor Core、TMEM 和异步协调。
第二部分介绍 TIRx,一个贴近硬件的 Python DSL,用可运行代码解释底层细节。
第三部分从基础 Tiled GEMM 一路推进到软件流水线、持久化 kernel、tile 调度和 warp specialization。
最后一部分构建 FlashAttention 4,覆盖 softmax 衔接、因果掩码和分组查询注意力等工程细节。
这条新闻的意义是,底层 GPU kernel 知识正在变成大模型工程师必须掌握的公共教材。
这篇文章的重点不是八卦,而是一份给 Claude Code 读取的项目级规则文件。
第一条规则是写之前先读:相关文件、相似实现和测试都要看完。
第二条是先说清假设和取舍,不要把认证、缓存、依赖这类架构选择藏在代码里。
第三条是保持简单,写能解决当前问题的最少代码,不要为了未来猜测提前抽象。
文章还强调外科手术式修改:只碰任务要求相关的代码,匹配现有风格,不重新格式化整个文件。
调试时先复现、读完整错误信息,一次只改一件事,不理解根因就别加 workaround。
依赖也不能随手加:先看项目已有工具、标准库、维护状态和体积。
最后要记住,文章也说真实性存疑;真正有用的是把这些原则改成你自己项目的工程规则。
机器之心 AI News Digest

机器之心 · 2026.06.27 · 7 stories · 8:14

机器之心 AI News Digest

机器之心 2026.06.27 digest with 7 source-grounded stories, Chinese captions, synchronized narration, and source media panels.

Stories

  1. 0:00 - 1:11
    01. 刚刚,DeepSeek V4更新DSpark,推理速度提升80% Source
    文章报道,DeepSeek V4 在 Flash 和 Pro 线上服务中加入 DSpark 推测性解码框架,并开源 DeepSpec 全栈代码库。
  2. 1:12 - 2:23
    02. GPT-5.6突然上线:比Mythos强,普通用户彻底无缘 Source
    文章报道 OpenAI 发布 GPT-5.
  3. 2:24 - 4:06
    03. 机器人不该只在像素里做梦:μ₀和我们想找的「物理语言」 Source
    文章介绍 μ₀,一种面向机器人物理交互的结构化 world model。
  4. 4:07 - 5:27
    04. 首个通用触觉基础模型FTP-1来了!Sharpa 联合清华大学等高校,用一套策略打通21种传感器与多类具身形态 Source
    文章介绍 FTP-1,一个面向接触密集操作的通用触觉基础策略,由 Sharpa、清华、UC Berkeley、上海交大、ETH Zurich 等团队提出。
  5. 5:27 - 6:05
    05. ECCV 2026 | 视频生成模型真的会「推理」吗?303道题全面揭示世界模型的推理短板 Source
    文章介绍 ECCV 2026 论文 MME-CoF-Pro,用 303 个图像-文字-视频推理样本评估视频生成模型的推理一致性。
  6. 6:05 - 7:12
    06. 陈天奇新书上线:面向ML系统的现代GPU编程 Source
    文章报道陈天奇发布免费在线书 Modern GPU Programming For MLSys,内容来自 CMU 机器学习系统课程中的 GPU 编程专题。
  7. 7:12 - 8:14
    07. 大神Karpathy用Claude的方式,原来是这样的? Source
    文章围绕一份被称为 Karpathy 自用的 CLAUDE.