STORY 01 / 7
STORY 02 / 7
STORY 03 / 7
STORY 04 / 7
STORY 06 / 7
STORY 07 / 7
DeepSeek V4 更新的重点不是新参数,而是把 DSpark 推测性解码部署到真实线上流量。
DSpark 用草稿模型先并行生成候选 token,再由目标模型批量验证,从而降低逐 token 生成的等待时间。
它的关键改动是半自回归生成:保留并行吞吐,同时补上 block 内 token 之间的依赖建模。
另一部分是置信度调度验证,把低存活概率的尾部 token 截掉,避免高负载时浪费批处理算力。
在主实验表里,DSpark 相比 Eagle3 和 DFlash,在多个目标模型和任务上提高了平均接受长度。
文章称,在线上同吞吐量条件下,DSpark 让 Flash 生成速度提升 60% 到 85%,Pro 提升 57% 到 78%。
随它开源的 DeepSpec,把数据准备、草稿模型训练和评估串成了一套可复现流程。
因此这条更新的意义,是把投机解码从论文技巧推进成生产级推理加速工具链。
OpenAI 的 GPT-5.6 预览突然上线,分成 Sol、Terra 和 Luna 三档。
Sol 是旗舰模型,Terra 面向高频日常工作,Luna 则主打低成本和高速场景。
Sol 新增 max 和 ultra 模式,后者通过多个子 Agent 协同处理超出单 Agent 上限的任务。
在 Terminal-Bench 2.1 上,文章列出的 Sol Ultra 为 91.95%,Sol 为 88.8%。
生物学方向也被单独强调,GeneBench 图表显示它在输出 token 和 API 成本下有更好折中。
网络安全是这次发布的高敏感能力,ExploitBench 图表把 GPT-5.6 系列和前代模型放在一起比较。
网友对比认为,Sol 和 Mythos 互有胜负,还没有完全压过 Fable 级模型。
这次发布还带有政策背景:文章称 OpenAI 因美国政府要求,先向少数受信任伙伴开放。
所以 GPT-5.6 的看点,是更强的专业 Agent 能力,也是前沿模型发布流程被重新约束。
μ₀ 的出发点很直接:机器人也许不该只在像素里学习物理。
像素 world model 会花大量容量预测纹理、光照和背景,但这些未必是控制最需要的变量。
纯 latent 又太黑盒,compact 但难以解释、干预和纠错。
μ₀ 给出的答案,是预测三维交互轨迹,也就是少量有语义的物体、工具、手和接触点怎么运动。
这个表示小到可以扩展,又足够结构化,每条 trace 都对应真实世界中的有意义位置。
作者把它类比成机器人自己的 words:不是物体叫什么,而是交互中它如何运动。
TraceExtract 数据引擎负责把普通视频转成 trace supervision:先找什么在动,再估它在哪里动,最后分解它怎么动。
训练时,语义知识留给 vision-language backbone,物理运动交给单独的 trace expert。
预训练阶段不需要 action labels,之后冻结 μ₀,只训练轻量 action expert 把 trace features 转成动作。
文章称,μ₀ 单次预测大约 0.29 秒,在 trace forecasting 上又快又准。
在真实机器人评测里,冻结 μ₀ 后接 action expert,平均成功率超过了 π₀.₅。
机器人实验 GIF 也显示,trace-space 先验可以被控制策略复用,而不只是做漂亮的预测任务。
所以 μ₀ 的核心结论不是“模型更大”,而是 representation 可能选对了方向。
FTP-1 想补上机器人基础模型的一块短板:触觉操作长期缺少可迁移的通用策略。
它由 Sharpa、清华、UC Berkeley、上海交大和 ETH Zurich 等团队提出,面向 contact-rich manipulation。
数据层面,FTP-1-Dataset 汇集约 3000 小时、26 个来源和 21 种触觉传感器。
关键接口是 MTTS,把不同触觉输入映射到 24 个功能区域 token,比如指尖、掌心和腕部力矩。
模型还加入独立触觉 Transformer 专家,避免简单把触觉 token 塞进 VLM 干扰原有语义能力。
评测覆盖 5 家机构、14 个任务,既有预训练见过的传感器,也有完全未见的新传感器。
在真实机器人已见传感器上,文章称 FTP-1 平均成功率比 π₀.₅ 高 17.2 个百分点。
更关键的是未见传感器:FTP-1 只需新训练传感器 encoder,就比最强基线高出 31.6 个百分点。
这说明触觉也可能进入基础模型时代:共享 token、共享数据集、共享预训练专家。
MME-CoF-Pro 问的是一个核心问题:视频生成模型看起来会动,是否真的会推理?
它用 303 个样本和 16 类任务评估推理一致性,而不是只看最后一帧对不对。
基准还把无提示、文字提示和视觉提示分开,只有提示变量变化,方便归因。
过程级 Reasoning Score 会检查每个关键推理步骤是否在视频里正确发生。
文章的结论很清楚:高画质不等于会推理,提示有时还会诱发幻觉或破坏一致性。
陈天奇发布了一本免费在线书,主题是面向机器学习系统的现代 GPU 编程。
它来自 CMU 机器学习系统课程的新 GPU 编程专题,目标是讲清大模型训练和推理里的关键 kernel。
书的主线围绕 Blackwell 架构,把 GEMM 和 FlashAttention 作为贯穿案例。
第一部分讲 GPU 执行模型、性能判断、数据布局、TMA、Tensor Core、TMEM 和异步协调。
第二部分介绍 TIRx,一个贴近硬件的 Python DSL,用可运行代码解释底层细节。
第三部分从基础 Tiled GEMM 一路推进到软件流水线、持久化 kernel、tile 调度和 warp specialization。
最后一部分构建 FlashAttention 4,覆盖 softmax 衔接、因果掩码和分组查询注意力等工程细节。
这条新闻的意义是,底层 GPU kernel 知识正在变成大模型工程师必须掌握的公共教材。
这篇文章的重点不是八卦,而是一份给 Claude Code 读取的项目级规则文件。
第一条规则是写之前先读:相关文件、相似实现和测试都要看完。
第二条是先说清假设和取舍,不要把认证、缓存、依赖这类架构选择藏在代码里。
第三条是保持简单,写能解决当前问题的最少代码,不要为了未来猜测提前抽象。
文章还强调外科手术式修改:只碰任务要求相关的代码,匹配现有风格,不重新格式化整个文件。
调试时先复现、读完整错误信息,一次只改一件事,不理解根因就别加 workaround。
依赖也不能随手加:先看项目已有工具、标准库、维护状态和体积。
最后要记住,文章也说真实性存疑;真正有用的是把这些原则改成你自己项目的工程规则。