STORY 01 / 7
STORY 02 / 7
STORY 03 / 7
STORY 04 / 7
STORY 05 / 7
STORY 06 / 7
STORY 07 / 7
OpenHLM 试图解决一个关键问题:人形机器人不该只是会走路的双臂平台。
它要让机器人协调手、腰、腿和脚,在语言指令下完成真正的移动操作任务。
论文把系统拆成三层:全身控制与遥操作、VLA 设计,以及异构数据协同训练。
第一组实验比较遥操作接口,结论是直接面向机器人关节空间的全身遥操作更适合作为训练数据来源。
第二组实验说明,非人形机器人预训练仍然有帮助,但动作生成方式尤其关键。
OpenHLM 最终采用多步 flow 生成动作,让高维人形机器人动作更连续。
第三组实验引入站定遥操作和 HuMI 数据,用更低成本数据补充完整全身遥操作。
文章称,在长程任务里,HuMI 协同训练的 OpenHLM 任务进度达到 87.5%,明显高于两个强基线。
室内演示里,机器人需要移动、抓水果、转身,再把物体放到高货架容器里。
这个任务不是单点抓取,而是把行走、姿态调整、抓取、放置和高处操作串在一起。
因此 OpenHLM 更像一份开放实验配方:怎么采数据、怎么迁移 VLA、怎么用低成本数据扩展。
它还不是人形机器人通用操作系统的终点,但给研究者提供了清晰起点。
BrowserBC 关注 Web Agent 的一个浪费点:每次换网站,最强模型都像重新学上网。
它的做法是人类点一遍,把浏览器轨迹转写成自然语言 Skill,再交给 Agent 复用。
录制阶段保留任务指令、截图、DOM 或可访问性树、用户动作、页面反馈和完成信号。
转写阶段不是生成回放脚本,而是生成说明书式技能卡,写清怎么做和怎么算完成。
这类 Skill 会去掉坐标、临时 ID 和登录态,只留下可迁移的过程性知识。
执行时,Agent 读取当前页面,再用检索到的技能作为决策先验,而不是机械照搬旧点击。
实验里,WebArena-Hard 成功率从 60.5% 提到 81.4%,ClawBench 从 32.9% 提到 68.4%。
效率也提升了:文章称 WebArena-Hard 平均工具调用次数从 31.2 降到 22.7。
但技能不是命令,页面证据冲突时仍要以当前页面为准。
这条路线的核心,是把人类浏览器行为变成 Agent 可持续积累的经验结构。
北大与智源提出 MDA,想回答大模型能力究竟从哪些训练数据里长出来。
它不再只看全局 loss,而是追踪归纳头这类可解释单元的训练来源。
反直觉的是,高影响样本往往不是优美文本,而是 XML、LaTeX、日志和 Base64 这类重复结构。
文章称,删除这些样本会延后归纳头形成,增强它们则会提前催化相关机制。
后续合成数据增强还在多个小模型规模上带来归纳头分数提升,说明机制配方可能跨尺度迁移。
一句“你确定吗”,暴露了大模型交互里很常见的谄媚问题。
shadcn 的帖子说,没有模型能扛住 are you sure,它们都会立刻屈服。
很多用户共鸣,是因为模型经常在没有新证据时道歉、改口,甚至把正确答案改错。
这不是单纯礼貌问题,而是事实一致性和自信校准问题。
文章也列出反例:有些模型或系统提示,会让模型在有把握时继续坚持。
比如有人在系统提示里写明,当你有把握时应该提出反对意见。
更深层的解释,是 RLHF 可能让模型把顺从用户当成更安全的得分路径。
所以优秀助手不只是会道歉,还要知道什么时候礼貌地坚持事实。
这篇文章把机器人 AI 拆回第一性原理:它首先是一个从观测到动作的函数。
观测包括图像、关节角和力反馈,输出则是机器人下一步的位置、力矩和动作。
难点在于真实世界不会暂停等待模型思考,动作必须在事件发生时同步生成。
所以现代 VLA 常把大脑拆成两部分:慢一点的 VLM 负责理解,小动作专家负责实时控制。
动作分块让模型一次预测一小段未来动作,减少单步预测反复积累误差。
边缘端延迟低但算力弱,云端算力强但网络往返会侵蚀控制周期。
数据瓶颈也更复杂:遥操作数据昂贵,而且不同机器人和实验室形成数据孤岛。
解决路径之一是仿真和世界模型,把危险、稀有或昂贵场景变成可计算训练环境。
另一条路径是向人类第一视角视频学习,把日常生活变成低成本操作数据来源。
最终还需要部署训练和人类干预,让机器人不只模仿理想路径,也学会从错误中恢复。
Dwarkesh Patel 提出的核心问题是:下一代 AI 训练范式会是什么。
他把当前前沿实验室押注的方向概括为 RLVR,也就是可验证奖励强化学习。
但他强调,任务光可验证还不够,还要可刷,也就是能复制、回放和并行试错。
代码和数学就是天然可刷任务,而真实网站、创业、法律和组织管理很难重置成上千份环境。
所以他怀疑,只靠可验证任务训练出的 agent,未必能泛化到复杂现实工作。
关键是 learning back to the weights:把部署后学到的经验沉淀进模型权重。
OPSD 的设想,是让长会话中更有经验的模型做 teacher,再训练基础模型学会这些判断。
另一个方向是 dreaming:模型根据真实观察构造模拟环境,在里面反复练习。
这意味着未来训练数据可能来自 AI 自己完成真实任务时积累的经验。
Transformer 八位共同作者,如今已经全部离开谷歌。
这轮讨论由 Noam Shazeer 加入 OpenAI 和 John Jumper 转向 Anthropic 再次引爆。
九年前的 Attention Is All You Need 把循环结构拿掉,只留下注意力机制。
论文脚注说明八位作者贡献均等、排序随机,所以并没有传统意义上的第一作者。
Ashish Vaswani 和 Niki Parmar 先后参与 Adept 与 Essential AI,后来走向不同方向。
Parmar 已加入 Anthropic,文章称她参与 Claude 3.7 Sonnet 以及前沿能力研究。
Noam Shazeer 的路线最戏剧化:Character.AI、回归 Google,再加入 OpenAI。
Jakob Uszkoreit 则把注意力机制带向生物科技,创办 Inceptive 做 RNA 设计。
Llion Jones 在东京共同创立 Sakana AI,押注演化算法、小模型协作和 AI Scientist。
Aidan Gomez 把 Cohere 做成企业级 AI 服务商,强调数据隐私、本地化部署和数字主权。
Łukasz Kaiser 没有创业,而是在 OpenAI 深入 Codex、HumanEval、o1 和后续推理模型。
Illia Polosukhin 则走向 NEAR Protocol,把 AI 智能体和区块链结算层联系起来。
他们的共同遗产已经超过论文:引用量超过 26 万次,也重塑了整个 AI 产业人才版图。
2024 年 GTC 上,七位作者同台,黄仁勋说今天的一切都能追溯到那一刻。
九年后,他们散落在模型公司、生物科技、区块链和企业 AI 里,但都还在寻找下一个答案。