STORY 08 / 11
MiniMax M3 的重点不是又一个新模型,而是把编程智能体、百万上下文和原生多模态放进同一个开源模型叙事里。
报道称,M3 在 SWE-Bench Pro、Terminal Bench、KernelBench 和 Claw-Eval 上都进入第一梯队,尤其强调真实工程任务能力。
更有意思的是长线程优化案例:模型连续运行约二十四小时,提交一百四十七次 benchmark,把 GPU kernel 利用率大幅推高。
多模态部分,文章用一个界面演示说明,M3 不只是识别图像,还会把可见线索和文字任务结合起来逐步判断。
在 agent 任务里,文章说 M3 会主动检索价格页、整理数据,并额外做出分组对比、汇率换算和主题切换。
另一个测试只给一句开放式写作请求,M3 在十六分钟后交付 markdown 和图片文件夹,显示它能处理长资料整理任务。
长上下文能力来自 MiniMax Sparse Attention,报道说它用稀疏注意力缓解一百万 token 带来的计算膨胀。
配套产品 MiniMax Code 则把大任务拆成多阶段,由 Producer 和 Verifier 循环推进,目标是让 agent 长时间无人干预运行。
商业侧同样激进,文章列出低价 token 套餐和 API 计费,认为 M3 的性价比会直接影响开发者采用。
但关键仍在后续验证:权重和技术报告发布后,M3 才能在第三方复测里证明 frontier 三件套是不是稳定成立。
英伟达这次讲的不是单颗芯片,而是把 Windows PC 重新包装成本地 AI Agent 的运行平台。
发布会现场,黄仁勋把这条线索和 Vera、Rubin 等数据中心路线并排放置,强调 AI 计算正在进入个人设备。
核心硬件是 RTX Spark,报道说它与微软协作,面向本地模型、创意工作流和个人 agent 设计。
参数上,文章提到 Blackwell RTX GPU、六千一百四十四个 CUDA 核心、第五代 Tensor Core 和 Grace CPU。
它既可以进入轻薄 Windows 笔记本,也可以做成小型高能效台式机,目标是把 AI 工作站能力压缩到个人设备里。
英伟达还把硬件生态拉进来,各大厂商围绕 RTX Spark 开发不同形态的 AI PC 产品。
微软的角色在于系统平台:报道强调 Windows 要为本地 agent 提供强大且安全的运行环境。
用户体验层面,文章设想人们不再只点击应用,而是用自然语言让 PC 完成跨应用任务。
对创作者和开发者来说,真正要看的还是应用适配、生成式 AI 加速和本地模型运行能否稳定落地。
Project Eden 的问题意识很直接:现在许多世界模型会生成视频,但不一定真的维护一个世界。
文章说,真正的世界要能保存状态,镜头转走后物体仍然存在,多人进入时看到的也应是同一个场景。
Project Eden 的技术路线是把世界状态推演和视觉呈现解耦,让底层状态先存在,再把它渲染成画面。
这意味着它不是简单预测下一帧,而是试图让用户动作持续改变同一个环境。
多人一致性则是另一层要求:不同角色、不同视角进入,也要对齐到同一个底层世界。
VAST 的支撑来自 Tripo 系列 3D 大模型,文章称 Tripo P1.0 能在两秒内生成专业建模师级别的 3D 模型。
Tripo H3.1 和 8K 贴图算法则被用来说明资产细节、材质和结构完整性。
Segmentation V2 进一步把 3D 资产拆成可操作部件,为从模型生成走向世界运行提供基础。
因此,报道的重点不是画质炫技,而是世界状态能不能长期保存、被动作更新、被多人共享。
如果成立,它会影响游戏原型、仿真训练、虚拟空间和具身智能数据生成。
但文章没有给出标准化评测,所以我们只能把它当作系统路线和演示主张,而不是已被外部验证的结论。
四段演示都很短,后续真正要看的,是长时间导航、跨视角回访和多人同步时状态是否仍然一致。
这也解释了为什么文章把 Project Eden 放在 Tripo 之后:先有可生成资产,再谈可运行世界。
一句话说,Project Eden 是把世界模型从生成视频推向生成状态机的尝试。
它的价值和风险都在同一点:如果状态真的可保存,AI 生成空间就会从素材变成环境。
星海图 G0.5 的主张是,具身智能不只靠更多数据,还要重新设计 VLA 模型的动作生成方式。
文章把结果压缩成七个基准:仿真、真机、零样本迁移和长程任务都被放进同一张成绩单。
在 DROID 零样本迁移中,报道称 G0.5 平均成功率达到 82.5%,比 π0.5-DROID 高二十五个百分点。
在星海图自研平台上,同等训练数据和计算预算下,G0.5 也在折毛巾、整理铅笔盒等复杂任务中领先。
LIBERO 和 RoboTwin 则强调长程序列与双臂操作,文章称 G0.5 在公开结果中刷新了多个位置。
BEHAVIOR-1K 更接近家庭空间里的长程任务,动图展示的不是一次抓取,而是一段连续操作流程。
文章说,单个 checkpoint、一个后训练 epoch 就超过了多个训练更久或集成的基线,指向预训练底座质量。
架构上,G0.5 去掉了推理和控制之间的瓶颈,让同一套权重在同一条自回归序列里生成动作。
ActionCodec 把十八种机器人本体统一到二十七维动作空间,只生成需要移动的部件 token。
扣子 3.0 的关键词是团队化:Agent 不再只是一个助手,而是能被创建、接入和调度的协作成员。
报道说,用户可以把 Claude Code、Codex CLI、OpenClaw 等本地 agent 接入同一个项目空间。
云端 agent 则运行在扣子提供的云电脑中,降低环境配置门槛,让 agent 长期在线。
扣子还支持模型切换、职业模板和行业技能包,把投研、法务、科研、自媒体等场景做成起点。
项目空间是另一项核心更新,它把目标、成员、Agent、文件和过程产出放在同一个任务管理空间。
在复杂任务里,不同 agent 可以像团队成员一样分工,用户负责设定目标和最终决策。
这说明 Agent 产品开始争夺真实生产现场,而不只是聊天窗口里的单轮响应。
但要真正落地,还要看权限隔离、文件访问、工具兼容和本地 agent 接入的稳定性。
OpenAI Robotics 的招聘信息,把这家公司从模型供应商推向了全栈机器人公司的叙事。
文章引用的愿景是,短期帮助技术工人建设未来基础设施,长期让每个人拥有个人机器人。
这和 Sora、Worldsim 放在一起看,就像从世界模拟走向现实执行的具身智能闭环。
文章特别提到执行器和电机设计,因为机器人能不能稳定干活,很大程度取决于身体而不只是大脑。
团队层面,Aditya Ramesh 的经历被用来连接生成式视觉模型、世界模拟和机器人系统。
何泰然的社交媒体发言则强调 builder 导向:比起履历标签,更看重能否动手解决机器人问题。
这条新闻真正重要的地方,是 OpenAI 可能把模型、硬件、运营和数据采集都握在自己手里。
但现在仍是招聘和战略信号,离具体产品、量产成本和安全规范还有很长距离。
这篇文章讨论的不是单一融资新闻,而是 Anthropic 为什么靠专注和安全风控,反而站到 OpenAI 对面。
文章先从达里奥的安全风格讲起:保守、强风控、容易得罪用户,但也形成了清晰组织取向。
资本侧,报道称 Anthropic 完成 H 轮融资后估值达到九千六百五十亿美元,超过 OpenAI 的对比估值。
收入侧,文章称年化收入从二零二五年初约十亿美元,增长到二零二六年五月约四百七十亿美元。
它给出的解释是,Anthropic 把注意力集中在 Claude 能力和代码 agent,而不是铺开太多消费产品。
相比之下,文章把谷歌和 OpenAI 描述成入口很多、产品很多,也因此更容易分散资源。
代码 agent 是关键,因为写工具、搭评测和改基础设施,本身就能帮助下一代模型变强。
但 caveat 也很清楚:一旦 OpenAI 或谷歌追上代码能力,过度集中在这条线就可能变成风险。
这篇长文的核心提醒是:后训练时代的 scaling,不再只是把预训练数据和参数继续放大。
Cameron Wolfe 的博客把问题拆成三层:传统 scaling law、LLM 强化学习算法,以及新的 RL 训练规律。
预训练 scaling law 的基础是幂律:算力、模型规模和数据增加时,损失按可拟合的规律下降。
这些规律曾帮助研究者在固定算力下分配模型参数和训练 token,形成 Chinchilla 之后的训练常识。
但推理模型把 scaling 推向 RL:训练时算力、推理时算力和奖励信号开始共同决定模型表现。
GRPO 之所以流行,是因为它省掉价值模型,用同一提示下多条回答的奖励来构造优势。
但 GRPO 也带来 token 级截断、熵崩溃、长度偏差和训练不稳定等问题。
GSPO 把重要性比率提升到序列级,试图让长短不同的推理轨迹在更新时更可比。
DAPO 则用动态采样、损失聚合和长度处理来改善样本效率,并缓解熵崩溃。
Dr. GRPO 去掉组内标准差项,关注问题难度偏差和响应长度偏差,让训练更稳定。
TIS 处理的是系统层问题:训练引擎和推理引擎算出的 token 概率会有差异,需要在策略梯度中校正。
CISPO 进一步指出,被截断的 token 不应完全失去梯度,否则关键推理步骤可能学不到。
新的 RL scaling 图像更像饱和 S 曲线:算力增加会解锁性能,但收益会进入平台期。
ScaleRL 把这些小实验里识别出的最佳实践整合起来,说明大规模 RL 是算法、数据和系统工程的组合。
最后,采样算力也有 scaling:预算越大,每个提示采样更多 rollout 往往比单纯训练更久更有效。
AutoScientists 把科研 agent 的目标设得很高:不只是写想法,而是长期跑完整个实验闭环。
它的核心是自组织 agent 团队,在共享状态里记录提案、实验、失败和当前最优解。
报道称,在 BioML-Bench 上,系统平均排行百分位达到 74.4%,比自体研究高 8.33 个百分点。
更难的测试是从已有优化解继续迭代,AutoScientists 仍然能重组方向并找到改进。
在 ProteinGym 监督替换实验中,文章称平均 Spearman rho 从 0.657 提高到 0.700。
Thought-Aligner 关注的是智能体行为安全:风险不只在说什么,更在它调用工具前怎么想。
它被插在 Thought 生成之后、工具调用之前,目标是在行动前纠正危险推理。
文章强调三个特点:轻量、可插拔,并且尽量维持原 agent 的任务有用性。
训练上,团队构造了隐私、金融、网络安全等高风险场景里的安全和不安全 thought 偏好对。
实验部分,文章称 ToolEmu、Agent-SafetyBench 和 OpenClaw 场景都显示安全性提升,同时保留有用性。
SE-GA 解决的是 GUI agent 的两个老问题:长任务里记不住,执行之后也学不会。
整体框架把记忆增强和自我进化放在一起,让 agent 从静态执行器变成动态学习者。
TTME 在测试时扩展记忆,构建分层记忆库,帮助 agent 在多步骤任务中找回关键历史。
MASE 则把这些交互经验转化成训练信号,让成功和失败轨迹都能反哺模型能力。
结果部分,文章称 SE-GA 在 GUI 定位、长周期规划和动态 Android 环境中都有提升。