STORY 01 / 11
STORY 02 / 11
STORY 03 / 11
STORY 04 / 11
STORY 05 / 11
STORY 06 / 11
STORY 07 / 11
STORY 11 / 11
今天这条新闻把递归自我改进的风险讨论,拉回到一个已经公开运行的自动化 AI 研究系统上。
文章称,Recursive Superintelligence 的系统可以替研究者跑实验,并在三个基准上给出可量化结果。
在 NanoChat Autoresearch 里,系统把验证 BPP 降到 0.9109,文章写成约 1.3 倍训练速度提升。
在 NanoGPT Speedrun 里,报道给出的关键数字是训练到目标损失只需要 77.5 秒。
SOL-ExecBench 则把问题放到 kernel 优化上,显示自动化系统能在硬件相关任务里找到更优解。
这也解释了为什么 Anthropic 的警告会被反复引用:当 AI 开始帮助构建 AI,研发速度和安全边界会同时变得更敏感。
文章没有把这称为真正的递归自我改进,但它展示了自动化研究系统从概念走向工程结果的一步。
接下来要看的,是这些系统能否在更多开放任务上复现收益,并让每一步实验都有可审计轨迹。
Fable 5 的智能体成绩今天出现了一个很有意思的反差:一个榜单领先,另一个最难考试却不轻松。
在 Agent Arena 上,文章称 Fable 5 High 排名第一,GPT-5.5 xHigh 排名第二。
但伯克利团队的 Agents' Last Exam,把测试拉到更长、更真实的专业工作流里。
这个基准包含 55 个非体力职业和 1500 多项任务,评价的是最终结果是否可验证。
文章特别强调,ALE-CLU 比常见终端或软件工程基准更宽、更长,难度也更高。
一旦把成本也放进来,模型强弱就不只是通过率问题,还包括每次完成任务要花多少钱。
任务的构建流程也很重,从专家提交到自动审核、执行和质量检查,目标是减少玩榜空间。
所以这条新闻的结论很克制:有用的智能体已经来了,但真正胜任工作的智能体还没有稳定到来。
Fable 5 的安全新闻,今天不是能力榜单,而是安全分类器被声称一轮对话绕过。
文章称,联合研究团队在发布当天完成攻击,整个过程只需要一次对话和不到五秒。
这件事之所以敏感,是因为 Fable 5 发布后使用量迅速拉升,风险会被更快放大。
研究团队把问题称为前沿大模型的内部安全崩溃,而不是传统提示词绕行。
文章给出的机制图显示,攻击目标是安全分类器和模型之间的职责断点。
风险范围也不只在网络安全,图中还列出生物、化学、医学和模型滥用等领域。
报道还把这个问题放到更广的模型生态里,列出多个前沿模型的触发记录。
这条新闻最重要的提醒是,智能体安全不能只靠一个前置分类器,还要覆盖任务执行全过程。
千问这次把 Agent 放进了一个很现实的场景:高考志愿填报。
文章称,考生和家长要在有限时间里处理近三千所高校、两千多个专业和复杂批次规则。
千问的方案,是上线一个全周期志愿填报 Agent,并免费开放给全国考生。
报道提到,它基于千问高考志愿大模型和夸克八年高考数据经验。
三个核心能力分别是志愿报告、志愿日历和志愿问答,目标是覆盖填报全流程。
真正的问题不只是能不能回答,而是 AI 在人生决策里怎样保证可靠、可信和克制。
所以这条新闻更像一个信号:Agent 正在从办公流和代码流,进入教育选择这样的社会服务场景。
华为云这篇报道的关键词,是把云从算力黑土地,改写成智能体时代的硅基黑土地。
文章说,Agent 流行以后,底层云服务被反向挤压,需要支撑更复杂的工具和工作流。
华为云的答案,是一组 Agentic AI 新品,覆盖基础设施、开发平台和行业应用。
在模型和开发层,文章重点提到 ModelArts,要让智能体开发更像平台化工程。
这背后的判断是,未来做 AI 不只是买卡和调模型,而是开发并用好智能体。
行业案例里,文章举了医院病理服务,说明智能体底座要和具体业务流程绑定。
行业 AI 梦工厂则把具身智能、智慧医疗、智能制造和科学计算放进同一张路线图。
所以这不是一条单点产品新闻,而是云厂商在 Agent 时代重新包装基础设施价值的信号。
这篇机器人文章的核心判断很反直觉:机器人可能不会等来一个单独的 ChatGPT 时刻。
作者认为,AI 会推动机器人拐点,但真正落地要靠多种工具和系统工程一起工作。
文章提醒,很多惊艳演示仍然是脚本、剪辑和排练后的结果。
真正困难的,是让机器人在非结构化环境里理解变化、执行任务并承担失败成本。
文章还给出一个行业背景:2025 年机器人公司融资达到 407 亿美元。
但资本热度不等于通用能力成熟,落地还要同时解决感知、控制、数据和安全。
所以判断具身智能,不能只看一段视频,而要看系统能否长期、稳定、低成本地工作。
GuidedVLA 这篇 RSS 论文,解决的是机器人动作解码器到底在看哪里的问题。
文章说,很多端到端 VLA 模型会完成动作,但注意力仍像黑箱,换场景时容易看错重点。
GuidedVLA 的做法,是显式指定不同 attention head 的职责,而不是让动作解码器自己悟。
其中 object head 负责看目标物,depth head 负责空间几何,skill head 负责判断任务阶段。
这让机器人的动作生成不只是更强,也更容易解释:错误来自哪里可以被拆开看。
第一段实机视频里,机械臂在桌面上对杯碗进行操作,动作从靠近、夹取到移动。
这种视频比静态图更能说明,论文关心的是动作生成过程里的注意力和控制稳定性。
第二段实机视频换成实验室器具,机械臂靠近量杯并完成烧杯相关动作。
在 LIBERO-Plus 基准上,文章图表显示加入各类 head 后,任务成功率整体提高。
扰动测试里,深度 head 和全 head 组合也在多种噪声条件下保持更高表现。
论文还用热图和曲线说明,不同 head 不是装饰,而是在任务中承担可观察的功能。
所以 GuidedVLA 的意义,是把具身智能里的黑箱动作,拆成可调、可解释、可诊断的模块。
NeuroFlow 这篇 CVPR 论文,目标是让视觉脑机从单向读脑走向双向交互。
过去视觉编码和解码常常分开训练,缺少统一潜空间和双向一致性。
文章称,NeuroFlow 用可逆神经流结构,把读脑和写脑放进同一个模型。
实验图里能看到视觉刺激、fMRI 活动、合成结果和解释方差等评估维度。
这还不是应用落地,但为视觉假体和双向脑机接口提供了新的建模范式。
这篇 ICML 观点论文,重新拆开了一个热门说法:Transformer 到底是不是图灵完备。
人大团队提醒,很多证明讨论的是会随输入变长而扩大的模型族。
但我们日常部署的模型,通常是固定权重、固定精度和固定上下文窗口。
论文的关键判断是,能力上限取决于上下文管理,而不只是 Transformer 本身。
所以这篇文章的价值,是把理论模型族和真实部署系统的边界讲清楚。
ViT3 这篇论文入围 CVPR 最佳论文决选,目标是缓解视觉 Transformer 的复杂度瓶颈。
文章称,它把测试时训练引入视觉模型,让上下文信息被写进一个紧凑内部模型。
和传统注意力相比,ViT3 更强调在当前输入上快速更新内部状态。
报道给出的亮点数字是,高分辨率图像上速度达到 DeiT-T 的四点六倍,显存降低九成。
如果这条路线继续成立,它会给高分辨率视觉和长视频理解提供更省资源的架构选择。
这篇智源大会报道,不只是会议信息,而是把 Agent、世界模型和物理 AI 放到同一条主线里。
文章用一句话概括趋势:AI 正从预测下一个词元,走向预测下一个物理状态。
Diffie 的发言把 Agent 安全拆成两面:既要保护智能体,也要防范智能体。
Barto 的强化学习主题,则把控制、搜索和联想记忆重新放回下一代智能系统讨论。
智源自己的路线图里,世界模型从数字世界扩展到物理世界,成为核心方向。
悟界 Physis-v0.1 被描述为全栈世界物理建模基础模型,覆盖动力学和交互。
RoboBrain Croc v0 则把具身大脑和动作相关能力放进物理 AI 版图。
文章还提到多模态学习、开放复杂系统和 FlagOS 等生态方向,说明大会关注的是全栈能力。
最后,展区和 Agent 能力布局说明,这些议题已经从报告厅延伸到产品和生态展示。