STORY 01 / 12
STORY 02 / 12
STORY 03 / 12
STORY 04 / 12
STORY 05 / 12
STORY 06 / 12
今天最重要的模型发布,是豆包大模型 2.1 Pro。发布会直接把它定位成一次生产级能力跃迁。
原文给出的第一层证据,是多模型榜单。豆包被放到 GPT、Claude、Gemini 和 DeepSeek 等模型旁边比较。
另一个榜单继续强调通用任务、推理和应用能力,而不是只展示单一场景的跑分。
产品路线图里,视觉、语音、推理和应用开发被串成一条链路,这说明发布重点不是单个模型,而是一套生产系统。
图像能力部分,原文用 4K 和 720P 人脸细节对比来展示高分辨率生成或增强的效果。
发布会还把影像质感、长时自洽一致性和样本多模态价值放在同一页,强调生成内容的可控性和连贯性。
动图演示中,系统展示了长图像或 RTL 相关能力的曲线与控制面板,说明图像生成已经进入可调参的工作流。
在问答动图里,模型能围绕资本支出和 AI 数据中心给出分步骤回答,这是长上下文与知识组织能力的应用入口。
另一段动图展示 CV 论文梳理问题,说明发布方希望把模型能力落到研究、办公和信息检索场景。
这条新闻的关键不只是新模型上线,而是豆包在努力把基准、成本、多模态和应用体验合并成可交付的生产平台。
OpenAI 今天把安全专用模型 GPT-5.5-Cyber 和 CyberGym 放到台前,核心目标是让模型参与真实漏洞修补。
Sam Altman 的截图里,CyberGym 柱状图把 GPT-5.5-Cyber-pro 放在第一位。
单独的 CyberGym 图显示,GPT-5.5-Cyber-pro 得分 85.6,高于 Verity-R1 和 GPT 系列对照。
在 SEC Bench Pro 图里,GPT-5.5-Cyber 是 69.8%,GPT-5 是 63.1%,差距被标得很直接。
Greg Brockman 的截图进一步把方向说清楚:模型不只找漏洞,还要生成和应用补丁。
原文还展示了 3 万个仓库、3000 多万次提交和 50 多万个修复发现这样的规模指标。
工具界面图说明 CyberGym 并不是单纯论文评测,而是在向可操作的安全工作台靠近。
合作伙伴标识也说明,这条线最终要面对企业安全和生态集成,而不是只做实验室展示。
百度这条新闻的关键词是无限 OCR,也就是把长文档解析从分段处理推进到更长程的一次性理解。
论文标题页和百度标识页说明,这是百度团队围绕长程解析开源的新工作。
架构图把人类抄书的过程类比成模型解析流程,重点是让上下文和 KV cache 更可控。
R-SWA 注意力图展示它如何减少长期解码时的缓存压力,避免注意力成本持续膨胀。
延迟曲线进一步说明,解码长度增加时,不同注意力实现的调用耗时会迅速拉开。
在多文档类型表格里,Unlimited OCR 被拿来和 DeepSeek-OCR、Gemini 等系统比较。
更细的子类表格显示,阅读顺序、文本重排和不同文档类型都是评价重点。
演示视频中,左侧论文页面被送入工具,右侧生成结构化文本,这才是长程 OCR 最实际的使用场景。
VLA-JEPA 这篇论文试图把世界模型和视觉语言动作模型接在一起,让机器人更懂动作后果。
框架图把训练分成两段:先用人类视频学习潜在世界模型,再用机器人数据微调动作头。
这背后的判断是,人类视频里有大量物理交互线索,可以帮助机器人减少只靠示教数据学习的压力。
在 LIBERO 表格中,VLA-JEPA 的平均成功率标到 97.2,去掉 human video 后是 96.1。
LIBERO-Plus 进一步加入相机、语言、光照、背景和布局扰动,VLA-JEPA 仍被放在最高一行。
SimplerEnv 表格则把 Google Robot 和 WidowX Robot 分开比较,覆盖 pick、move、drawer 和 spoon 等任务。
柱状图说明,在分布内任务和分布外对象布局中,VLA-JEPA 都比两个对照方法更高。
折线图还显示,人类视频比例升高时,多种扰动条件下的成功率整体上行。
视频演示里,机器人在桌面上处理彩色物体,多帧对比展示了不同方法的动作结果。
这条新闻的意义在于,VLA 研究正在从单纯模仿动作,转向学习可预测的物理世界表示。
这篇文章把生物学的自动化时刻类比成芯片行业的 EDA 时刻。
问题背景是实验复现困难。红色柱状图显示,不同学科都有大量科学家遇到过复现实验失败。
论文标题页给出核心方向:用编译器验证协议,为真实世界 AI 执行打基础。
端到端流程图显示,实验 SOP 会被规范化、解析、编译,并输出可执行的诊断和工件。
BPL 编译器架构把语法、类型树、语义分析和意图下沉分开处理,像软件工程一样检查实验协议。
诊断类别图说明,它能发现维度不匹配、容量违规、未声明标识符、状态冲突和信任违规。
修复循环图显示,第一次尝试已经能让 82.3% 的协议通过编译,后续尝试继续补齐。
SAION 平台图把认知、控制和执行分成三层,试图把协议理解和闭环实验连起来。
动图中的自动化设备展示了这类系统最终要连接的真实实验硬件。
半导体与生物行业对比表说明,BDA 想复刻 EDA 的价值:把复杂研发变成可验证流程。
Momenta 这条新闻的主线,是把自动驾驶公司放进英伟达讲了多年的 physical AI 故事里。
R7 发布会现场把物理 AI 序章作为关键词,说明 Momenta 正在重塑自己的资本市场叙事。
三层架构图把世界模型、世界认知和强化学习串起来,强调不只是感知模块,而是闭环驾驶系统。
人物照片提供了产业故事的创业者主体,也让这条新闻从技术路线转向公司兑现能力。
华为与 Momenta 图显示,智能驾驶供应链已经进入多方协同和平台化竞争阶段。
招股书表格和收入图表是这条新闻的另一半:资本市场最终要看收入和增长预期。
收入柱状图把未来年份画成陡峭上行曲线,这也是市场需要验证的核心假设。
与 Tesla 和 Anthropic 的对比图说明,Momenta 希望同时讲清技术平台和商业化模式。
昆仑行这条新闻首先是速度:成立不到 90 天,就被原文称为具身智能最快独角兽。
具身智能正在吸引密集资本押注,因为它连接大模型、机器人硬件和真实场景执行。
融资故事本身说明,市场相信机器人基础能力会从实验室进入产业应用。
但这类新闻不能只看估值,关键还要看机器人平台、客户场景和可复制部署能力。
所以它更像是具身智能赛道热度的信号,而不是技术胜负已经确定。
接下来真正要验证的,是这家公司能否把资金和团队优势转化成可运行的机器人系统。
这条新闻把高考志愿填报变成了一个 AI 与人类咨询师的对照测试。
雷达图中,千问和人类咨询师被放在六个能力维度上比较。
它的意义在于,志愿填报并不只是查分数线,还要整合专业、城市、家庭偏好和风险。
AI 的优势是覆盖面和一致性,人类咨询师的优势则是经验、沟通和个性化判断。
因此这类测评更适合提醒我们:AI 可以参与决策,但不能替代最终复核。
正行创新这条新闻的重点,是近亿美元天使轮融资和强发起人组合。
标题里出现连续创业者、正大集团和清华青年学者,说明市场首先押注团队背景。
品牌图中的机器人形象,也把公司叙事放到了智能系统和实体交互方向。
但早期融资不能替代产品验证,真正关键是后续能否披露明确客户和技术路线。
这条新闻更像是 AI 创业资金继续涌向高壁垒团队的一个信号。
Amazon 这篇 ACL 论文研究一个很具体的问题:用户记忆会不会改变大模型的情绪推理。
实验框架把用户画像分成优势和劣势条件,再观察模型如何处理情绪理解、管理和支持任务。
结果表显示,多款模型在加入 advantaged 或 disadvantaged 记忆后,得分都会变化。
中文画像卡片说明,所谓劣势用户包含教育、收入、社会支持和经济压力等维度。
这条研究的警示是,长期记忆可以个性化服务,也可能把社会偏差带进情绪判断。
清华团队这篇研究关注真机强化学习里的安全探索问题。
真机学习和仿真不同,机器人不能靠大量危险试错来换取策略改进。
标题中的安全探索均衡机制,核心是让学习效率和安全边界同时被考虑。
这条研究的价值在于提醒我们,机器人智能的下一步不只是更会动,还要更会安全地学。
最后一条研究来自 Science 子刊,主题是 AI 和药用化学家的双轨优化。
总图把流程拆成 AI 先导发现、化学家优化和生物活性验证几个环节。
化合物结构图说明,AI 生成并不是终点,后续还要围绕候选分子做结构优化。
竖版图把筛选、预测、活性曲线和候选分子放在一起,体现双轨协作。
结果集合图提醒我们,AI 药物发现的关键仍是实验验证,而不只是生成漂亮分子。