STORY 01 / 10
STORY 02 / 10
STORY 05 / 10
STORY 10 / 10
机器之心报道,EEVEE 想解决的是一个真实部署问题:Agent 能不能在使用中继续变强。
这个框架来自上海交通大学和普林斯顿大学,目标是把测试时提示学习扩展到多任务连续适应。
文章称,EEVEE 会把执行过程中的提示、反馈和失败经验沉淀下来,供后续任务复用。
实验图把一个任务到四个任务放在一起比较,强调的不是单点刷分,而是跨任务迁移。
在表格中,EEVEE 在 Qwen3-4B 和 DeepSeek-V3.2 的平均分上都高于基线。
代价也要看清:文章同时给出 token 消耗图,说明自我改进会带来额外推理成本。
所以 EEVEE 的意义,是把 Agent 持续适应这个目标,变成了一个可以被实验检验的问题。
PAIWorld 登顶 WorldArena,文章把它放在具身世界模型评测的核心位置。
这个榜单不只看图像好不好看,还看运动、物理、三维准确性和可控性。
PAIWorld 的流程图显示,它把多视角图像、相机姿态和动作文本输入合到世界潜变量中。
文章展示的可视化结果强调一点:模型要在视角变化中保持物体和空间关系稳定。
这类能力对机器人和具身智能重要,因为规划系统需要能预测环境如何随动作变化。
不过,榜单第一仍不等于真实机器人闭环可用,长时序和真实控制还需要后续验证。
TerminalWorld 把代码智能体评测拉回真实终端工作流,而不是只看会不会写代码。
文章称,团队使用约八万条人类终端录像,覆盖部署、依赖、云资源和排障等任务。
流程图显示,数据从录像采集进入任务合成,再进入 Agent 执行和自动评测。
结果图说明,模型在传统终端基准上的表现,不一定能直接代表真实 CLI 工作流能力。
MiniT2I 的看点,是何恺明团队把文生图系统故意做简单。
文章称,它去掉 VAE、复杂条件注入、私有数据和 RL 对齐,直接在像素空间训练。
结果表显示,MiniT2I-B 和 MiniT2I-L 在 GenEval 与 DPG 上达到有竞争力的分数。
这篇工作的价值,不是宣布复杂系统过时,而是给文生图研究提供一个更干净的基线。
TrustedARI 关注的是一个不太显眼但很关键的问题:Agent 请求经过中转站时,到底还能不能被信任。
文章把风险拆成三类:提示词可能泄露,返回结果可能被改,服务端点也可能被冒充。
TrustedARI 的路线,是把中转层从靠平台承诺,改成能用协议证明。
协议图里,三方 TLS、隐私保护查询构造和可验证计费,是它想同时解决的核心环节。
中文对比表进一步说明,它试图覆盖数据可信、模型保障、内存完整性和 token 计费。
但这类基础设施能否落地,还要看性能开销、平台接入和企业是否愿意改造调用链。
Skill-3D 解决的是三维场景智能体的工具选择问题。
文章指出,不同问题需要不同证据:距离、方向、边界、深度和三维重建不能混用。
这个方法先读懂场景和问题,再决定应该调用哪一组技能。
这让它更接近真实机器人场景:不是会调用工具就够了,而是要知道为什么调用。
TACO 关注医学 3D 多模态影像中的一个老问题:不同模态外观不同,但解剖拓扑相对稳定。
文章称,它从实例级预训练转向群体级拓扑关系,利用脑部结构之间的稳定位置关系。
方法图显示,TACO 同时使用实例内和实例间的对比聚类来学习表征。
如果这类预训练有效,医学影像模型会更容易跨患者、跨模态迁移,但临床有效性仍需独立验证。
智子芯元两个月完成两轮融资,文章把它放在 AI for Computing 升温的大背景下。
报道认为,科学发现和工业生产的共同瓶颈,是如何把复杂世界转化为可计算的问题。
从 CPU、GPU 到集群,大规模计算已经支撑了 AI,但新的科学计算任务还需要更高层的平台能力。
这类公司瞄准的不是单一模型,而是药物、材料、制造和工程优化中的计算工作流。
但融资新闻不能直接证明技术领先,后续还要看公开产品、客户案例和可复现指标。
这篇文章不是模型发布,而是一个软件工程师对 LLM 冲击职业路径的自述。
Hacker News 截图中的原帖标题很直接:LLM 正在侵蚀我的软件工程职业生涯。
作者过去依赖领域知识、实现经验和代码能力建立壁垒,但这些壁垒正在被重新定价。
文章的价值在于,它把 AI Coding 的影响从工具效率,推进到职业身份和组织分工。
但这仍是个体案例,不同工程领域和公司对经验的需求不会同时、同速消失。
Alisa Liu 的求职复盘火了,是因为它把顶级 AI 研究岗位的流程摊开给大家看。
文章称,她经历五十七场面试,最终拿到 OpenAI 等公司的研究岗位 offer。
图中可以看到 Anthropic、OpenAI、Google、Meta、xAI 和 Cursor 等公司处在不同阶段。
她的研究方向包括 tokenization、数据创建和推理时适应,正好对应基础模型团队关心的问题。
不过这只是个人样本,不能代表所有 AI 公司招聘标准,但能看到顶级岗位的时间和心理成本。