我们用 GDPevo,衡量出 AI 自进化的真实价值。
构建一个企业级的自进化基准,我们主要跟两个硬骨头死磕。
第二个硬骨头,就是前面提到的“在测试集上训练”陷阱。
评估环节,我们守两条规矩: 分数必须可复现 ; 成本和准确率,一样重要 。
GDPevo 用的是确定性的 规则打分器 ,而不是让一个大模型来当裁判(LLM-as-a-Judge)。
一个好的自进化策略,不该只是“越来越准”,还得“越来越省”——就像一个人活儿越干越熟,时间更短、效果更好。
整个评估 不依赖任何评估 SDK ,是纯 自然语言驱动 的。
我们在 12 个任务组、共 120 个任务上,测了三个不同的 Agent。
- fewshot(少样本进化,类似 SFT) :Agent 先把训练集的题目和标准答案过一遍、归纳经验,再去做测试题。
这个项目里完整的流程、产物和结果,全部 对外开放 。
首先,世界模型、具身智能是 2026 年风投圈最狂热、最吸金的两条王牌赛道。
就在融资落定的前几天,开悟世界模型 3.0 (Kairos)正式出征。
图片源自大晓机器人 英伟达 Cosmos 3、阿里 Wan 2.2、PI、Abot这些行业巨头和全球主流世界模型,悉数被“斩于马下”。
一骑绝尘的打榜成绩的背后,是大晓机器人本身跑在行业前头的技术积累。
“大晓”二字,直接取自首席科学家陶大程的“大”,和董事长王晓刚的“晓”。
深创投、上海科创基金与临港新片区基金的联合出手,则代表了极高含金量的政府资本组合。
在含金量极高的全球四大具身智能评测中,横扫千军,斩获四个“全球第一”!
投资方集齐国家队、产业队、VC 队三股力量: 既有深创投、上海科创基金、临港新片区基金等政府资本,吉利资本与沐曦股份等公司业务强相关的产业资本; 又有达晨财智、盛宇投资、复星锐正、华控基金、豫资涨泉等 VC 资本;而老股东商汤国香资本持续增资。
2026年春天,智能家居行业迎来了一场冰火两重天的资本叙事。
那一年,智能家居行业迎来了一场始料未及的“倒春寒”。
如果说绿米靠的是“换标签”,萤石靠的则是“吃老本”。
2025年公司经营活动现金流量净额达到11.2亿元,同比暴增104.30%,账上现金充裕得让一众同行艳羡。
绿米与萤石的故事,让人想起一句话:在寒冬里,不是最强的物种存活,而是最能适应变化的物种。
3月29日,绿米联创(下称“绿米”)正式向港交所递交招股说明书,拟主板挂牌上市。
当前,人工智能作为培育新质生产力的核心引擎,已上升为国家战略层面。
国务院《关于深入实施“人工智能+”行动的意见》明确提出,要加快AI核心技术自主创新、降低产业落地门槛、构建开放共享的国产AI生态,推动人工智能与千行百业深度融合。
Confucius4-TTS采用1.3B参数高性能语音模型,开放行业领先的零样本语音克隆、跨语种无痕音色迁移、情感复刻能力,采用宽松友好的Apache开源协议,面向全球创作者、开发者开放完整模型权重与配套工具链。
Confucius4-TTS实现了真正的零样本语音克隆能力。
Confucius4-TTS全面支持中、英、日、韩、德、法、西、印尼、意、泰、葡、俄、马来、越南语等14种语言的自然流利表达。
区别于初代EmotiVoice仅支持“happy/sad/angry”等离散文本标签的粗放式情感控制,Confucius4-TTS创新性地支持音频Prompt情感克隆迁移。
Confucius4-TTS在底层架构上实现了全面革新。
自开源以来,Confucius4-TTS迅速获得开发者社区的积极反馈。
6 月 22 日消息,阿里巴巴合伙人、高德董事长刘振飞在阿里内网发文《手里有秧,才能确保未来有粮》,文章记录了近日阿里管理层在杭州一次下田插秧的团建活动。
6 月 22 日消息,22日盘中,港股智谱总市值首次突破 1 万亿港元,年内涨超 2000%;智谱22日股价现涨超 35%,总市值达到 1.27 万亿港元。
6月22日消息,日经亚洲专栏作者亨尼·森德撰文表示,字节跳动近期不太可能上市。
6月22日消息,近日,蚂蚁集团官网信息显示,新一届董事会已完成换届:清华大学经济管理学院院长白重恩、小鹏汽车董事长兼CEO何小鹏、德勤中国原首席执行官曾顺福获聘新任独立董事;港交所前主席史美伦、全球知名AI学者张宏江继续留任。
6月22日消息,乐道汽车总裁沈斐近日接受了媒体访谈,期间,沈斐回应了诸多外界关心的话题。
6月21日24时,面向暑期旅游旺季的飞猪618大促正式结束。
6月22日消息,亿咖通科技控股在纳斯达克宣布,已签署最终收购协议,将收购Flyme软件业务,包括Flyme Auto智能座舱操作系统和跨终端Flyme操作系统两大核心产品。
6月22日消息,据报道,淘宝闪购近日在成都、深圳两地启动了一项名为“家宴”的高端外卖项目,目前正在灰测中,首批参与的有潮上潮(米其林三星)、许家菜(米其林一星)、柴门荟(米其林一星)、梓楠、王捌院子5个头部中餐品牌,共9家门店。
6月21日,雷军在与作家刘震云的跨界对谈中主动提及十三年前那场著名的“十亿赌约”,坦言当初不该跟董明珠开这个玩笑。
6月22日消息,小鹏集团董事长、CEO 何小鹏在社交平台官宣小鹏MONA首款SUV小鹏 MONA L03 即将登场。
6 月 22 日消息,据报道,多位经销商表示,受内存价格上涨及需求量增加的影响,预计后续电脑价格仍会上涨。
6月22日消息,近日,拼多多集团与中国电建完成正式签约,通过整体购置方式,落位雄安·电建智汇城的数字新消费电商产业园。
6 月 22 日消息,据报道,继布局电商、团购两大本地生活板块后,豆包加码即时出行赛道,获得灰测的豆包用户,可直接在豆包 App 内使用一键打车服务,由曹操出行提供打车服务。
6月22日消息,在链博会上,一台格力咖啡机器人现身格力展台,引发大量参展人围观。
6月22日消息,知名记者马克 · 古尔曼在最新一期节目中透露,在库克执掌时期,随着Jony Ive等核心人物的相继离开,苹果设计团队在公司内部的影响力正逐步减弱,而财务与运营部门则在产品决策中掌握着越来越大的话语权。
6月22日消息,特斯拉为加速自建晶圆厂Terafab,正在中国台湾地区大规模挖角台积电高阶制程核心人才,马斯克开出的薪资为台积电的3至5倍,年薪约162万元人民币起。
6月22日消息,据媒体报道,美国造车新势力Lucid宣布,在新任CEO西尔维奥·纳波利推进重组之际,将裁减18%的员工,约1500人受到影响。
6 月 22 日消息,据外媒报道,Amazon(亚马逊)AI 主管 Peter DeSantis 在法国巴黎接受采访时表示,已就向外部企业出售其自研 AI ASIC 的实体芯片展开讨论。
6 月 22 日消息,据报道,前世嘉《人中之龙》系列游戏核心制作人名越稔洋出走后创立的“名越工作室”再传不利消息,工作室内部似乎已出现明显的人事变动,多位核心开发成员被证实离职。
今年TikTok Shop美区年中大促前夕,直播间里突然热闹了起来,这背后是平台正把更多流量倾斜给拍卖直播间。
从具体机制来看,TikTok Shop的直播拍卖玩法并不复杂,选择也很丰富。
直播拍卖带来的限时竞价、强互动玩法等变化,恰好补齐了美国直播电商最缺失的一环——娱乐性,这也是TikTok Shop看好直播拍卖的重要原因。
直播拍卖的出现,是TikTok Shop直播电商一个值得关注的信号。
一位接近业务的人士透露,目前TikTok美区电商业务的战略重心正全力押注直播拍卖。
拍卖产生的成交会被计入直播GMV,平台也希望借此撬动整个直播电商大盘的增长。
据官方披露,直播拍卖的时均GMV是普通直播的4倍,今年1-4月的月均GMV增速是其他直播形式的6倍、短视频的14倍。
事实上,TikTok Shop从去年7月就开始试水直播拍卖。
模型生成的内容可能包含与事实不符的实体、数字或逻辑关系,而这些错误往往隐藏在大量正确内容之中,极难检测和消除。
研究团队首先在金融问答数据集FinLLM-Eval上进行了先导实验,揭示了一个关键现象: \- 幻觉在token层面是极其稀疏的 :每条回答中,幻觉token平均仅占2.77%,中位数仅1.87%。
这意味着,大多数回答只有极少数token出了问题,但传统的响应级强化学习方法(如GRPO)会给整条回答打一个统一的分数。
BALTO的设计理念可以用一句话概括: 只惩罚真正出错的token,同时给正确的事实token以正向激励,保持整体信号的平衡。
论文从理论上严格证明了BALTO的两大优势: 定理1(方差压缩) :GRPO的梯度方差与回答总长度T成正比;BALTO的梯度方差仅与幻觉token数量N⁻成正比。
▎ 核心结果 特别值得注意的是,一些基线方法(如FSPO)虽然在部分数据集上获得了更高的信息量分数,但往往以牺牲忠实度为代价。
BALTO是唯一在忠实度和信息量之间实现一致最优权衡的方法。
BALTO的设计体现了一个简洁而深刻的洞察: 消除幻觉不是压制回答,而是精准地重新分配概率质量。
“美股历史上一场充满撕裂的豪赌就要来了,从没见过分歧和争议这么大的。
面对这场超级IPO,美股资本市场目前已分化成了两大明显割裂的阵营。
尽管SpaceX看上去 1.75 万亿盘子很大,但首批拿出来卖的自由流通股比例很低。
为了迎合此次IPO热度,纳斯达克紧急修改了游戏规则:SpaceX 上市后的第 15 个交易日就可以被强制纳入纳斯达克 100 指数。
SpaceX“太空算力基建”的故事讲得再好,也无法掩盖背后持续失血的财务状况。
“我身边很多二级的朋友都认为 SpaceX 会像谷歌一样,五六年后有很大概率能冲进10万亿美金市值俱乐部。
既然看多和看空双方分歧如此之大,马斯克为什么还敢直接要价 1.75 万亿?
在多数人的最初印象里,它是一家做火箭发射和卫星宽带的航天通信公司。
华尔街买不买账,取决于马斯克的这套故事何时能落地。
与庞大的资本支出相比,AI大规模落地的缓慢,正在透支美股的预期估值。
天猫3C数码42.2%的份额领先,本质上是品牌用脚投票的结果。
根据天猫官方数据,今年 618 开卖后,平台破千万新品数量同比增长69%,成交TOP100中新品占比1/3。
除了传统硬件品类的新品首发,AI消费也成为了今年电商行业的新现象。
在创新驱动的主旋律下,价格策略依然是撬动市场的重要杠杆,尤其是在高端手机市场。
在这一机制的拉动下,享受国家补贴的手机品类整体实现了两位数的增长。
3C数码、AI硬件、专业影像设备普遍具备高客单价、强科技属性,对消费者的包容度、理解力和购买力要求极高。
过往电商平台的新品逻辑,更多停留在后端——品牌完成产品后,平台负责上架、首发、资源承接和短期流量扶持。
除了成熟的电商运营策略,在AI时代的商战中,天猫还展现出了其他单一电商平台完全不具备的“全栈生态协同”优势。
当整个电商行业还在为几块钱的差价陷入存量内卷、甚至不惜损害品牌形象和商业生态时,天猫通过聚焦新品、重兵布局AI新品类,已经为整个3C数码行业找到了新的倍增曲线。
萨提亚听后表示惊叹,他感慨道,平安做科技业务的模式是:先想好要做什么,然后再“生个孩子”,培养他去做,往往能做得不错;而微软的模式是:先生“孩子”,然后再给他找事做,结果经常做不好。
这场洽谈,源于微软云当年在华的深深焦虑,以及萨提亚治下微软全面云转型的急迫。
据多位外资云老兵回忆,当时,传统代理商在面对创新的、重技术服务的云计算业务时,出现了水土不服,销售推进不达预期。
而此时,正处于科技扩张期的平安集团,撞进了微软的视线。
2013年,正值平安成立25周年,马明哲敏锐察觉到新科技对传统金融的冲击,提出了“科技引领金融”的理念,邀请麦肯锡全球资深董事合伙人陈心颖加盟,开启平安“科技转型”时代。
当时,平安科技已经是微软旗下知名开发者平台GitHub的国内代理商,双方在信任与合作上已有基础。
对微软而言,平安作为中国本土金融巨头,资金雄厚,拥有深厚的政府信任度与政企客户生态。
2020年,平安科技核心高管陆续离职,平安云逐步退守为主要为集团内部服务。