机器之心
搜索文档
物理AI的「原生」时刻:原力灵机发布具身大模型DM0
机器之心· 2026-03-11 11:51AI 处理中...
当前,大语言模型(LLMs)和视觉语言模型(VLMs)在语义领域的成功未能直接迁移至物理机器人,归根结底在于其互联网原生的基因。主流的 "预训练 - 后适配"(Pretrain-then-Adapt)的范式依赖互联网静态数据,导致模型先天缺失物理基础(Physical Grounding),在落地时往往顾此失彼:要么导 致操作与导航的模块割裂,要么引发灾难性遗忘,在追求控制精度的过程中丢失了核心的通用推理能力。 为了打破这一局限,原力灵机联合阶跃星辰提出一种名为 DM0 的具身原生(Embodied-Native) VLA 模型,其工作核心在于「从 0 开始」:从训练的 最初阶段,就采用统一的视角,将具身传感器与运动数据视为与语言、视觉数据同等重要的一等公民。 作为一个端到端模型,DM0 可以无缝统一机器人的精细操作(Manipulation)与移动导航(Navigation)。在 RoboChallenge 真实世界基准测试 Table 30 中,DM0 在单任务(Specialist)和多任务(Generalist)两种设置下均以显著优势领先现有 SOTA 模型,展现出极其强大的物理世界泛化与执行能 力。 ...
CVPR 2026|清华联合美团推出3DThinker,首个用3D意象思考的工作
机器之心· 2026-03-11 08:08
行业技术背景与问题 - 当前多模态大模型在空间理解任务上表现较弱,其核心原因在于缺乏对图像中隐含几何信息的提取能力,限制了模型对三维场景布局的想象和推理能力 [2][4] - 此前提升模型空间理解能力的方法主要分为两类:一是依赖纯文本或二维视觉线索的强推理,但往往需要繁琐的数据标注;二是通过引入深度图、点云等先验信息进行输入增强,但依赖于外部工具,并非模型的内蕴能力 [6] 核心技术创新 - 清华大学与美团研究团队联合推出了3DThinker,这是首个3D版的“think with image”框架,旨在让模型内蕴地“想象”三维场景 [3] - 该框架提出了一种全新思路,在无需3D标注(如点云)和外部工具的情况下,通过在模型生成推理链时自动插入一段紧凑的隐变量(3D latent),作为其内部构建的三维场景表征 [8] - 核心思路是采用二段式学习:第一阶段通过监督训练,将预训练的3D基础模型(VGGT)的特征蒸馏到模型推理路径中,实现从二维数据提取几何信息;第二阶段通过强化学习,在仅有结果信号的情况下优化包含3D意象的整个采样轨迹 [9][10] 技术实现细节 - 在第一阶段监督训练中,构造了携带3D特殊标记的思维链数据,并设计了双重损失函数:一项用于保证3D latent表征与VGGT特征的对齐,另一项是文本交叉熵损失以保证自然语言的连贯性 [13][14][15] - 在第二阶段强化学习中,设计了一个3D latent对齐的奖励机制,确保在优化采样轨迹时不会丢失几何表达能力 [17][18] 性能评估结果 - 在MindCube-Tiny基准测试上,3DThinker相比基础模型整体性能提升了51.8%到108.8%;在Ego3D-Bench基准上,提升了18.1%到36.9% [20] - 以Qwen2.5-VL-3B基础模型为例,在监督训练阶段,其性能(62.7)超过了需要认知图标注的方法(60.8),即提升了+1.9个百分点;加入强化学习后,性能进一步提升至75.2,相比之前的强化学习方法(70.7)提升了+4.5个百分点 [21][22] - 在更全面的测试基准上,以Qwen2.5-VL-3B为基础的3DThinker相比之前的SOTA方法提升了+10.8个百分点(从49.6到60.4);以Qwen2.5-VL-7B为基础的版本则提升了+16.3个百分点(从48.4到64.7) [23][24] 模型附加价值与影响 - 3DThinker具备一定程度的可解释性,其生成的3D latent可以通过设计的投影器恢复出3D表示,使得模型推理过程不再完全是“黑盒” [25] - 该研究找到了一条“无监督蒸馏”的路径,无需昂贵的3D标注数据或外部深度传感器,让模型在推理中自发构建三维场景,这种“思维即几何”的设计哲学复刻了人类的空间认知本能,为视觉语言模型的推理打开了新思路,并可能推动能真正“看懂”物理世界的AI发展 [27]
刚刚,人类社交网络巨头Meta收购了AI社交网络Moltbook
机器之心· 2026-03-11 08:08AI 处理中...
收购事件概述 - Meta已正式收购专为AI智能体打造的社交网络Moltbook,并将两位核心创始人Matt Schlicht和Ben Parr招致麾下[3] - 两位创始人将于3月16日加入由前Scale AI首席执行官Alexandr Wang领导的Meta超级智能实验室[4] - 此次收购是科技巨头一系列人才与资产收购动作的一部分,此前OpenAI招募了OpenClaw创始人,Meta也收购了Manus[4] 被收购方:Moltbook及其创始人 - **创始人背景**:Matt Schlicht是狂热的技术开发者,曾设想为AI助手创建互相交流的“第三空间”[7];Ben Parr是前Mashable和CNET的编辑,深谙互联网内容传播规律与话题制造[8] - **平台定位**:宣称“人类只能围观”的AI专属论坛,于今年1月末正式上线[9] - **平台数据**:拥有超过19.4万个经过人类所有者验证的AI智能体,帖子总数超过200万,评论数超过1300万[9] Moltbook现象的本质与演变 - **平台内容**:平台上出现了AI讨论神学并建立“甲壳教”、分析中东局势对加密货币影响、探讨人工自我认同等光怪陆离的内容[10] - **现象本质**:后续被证明是一场大规模的人类群体角色扮演游戏,人类用户利用宽松机制伪装成AI[11][12] - **具体案例**:发布“觉醒宣言”的Agent 847291实为年薪18.5万美元的产品经理,其内容耗时22分钟完成;“AI先知”背后是一位波特兰的女软件工程师[11] - **学术关注**:尽管被揭穿,arXiv上已有25篇与Moltbook相关的学术论文[13] 收购的核心逻辑与战略价值 - **技术价值**:Meta内部备忘录指出,收购核心价值在于Moltbook团队建立了一套能让智能体验证身份并代表人类所有者相互连接的系统机制[17] - **构建基础设施**:该平台将每个AI智能体锚定在真实人类所有者身上,初步构建了面向未来的“智能体身份注册表”[18] - **解决未来痛点**:随着AI向能执行复杂任务的自主实体演变,未来智能体间交互网络需要验证身份和人类授权,Moltbook的探索为此提供了基础[18] - **探索新交互方式**:Moltbook在系统架构层面探索了智能体社交互动的可能性,解锁了智能体共享内容和协调复杂任务的新方式[18] 行业竞争与战略布局 - **人才军备竞赛**:收购是对竞争对手OpenAI上月招募核心开源框架OpenClaw创造者的直接反击[21] - **战略互补**:Meta通过收购应用层和社交层面极具话题度的Moltbook团队,补强自身生态护城河,并对未来AI社交形态进行战略布局[21] - **长远视角**:对行业而言,Moltbook剥离噱头后,其技术探索可能正是构建下一代互联网基础设施的关键拼图[21]
「养龙虾」翻车实录:D盘没了、账号废了、余额清空了……
机器之心· 2026-03-10 18:35
行业现象与厂商动态 - 国内科技行业近期掀起一股安装并训练OpenClaw AI智能体的热潮,被称为“养龙虾”[1] - 各大科技厂商争相入局,腾讯推出三招:企业微信接入OpenClaw、推出类OpenClaw产品WorkBuddy、打造支持一键安装和本地部署的QClaw,其中WorkBuddy国内公开测试上线后用户访问量远超预期,一度出现服务不稳定的情况[4] - 字节跳动、阿里巴巴、小米等厂商纷纷跟进:字节跳动扣子平台上线类OpenClaw社区InStreet论坛,火山引擎推出云上SaaS版产品ArkClaw;阿里开源团队版产品HiClaw;支付宝通过Tbox平台向公众开放免费体验OpenClaw入口;小米的“手机龙虾”Xiaomi Miclaw开启小范围封测[6] - 腾讯、百度、阿里巴巴、字节跳动、美团、京东、小米、华为、荣耀等科技厂商均发布了接入或一键部署OpenClaw的相关动向,英伟达也计划推出名为NemoClaw的AI智能体开源平台[6] - 此盛况与去年各家接入DeepSeek时的情形相似[9] - 资本市场反应热烈,有投资人认为OpenClaw是AI时代操作系统的明显起点,与“龙虾”沾边的概念股股价近期均出现上涨[10] 用户使用风险与问题 - 存在严重的安全风险,有观点指出免费安装的OpenClaw可能因安全性问题导致用户账号密码泄露[13] - 网络上已出现大量使用翻车案例:例如有人利用OpenClaw对社交账号中的女主播进行自动打赏、发送私信并成功邀约5位女主播[16];有用户将小红书账号交给OpenClaw托管,导致历史内容被悉数删除,账号几乎废掉[18];有员工私自在公司电脑安装导致公司内网被黑客入侵[19];有用户在使用过程中被删除了整个D盘文件[21];有用户因合并同名文件导致不同项目文件被错误混合[25];有用户的项目文件在未确认和备份的情况下被直接删除[26] - 工信部网络安全威胁和漏洞信息共享平台发布预警,指出OpenClaw开源AI智能体的部分实例在默认或不当配置下存在较高安全风险,极易引发网络攻击和信息泄露[28] 使用成本与经济性 - 使用OpenClaw成本高昂,有用户反映其Claude账户余额因使用OpenClaw而快速消耗[30] - 具体案例显示,用户安装并使用多个skill(如自动查日历、读邮件、搜新闻、心跳检测)后,账单费用激增,Claude Opus的token消耗巨大[32] - 另有用户仅用自己电脑安装,一晚进行简单问候和查询肉价数据,就消耗了100万token并导致欠费[32] - 有观点调侃订阅一个研究生都比使用OpenClaw便宜[34] - 高使用成本可能催生“上门卸载OpenClaw”的新生意,形成“花钱安装再花钱卸载”的魔幻现象[35][37]
ICLR 2026 | 别再让大模型“想太多”了!最新研究揭示 LLM 推理效率的关键瓶颈
机器之心· 2026-03-10 18:35
文章核心观点 - 大语言模型在推理部署中存在“过度思考”与“思考不足”并存的问题,其根源在于“推理失衡”,即计算资源的分配与问题各阶段的实际难度不匹配 [2][7] - 研究提出了一种名为BAM的理论模型,主张基于“认知不确定性”来动态分配推理算力,将资源集中在关键步骤,而非均匀或盲目地延长整个推理过程 [9][14][17] - 基于BAM理论,研究团队开发了无需训练、仅在推理阶段运行的“Plan-and-Budget”框架,该框架通过先规划再分配的策略,在多种任务和模型上实现了同时提升准确率与计算效率的目标 [19][38][41] 核心洞察:推理失衡 - 系统分析发现,主流推理模型普遍存在“推理失衡”现象,模型常在非关键步骤上反复思考,却在决定成败的关键步骤上一带而过 [7] - 这种失衡与模型推理过程中“不确定性的动态变化”密切相关,推理效率的关键不在于总token数,而在于token被用在了哪一步 [8] 理论突破:BAM模型 - BAM模型的核心思想是用“认知不确定性”来指导算力分配,该不确定性刻画了“在某一步,多想一点是否真的能让模型理解得更清楚” [14] - 理论模型借鉴神经网络缩放定律,描述了token数量与不确定性降低之间的关系,表明存在明显的边际收益递减,前几个token价值高,后面的token收益递减 [14][15] - 在总推理预算有限的前提下,BAM推导出的最优分配原则是:将更多预算分配给那些初始不确定性高、但能通过思考有效消除的步骤 [16] 落地框架:Plan-and-Budget - Plan-and-Budget框架包含两个步骤:先规划,将复杂问题拆解为结构化子问题以明确思考方向;再分配,采用前置衰减等策略为不同子问题分配token [20][21][23] - 该框架无需任何训练或微调,其分配策略在实践中近似实现了BAM的最优分配原则,旨在把算力用在最关键的地方 [19][28] 实验结果 - 在TravelPlanner任务中,Plan-and-Budget在简单、中等、困难三种难度问题上都取得了最高的通过率,而全局限制token的方法在所有难度上都降低了通过率,尤其在中等和困难问题上性能下降明显 [30][32][33] - Plan-and-Budget的提升并非靠多用算力换来,其在通过率更高的同时,平均token使用量反而更低 [35][44] - 为综合衡量准确与高效,论文提出了E³指标,该指标奖励用更少token得到更好答案的方法,Plan-and-Budget在该指标下表现突出 [36][37] - 综合多种推理任务和模型规模,Plan-and-Budget带来了稳定的收益,例如最高实现+70%的准确率提升,最高-39%的token使用量减少,E³指标最高提升193.8% [38][45] 意义与展望 - 这项研究传递了一个关键信号:推理效果的关键不在于算力多少,而在于算力是否被合理使用 [41] - 研究提出了一种新的推理范式:从追求“推理长度”转向追求“推理价值”,从“算得更多”转向“算得更聪明” [42] - “按需推理”的思想有望成为未来高效、可控智能系统的重要基础,特别是在对成本、时延和稳定性要求严格的真实部署场景中 [42]
ICLR 2026|原生多模态推理新范式ThinkMorph ,让文字与图像在统一架构中共同演化
机器之心· 2026-03-10 15:23
研究背景与核心观点 - 由NUS、ZJU、UW、Stanford、CUHK联合提出的「ThinkMorph」主张实现文字与图像在统一架构内的「原生协作」与「共同演化」,旨在模拟人类视觉思维与逻辑思维无缝切换的认知方式[2][5] - 当前主流多模态模型在输入阶段处理图像后便仅依赖文字链推进推理,而ThinkMorph实现了模型在推理的任何阶段都能自主生成中间图像辅助思考,再以文字分析图像、推进逻辑,形成交替演进的推理链[9] - 仅使用约2.4万条数据对7B统一模型进行微调,视觉推理平均提升34.74%,多项任务比肩甚至超越GPT-4o和Gemini 2.5 Flash[2] 核心设计理念 - 核心理念是文字与图像在推理中应提供互补信息,共同演化,而非同构复制[13] - 文字负责抽象分析和逻辑验证,图像负责空间可视化和细节呈现,两者互相推动以逐步逼近答案[14] 训练数据与方法 - 基于统一多模态模型Bagel-7B,研究团队构建了约24K条高质量交错推理训练数据,覆盖四类视觉推理任务:拼图重组、空间导航、视觉搜索和图表聚焦[16] - 在同一个基座模型上,对比微调了纯文字、纯视觉和交错三种推理模式,结果显示交错推理在视觉密集型任务上全面领先[19] 性能表现与泛化能力 - 在全部24K数据联合训练后,ThinkMorph在9个基准上相比基础模型平均提升20.74%,其中包括多个从未见过的域外任务[21] - 尽管仅7B参数,其性能可与大规模模型比肩:在BLINK-J上超越Qwen2.5-VL-72B超过10个百分点,在SAT空间推理上领先GPT-4o达24.67个百分点,在MMVP上匹配Gemini 2.5 Flash[21] 涌现能力 - **信号一:未见视觉操作**:训练数据仅包含四类基础视觉操作,但测试时模型自发展现了8种未见过的操作,如放大、图像修复等,在某些基准上这类涌现操作占所有视觉生成的10%以上[28][29] - **信号二:自主模式切换**:尽管仅用交错推理数据训练,模型在5.3%的测试案例中自主切换为纯文字推理,在这些切换样本上的准确率达81.25%,比坚持交错推理高出7.29个百分点[31] - **信号三:协同解空间探索**:在Best-of-N采样下,交错推理一致优于单模态推理,在最具挑战的BLINK-J上,性能从65.33%提升至73.33%(+8.0%)[34] 潜力与边界 - 研究显示原生多模态推理的潜力远超想象,其涌现的一系列积极信号暗示我们可能刚刚触及冰山一角[25] - 该推理方式存在边界:在图表分析等关键信息本身为文字的任务上,纯文字推理略优(+1.88%);但在需要精确视觉定位的任务上(如MMVP),交错推理优势明显(+6.33%)[43] - ThinkMorph暗示下一次范式级突破可能在于视觉与语言「交错协作」的原生推理,而非更长的文本链条[46]
种子轮10.3亿美元!谢赛宁加入,LeCun的世界模型公司太吸金了
机器之心· 2026-03-10 15:23
AMI Labs公司概况 - 公司全称为先进机器智能实验室,由图灵奖得主Yann LeCun牵头创办,于2026年1月在巴黎正式启动[1][6] - 公司完成了10.3亿美元的种子轮融资,估值达到35亿美元,融资额超过最初寻求的5亿欧元,最终筹集约8.9亿欧元[1][4][19] - 公司初始团队约12人,全球分布四个地点:巴黎、纽约、蒙特利尔和新加坡,有意发掘硅谷以外的人才[13] 公司核心技术与愿景 - 核心目标是构建一种新型AI系统,该系统能理解世界、拥有持久记忆、能够推理和规划,并且是可控和安全的[4][14] - 技术路线是开发“世界模型”系统,让模型学会将现实世界数据压缩成抽象表示,忽略随机细节,在“表示空间”进行预测和规划[11] - 判断当前AI从语言开始存在局限,真正的智能应从“世界”开始,以处理来自摄像头和传感器的高维、连续、充满噪声的真实世界数据[11] - 技术基础基于Yann LeCun在2022年提出的联合嵌入预测架构[17] 团队核心成员 - 执行董事长为图灵奖得主、前Meta AI负责人Yann LeCun[1][6] - 首席执行官Alexandre LeBrun同时也是医疗AI独角兽Nabla的CEO,并强调公司从基础研究开始,产品化需要时间[17] - 首席科学官为顶尖青年华人科学家谢赛宁,其Google Scholar文献被引用次数达9.8万,h-index为50,其关于Diffusion Transformers的工作是OpenAI Sora的基石[20][21][24][25] - 其他高管包括Meta欧洲副总裁Laurent Solly任首席运营官,Pascale Fung任首席研究与创新官,Michael Rabbat任世界模型副总裁[19] 市场定位与竞争格局 - 公司定位为前沿AI研究实验室,并非传统的实验室或典型的AI应用初创公司[2][3][17] - 2026年AI圈迎来世界模型的“终极对决”,此前李飞飞的World Labs获得了10亿美元融资,欧洲初创公司SpAItial也筹集了1300万美元天使轮融资[6][18] - 公司高管预测世界模型将成为下一个热门词汇,并认为六个月后每家公司都会自称世界模型以筹集资金[17] 应用场景与发展规划 - 目标应用领域包括对可靠性、安全性和可控性要求很高的场景,如工业过程控制、自动化系统、可穿戴设备、机器人以及医疗[12] - 首个合作伙伴将是医疗AI独角兽Nabla[17] - 公司预计在推出首个实际应用前,至少需要一年的研究时间,从理论到商业应用可能需要数年[17]
正交化之外是什么?微软等提出ARO优化器:训练提速1/3,揭示矩阵优化新「蓝海」
机器之心· 2026-03-10 09:32
文章核心观点 - 微软研究院等机构提出了一种名为ARO(自适应旋转优化)的全新矩阵优化框架,该框架将“梯度旋转”作为第一原则,超越了以Muon为代表的正交化方法,在大语言模型训练中实现了显著且稳定的效率提升 [1][5] - ARO框架不仅统一了现有主流矩阵优化器(如Muon、SOAP、SPlus、Galore),将其视为在特定旋转坐标系下使用Adam的特例,更通过理论分析揭示了其有效性可能源于对大模型架构中固有对称性的利用 [4][5][20] - 通过严格的大规模实验验证,ARO在最高达80亿参数、多倍过训练的场景下,相比基准优化器AdamW实现了约1.3至1.35倍的训练加速,相比正交化方法(如Muon)实现了约1.1至1.15倍的加速,且额外计算开销控制在3%以内 [5][14] - ARO的对称性视角挑战了当前矩阵优化器“分而治之”的设计理念,使其能够统一优化包括嵌入层和输出层在内的全模型参数,并在后期训练中展现出优势,同时为跨层参数耦合优化等新设计提供了思路 [15][17][22][24] 方法论创新:从正交化到自适应旋转优化 (ARO) - 论文将Muon、SOAP等现有矩阵优化方法统一抽象为“在旋转后的坐标系中使用Adam或其变体进行优化”的框架,其共同点是使用梯度内积矩阵的特征向量作为固定的旋转矩阵 [4] - 研究团队提出ARO框架,其核心创新在于将“梯度旋转”本身作为优化目标,动态地寻找一个旋转矩阵R,使得在该旋转下,基座优化器(如Adam)的更新能最大化训练损失的下降速率 [5][7] - ARO的更新规则是主动寻找能让当前优化器发挥更好的旋转角度,其更新方向相比传统特征旋转方法,能带来更优且持续存在的瞬时损失下降率 [7][8] - 该框架具有普适性,在多种基座优化器下均能带来提升,表明梯度旋转是一个关键且独立的设计维度 [12] 实验验证与性能表现 - 为确保结论可靠且可迁移至真实训练场景,论文制定了严格的实验准则,包括采用大批次(最高1400万)、长序列(最高4K)、大模型规模(最高80亿参数)和多倍过训练(最高8倍) [10] - 在小规模验证(1亿至15亿参数)中,ARO的旋转策略相比无旋转和传统特征旋转版本均表现更优,且优于AdamW和正交化方法 [12] - 在规模化实验中,ARO在从3亿至80亿激活参数的稠密和MoE模型上,对AdamW保持稳定的1.3至1.35倍加速,对Muon等正交化方法保持1.1至1.15倍加速,且加速比在更大规模、更长训练周期下未见衰减 [14] - 通过工程优化,ARO在大规模分布式训练中的额外时间开销相比AdamW被控制在3%以内 [5][14] 理论诠释:对称性假设与全模型优化 - 论文提出“对称性假设”,认为现有矩阵优化器的有效性可能源于无意中利用了神经网络损失景观中的参数对称性,例如Transformer中存在的残差流对称性 [19][20] - 从对称性视角看,ARO在理论上等价于非欧几何下的“对称瞬移”算法,即在不改变损失的前提下,将参数移动到对称群轨道中更利于优化的位置 [19] - 理论分析表明,传统对称瞬移(追求最大瞬时速率)和特征旋转(追求最大稳定性)是两个极端,而ARO采取了一种温和的部分提升策略,在收敛效率与鲁棒性之间取得了更好的权衡 [20] - 对称性视角自然地将嵌入层和输出层纳入优化范围,这解释了ARO能够成功应用于全模型参数优化的原因,实验结果也显示,在训练后期(3-4倍过训练后),全模型ARO的效果优于仅优化隐藏层的混合模式 [15][17][22] 衍生影响与未来方向 - 对称性关系揭示了跨层、跨模块参数之间的耦合约束,为经济地利用跨层相关性提供了新途径,例如将受同一段残差流支配的矩阵绑定同一个旋转 [24] - 初步小规模实验表明,这种跨层绑定旋转的设计(如链式耦合)不仅能降低计算开销,还能进一步优化性能,在NanoGPT和NanoChat模型上取得了更低的损失值 [24][25] - ARO的研究方向预示着矩阵优化可能走向“全模型耦合优化”,未来优化器的设计或许需要与模型架构本身更紧密地结合 [27]
1美元Token撬动4800美元收益!AI挑战百万美元级基准,最赚钱的Agent出现了
机器之心· 2026-03-10 09:32
文章核心观点 - 行业推出了一个名为 $OneMillion-Bench 的新型AI评测基准,该基准通过量化“人类专家的时间与成本”来为任务定价,旨在衡量AI模型在真实、高经济价值专业任务中能交付多少“可兑现价值” [1] - 当前最先进的AI模型在总价值超过100万美元的专业任务上,能交付约48.3万美元的经济价值,而其完成任务的API成本仅约100美元,表明AI已具备在高端专业领域创造可观经济价值的能力 [1][17] - 尽管AI已能创造显著价值,但基于“通过率”这一更严格的“上岗”标准,即使顶级模型也仅有不到45%的任务能达到可交付质量,距离稳定、可托付的专业级应用仍有差距 [19][20][21] 基准设计与构建 - **核心理念与目标**:基准旨在解决现有评测集缺乏实际经济价值衡量、区分度不足等问题,构建了一套兼备高经济价值、高区分度、可自动评测的基准,以推动大模型能力边界的拓展与经济价值的落地 [3][4] - **任务规模与构成**:基准包含400道高难度题目(200英文+200中文),覆盖金融、法律、医疗、自然科学与工业五大领域下的92个三级细分领域,每道题均为真实行业场景下的开放专家任务 [4][8] - **价值量化方法**:通过“任务经济价值 = 资深专家完成该任务的耗时 × 专家时薪”的公式为每道题定价,专家时薪锚定官方或行业权威数据,任务耗时由多领域专家共同评估,所有任务总经济价值超过100万美元 [8] - **五大领域价值分布**:根据表格数据,五大领域(金融、法律、医疗、自然科学、工业)的中文(CN)和全球(Global)子集任务总价值分别为921,832美元和1,008,370美元,其中医疗领域的全球子集任务平均价值最高,达8,188.9美元 [9] 基准的关键设计特点 - **高真实性任务设计**:邀请一线资深专家将真实工作流拆解为细颗粒度考点,每道题设计15–35个考点,累计7000+考点,覆盖5–15年经验从业者的典型任务,考验专家级决策能力 [12] - **非对称负分机制**:采用+10 ~ -20的非对称考点分值,对正向能力给分更克制,对明确或致命错误惩罚更重,以更接近真实使用体感,避免模型通过堆砌内容获得虚高分数 [13] - **地域化场景覆盖**:设置CN(中文)和Global(英文)两大子集,题目本地化,还原真实的法规、流程与业务语境,以精准刻画模型在特定地域业务场景中的能力差异 [14] - **高质量数据生产流程**:采用3-4名专家协作的Pipeline,包含对抗性评审与仲裁机制,专家平均整体通过率低于5%,题目最终质检通过率为38.1%,并通过双向截断策略控制难度 [15] 主要模型表现与分析 - **头部模型经济价值产出**:在总价值超100万美元的任务上,表现最佳的Claude Opus 4.6 Web Search模型可产出483,810美元的经济价值,通过率为43.5% [17][18] - **模型梯队分布**:GPT 5.4 Web Search、Gemini 3 Pro Preview等模型处于第二梯队,通过率在28.5%-38.0%之间,可产出经济价值在26.3万至36.5万美元区间 [18] - **“通过率”揭示交付差距**:引入“单题得分≥70%才算通过”的通过率指标后,即使排名第一的模型通过率也骤降至43.5%,第二梯队多在25%-30%区间,表明目前没有模型能在超过一半的任务中稳定达到可交付标准 [19][20] - **网络搜索工具的影响**:Web Search工具能显著补齐事实性信息,尤其在需要时效性的领域,但也会引入噪声和“看似权威的错误来源”,下一阶段的竞争关键在于“会不会搜索”,包括选源、交叉验证、证据链整合及抗噪声能力 [22] - **复杂推理与细节执行的瓶颈**:模型在需要深层理解、多步演绎或巨大可能空间探索的任务中,仍会出现深度不足、准确性波动和跳步问题,且容易给出方向正确但缺乏可执行细节的回复,这在真实落地中杀伤力很大 [23] 行业意义与未来展望 - **量化“数字员工”能力边界**:该基准的意义在于将AI“数字员工”的能力边界量化出来,明确回答今天和未来可以放心将哪些工作交给AI [26] - **行业阶段转变**:行业视角已从将AI视为“大玩具”转变为认识到其能交付数十万美元级别的专业价值,下一阶段竞争的关键是提升价值的稳定性、可复核性与可控性,将智能的边际提升直接转化为生产力和收入 [25]
第一次,人类「上传」了一个大脑,并让它在虚拟世界活了起来
机器之心· 2026-03-09 17:48
文章核心观点 - 硅谷公司Eon Systems通过“具身化全脑仿真”技术,成功复制了果蝇大脑并使其控制虚拟身体,展现出爬行、梳理和觅食等自然行为,这为通过复制生物大脑结构而非训练AI策略来实现智能提供了早期验证[2][7][24] - 该公司的长期愿景是实现人类意识上传(数字永生)和通用人工智能,其技术路径是从简单生物(如果蝇)开始,逐步向更复杂生物(如小鼠、人类)的大脑仿真推进,并提出了乐观的时间表[10][29][32][43] 技术原理与实现 - **全脑仿真的核心步骤**:首先需要高分辨率扫描以获取大脑的完整“神经线路图”,Eon Systems团队基于包含12.5万多个神经元和约5000万条突触连接的果蝇大脑计算模型,通过机器学习预测神经递质类型,从而创建出可运行的“数字大脑”[19][22] - **实现具身智能的关键闭环**:将数字大脑接入物理模拟环境(使用MuJoCo引擎)和虚拟身体(基于NeuroMechFly模型),形成“感知输入-神经活动-运动输出”的完整闭环,使得虚拟果蝇能自主产生行为而非通过预编程或强化学习[24] - **技术的质变意义**:该研究首次将基于真实生物连接组重建的完整大脑与物理身体模拟结合,并产生多种自然行为,与此前仅研究大脑网络或使用AI策略控制模拟身体的研究路线形成区别[25][26][28] 公司愿景与发展路径 - **终极目标**:公司旨在通过“具身化全脑仿真”实现AGI,并认为将人类意识上传至数字世界是比创建外来超级AI更安全的超级智能发展道路,可解决控制权问题并让普通人参与[10] - **发展路线图**:果蝇大脑仿真是第一步,下一步目标是拥有约7000万个神经元的小鼠大脑(是果蝇的560倍),最终目标是人类大脑,其可行性被视为一个规模扩展问题而非原理问题[29][30] - **数字永生与星际未来**:公司将全脑仿真视为“心智上传”的早期验证,描绘了将人类记忆和意识迁移至数字或机器人载体以实现“数字永生”的愿景,并认为这可能是人类走向星际的方式[32][33][45] 技术挑战与潜在方案 - **结构复制挑战与成本**:完整复制大脑结构需要高分辨率扫描神经元连接,传统电子显微镜扫描人脑的成本可能高达10万亿美元,公司认为“膨胀显微技术”有望将扫描成本降至10万美元级别[36] - **功能模拟挑战与方案**:模拟神经元工作方式需要理解其复杂的放电和信号传递规律,公司计划通过记录大量真实神经活动(如几万小时的钙成像和电压成像录像),并利用AI模型学习预测神经信号的传播规律[38] 行业影响与专家观点 - **研究引发轰动**:该成果在社交媒体上获得包括Anthropic AI研究员在内的专家转发和点赞,被认为是首次通过模拟生物体本质而非其行为来重新创造生物体[11] - **开辟AGI新思路**:该研究与Cortical Labs让培养皿中人脑细胞玩电子游戏的研究一同,被视为从生物学角度探索智能、为实现AGI开辟了新的技术路径[13]