因果推理
搜索文档
给机器人造一颗会思考的大脑,白惠源的“反共识”突围
财富FORTUNE· 2026-01-21 21:03
文章核心观点 - 原力无限公司创始人白惠源在2026年CES论坛上提出,当前人形机器人行业的最大瓶颈在于缺乏对世界的因果理解,没有“具身大脑”的机器人只是精致的提线木偶 [1] - 公司自2023年创立起,便选择了一条与行业主流“卷硬件”不同的“反共识”路径,聚焦于打造能够理解物理世界、具备因果推理能力的“具身大脑”,并推行“一脑多身多场景”战略 [2][3][12] - 公司通过“持续学习的Hyper-VLA + 因果世界模型”技术路线,致力于让机器人从依赖大数据的“关联”学习,进化到具备“小数据、强逻辑”的因果推理能力,以解决在物理世界中面临的“数据饥渴”和“鲁棒性缺失”问题 [5][6] - 2025年,公司获得超过5亿元人民币的商业订单,这些来自文旅、科研、能源等领域的头部客户的订单被视为对技术路线的“信任票”,用于在真实场景中验证技术、喂养数据,推动产品从Demo到Pilot的关键跨越 [8] - 公司的长期愿景是成为机器人智能内核的底层提供者,让技术变得无形,使人类忘记是在与机器打交道 [13] 行业背景与公司战略选择 - **行业趋势**:2023年左右,机器人行业陷入一场“造身体”的硬件军备竞赛,全球数百家创业公司比拼关节、步态等硬件参数 [2] - **公司洞察**:行业痴迷于打造完美躯壳,却忽视了机器人的认知能力,没有认知能力的机器人与遥控玩具无异 [2] - **战略路径**:公司确立“一脑多身多场景”战略,不参与硬件参数内卷,战略重心聚焦于能适应不同躯体、理解物理世界的“具身大脑” [3] - **核心逻辑**:硬件是容器,智能是水,先让大脑学会如何定义身体,而非相反 [3] - **关键选择**:公司在行业卷硬件时押注“一脑多身”架构;在行业迷信端到端黑盒时引入“因果推理”逻辑白盒;在行业浮躁时选择用“场景闭环”打磨产品,这三次“反共识”选择构建了公司的护城河 [12] 技术路线与核心理念 - **技术范式**:采用“持续学习的Hyper-VLA + 因果世界模型”技术路线,被硅谷主流技术圈视为对主流范式的“叛逆” [5] - **理论依据**:借鉴Judea Pearl的观点,指出现有AI大多停留在“关联”层面,而真正智能需跨越到“干预”和“反事实”层面 [5] - **现有模型局限**:“端到端学习”范式在物理世界面临严重“数据饥渴”和“鲁棒性缺失”,它基于概率统计,无法理解材质属性(如玻璃易碎)或推导事件后果(如碎片伤人) [6] - **公司解法**:在大模型的直觉之上,叠加一层因果逻辑引擎,让机器人学会因果推理 [6] - **思维类比**:将现有端到端模型比作丹尼尔·卡尼曼理论中的“系统1”(快思考,靠直觉),而公司正给机器人装上“系统2”(慢思考,靠逻辑) [6] - **进化方向**:这是一场从“大数据”向“小数据、强逻辑”的进化,旨在让机器人在缺乏数据的陌生环境中依然安全、可控 [6] - **终极目标**:公司旨在培养理解世界的智能体,而非训练动作模仿者,这被认为是两条完全不同的物种进化树 [6] 商业化进展与市场反馈 - **订单规模**:2025年,公司斩获超过5亿元人民币的商业订单,在行业内引发震动 [8] - **订单性质**:订单并非标准化货架产品,而是来自文旅、科研、能源、智能制造等领域头部客户的“联合实验”,他们为“未来的可能性”买单 [8] - **应用场景**:公司的AstroDroid AD系列人形机器人正在真实场景中跨越,如在博物馆理解游客意图、在实验室操作精密仪器、在家庭提供清洁服务 [8] - **订单意义**:这5亿元订单是市场投出的“信任票”,反映了行业对机器人能否在真实世界干“正经事”的焦虑与期待 [8] - **发展逻辑**:通过商业试点验证技术,用真实场景喂养数据,形成“数据飞轮” [8] 创始人理念与公司愿景 - **创始人观点**:在CES论坛上,白惠源指出“一个不理解世界因果关系的机器人,不过是一个精致的提线木偶” [1] - **创业动机**:基于对底层逻辑的推演,认为具身智能的核心矛盾在于大脑对物理世界的感知与预测能力,而非肢体灵活性 [3] - **中国优势认知**:面对中国供应链优势的提问,创始人表示正因为中国擅长制造,才更清楚制造不是终点,并坚信理想主义者才能改变世界 [10] - **长期愿景**:希望公司成为机器人世界的“空气”和“水”,无论未来机器人形态如何,其智能内核(理解世界、自主决策的大脑)源自原力无限 [13] - **技术境界**:最顶级的技术会变得无形,让人类彻底忘记是在与机器打交道 [13]
开源8300小时标注数据,新一代实时通用游戏AI Pixel2Play发布
机器之心· 2026-01-17 11:24
行业背景与问题 - 人工智能在代码和图片生成领域日益成熟,游戏领域成为AI研究的重要方向,早期研究已在Atari、星际争霸、Dota等游戏上训练出超越人类玩家的专用模型[2] - 然而,这些专用模型缺乏跨游戏的泛化能力,只能在单一游戏环境中运行[2] - 另一方面,ChatGPT和Gemini等通用模型在众多任务上表现出色,但在游戏环境中表现不佳,即便是简单的射击游戏也难以应对[2] 解决方案:Pixel2Play (P2P) 模型 - 来自Player2的研究员提出了Pixel2Play (P2P) 模型,旨在解决上述问题[2] - P2P模型以游戏画面和文本指令作为输入,直接输出对应的键盘与鼠标操作信号[2] - 该模型在消费级显卡RTX 5090上可实现超过20Hz的端到端推理速度,能够像人类一样与游戏进行实时交互[2] - P2P作为一个通用游戏基座模型,在超过40款游戏、总计8300+小时的游戏数据上进行了训练[2] - 该模型能够以零样本 (zero-shot) 的方式直接玩Roblox和Steam平台上的多款游戏[2] 开源与数据 - Open-P2P团队在无使用许可限制的情况下,开源了全部的训练与推理代码,并公开了所有的训练数据集[3] - 训练游戏AI模型需要高质量的游戏画面、文本指令以及对应的操作数据,这类“画面-操作”数据在互联网上很少见[5] - Open-P2P项目开源的大规模高质量人工标注操作数据,弥补了该领域的空缺[5] - 训练数据同时包括游戏图像画面与对应的文本指令,并提供了精确的键盘鼠标操作标注[8] 模型设计 - 为保证快速的推理速度,P2P选择了轻量级模型框架并从零开始训练[10] - 模型主体由一个解码器Transformer构成,并额外接入一个轻量化的action-decoder来生成最终的操作信号[10] - 该结构使得模型在推理时只需对主体模型进行一次前向计算,即可生成action-decoder所需的表征信号,从而使整体推理速度提升5倍[10] - 为实现跨游戏通用性,P2P采用自回归的离散token序列作为操作输出空间,每个操作由8个token表示:4个对应键盘按键,2个对应鼠标在水平与垂直方向上的离散位移,最后两个对应鼠标按键[10] - 在输入方面,除了当前帧图像与文本指令token外,P2P还会输入真实操作token,使模型能根据历史操作做决策,更贴近人类玩家的操作习惯[10] - 为保证模型的因果关系,训练时使用了特殊的掩码机制,以确保模型在预测时仅能看见历史真实操作[10] 模型规模与性能 - P2P共训练了四个不同规模的模型,参数量分别为150M、300M、600M和1.2B[12] - 在实测中,150M模型可以达到80Hz的端到端推理速度,而最大的1.2B模型也能达到40Hz,完全满足与游戏环境实时交互的需求[12] 模型评估结果 - 模型评估主要采用人工评估,评估环境选取自四款游戏:Steam平台上的Quake、DOOM,以及Roblox平台上的Hypershot、Be a Shark[13][14] - 在模型行为评估中,1.2B模型生成的游戏录像与较小模型进行人工比对,结果显示1.2B模型分别以80%、83%与75%的偏好度优于150M、300M和600M模型[13] - 在指令遵循评估中,对于“按下红色按钮”的文本指令,未接受指令的模型通过率只有20%,而接收指令后模型的通过率可大幅提高到80%,显示出优秀的文本指令理解和执行能力[15] 因果混淆分析与规模效应 - 因果混淆是行为克隆中的常见难题,在高频交互环境中尤其突出[17] - 研究发现,扩大模型的规模与增加训练模型的数据量能够有效提升模型对因果关系的理解能力,使其不再依赖虚假关联,从而学到更好的操作策略[17] - 随着训练数据增多与模型参数量增加,P2P模型在因果推断评估中的表现呈上升趋势[19] 团队与作者 - 本文第一作者岳煜光现任初创公司Player2研究员,负责游戏模型的开发和研究[21] - 在加入Player2之前,他曾先后在Amazon和Twitter担任研究人员,致力于语言模型与推荐系统的相关研究[21]
索菱股份涨幅10.00%封板!智能驾驶业务成炒作核心,英伟达开源AI模型催化智驾赛道升温
金融界· 2026-01-15 10:13
公司股价与市场表现 - 截至上午9时45分,索菱股份股价涨幅为10.00%,最新价为7.70元,总市值达到66.49亿元 [1] - 公司股票封板资金为6.15亿元,成交额为4.52亿元,换手率为7.19% [1] - 市场炒作主要围绕公司的智能驾驶相关业务展开 [1] 公司业务与技术能力 - 公司在辅助驾驶领域的研发方面积累了较为丰富的研发及交付经验 [1] - 公司在L2及L2++级别产品方面具有量产案例和智驾行驶数据 [1] - 公司在L3级别的智能驾驶具备可行的技术方案及量产交付资源和能力 [1] - 公司客户覆盖乘用车和商用车,涵盖轿车、SUV、MPV、轻卡等多种车型 [1] 行业技术动态与突破 - NVIDIA发布了NVIDIA Alpamayo系列开源AI模型、仿真工具及数据集,旨在推动安全可靠的推理型辅助驾驶汽车开发 [2] - 英伟达以“模型+仿真+数据”的完整开源闭环,将具备“因果推理”的视觉-语言-动作能力系统化引入自动驾驶研发范式 [2] - 此举旨在降低行业在“长尾场景、可解释性、工程验证成本”三端的落地门槛 [2] - 开源了基于100亿参数架构的“推理型”视觉-语言-动作模型,可通过视频输入生成行驶轨迹并给出推理思路 [2] - 开源了面向高保真辅助驾驶开发的端到端仿真框架,提供逼真传感器建模、可配置交通动态及可扩展闭环测试环境 [2] - 开放了包含超过1700小时驾驶数据的多元化大规模辅助驾驶开放数据集,覆盖广泛地理区域和环境条件,并包含罕见复杂真实世界极端场景 [2] 行业合作与商业化进程 - 捷豹路虎、Lucid和Uber等移动出行领域领先企业,以及伯克利DeepDrive自动驾驶研究社区,正依托Alpamayo加速推进安全的推理型L4级部署进程 [2] - 智能驾驶领域技术持续突破,相关企业不断推进项目落地与商业化探索,行业关注度提升 [3]
用“因果规划”解决多智能体协作中的任务依赖难题|港科广&腾讯
量子位· 2025-09-03 13:49
核心观点 - 针对长周期多步骤协作任务中单智能体任务成功率随步骤长度快速衰减、错误级联导致容错率低等问题,研究团队提出CausalMACE方法,通过将因果推理机制系统性地引入开放世界多智能体系统,为复杂任务协同提供可扩展的工程化解决方案 [1][2][3] 方法框架 - 提出全局因果任务图概念,使AI能够理解"如果-那么"的逻辑关系,确保任务执行符合因果依赖 [5][6] - 框架包含判断、规划、执行三个环节:Judger实时验证动作合法性并反馈成败;Planner将复杂任务拆解为小工单并绘制粗线条流程图,再通过因果推理精修任务图;Worker通过深度优先搜索和动态繁忙率指标实现多智能体实时任务分配 [7][11][12][13][14][15][16] - 因果干预模块引入平均处理效应量化依赖边与游戏规则一致性,自动剔除由大模型先验幻觉导致的错误依赖;负载感知调度基于DFS路径搜索与动态繁忙率指标实现多智能体实时任务再分配 [9][16] 实验效能 - 在VillagerBench三项基准任务(建造、烹饪、密室逃脱)中,CausalMACE相较AgentVerse与VillagerAgent基线任务完成率最高提升12%,效率提升最高达1.5倍 [17] - 具体数据表现:在2智能体配置下,建造任务平均得分56.59%(对比AgentVerse无数据/VillagerAgent 36.45%),烹饪任务完成率65.53%(对比AgentVerse 48.64%/VillagerAgent 58.11%);在6智能体配置下,平均完成率达到81.09%(对比VillagerAgent 3智能体68.82%) [17] - 效率指标显著提升:建造任务效率达8.94%/min(2智能体),远超VillagerAgent的3.88%/min;密室逃脱任务效率达276.67%/min(3智能体),对比VillagerAgent 227.4%/min [17]
具身领域LLM结合强化学习与世界模型工作汇总
具身智能之心· 2025-07-29 14:15
具身智能领域最新研究进展 通用现实世界交互模拟器 - UniSim通过整合多维度数据集(图像/机器人/导航数据)构建生成式交互模拟器,支持从高层级指令到低层级控制的视觉结果模拟,训练后的策略可零样本迁移至现实场景[3] - 应用场景涵盖游戏/电影内容生成和具身智能体纯模拟训练,视频描述生成等AI任务也能从中获益[3] 因果世界模型与鲁棒智能体 - Google DeepMind证实因果模型是智能体实现跨领域泛化的必要条件,最优智能体的因果模型将收敛至真实因果模型[5] - 该结论对迁移学习和因果推断领域具有深远影响[5] 元强化学习效率突破 - MAMBA框架结合模型方法和元强化学习技术,在基准测试中实现15倍样本效率提升,且无需超参数调优[8] - 成功验证高维任务场景有效性,推动现实世界泛化智能体发展[8] 多模态具身智能体训练 - EMMA通过文本世界LLM指导视觉世界VLM训练,采用DAgger-DPO算法实现跨模态模仿学习,在ALFWorld任务中成功率提升20%-70%[10] - 突破传统VLM在具身视觉世界中的动态对齐障碍[10] 自动化奖励函数生成 - TEXT2REWARD框架基于LLM自动生成密集奖励代码,在17项机器人操作任务中13项超越专家编写代码,运动任务成功率超94%[14] - 支持人类反馈迭代优化,仿真器训练策略可直接部署至现实[14] 持续学习型交互智能体 - 提出Behavior-IL与环境-IL两种持续学习框架,CAMA机制无需任务边界信息,通过滑动平均实现参数更新[18] - 显著超越基于数据先验的传统持续学习方法[18] 可扩展情境强化学习 - AMAGO通过并行化Transformer训练解决记忆容量和规划视野瓶颈,在元强化学习和长期记忆任务中表现优异[21] - 结合多目标hindsight重标注方案可攻克开放世界难题[21] 大语言模型与世界模型构建 - 创新性采用PDDL构建显式世界模型,GPT-4生成含40余个动作的高质量PDDL模型,成功求解48项复杂规划任务[23] - 通过前置修正机制将人工干预需求降低至初始阶段[23]
概率统计机制下,LLM 推理真的「理解世界了」吗?
机器之心· 2025-06-21 14:32
概率统计机制下LLM推理能力的本质探讨 - 苹果公司近期发表论文指出当前LLM的推理仅是模式匹配而非真正思考,引发行业对AI推理能力的重新审视[3] - 学术界对AI推理的经典定义强调其应包含逻辑推导、符号操作或统计关联生成新结论的过程,但佛罗里达人类与机器认知研究所科学家明确表示主流LLM尚未具备严格推理能力[4] - 2011年图灵奖得主Pearl的因果推理理论指出真正推理需理解「如果…那么…」的因果关系,而当前LLM缺乏因果框架导致推理深度不足[5] - 圣塔菲研究所教授通过实验证明GPT-4仅能复述类比题型但未发展出因果归纳能力,显示模型学习的是语言形式而非理解结构[5] 关于LLM推理能力的对立学术观点 - 普林斯顿荣誉教授提出推理本质是基于心智模型的认知活动,2018年图灵奖得主Hinton支持该观点并认为人类认知更接近模式匹配而非逻辑推理[5] - Hinton强调人类决策依赖经验映射和类比推理,而LLM展现的模式拟合能力已达到准认知水平[5][6] - UCLA研究者发现GPT-3/4在零试条件下通过类比推理解决新问题的能力匹配甚至超越人类表现[7] 思维链(CoT)在LLM推理中的实际作用 - 部分研究者认为思维链是LLM实现可用性推理的核心机制,Next Token Prediction可能构成动态建模过程而非简单复读[7] - 行业对CoT是否显性触发推理路径存在争议,强化学习后训练或可突破LLM当前的「知识幻觉」限制[1][3] 企业AI采购预算趋势分析 - 企业增加生成式AI支出的核心动因包括从自建转向采购第三方应用,且采购流程呈现传统软件特征[1] - 生产用例中采用多模型的策略源于对评估框架的优化需求,关键因素涵盖性能、成本与适配性等维度[1] 本期通讯数据概览 - 包含2项专题深度解读及31项AI/Robotics赛道要闻速递,其中国内动态8项、国外动态11项、技术进展12项[2] - 总字数达22632字,免费试读比例为7%,完整版需消耗99微信豆(约合人民币9.9元)[3]