Workflow
莫拉维克悖论
icon
搜索文档
Alex Wang“没资格接替我”,Yann LeCun揭露Meta AI“内斗”真相,直言AGI是“彻头彻尾的胡扯”
36氪· 2025-12-17 10:45
对当前主流AI发展路径的批判 - 图灵奖得主Yann LeCun尖锐批评当前硅谷主流的人工智能发展路径,认为单纯依靠扩大语言模型规模、喂更多合成数据、雇佣数千人进行后训练以及强化学习微调,是一条“完全胡扯”且“根本行不通”的死胡同[1] - 其观点挑战了行业以语言能力和知识覆盖面为中心的评估体系,指出现实世界中的理解、预测和行动能力远比生成流畅文本复杂,而现有以语言为核心的模型并未触及问题本质[2] - 业界对大语言模型规模化的执念,正将人工智能引向一条看似高速、实则封闭的死胡同[1] 对AI发展关键瓶颈的判断 - 真正制约AI进步的关键,并非如何更快逼近“人类级智能”,而是如何跨越一个常被低估却极其困难的门槛——让机器具备“狗的智能水平”[2] - 从“狗水平智能”到“人类水平智能”的跨越相对容易,最难的部分是达到“狗水平”,一旦达到该阶段,绝大多数核心要素就已具备[34] - 从灵长类到人类,新增的关键能力可能主要是语言,而语言在大脑中只占据极小的区域,当前技术在这方面已做得相当不错[34] 关于AGI(通用人工智能)的见解 - “通用智能”这个概念本身站不住脚,它本质是以“人类智能”为参照定义的,但人类智能本身高度专用化[30] - 与其讨论“通用智能”,不如讨论“人类水平智能”,即机器在所有人类擅长的领域达到或超过人类,这个过程将是渐进而非突发的[31] - 如果一切顺利且无根本性障碍,最乐观估计在5到10年内,或许能看到接近人类或至少接近“狗水平”的智能系统,但历史表明AI发展中总会出现新瓶颈,可能需要20年甚至更久才能突破[32][33] 新公司AMI的技术路线与愿景 - 结束在Meta长达12年的职业生涯后,LeCun通过其新公司AMI(先进机器智能)推动构建“世界模型”的技术路线,旨在让机器理解和预测世界[2][5] - 与主流生成模型在像素或文本层面输出不同,AMI的核心思路是在抽象表征空间中对世界运行规律进行建模和预测,关注“世界将如何演化”而非“生成看起来像什么”[2] - 公司最终目标是推出围绕世界模型和规划等核心技术的实际产品,并希望未来成为智能系统的主要供应商之一[7] - 公司计划以开放的方式进行上游研究,认为公开发表成果是取得突破的必要途径[5][6] 世界模型的技术原理与优势 - 世界模型旨在处理高维度、连续且含噪声的数据模态(如图像、视频),而大语言模型对此完全无能为力[9] - 有效方法是学习一个抽象的表征空间,滤除输入中大量无法预测的细节(包括噪声),然后在该表征空间内进行预测,这是JEPA(联合嵌入预测架构)的核心思想[9] - 世界模型不需要是现实的逐像素模拟器,而是在抽象表征空间中,只模拟与任务相关的那部分现实,这类似于计算流体力学等科学模拟中使用的抽象层级[20][21][22] - 视频等真实世界数据在字节层面更冗余,这种冗余结构使得自监督学习成为可能,其结构远比文本丰富,仅靠文本训练永远不可能达到人类水平的智能[18][19] 对大语言模型局限性的分析 - 当前基于大语言模型的架构构建的智能体系统并不理想,需要海量数据模仿人类行为且可靠性有限[8] - 要训练一个性能尚可的大语言模型,需使用几乎整个互联网中所有可获取的文本数据,一个典型模型的预训练规模大约是30万亿token(约10¹⁴字节),模型需要极大存储能力来记忆并复述这些事实[18] - 大语言模型并不真正理解基础世界规律(如物体会下落),它们只是被微调到给出“看起来正确”的答案,这是复述而非理解[25] - 通过微调语言模型来解决安全问题存在根本缺陷,因为它们总可以被“越狱”绕过限制[37] 对合成数据与模拟环境的看法 - 合成数据具有价值,例如孩子通过游戏在受控模拟环境中学习[24] - 需警惕某些模拟的失真(如视频游戏中为“好看”而非真实的物理效果),不加控制可能会影响模型在现实世界中的泛化能力[24] - 关键不在于是否使用模拟,而在于在哪个抽象层级上训练模型,很多基础世界规律是在非常抽象的层面上学到的[24] 对AI安全与治理的立场 - 安全必须与发展同步进行,而不是先停下来等“绝对安全”,可类比喷气发动机通过不断工程改进达到高可靠性的发展路径[37] - 应转向以目标驱动为核心的AI架构,该系统拥有世界模型预测行为后果,可规划行动序列,并受到一整套硬性约束限制,在设计层面就是安全的[38][39] - 当前LLM领域通过生成大量候选输出再进行过滤排序来限制输出的方法,计算成本高得离谱,昂贵、低效且不可规模化[39] - 强大技术必然伴随风险(如汽车早期),但那是工程和治理问题,而非不可逾越的根本障碍,AI已在医疗影像等领域挽救大量生命[35][36][50] 对行业生态与竞争格局的观察 - 当前AI投资热潮让长期研究型创业成为可能,而以前这类研究只能依托于大企业或大公司的研究院[5] - 包括谷歌、OpenAI甚至Meta在内的许多实验室正从开放研究转向封闭[5] - 硅谷因竞争极端激烈,所有公司都被迫做同一件事(大语言模型),催生了技术单一化现象,OpenAI、Meta、Google、Anthropic几乎所有公司都在做同样的事情[47] - 这种环境导致公司拼命在同一条战壕里竞争,却很容易被来自“完全不同方向”的技术突破所颠覆[48] - 在硅谷大公司内部,也有不少人私下认同当前主流路径错误,LeCun的新公司正在招募这些人[49] 对其他相关公司与技术的评价 - 对大多数试图构建世界模型的公司(如SSI)具体在做什么不太清楚,SSI甚至成了行业笑话[44] - Physical Intelligence主要做几何一致的视频生成,但这仍是“生成像素”的思路,LeCun认为这是错误方向[44] - 认可Wayve公司在自动驾驶领域构建的世界模型,认为其做对了一半(预测发生在表示空间),但问题在于其表示空间仍主要通过重建训练得到[45] - 认可NVIDIA和Sandbox AQ的类似方向,Sandbox AQ提出的“大型定量模型”与LeCun的主张高度一致[46] - Google做了很多世界模型,但主要仍是生成式路径,Danijar Hafner的Dreamer系列模型走在正确道路上,但其已离开Google创业[47] 关于Meta内部AI方向的变动 - Alex Wang负责Meta所有AI相关的研发与产品整体运作,而非科研本身,他并不是在“接替”LeCun的科研角色[40] - Meta的“超级智能实验室”体系下分为四部分:FAIR(长期基础研究)、TBD Lab(前沿大语言模型)、AI基础设施、产品部门,Alex Wang统管这四个方向[40] - FAIR目前被明显推向更短期、更偏应用的研究方向,发表论文的重要性下降,更多是为TBD Lab的大模型工作提供支持,这意味着Meta整体正在变得更“封闭”[42] - 一些研究团队(如做SAM的团队)已被重新归类到产品部门[43]
记者观察丨机器人“应摔尽摔” 让中国具身智能产业走得更稳
证券时报· 2025-12-15 17:54
大赛概况与公众反应 - 2025国际具身智能技能大赛在上海张江科学会堂举办 将“硅基生命”推向公众眼前 机器人需完成爬坡、搬运、叠衣、陪护等任务 [1] - 大赛现场出现诸多机器人“翻车”笑料 例如执行任务时愣在原地、绕过障碍时扳倒自己、出场即摔伤导致“脑壳碎了一地” 引发围观者揶揄和唱衰 [1] - 有人质疑以比赛形式暴露行业痛点和局限的必要性 [1] 大赛核心设计理念与价值 - 大赛设计理念的核心在于将机器人从理想实验室环境推向不可预测的真实世界 从而暴露其技术瓶颈 为未来发展指明方向 [1] - 大赛设置近似真实世界的竞技场 如高约30厘米的碎砖坍塌区、极窄口径的花瓶插花任务 让机器人告别实验室的“参数比拼”和固定程序 向理解并适应非结构化环境迈进 [2] - 机器人“洋相”是一场主动设计的“压力测试” 其失误是技术迭代过程中不可或缺的宝贵财富 价值远大于精心编排的完美演示 [2] - 通过真实挫折 行业能收集推动进步的关键数据 明确攻关方向 加速机器人从展示品迈向可靠实用的生产力工具 [2] 具身智能行业现状与技术挑战 - 人工智能发展呈现反差感的两面:网页端大模型已能通过律师考试 而现实中的机器人却像学龄前孩童一样蹒跚学步 即“莫拉维克悖论” [1] - 当下具身智能的核心痛点是“数据困境” 解困密钥在于获取真实场景数据 [2] - 机器人每一次摔倒都在为“数据困境”编织出路 需先突破“数据困境” 才能解决“模型困境” 让机器人真正成为生产力工具 [2] - 每一次摔倒和失误 都是中国具身智能产业为了真正“站立”并奔跑起来所必须经历的锤炼 [2]
记者观察丨机器人“应摔尽摔” 让中国具身智能产业走得更稳
证券时报· 2025-12-15 17:18
文章核心观点 - 2025国际具身智能技能大赛中机器人频繁“翻车”并非技术无能的体现,而是一场主动设计的“压力测试”,旨在将机器人从理想实验室环境推向不可预测的真实世界,暴露技术瓶颈,为未来发展指明方向 [1][2] - 行业认为这些失误是技术迭代过程中不可或缺的宝贵财富,其价值远大于任何精心编排的完美演示,每一次摔倒都在为“数据困境”编织出路,是产业为了真正“站立”并奔跑起来所必须经历的锤炼 [2] 大赛情况与公众反应 - 周末的上海张江科学会堂因举办2025国际具身智能技能大赛成为“遛娃圣地”,公众目睹了机器人执行爬坡、搬运、叠衣、陪护等任务时出现诸多笑料和故障 [1] - 具体故障包括:机器人在执行任务时突然愣在原地、绕过障碍时把自己扳倒、以及刚出场就重重摔伤导致脑壳碎裂 [1] - 围观者对此产生戏谑和唱衰情绪,并发出“灵魂质疑”:以比赛形式将行业痛点和局限暴露出来是否必要 [1] 大赛设计理念与行业意义 - 大赛设计理念核心在于将机器人从理想的实验室环境推向不可预测的真实世界,从而暴露其技术瓶颈,为未来发展指明方向 [1] - 比赛设置近似真实世界的竞技场,如让机器人从高约30厘米的碎砖坍塌区上走过、在极窄口径的花瓶里插入向日葵,旨在让机器人告别实验室的“参数比拼”和固定程序,向理解并适应非结构化环境迈进 [2] - 这种“高压环境”下造成的每一次“翻车”,都在为具身智能的未来铺路 [2] 具身智能行业的技术挑战与突破路径 - 人工智能发展呈现反差:网页端大模型已能通过律师考试,而现实中的机器人却像学龄前孩童一样蹒跚学步,这体现了著名的“莫拉维克悖论” [1] - 当下具身智能的核心痛点是“数据困境”,解困密钥在于获取真实场景数据 [2] - 机器人每一次摔倒都在为“数据困境”编织出路,只有先突破“数据困境”,才能着手解决“模型困境”,让机器人真正成为生产力工具 [2] - 业内专家和企业达成高度共识,认为这些失误能帮助行业收集推动进步的关键数据,明确攻关方向,并加速机器人从展示品迈向可靠实用的生产力工具 [2]
65岁LeCun被卷回巴黎老家,与小扎一刀两断,曝光神秘AI初创
36氪· 2025-12-05 19:45
核心观点 - Meta首席AI科学家Yann LeCun离职创业 其新公司专注于开发基于“世界模型”的高级机器智能 旨在让AI理解并预测物理世界 这与当前行业过度投资大语言模型的技术路线形成鲜明对立 [1][3][11] - Yann LeCun公开批评大语言模型存在根本性局限 认为其已触及天花板 并将行业资源视为“黑洞” 阻碍了其他AI路径的发展 [6][8] - Meta公司尽管口头支持LeCun的创业 但并未进行财务投资 显示出双方在技术路线和商业兴趣上存在分歧 [1][36][38] 关键人物动态 - Yann LeCun在Meta工作12年后将于年底离职并创业 其新公司专注于开发“世界模型”以实现高级机器智能 [1][3] - LeCun表示Meta是其新公司的合作伙伴但并非投资者 暗示项目范围可能超出Meta的兴趣 [1][36][38] - 媒体报道LeCun计划离职后 Meta股价下跌了2% 据此估计LeCun对Meta的价值约为300亿美元 [38] 技术路线分歧 - Yann LeCun认为大语言模型仅是“token生成器” 缺乏对物理世界的理解、记忆和多步推理能力 几乎过时 [6] - LeCun指出大语言模型是自回归的 属于System 1 没有真正推理 不具备达到人类或狗类智能水平所需的四项能力 [6] - 他认为大语言模型像“黑洞”一样吸干了所有资源和关注 导致其他AI研究领域寸草不生 [8] - 与此相对 Meta公司正投入数十亿美元重金招揽大语言模型专家 甚至由CEO亲自参与挖角 这被视作对LeCun技术路线的一种否定 [8][11] “世界模型”技术理念 - LeCun倡导的“世界模型”是一种基于视觉等感官信息训练的非生成式AI 旨在预测物理世界 其理念可追溯至1943年的心理学概念 [3][12][14] - 他认为真正的智能需要构建“心理模型”或内部表征 以进行规划、推理和与复杂环境交互 而这大部分是通过观察和交互后天学来的 [21][22] - 过去10年 LeCun致力于此方向 前5年探索 后5年基于非生成式架构取得实质进展 并发展出联合嵌入预测架构 [16][20][21] - 世界模型不仅预测下一帧视频 更关键的是预测在不同动作下所有可能结果的分布 因此需要大量交互数据而不仅是视频数据 [25][26] - LeCun用比喻说明差异:大语言模型像盲目滚下山的雪球 而真正的智能应像能感知环境并规划路径的雪人 [27][29][30] 对当前AI发展的批判 - LeCun指出“莫拉维克悖论”依然存在:AI能在律师考试等抽象任务中表现出色 但无法让机器人具备五岁孩子的行动能力 [20][21] - 他认为理解物理世界比理解语言更难 文本只是对人类丰富感知的高度压缩和抽象描述 无法涵盖大部分关于物理世界的直觉和心理模型 [20][32][35] - 人类思考依赖心理意象而非token 因此仅通过缩放语言模型无法产生真正的智能 [20][35] - 他批评硅谷完全被生成式模型迷住 暗示其创业需在硅谷之外的非主流环境如巴黎进行 [38] 行业影响与现状 - 全球科技巨头正将数十亿美元投入大语言模型领域 并相信缩放定律能支持其通向通用人工智能 [4] - 行业围绕大语言模型迅速形成“共识” 但AI领域最顶尖的科学家对其作为智能路径的根本问题仍存在深刻分歧 [40] - 对智能本质的探索尚无定论 技术路径的竞争仍在继续 [40]
Generalist发现具身智能的Scaling Law,还让模型能同时思考与行动
36氪· 2025-11-21 09:52
公司概况 - 公司由Google DeepMind高级研究科学家Pete Florence联合创立,其Google学术引用数超过19000次,曾带队研发PaLM-E、RT-2等模型[4] - 联合创始人包括Andrew Barry(CTO,前波士顿动力员工)和Andy Zeng(首席科学家,曾参与PaLM-E研发)[4] - 核心团队拥有来自OpenAI、Waymo等顶尖公司的资深研究人员[4] - 早期投资者包括Spark Capital、NVIDIA、Boldstart Ventures、Bezos Expeditions、NFDG等机构,但投资金额未披露[3] 核心产品与技术 - 发布新型具身基础模型GEN-0,基于高保真度原始物理交互数据的多模态训练,设计目标为捕捉人类水平的反应反射与物理常识[1][5] - 模型核心特征为"和谐推理",实现感知流(持续接收传感器数据)与行动流(持续输出控制指令)在连续时间域中异步交织,无需显式同步点[6][7] - 模型架构借鉴视觉和语言模型优势并实现超越,适用于6自由度、7自由度及超过16自由度的半人形机器人[5][18] 模型性能与扩展规律 - 模型参数规模达到1B(10亿)时难以吸收复杂感知运动数据,6B(60亿)参数开始展现多任务能力,7B(70亿)以上参数可快速迁移至下游任务[10][11][12] - 扩展至10B(100亿)以上参数后,模型能以更少后训练数据快速适应新任务,在零样本下游任务中性能提升(下一动作验证预测误差降低)[14] - 首次在具身智能领域观察到模型固化现象,且相变发生在远大于语言模型的参数规模上,印证莫拉维克悖论[14] 数据与训练 - 训练数据集包含27万小时真实世界操控轨迹,从全球数千个家庭、仓库和工作场所收集,数据量比某些最大规模机器人数据集高出几个数量级[16][18] - 数据质量和多样性比纯粹数据量更重要,精心构建的数据混合可产生不同特性的预训练模型[18] - 模型展现出明显Scaling Law,预训练数据规模与下游性能存在幂律关系,适用于服装、制造、物流、汽车、电子等多行业任务[15] 行业竞争与前景 - 竞争对手包括Physical Intelligence(模型迭代至π 0.6,可完成连续长序列任务)、Skild AI(支持多形态机器人泛化)、Figure(采用快慢思考双系统架构)[19] - 行业技术思路尚未收敛,数据丰富度不足,商业化落地案例仍较少[19] - 具身智能Scaling Law已被初步验证,多形态泛化、动作延时、连续长序列任务等难题正被攻克,商业化前景逐步改善[20][21]
大模型之后看机器人?Sergey Levine谈通用机器人规模化落地的真实瓶颈与破局方案
锦秋集· 2025-09-15 20:37
核心观点 - 机器人技术将在2030年实现家庭全自主管理 核心驱动力是"机器人数据飞轮"机制 即通过真实任务反馈实现持续迭代和自我强化 [1] - 机器人落地速度可能超越自动驾驶和大型语言模型 因物理世界反馈明确、容错率高且数据获取更容易 [2] - 技术路径基于"视觉-语言-动作"一体化基础模型 依托现有AI底座(如Gemma语言模型)快速开发应用 [3][15] - 硬件成本从数十万美元降至数千美元 降低创业门槛并加速市场验证 [7][33] - 通用机器人实现需突破"三难困境":毫秒级反应速度、长上下文记忆和大模型规模 解决方案依赖云端与本地智能结合 [6][27][28][29] 技术架构与能力 - Physical Intelligence的π0模型采用端到端Transformer架构 整合视觉编码器、语言推理和动作专家 实现感知-思考-行动闭环 [16][17] - 动作控制采用流匹配和扩散技术 生成连续高频指令驱动关节运动 精度远超离散文本符号 [17] - 模型展现"组合泛化"能力:例如自主清理障碍物、扶正容器、翻正衣物等未训练过的行为 [23][24] - 预训练语言模型提供先验知识(如物体识别、空间关系) 加速物理技能学习过程 [17][18] 发展路径与时间线 - 优先小范围真实场景应用 而非大规模模拟 通过精准数据反馈提高资源效率 [4] - 垂直领域机器人服务预计1-2年内落地 通用家庭管家级机器人需约5年 [10][11] - 模拟环境需结合真实世界数据基础 仅作为"排练厅"用于技能排演和反事实思考 [30][31][32] - 数据飞轮启动后 机器人能力将呈指数级提升 从单一任务跃迁至通用家务处理 [1][5][10] 行业比较优势 - 对比语言模型:机器人错误结果明确(如叠坏衣服) 易获得有效负反馈 而语言模型错误难以察觉 [12] - 对比自动驾驶:机器人容错空间大(如打碎盘子可接受) 且受益于现代感知系统和常识推理能力 [13][14] - 具身智能赋予目标导向的视觉过滤能力 从海量视频数据中高效提取关键特征 避免信息过载 [19][20][21] 硬件与经济影响 - 硬件成本十年内从40万美元(PR2机器人)降至3000美元 AI闭环控制降低对机械精度的依赖 [33] - 机器人将放大体力劳动者生产力 类似编程助手对软件工程师的增效作用 [11][34] - 地缘政治挑战在于关键硬件供应链集中 但机器人产业具备"自举"特性:用机器人制造机器人可形成正反馈循环 [35] 生态与竞争维度 - 竞争焦点从纯技术转向产业链、生态链和人才链综合布局 [7] - 教育体系需培养持续学习能力 以适应自动化转型带来的社会变革 [34]
具身智能机器人,如何才能活出个“人样”?
36氪· 2025-08-04 16:21
具身智能发展背景与理论基础 - 图灵在1950年论文中首次提出具身智能概念 奠定理论基础并预见两条发展路径:专注抽象计算的"做题家"路线(如ChatGPT、AlphaGo)和通过感知互动学习的"实干派"路线(即具身智能)[1] - 当前存在莫拉维克悖论:实现逻辑推理等高级智慧所需计算资源较少 而实现感知运动等低等级智慧需要巨大计算资源[1] - 真实世界无标准答案 环境变量(地板滑度、光线变化、物体位置变动)导致机器人执行困难[1] 发展挑战与核心瓶颈 - 需适应非结构化真实环境 传统AI依赖固定场景而具身智能需应对无剧本现场(如宠物突然跑动、货架位移、天气变化)[5] - 需发展多感官联动认知策略 模仿人类多模态融合能力(视觉/听觉/触觉协同)实现三维空间物体识别与环境动态捕捉[5] - 缺乏元认知能力 无法主动反思任务执行过程(如将粉色杯子误判为红色)且缺乏终身学习能力 场景切换导致技能失效[6] - 实验室与现实场景表现差异显著 非训练场景任务完成率仅65% 模型泛化能力不足[17] - 续航能力不足(主流人形机器人续航普遍低于2小时)且成本高昂(单台超50万元)制约大规模应用[18][19] 技术架构突破 感知层 - 多模态传感器融合技术实现"五感全开":视觉传感器(双目摄像头、3D激光雷达)、触觉传感器(柔性电子皮肤)、力觉传感器(关节受力测量)[9][10] - 动态环境建模依赖SLAM技术 实时构建三维地图并预测障碍物动向 使物流机器人路径规划成功率从75%提升至92%[10] - 特斯拉Optimus搭载28个关节传感器 结合视觉神经网络实现毫米级物体定位精度[10] 认知层 - 分层决策架构将复杂任务拆解(如Figure 01的策略控制、环境交互、行为控制系统)[12][13] - 世界模型通过交互积累经验 建立"物体属性-空间关系-因果逻辑"知识库 实现触类旁通(如识别高温物体需戴隔热手套)[14][15] 行动层 - 仿生驱动技术实现灵活运动(波士顿动力Atlas完成2.5米高跳 越疆Dobot灵巧手操作误差小于0.1毫米)[15] - 人机共融安全设计:力控传感器实时监测接触力度(超5N即紧急停机) 柔性外壳防撞保护[16] 未来发展方向 - 多模态大模型融合(如Google RT-2)通过海量数据预训练 实现自然语言指令理解与动作执行 显著提升泛化能力[23] - 轻量化硬件创新:仿生肌肉驱动降低能耗 神经形态芯片提升计算效率 预计2028年续航突破6小时且成本降至20万元以下[23] - 虚实协同进化通过数字孪生技术 虚拟训练效率提升10倍以上(如工业机器人先虚拟装配再实际操作)[24] - 推动核心部件国产化替代与供应链优化 解决成本问题[21] 行业应用与定位演进 - 从工具转变为协作伙伴 在医疗、交通、工业制造等领域实现人机协同[22][24] - 需完善技术标准与法规体系 明确人机权责关系(如医疗误操作责任划分)与伦理决策机制(如自动驾驶道德困境)[22]
AI,人类豢养的老虎,还是智慧之子?
虎嗅· 2025-07-27 15:55
人工智能发展理念对比 - 辛顿将AI比作可能反噬人类的"小老虎",强调其潜在威胁性;莫拉维克则视AI为人类文明的继承者,认为会通过"和平演变"实现智能交接 [1][3] - 两者均认同AI将超越人脑成为超级智能,但辛顿侧重神经网络架构设计与算法训练,莫拉维克强调进化时间带来的感知/动作优化 [3][7] - 莫拉维克在1980年代末预测通用机器人将在2030-2040年间实现类人推理能力,并认为这是人类演化的自然结果 [4][5][6] 莫拉维克悖论核心 - 人类感知/运动能力需消耗巨大计算资源(十亿年进化成果),而高阶推理仅需极少资源(十万年进化产物) [8][9] - 视觉、听觉等"低阶技能"由高度优化的生物算法栈支撑,抽象思维因进化时间短更易被AI逆向工程 [11][12] - 明斯基补充:无意识的人类技能最难被AI模仿,这是机器人研发的根本挑战 [10] 具身智能发展现状 - 当前人形机器人(如宇树R1)多通过预设轨迹完成动作,缺乏真实环境感知能力,实际表现与宣传视频存在显著差距 [13][14] - 英伟达科学家Jim Fan指出:训练"盲体操选手"可通过模拟器实现零样本部署,但具备感知/操作能力的机器人需突破物理模拟技术瓶颈 [15][17] - 宇树认为基础动作训练是机器人进化的必经阶段,但行业共识认为现有技术尚未解决莫拉维克悖论指出的感知-运动鸿沟 [16] 行业领军者技术路线 - 英伟达主张物理AI是AGI关键,认为缺乏具身性则无法实现真正通用智能,其机器人研究聚焦原子世界的复杂交互 [17] - 黄仁勋对AI威胁论持谨慎乐观态度,将人类毁灭概率估值从50%降至10%-20%,与辛顿的警惕立场形成对比 [18] - OpenAI等公司定义的AGI侧重数字空间智能,与莫拉维克1987年提出的物理世界通用机器人理念存在路径差异 [16][19]
感觉捕手
36氪· 2025-07-08 17:04
人工智能与感知智能 - 当前AI系统擅长语言处理但缺乏对物理世界的理解 语言大模型通过词序列共现概率捕捉语义 但无法理解三维空间[21][22] - 世界模型是AI突破方向 通过多视角感知重建三维场景 预测遮挡与运动轨迹 实现物理推理和交互[23][24][27] - 语言大模型与世界模型互补 前者解析意图 后者执行物理操作 二者结合实现"说得明白+做得到"的完整智能[32][34] 智能的本质与进化 - 生物智能通过演化形成高效解决方案 如狗本能选择最优路径 棒球手使用凝视启发法接球 体现"具身认知"原理[41][44][45] - 预测性大脑理论认为智能是大脑-身体-环境统一体 通过最小化预测误差实现优化 不依赖显式计算[47][48][49] - 感知智能具有整体性、预测性、具身性和进化性特征 是超越符号操作的高级认知形式[52][53] 教育理念与认知发展 - 具身学习强调通过身体活动与环境互动培养理解力 挑战传统抽象知识灌输模式[78][79][80] - Taste是高维认知能力 表现为对事物本质的直觉判断 如杨振宁对物理学的鉴赏力 乔布斯的跨领域洞察[54][56][62] - 人类智能的独特性可能被AI超越 但具身体验形成的Taste仍是当前核心优势[71][74][81] 技术前沿与行业趋势 - 神经辐射场(NeRF)等3D视觉技术使AI具备场景重建能力 推动世界模型发展[27] - 多模态Transformer整合文本与3D潜变量 实现语义与空间控制的统一[32] - 莫拉维克悖论揭示感知运动智能的复杂性 是世界模型需攻克的核心难关[75][76]
最先进的AI大模型,为什么都在挑战《宝可梦》?
虎嗅· 2025-05-12 14:57
AI在游戏领域的应用进展 - 游戏作为AI的天然试验场,从AlphaGo到Gemini 2.5 Pro,科技公司持续通过AI通关游戏展示技术突破[2][3][4] - 2023年英伟达开发出能玩《我的世界》的VOYAGER,2025年谷歌Gemini因独立通关初代《宝可梦》引发关注[2][4] - 莫拉维克悖论指出:对人类简单的任务(如游戏通关)对AI反而更困难,这凸显了AI在感知和行动力上的挑战[6][7] 技术实现差异 - 早期AI(如AlphaGo)采用强化学习,依赖预设规则和奖励函数[15] - 大语言模型(如Claude、Gemini)直接操作游戏,需从画面中自主理解规则,类似人类新手学习过程[16][17] - Claude 3.7通关失败(仅获3枚徽章),耗时1年迭代,早期版本甚至无法走出初始城镇[11][12] AI决策能力展示 - Claude能理解属性克制系统并调整策略,如电系技能对岩石系"效果一般"的快速应用[19] - AI决策过程透明化:Claude同步显示思考步骤(如选择技能"翅膀攻击"的分析)[22][23] - 拟人化行为:迷路时主动选择战败回城,或误认NPC后修正[26][28][29] 行业技术演进方向 - Gemini操作步数(10.6万次)比Claude(21.5万次)少50%,但测试条件不同,差异源于代理执行框架优化[30][33][35] - 目标从单一游戏专精(围棋)转向通用能力:感知环境、模糊目标理解和长线规划[37][38] - 《宝可梦》等游戏被选为训练载体,因其模拟现实世界的规则学习和复杂问题解决潜力[39]