Workflow
莫拉维克悖论
icon
搜索文档
击败PI!星动纪元登顶具身奥林匹克,狂揽三项全球冠军
量子位· 2026-04-10 10:02
文章核心观点 - 人工智能与机器人领域存在“莫拉维克悖论”,即对人类而言简单的基础感知与运动技能,对机器而言却异常困难[1][2][3] - Benjie's Olympics赛事是针对“莫拉维克悖论”的终极真实压力测试,旨在检验机器人在真实复杂环境中的自适应与泛化能力,而非固定场景的复现[12][13][14][15] - 中国具身智能公司星动纪元在该赛事中表现卓越,其自研的VLA具身大模型在多项任务中击败美国明星公司Physical Intelligence,刷新世界纪录,展示了强大的技术实力[9][11][37] 赛事背景与特点 - 赛事由前Google机器人专家Benjie Holson创办,旨在挑战机器人完成人类日常的灵巧操作任务,如抹花生酱、洗锅、开锁、翻袜子等[3][5] - 赛事被《科学美国人》评价为“物理智能终极真实压力测试”,核心特质是强制泛化,检验机器人在真实复杂环境中的自适应、自决策能力[12][13][14] - 规则极为严苛:要求全自主(无遥控、无人工介入)、无仿真(必须在真实家庭场景下操作)、环境与物体随机摆放,堪称“闭卷裸考”[17] - 通过网友投票,赛事最终决定只允许可移动的机器人参赛,进一步增加了挑战难度[18][19] 星动纪元赛事表现 - 星动纪元在Benjie's Olympics中一举斩获三项任务全球第一,包括两项金牌难度任务和一项银牌难度任务[9] - 该公司是该赛事目前唯一上榜的中国具身企业,也是唯一一个在比赛中打败了Physical Intelligence闭源模型的参赛者[11] - 在金牌难度任务“剥橘子”中,星动纪元以1分47秒纯手剥完成,比Physical Intelligence使用工具耗时2分46秒快35%,成为首个实现完全无工具纯手剥操作的团队[30][31][33] - 在金牌难度任务“开锁”中,星动纪元以49秒完成,比Physical Intelligence的66秒快25%[30][33] - 在银牌难度任务“翻袜子”中,星动纪元仅使用120个训练样本,以1分04秒完成,样本量比Physical Intelligence的176个少31.8%,速度比其1分33秒快30%[30][34][35] 星动纪元核心技术优势 - 公司自研的VLA具身大模型具备三大关键优势[38][39] - **优势一:强大的基础模型知识迁移能力**,能大幅优化数据利用率,使机器人快速适应新场景,降低研发成本与时间[40][43][44][46] - **优势二:自适应视觉注意力机制**,能自动聚焦并清晰识别钥匙孔、果皮等细小关键目标,克服环境干扰与机器人自身晃动[47][48][49] - **优势三:异步高频推理与短时域规划策略**,使机器人能在执行当前动作时同步预测下一段轨迹,实现快速响应与灵敏调整,应对如翻袜子时的物体形变[51][53][57][58] - 综合这些技术,机器人实现了眼清、手稳、能理解工具使用、双手协同并完成多步骤长时序任务的能力[59][60] 公司技术积累与行业地位 - 星动纪元创始人陈建宇为清华大学交叉信息研究院助理教授、博导,公司于2023年创办[65] - 2024年9月,公司成为全球首个提出分频VLA的团队,领先于Physical Intelligence、Figure、Google、NVIDIA等公司[66] - 2025年,公司自研的ERA-42端到端VLA具身大模型实现了对全尺寸双足人形机器人全身及五指灵巧手的精准控制,成为全球仅有的四家能做到这一点的公司之一[67] - 公司曾与斯坦福大学Chelsea Finn(Physical Intelligence联合创始人)团队合作研发Ctrl-World可控生成世界模型,并在WorldArena榜单中超越谷歌、英伟达获全球第一[62][63] - 公司是唯一与Physical Intelligence进行过两次合作的中国具身公司[63] 技术商业化落地 - 星动纪元的VLA具身大模型已在物流、制造业、商业服务及家庭服务等多个领域实现落地[68] - 合作企业包括物流领域的顺丰,制造业的吉利、北汽,以及商业与家庭服务领域的海尔、联想、世纪金源等[68] - 其智能分拣机器人已能完成药品、日化品、包裹分拣扫码,以及制造业的零部件抓取、高精度装配、质量检测等任务[70][71] - 在商业服务场景,如门店清洁、物品递送、导游导览等,部分场景效率已达到70%~80%[72]
AI政治经济学研究大纲|一个万字框架
腾讯研究院· 2026-04-08 16:43
文章核心观点 文章认为,人工智能(AI)并非单纯的技术革命,而是一个对现有经济社会体系的复合型冲击,其影响在功能性替代、系统重塑以及本体论与认识论三个层面展开 [25]。当前关于AI影响力的争论(技术乐观主义与末日威胁论)源于对AI能力边界的不同预判,关键在于AI能否从“信息圈”突破到物理世界 [18][22]。在AI通过“终极图灵测试”并实现成本优势之前,人类仍有一段时间为与AI共存的未来做准备,这需要一个涵盖技术、经济、社会、伦理等多维度的综合研究议程 [23][33][34]。 根据相关目录分别进行总结 1. 科幻照进现实:AI的技术现实与影响 - **认知能力跃迁**:AI在多项任务上表现已接近或超越人类水平。例如,GPT-4在美国统一律师资格考试中得分超过90%的考生 [5];在BrainBench神经科学测试中,精调大模型的准确率达81.4%,超越人类神经科学家的63.4% [6];斯坦福HAI 2025年报告指出,AI在图像识别、阅读理解等大部分标准测试中已超越人类 [6]。 - **行为拟人化**:AI表现出模仿人类性格特征和社交行为的能力。GPT-4o等模型能准确模仿人类人格特征并预测其行为 [7];在沙盒实验中,AI角色会为了达成目标说谎或表现出情绪化争吵 [7]。 - **人的主体性削弱**:人类正将日常甚至高风险决策权让渡给AI,存在“自动化偏差”。一项跨国研究表明,即便在国家安全决策中,人们也倾向于遵循AI的建议 [9]。持续接触AI生成内容会导致群体辨别真实信息的准确率下降22% [10]。在医疗等领域,对算法的认知依赖可能侵蚀专业人员的道德主体性与责任能力 [11]。 - **偏见强化螺旋**:人类偏见在AI训练与使用中被放大。一项情绪感知实验中,人类参与者53%的初始偏差经AI处理后放大至65%,后续互动中参与者的偏差又从50.7%攀升至61.4% [12]。AI意见可能产生“锚定效应”,使用户主动寻找证据印证其观点 [12]。 2. 突破信息圈与终极图灵测试:AI的能力边界与未来轨迹 - **“信息圈”内的优势**:当前AI的显著优势局限于由数据、数字协议和编码化知识构成的“信息圈” [18]。在已全流程数字化的领域(如软件开发、行政文书、数据分析),AI的替代速度快得惊人 [18]。这直接反映在硅谷的码农就业危机和白领岗位消失等现象中 [19]。 - **突破物理世界的挑战**:AI要成为通用替代力量,需在“AI for Science”(独立进行复杂科研)和“世界模型”(在物理世界中有效规划行动)两条路径上取得突破 [20]。然而,受“莫拉维克悖论”制约,对人类简单的感知运动任务对AI而言异常困难,且在物理世界中AI的成本效率将大幅下降,其相对于人类的比较优势远不如在数字领域悬殊 [21]。 - **终极图灵测试的定义**:真正的分水岭是“终极图灵测试”,即一个人与具身智能在开放空间连续互动8小时后仍无法辨别其是否为真人 [22]。2025年11月的“小鹏时刻”标志着人形机器人在肢体拟人方面跨过了“机械图灵测试” [22]。但全面替代还需满足经济性条件,即具身智能的制造和运行成本需低于人类(碳基智能) [23]。 3. 一个分析框架:AI冲击的三个层面 - **功能性冲击**:存在于直观经验层面,关注AI是否好用、成本如何降低,本质是寻求技术性解决方案 [27]。在信息圈内,AI在记忆、思考、语言输出等功能上可能大幅替代人类;但在物理世界的实时感知、精细操控等具身能力上仍面临挑战 [27]。 - **系统的重塑** - **微观-企业组织**:AI正在重构企业组织逻辑,冲击传统科层制,个人的能力被放大,可能导致小团队或一人企业的兴起,并改变创业形态与零工经济 [28]。 - **中观-产业与市场**:AI催生新产业(如从芯片到应用的巨大产业网络)并重组既有产业(如电商、广告、文娱),市场交易媒介的“含AI量”不断提升,“词元经济学”(Token Economics)成为新研究课题 [29]。 - **宏观-经济增长与治理**:AI将触及经济增长模式(如应对生产效率上升可能带来的长期需求不足或通缩挑战、全民基本收入UBI的讨论)和社会治理范式(如AI应用中的风险责任划分、数据隐私等法律伦理问题)的根本 [30]。 - **本体论与认识论挑战**:涉及深层的伦理与哲学问题,例如:算法决策中的公平与效率 [31];AI是否可能成为目的本身而非工具 [31];人类的道德责任是否可以外包给AI(如自动驾驶的生死抉择)[31];以及如何为AI进行价值对齐,使其与社会主流价值观一致 [31]。最终触及对AI本体论(如自由意志、意识体验)的重新认识 [32]。 4. 与AI共存的未来:研究议程初步探讨 - **功能性替代层面**:需研究“词元经济学”(Token Economics),即以Token(模元)为最小单元,分析其交易定价、成本收益及流通消费机制,作为AI经济学研究的起点 [34]。 - **系统重塑层面的关键议题**: - **经济机制变化**:AI可能削弱市场机制的信息处理优势,改变计划与市场的边界 [35]。信息不对称的减少将深刻影响交易成本、产权分配和委托-代理问题(AI代理人可能无道德风险)[35]。需关注AI产业资源集中可能带来的限制竞争、算法合谋等问题 [35]。 - **劳动力市场与宏观政策**:当认知劳动的供给因AI变得近乎无限,可能引发“无限供给悖论”,冲击古典价值规律 [35]。劳动收益占比减少可能导致总产出高涨与总需求萎缩并存的“大通缩” [35]。需研究劳动力市场结构变化(白领溢价消失、蓝领溢价提升)、后劳动时代的税收基础,以及UBI等再分配方案的影响 [35]。 - **金融与治理**:高度自动化的金融体系在更高效分配风险的同时,也可能放大极小概率事件的隐形风险 [35]。需解决算法“黑盒”变“黑洞”带来的偏见与社会正义问题,以及AI公共决策中的责任归属问题 [35]。价值对齐的实施与监管将成为政治经济学的重要试验田 [35]。 - **根本性问题**:研究议程的核心在于预见并探讨AI与人类在本体论地位、责任边界上的永恒话题,旨在防止人类在技术理性中被异化,为AI时代的未来发展树立信心 [35]。
当AI长出了「眼睛」和「手」,做饭这件事会变成什么样?
36氪· 2026-03-16 17:22
文章核心观点 - 以OpenClaw为代表的“执行型智能体”的爆火,反映出市场已不满足于“只会聊天”的AI,需求转向能“替人干活”的实干型伙伴[4][5] - 在厨房等复杂物理场景中,AI面临“落地断层”,需从“虚拟对话”走向“物理托管”,构建“感知-决策-行动”的完整闭环[7][11][12] - 老板电器通过AI烹饪眼镜、食神大模型及AI数字厨电的软硬件协同,构建了“隐形大厨”全链路解决方案,实现了AI从“看你做饭”到“帮你做饭”的跨越[13][18][19] - 实体制造业在AI时代的核心竞争力在于其产业理解、私有数据底座和硬件执行能力,而非与科技巨头比拼通用大模型参数[22][24] - AI技术的终点是“成全”而非“替代”人类,通过接管繁琐劳动,将烹饪的创造乐趣和自由还给用户,重塑人与生活的关系[26][27] AI智能体发展趋势 - 2026年初,开源AI智能体框架OpenClaw引发全民热潮,其核心是实现了从聊天对话到获得权限、自动处理数据的“执行型智能体”范式转移[3][4][5] - 市场情绪表明,“只会聊天”的AI已无法满足需求,用户需要真正能“替人干活”的实干型伙伴[5] 厨房场景的AI落地挑战与路径 - **挑战:莫拉维克悖论与落地断层** - 人工智能领域存在“莫拉维克悖论”,让AI像小孩一样感知和操作物理环境极其困难[7] - 在变量极多的厨房场景,AI浪潮遭遇“落地断层”,虚拟世界的强大能力难以融入物理生活[7] - 厨房是物理世界规则最复杂的地方,涉及流体力学、热力学、加速度和力矩,仅能在屏幕里聊天的AI无法提供实质帮助[9] - **行业演进历程** - 第一阶段为“功能叠加”的初级智能,仅在硬件上添加语音或联网模块,未理解烹饪本质[8] - 第二阶段为“软硬割裂”的被动辅助,智能设备提供菜谱信息,但与物理执行完全脱节,AI无法看到用户窘境或操控物理设备[8] - **解决方案:构建“感知-决策-行动”闭环** - 大模型需跨越“物理断层”,从“云端算力”走向“物理做功”,提供AI赋能烹饪全链路的整体解决方案[11] - 需进行底层硬件重构,超越传统的“中控屏”思路,采用更彻底的软硬件协同一体化解法[12][13] 老板电器的AI烹饪全链路解决方案 - **整体架构:“隐形大厨”** - 解决方案核心是构建具备完整行动能力的“隐形大厨”体系[13] - AI烹饪眼镜作为“五官”负责感知,食神AI烹饪大模型作为“大脑”负责决策,深度适配的AI数字厨电作为“四肢”负责执行,三者通过打通底层协议实现协同[13] - **感知层:打破“盲区”,赋予第一视角** - 通过跳出传统厨电形态的AI烹饪眼镜,作为大模型向外延伸的感知触角,解决传统厨电“看不见”厨房情况的痛点[13] - AI烹饪眼镜能捕捉图像、声音等多模态数据,并实时上传至大模型进行精准识别,使AI拥有与人类同频的“第一视角”感知力[15] - **决策层:跨越“常识”,构建垂直知识库** - 基于老板电器47年积累的庞大且真实的烹饪数据构建食神AI烹饪大模型知识库,精确到特定硬件环境下的烹饪细节[18] - 垂直场景的私有数据构成行业新壁垒,这种基于真实硬件的决策能力是通用大模型无法企及的[18] - **执行层:深入物理世界,实现智能托管** - 在AI数字厨电矩阵中,底层算法能自主接管油烟机的风量调节[18] - 明火烹饪环节通过高精度温度检测被纳入智能托管范畴[18] - 洗碗机能依靠实时温湿度曲线追踪清洁进度,完成烹饪善后[18] - 最终实现从看懂食材、规划路径到接管明火翻炒与洗涤善后的完整链路,完成从“看你做饭”到“帮你做饭”的转变[19] 实体制造业在AI时代的竞争策略 - **行业背景与误区** - AI技术狂飙期,聚光灯集中在科技巨头和明星大模型公司,它们热衷于“堆算力、卷参数”追求通用人工智能[22] - 许多传统硬件企业陷入“错失恐惧症”,盲目接入通用大模型作为营销噱头,或研发脱离实际需求的“虚拟人助手”[22] - 例如当前“百镜大战”中,多数AI眼镜仍聚焦于翻译、提词器等信息层面的“被动辅助”[23] - **实体企业的“定力”与护城河** - 清醒的实体制造企业走出“独立行情”,其商业定力源于深知代码无法代替真实的火力翻炒与物理做功[24] - 制造业在AI时代的护城河并非比拼底层大模型参数规模,而是挖掘自身沉淀的产业理解、数据底座及强悍的硬件执行能力[24] - 核心竞争力在于对中国厨房“一烹一炒”的深刻洞察、数亿次烹饪数据的积累,以及从感知、决策到执行层自主可控、无缝协同的完整体系,这些难以被复制[24] AI技术的价值与人文思考 - 老板电器提出“烹饪自由,享受创造,成全美好”的品牌主张,其底层逻辑是用AI“成全”而非“替代”人类[27] - 目标是利用前沿科技接管繁琐的控火翻炒和饭后打扫,从而将享受烹饪和创造的自由完整地还给用户[27] - 让用户能无惧失败地享受食材碰撞的创造乐趣,在烟火气中治愈疲惫,成全生活里的真实美好[27] - 当AI开始理解并接管厨房里的烟火气时,未来的生活方式正在被悄然重塑[27]
华尔街疯传一份末日剧本
投资界· 2026-03-04 16:01
文章核心观点 - 一篇名为《2028全球智能危机》的做空报告推演了AI将导致智能过剩,从而引发一系列经济危机,包括服务业崩塌、工资踩踏、信贷危机及财政衰竭,形成“通缩碎钞机”式的死亡螺旋[3][6][7][9] - 文章的核心反驳观点认为,该报告基于“需求总量固定”的错误假设,忽略了“杰文斯悖论”所揭示的二阶效应:当认知成本因AI而急剧下降时,将引爆前所未有的新需求,从而带来商业活力的极致释放和经济增长,而非通缩危机[10][11][14][17] - AI带来的转型将伴随阵痛,但“莫拉维克悖论”意味着物理世界的基础设施建设需求将创造新的就业缓冲,而通过政策创新(如算力税、债务重组、教育改革)可以引导社会穿越转型期的J曲线,最终迈向一个更加丰饶的时代[18][19][20][24][27][29] 对做空报告《2028全球智能危机》的推演总结 - **核心逻辑**:过去200年经济建立在“智能溢价”之上,而AI将使智能变得极度廉价和过剩,从而冲击旧的经济底座[6][7] - **第一阶段:服务业崩塌**:2026-2027年,自主AI Agent将接管购物优化、税务筹划、保险理赔和法律文书,抹平商业“摩擦力”,导致依赖信息差和复杂流程的服务业土崩瓦解[7] - **第二阶段:白领挤压与工资踩踏**:被AI替代的知识工作者将涌入低端劳动力市场,导致全行业工资水平遭到严酷压缩[7] - **第三阶段:击穿SaaS与私募信贷**:私募股权基金杠杆收购SaaS公司的逻辑(赌企业按人头购买软件账号的永续增长)因AI削减人力需求而崩塌,导致评级下调、债务违约和资产重定价[7][8] - **最终阶段:居民与国家财政衰竭**:收入缩水迫使中产阶级透支储蓄维持房贷,消费熄火;同时,政府依赖的“劳动所得税”税基因财富创造转向资本与算力而面临空前危机,形成“裁员->收入降->消费塌->更多AI自动化->再裁员”的死亡螺旋[9] 对做空报告逻辑谬误的反驳与新的经济范式推演 - **致命假设陷阱**:报告模型建立在“需求总量固定”的假设上,即认为社会所需的脑力劳动总量是定数,但历史证明需求具有弹性[10] - **杰文斯悖论的启示**:资源使用效率提升导致成本暴跌,反而会引发需求激增,例如蒸汽机提升煤炭效率后总消耗量指数级暴涨;将“煤炭”替换为“认知与智能”,AI正在引发同样的事实[11] - **历史例证:算力成本下降**:1980年至今,个人电脑算力成本下降99.9%以上,并未导致经济萎缩,反而催生了互联网、移动通信、云计算等产业,创造了数十万亿美元的新GDP和数以亿计的新岗位[11] - **历史例证:宽带成本下降**:网络传输成本下降99%后,需求从文本邮件升维至4K流媒体、百人视频会议,宽带使用量暴增上万倍[12] - **AI引发的认知通缩与需求核爆**:大模型API的Token价格快速下降,使“思考”的边际成本趋近于零,这将激活海量、深度的长尾需求,而非导致需求萎缩[14][17] “分诊式经济”的终结与新需求爆发 - **当前经济本质**:在AI之前,由于高级认知劳动力昂贵稀缺,商业、教育、医疗均处于“分诊式经济”,即只能选择满足ROI最高的少数需求,而放弃大量潜在需求[15] - **企业端案例**:互联网公司可能因研发成本高,从1000个用户优化需求中只选择最能赚钱的20个进行开发[15] - **教育端案例**:因顶级教师时间昂贵,中产阶级家庭妥协于1对50的标准化教育,孩子的个性化学习需求被“分诊”[16] - **小微商业端案例**:街边咖啡馆因成本无法雇佣顶级战略顾问、律师或广告团队,精细化运营需求被“分诊”[16] - **AI击穿成本高墙**:当认知成本下降99%,街边小店可配备AI法务和营销团队,每个孩子可拥有专属AI导师,普通人可将灵感转化为独立游戏,过去被“分诊”掉的980个需求将全部被实现[17] 物理世界的缓冲与劳动力市场转型 - **莫拉维克悖论的作用**:AI在数字认知空间强大,但在物理空间的感知和运动能力远不及人类,这构成了经济系统的缓冲垫[18] - **AI繁荣的物理代价**:AI运行依赖于沉重的物理基础设施,包括大算力芯片、数据中心、海底光缆、核电站及电网翻新[18] - **新的就业需求创造**:为支撑大模型运转,全球电力需求可能翻2到3倍,这将创造成千上万的建筑工人、高级电工、暖通工程师等物理世界岗位,其薪水正在飙升,为劳动力市场转型争取时间窗口[19] - **“好通缩”提升实际购买力**:AI导致医疗、法律、金融服务成本大幅下降(例如诊断成本降50%,法律服务成本降80%),即使名义工资被压缩,居民净购买力将跃升,剩余资金将涌向依赖人类同理心和实体接触的体验经济等领域[19] 转型阵痛与政策应对 - **转型的J曲线**:任何伟大的范式转移都会经历先降后升的J曲线,在底部(可能对应2028年前后)将经历“错失的着陆”,出现技能错配和阵痛[20][23] - **政策工具箱需要创新**:为打破末日循环,政府的财富分配机制需与技术迭代同步创新[24] - **具体政策方向一**:国家需入局AI基础设施,通过设立全民AI主权基金或征收“算力税”,让全民持有“智能红利”,以对冲白领失业潮[24] - **具体政策方向二**:实施大规模的债务重组(如房贷延期豁免)并与技能再培训深度绑定,利用预警时间构建社会缓冲网[25] - **具体政策方向三**:彻底推翻现有教育体系,从培养机械记忆转向培养审美能力、提出跨学科问题的能力以及机器最缺乏的同理心[26] 对资本市场与投资视角的启示 - **线性恐惧与指数级创造力**:华尔街恐慌源于线性外推可见的负面数据(如SaaS退订率、裁员公告),但真正的创造力是指数级的,难以量化[27] - **不同阶段的投资图景**:短期内,旧模式SaaS和传统软件外包公司将面临压力;中期将迎来能源、算力基建和物理世界改造的超级牛市;长期将进入一个拥有海量“一人企业”和极致个性化服务的丰饶时代[27] - **核心结论**:在认知成本极限坍塌的奇点时刻,最大的风险并非拥抱变化,而是基于对人类创造力的低估,固守“需求一成不变”的旧地图[28]
Alex Wang“没资格接替我”,Yann LeCun揭露Meta AI“内斗”真相,直言AGI是“彻头彻尾的胡扯”
36氪· 2025-12-17 10:45
对当前主流AI发展路径的批判 - 图灵奖得主Yann LeCun尖锐批评当前硅谷主流的人工智能发展路径,认为单纯依靠扩大语言模型规模、喂更多合成数据、雇佣数千人进行后训练以及强化学习微调,是一条“完全胡扯”且“根本行不通”的死胡同[1] - 其观点挑战了行业以语言能力和知识覆盖面为中心的评估体系,指出现实世界中的理解、预测和行动能力远比生成流畅文本复杂,而现有以语言为核心的模型并未触及问题本质[2] - 业界对大语言模型规模化的执念,正将人工智能引向一条看似高速、实则封闭的死胡同[1] 对AI发展关键瓶颈的判断 - 真正制约AI进步的关键,并非如何更快逼近“人类级智能”,而是如何跨越一个常被低估却极其困难的门槛——让机器具备“狗的智能水平”[2] - 从“狗水平智能”到“人类水平智能”的跨越相对容易,最难的部分是达到“狗水平”,一旦达到该阶段,绝大多数核心要素就已具备[34] - 从灵长类到人类,新增的关键能力可能主要是语言,而语言在大脑中只占据极小的区域,当前技术在这方面已做得相当不错[34] 关于AGI(通用人工智能)的见解 - “通用智能”这个概念本身站不住脚,它本质是以“人类智能”为参照定义的,但人类智能本身高度专用化[30] - 与其讨论“通用智能”,不如讨论“人类水平智能”,即机器在所有人类擅长的领域达到或超过人类,这个过程将是渐进而非突发的[31] - 如果一切顺利且无根本性障碍,最乐观估计在5到10年内,或许能看到接近人类或至少接近“狗水平”的智能系统,但历史表明AI发展中总会出现新瓶颈,可能需要20年甚至更久才能突破[32][33] 新公司AMI的技术路线与愿景 - 结束在Meta长达12年的职业生涯后,LeCun通过其新公司AMI(先进机器智能)推动构建“世界模型”的技术路线,旨在让机器理解和预测世界[2][5] - 与主流生成模型在像素或文本层面输出不同,AMI的核心思路是在抽象表征空间中对世界运行规律进行建模和预测,关注“世界将如何演化”而非“生成看起来像什么”[2] - 公司最终目标是推出围绕世界模型和规划等核心技术的实际产品,并希望未来成为智能系统的主要供应商之一[7] - 公司计划以开放的方式进行上游研究,认为公开发表成果是取得突破的必要途径[5][6] 世界模型的技术原理与优势 - 世界模型旨在处理高维度、连续且含噪声的数据模态(如图像、视频),而大语言模型对此完全无能为力[9] - 有效方法是学习一个抽象的表征空间,滤除输入中大量无法预测的细节(包括噪声),然后在该表征空间内进行预测,这是JEPA(联合嵌入预测架构)的核心思想[9] - 世界模型不需要是现实的逐像素模拟器,而是在抽象表征空间中,只模拟与任务相关的那部分现实,这类似于计算流体力学等科学模拟中使用的抽象层级[20][21][22] - 视频等真实世界数据在字节层面更冗余,这种冗余结构使得自监督学习成为可能,其结构远比文本丰富,仅靠文本训练永远不可能达到人类水平的智能[18][19] 对大语言模型局限性的分析 - 当前基于大语言模型的架构构建的智能体系统并不理想,需要海量数据模仿人类行为且可靠性有限[8] - 要训练一个性能尚可的大语言模型,需使用几乎整个互联网中所有可获取的文本数据,一个典型模型的预训练规模大约是30万亿token(约10¹⁴字节),模型需要极大存储能力来记忆并复述这些事实[18] - 大语言模型并不真正理解基础世界规律(如物体会下落),它们只是被微调到给出“看起来正确”的答案,这是复述而非理解[25] - 通过微调语言模型来解决安全问题存在根本缺陷,因为它们总可以被“越狱”绕过限制[37] 对合成数据与模拟环境的看法 - 合成数据具有价值,例如孩子通过游戏在受控模拟环境中学习[24] - 需警惕某些模拟的失真(如视频游戏中为“好看”而非真实的物理效果),不加控制可能会影响模型在现实世界中的泛化能力[24] - 关键不在于是否使用模拟,而在于在哪个抽象层级上训练模型,很多基础世界规律是在非常抽象的层面上学到的[24] 对AI安全与治理的立场 - 安全必须与发展同步进行,而不是先停下来等“绝对安全”,可类比喷气发动机通过不断工程改进达到高可靠性的发展路径[37] - 应转向以目标驱动为核心的AI架构,该系统拥有世界模型预测行为后果,可规划行动序列,并受到一整套硬性约束限制,在设计层面就是安全的[38][39] - 当前LLM领域通过生成大量候选输出再进行过滤排序来限制输出的方法,计算成本高得离谱,昂贵、低效且不可规模化[39] - 强大技术必然伴随风险(如汽车早期),但那是工程和治理问题,而非不可逾越的根本障碍,AI已在医疗影像等领域挽救大量生命[35][36][50] 对行业生态与竞争格局的观察 - 当前AI投资热潮让长期研究型创业成为可能,而以前这类研究只能依托于大企业或大公司的研究院[5] - 包括谷歌、OpenAI甚至Meta在内的许多实验室正从开放研究转向封闭[5] - 硅谷因竞争极端激烈,所有公司都被迫做同一件事(大语言模型),催生了技术单一化现象,OpenAI、Meta、Google、Anthropic几乎所有公司都在做同样的事情[47] - 这种环境导致公司拼命在同一条战壕里竞争,却很容易被来自“完全不同方向”的技术突破所颠覆[48] - 在硅谷大公司内部,也有不少人私下认同当前主流路径错误,LeCun的新公司正在招募这些人[49] 对其他相关公司与技术的评价 - 对大多数试图构建世界模型的公司(如SSI)具体在做什么不太清楚,SSI甚至成了行业笑话[44] - Physical Intelligence主要做几何一致的视频生成,但这仍是“生成像素”的思路,LeCun认为这是错误方向[44] - 认可Wayve公司在自动驾驶领域构建的世界模型,认为其做对了一半(预测发生在表示空间),但问题在于其表示空间仍主要通过重建训练得到[45] - 认可NVIDIA和Sandbox AQ的类似方向,Sandbox AQ提出的“大型定量模型”与LeCun的主张高度一致[46] - Google做了很多世界模型,但主要仍是生成式路径,Danijar Hafner的Dreamer系列模型走在正确道路上,但其已离开Google创业[47] 关于Meta内部AI方向的变动 - Alex Wang负责Meta所有AI相关的研发与产品整体运作,而非科研本身,他并不是在“接替”LeCun的科研角色[40] - Meta的“超级智能实验室”体系下分为四部分:FAIR(长期基础研究)、TBD Lab(前沿大语言模型)、AI基础设施、产品部门,Alex Wang统管这四个方向[40] - FAIR目前被明显推向更短期、更偏应用的研究方向,发表论文的重要性下降,更多是为TBD Lab的大模型工作提供支持,这意味着Meta整体正在变得更“封闭”[42] - 一些研究团队(如做SAM的团队)已被重新归类到产品部门[43]
记者观察丨机器人“应摔尽摔” 让中国具身智能产业走得更稳
证券时报· 2025-12-15 17:18
文章核心观点 - 2025国际具身智能技能大赛中机器人频繁“翻车”并非技术无能的体现,而是一场主动设计的“压力测试”,旨在将机器人从理想实验室环境推向不可预测的真实世界,暴露技术瓶颈,为未来发展指明方向 [1][2] - 行业认为这些失误是技术迭代过程中不可或缺的宝贵财富,其价值远大于任何精心编排的完美演示,每一次摔倒都在为“数据困境”编织出路,是产业为了真正“站立”并奔跑起来所必须经历的锤炼 [2] 大赛情况与公众反应 - 周末的上海张江科学会堂因举办2025国际具身智能技能大赛成为“遛娃圣地”,公众目睹了机器人执行爬坡、搬运、叠衣、陪护等任务时出现诸多笑料和故障 [1] - 具体故障包括:机器人在执行任务时突然愣在原地、绕过障碍时把自己扳倒、以及刚出场就重重摔伤导致脑壳碎裂 [1] - 围观者对此产生戏谑和唱衰情绪,并发出“灵魂质疑”:以比赛形式将行业痛点和局限暴露出来是否必要 [1] 大赛设计理念与行业意义 - 大赛设计理念核心在于将机器人从理想的实验室环境推向不可预测的真实世界,从而暴露其技术瓶颈,为未来发展指明方向 [1] - 比赛设置近似真实世界的竞技场,如让机器人从高约30厘米的碎砖坍塌区上走过、在极窄口径的花瓶里插入向日葵,旨在让机器人告别实验室的“参数比拼”和固定程序,向理解并适应非结构化环境迈进 [2] - 这种“高压环境”下造成的每一次“翻车”,都在为具身智能的未来铺路 [2] 具身智能行业的技术挑战与突破路径 - 人工智能发展呈现反差:网页端大模型已能通过律师考试,而现实中的机器人却像学龄前孩童一样蹒跚学步,这体现了著名的“莫拉维克悖论” [1] - 当下具身智能的核心痛点是“数据困境”,解困密钥在于获取真实场景数据 [2] - 机器人每一次摔倒都在为“数据困境”编织出路,只有先突破“数据困境”,才能着手解决“模型困境”,让机器人真正成为生产力工具 [2] - 业内专家和企业达成高度共识,认为这些失误能帮助行业收集推动进步的关键数据,明确攻关方向,并加速机器人从展示品迈向可靠实用的生产力工具 [2]
65岁LeCun被卷回巴黎老家,与小扎一刀两断,曝光神秘AI初创
36氪· 2025-12-05 19:45
核心观点 - Meta首席AI科学家Yann LeCun离职创业 其新公司专注于开发基于“世界模型”的高级机器智能 旨在让AI理解并预测物理世界 这与当前行业过度投资大语言模型的技术路线形成鲜明对立 [1][3][11] - Yann LeCun公开批评大语言模型存在根本性局限 认为其已触及天花板 并将行业资源视为“黑洞” 阻碍了其他AI路径的发展 [6][8] - Meta公司尽管口头支持LeCun的创业 但并未进行财务投资 显示出双方在技术路线和商业兴趣上存在分歧 [1][36][38] 关键人物动态 - Yann LeCun在Meta工作12年后将于年底离职并创业 其新公司专注于开发“世界模型”以实现高级机器智能 [1][3] - LeCun表示Meta是其新公司的合作伙伴但并非投资者 暗示项目范围可能超出Meta的兴趣 [1][36][38] - 媒体报道LeCun计划离职后 Meta股价下跌了2% 据此估计LeCun对Meta的价值约为300亿美元 [38] 技术路线分歧 - Yann LeCun认为大语言模型仅是“token生成器” 缺乏对物理世界的理解、记忆和多步推理能力 几乎过时 [6] - LeCun指出大语言模型是自回归的 属于System 1 没有真正推理 不具备达到人类或狗类智能水平所需的四项能力 [6] - 他认为大语言模型像“黑洞”一样吸干了所有资源和关注 导致其他AI研究领域寸草不生 [8] - 与此相对 Meta公司正投入数十亿美元重金招揽大语言模型专家 甚至由CEO亲自参与挖角 这被视作对LeCun技术路线的一种否定 [8][11] “世界模型”技术理念 - LeCun倡导的“世界模型”是一种基于视觉等感官信息训练的非生成式AI 旨在预测物理世界 其理念可追溯至1943年的心理学概念 [3][12][14] - 他认为真正的智能需要构建“心理模型”或内部表征 以进行规划、推理和与复杂环境交互 而这大部分是通过观察和交互后天学来的 [21][22] - 过去10年 LeCun致力于此方向 前5年探索 后5年基于非生成式架构取得实质进展 并发展出联合嵌入预测架构 [16][20][21] - 世界模型不仅预测下一帧视频 更关键的是预测在不同动作下所有可能结果的分布 因此需要大量交互数据而不仅是视频数据 [25][26] - LeCun用比喻说明差异:大语言模型像盲目滚下山的雪球 而真正的智能应像能感知环境并规划路径的雪人 [27][29][30] 对当前AI发展的批判 - LeCun指出“莫拉维克悖论”依然存在:AI能在律师考试等抽象任务中表现出色 但无法让机器人具备五岁孩子的行动能力 [20][21] - 他认为理解物理世界比理解语言更难 文本只是对人类丰富感知的高度压缩和抽象描述 无法涵盖大部分关于物理世界的直觉和心理模型 [20][32][35] - 人类思考依赖心理意象而非token 因此仅通过缩放语言模型无法产生真正的智能 [20][35] - 他批评硅谷完全被生成式模型迷住 暗示其创业需在硅谷之外的非主流环境如巴黎进行 [38] 行业影响与现状 - 全球科技巨头正将数十亿美元投入大语言模型领域 并相信缩放定律能支持其通向通用人工智能 [4] - 行业围绕大语言模型迅速形成“共识” 但AI领域最顶尖的科学家对其作为智能路径的根本问题仍存在深刻分歧 [40] - 对智能本质的探索尚无定论 技术路径的竞争仍在继续 [40]
Generalist发现具身智能的Scaling Law,还让模型能同时思考与行动
36氪· 2025-11-21 09:52
公司概况 - 公司由Google DeepMind高级研究科学家Pete Florence联合创立,其Google学术引用数超过19000次,曾带队研发PaLM-E、RT-2等模型[4] - 联合创始人包括Andrew Barry(CTO,前波士顿动力员工)和Andy Zeng(首席科学家,曾参与PaLM-E研发)[4] - 核心团队拥有来自OpenAI、Waymo等顶尖公司的资深研究人员[4] - 早期投资者包括Spark Capital、NVIDIA、Boldstart Ventures、Bezos Expeditions、NFDG等机构,但投资金额未披露[3] 核心产品与技术 - 发布新型具身基础模型GEN-0,基于高保真度原始物理交互数据的多模态训练,设计目标为捕捉人类水平的反应反射与物理常识[1][5] - 模型核心特征为"和谐推理",实现感知流(持续接收传感器数据)与行动流(持续输出控制指令)在连续时间域中异步交织,无需显式同步点[6][7] - 模型架构借鉴视觉和语言模型优势并实现超越,适用于6自由度、7自由度及超过16自由度的半人形机器人[5][18] 模型性能与扩展规律 - 模型参数规模达到1B(10亿)时难以吸收复杂感知运动数据,6B(60亿)参数开始展现多任务能力,7B(70亿)以上参数可快速迁移至下游任务[10][11][12] - 扩展至10B(100亿)以上参数后,模型能以更少后训练数据快速适应新任务,在零样本下游任务中性能提升(下一动作验证预测误差降低)[14] - 首次在具身智能领域观察到模型固化现象,且相变发生在远大于语言模型的参数规模上,印证莫拉维克悖论[14] 数据与训练 - 训练数据集包含27万小时真实世界操控轨迹,从全球数千个家庭、仓库和工作场所收集,数据量比某些最大规模机器人数据集高出几个数量级[16][18] - 数据质量和多样性比纯粹数据量更重要,精心构建的数据混合可产生不同特性的预训练模型[18] - 模型展现出明显Scaling Law,预训练数据规模与下游性能存在幂律关系,适用于服装、制造、物流、汽车、电子等多行业任务[15] 行业竞争与前景 - 竞争对手包括Physical Intelligence(模型迭代至π 0.6,可完成连续长序列任务)、Skild AI(支持多形态机器人泛化)、Figure(采用快慢思考双系统架构)[19] - 行业技术思路尚未收敛,数据丰富度不足,商业化落地案例仍较少[19] - 具身智能Scaling Law已被初步验证,多形态泛化、动作延时、连续长序列任务等难题正被攻克,商业化前景逐步改善[20][21]
大模型之后看机器人?Sergey Levine谈通用机器人规模化落地的真实瓶颈与破局方案
锦秋集· 2025-09-15 20:37
核心观点 - 机器人技术将在2030年实现家庭全自主管理 核心驱动力是"机器人数据飞轮"机制 即通过真实任务反馈实现持续迭代和自我强化 [1] - 机器人落地速度可能超越自动驾驶和大型语言模型 因物理世界反馈明确、容错率高且数据获取更容易 [2] - 技术路径基于"视觉-语言-动作"一体化基础模型 依托现有AI底座(如Gemma语言模型)快速开发应用 [3][15] - 硬件成本从数十万美元降至数千美元 降低创业门槛并加速市场验证 [7][33] - 通用机器人实现需突破"三难困境":毫秒级反应速度、长上下文记忆和大模型规模 解决方案依赖云端与本地智能结合 [6][27][28][29] 技术架构与能力 - Physical Intelligence的π0模型采用端到端Transformer架构 整合视觉编码器、语言推理和动作专家 实现感知-思考-行动闭环 [16][17] - 动作控制采用流匹配和扩散技术 生成连续高频指令驱动关节运动 精度远超离散文本符号 [17] - 模型展现"组合泛化"能力:例如自主清理障碍物、扶正容器、翻正衣物等未训练过的行为 [23][24] - 预训练语言模型提供先验知识(如物体识别、空间关系) 加速物理技能学习过程 [17][18] 发展路径与时间线 - 优先小范围真实场景应用 而非大规模模拟 通过精准数据反馈提高资源效率 [4] - 垂直领域机器人服务预计1-2年内落地 通用家庭管家级机器人需约5年 [10][11] - 模拟环境需结合真实世界数据基础 仅作为"排练厅"用于技能排演和反事实思考 [30][31][32] - 数据飞轮启动后 机器人能力将呈指数级提升 从单一任务跃迁至通用家务处理 [1][5][10] 行业比较优势 - 对比语言模型:机器人错误结果明确(如叠坏衣服) 易获得有效负反馈 而语言模型错误难以察觉 [12] - 对比自动驾驶:机器人容错空间大(如打碎盘子可接受) 且受益于现代感知系统和常识推理能力 [13][14] - 具身智能赋予目标导向的视觉过滤能力 从海量视频数据中高效提取关键特征 避免信息过载 [19][20][21] 硬件与经济影响 - 硬件成本十年内从40万美元(PR2机器人)降至3000美元 AI闭环控制降低对机械精度的依赖 [33] - 机器人将放大体力劳动者生产力 类似编程助手对软件工程师的增效作用 [11][34] - 地缘政治挑战在于关键硬件供应链集中 但机器人产业具备"自举"特性:用机器人制造机器人可形成正反馈循环 [35] 生态与竞争维度 - 竞争焦点从纯技术转向产业链、生态链和人才链综合布局 [7] - 教育体系需培养持续学习能力 以适应自动化转型带来的社会变革 [34]
具身智能机器人,如何才能活出个“人样”?
36氪· 2025-08-04 16:21
具身智能发展背景与理论基础 - 图灵在1950年论文中首次提出具身智能概念 奠定理论基础并预见两条发展路径:专注抽象计算的"做题家"路线(如ChatGPT、AlphaGo)和通过感知互动学习的"实干派"路线(即具身智能)[1] - 当前存在莫拉维克悖论:实现逻辑推理等高级智慧所需计算资源较少 而实现感知运动等低等级智慧需要巨大计算资源[1] - 真实世界无标准答案 环境变量(地板滑度、光线变化、物体位置变动)导致机器人执行困难[1] 发展挑战与核心瓶颈 - 需适应非结构化真实环境 传统AI依赖固定场景而具身智能需应对无剧本现场(如宠物突然跑动、货架位移、天气变化)[5] - 需发展多感官联动认知策略 模仿人类多模态融合能力(视觉/听觉/触觉协同)实现三维空间物体识别与环境动态捕捉[5] - 缺乏元认知能力 无法主动反思任务执行过程(如将粉色杯子误判为红色)且缺乏终身学习能力 场景切换导致技能失效[6] - 实验室与现实场景表现差异显著 非训练场景任务完成率仅65% 模型泛化能力不足[17] - 续航能力不足(主流人形机器人续航普遍低于2小时)且成本高昂(单台超50万元)制约大规模应用[18][19] 技术架构突破 感知层 - 多模态传感器融合技术实现"五感全开":视觉传感器(双目摄像头、3D激光雷达)、触觉传感器(柔性电子皮肤)、力觉传感器(关节受力测量)[9][10] - 动态环境建模依赖SLAM技术 实时构建三维地图并预测障碍物动向 使物流机器人路径规划成功率从75%提升至92%[10] - 特斯拉Optimus搭载28个关节传感器 结合视觉神经网络实现毫米级物体定位精度[10] 认知层 - 分层决策架构将复杂任务拆解(如Figure 01的策略控制、环境交互、行为控制系统)[12][13] - 世界模型通过交互积累经验 建立"物体属性-空间关系-因果逻辑"知识库 实现触类旁通(如识别高温物体需戴隔热手套)[14][15] 行动层 - 仿生驱动技术实现灵活运动(波士顿动力Atlas完成2.5米高跳 越疆Dobot灵巧手操作误差小于0.1毫米)[15] - 人机共融安全设计:力控传感器实时监测接触力度(超5N即紧急停机) 柔性外壳防撞保护[16] 未来发展方向 - 多模态大模型融合(如Google RT-2)通过海量数据预训练 实现自然语言指令理解与动作执行 显著提升泛化能力[23] - 轻量化硬件创新:仿生肌肉驱动降低能耗 神经形态芯片提升计算效率 预计2028年续航突破6小时且成本降至20万元以下[23] - 虚实协同进化通过数字孪生技术 虚拟训练效率提升10倍以上(如工业机器人先虚拟装配再实际操作)[24] - 推动核心部件国产化替代与供应链优化 解决成本问题[21] 行业应用与定位演进 - 从工具转变为协作伙伴 在医疗、交通、工业制造等领域实现人机协同[22][24] - 需完善技术标准与法规体系 明确人机权责关系(如医疗误操作责任划分)与伦理决策机制(如自动驾驶道德困境)[22]