Workflow
世界模型(World Model)
icon
搜索文档
LLM 没意思,小扎决策太拉垮,图灵奖大佬 LeCun 离职做 AMI
AI前线· 2025-11-20 14:30
核心事件 - 图灵奖得主、深度学习三巨头之一的Yann LeCun宣布将于年底从Meta离职并投身创业[2] - 新创业公司将聚焦高级机器智能研究项目,目标是构建能理解物理世界、具备持久记忆、推理并能规划复杂动作序列的系统[2] - Meta将成为其新公司的合作伙伴,LeCun感谢了Meta领导层但未提及亚历山大·王[4] 离职原因与时间线 - 11月11日金融时报首次报道LeCun离职计划,导致Meta市值在美股盘前下跌约1.5%,收盘跌超3%,单日蒸发449.72亿美元(约合人民币3200.25亿元)[11] - 根本原因为Meta内部AI发展路线长期冲突,公司战略重心向生成式人工智能产品化团队倾斜,压缩了LeCun团队进行长期基础研究的空间[11] - 从8月起硅谷内部就流传LeCun对AI战略重大决策不满,其需要向28岁的亚历山大·王汇报,大决定均由后者掌控[12] 技术路线分歧 - LeCun认为大语言模型创新已从科学突破变成"堆算力、堆数据、堆合成样本"的工程活,属于"优化尾声阶段"技术[13] - 他坚持发展基于"世界模型"和自监督学习的下一代AI技术,强调AI需具备理解物理世界、持久记忆、真正推理能力和规划行动四大关键能力[14][16] - Hugging Face联创Delangue支持该观点,认为当前是"LLM泡沫"而非"AI泡沫",行业误判了"大模型+巨量算力"的万能钥匙地位[15][18] 行业影响与趋势 - 行业可能出现高度定制化的"小模型生态",专门解决特定任务而非追求通吃所有场景的巨无霸模型[18] - Delangue预测LLM泡沫可能在明年破碎,但AI真正潜力尚未完全释放[18] - LeCun认为未来十年AI可能达到接近人类智能水平,但前提是行业必须从LLM规模竞赛中走出来[15] LeCun在Meta的贡献 - 2013年受扎克伯格邀请加入Meta,创建FAIR并奠定其AI基础设施格局,FAIR成长为与Google Brain、DeepMind齐名的顶尖研究机构[20] - 最显著的技术贡献为2016年推出PyTorch深度学习框架,彻底改变研究者工作方式并成为最重要框架之一[21] - FAIR为Meta大模型战略提供自监督学习、表征学习和多模态研究等关键技术积累,支撑起全球领先的开源大模型生态[21]
AI创业再添“大宗师”,杨立昆确认离开Meta,新公司专注机器智能研究 | 巴伦精选
钛媒体APP· 2025-11-20 11:20
杨立昆离职Meta与创业计划 - AI领域权威人物杨立昆于年底从Meta离职,计划创办一家专注于先进机器智能研究的初创公司[2] - 新公司目标是构建能理解物理世界、具备持久记忆、推理并能规划复杂动作序列的系统[2] - Meta将成为新创业公司的合作伙伴,双方建立合作关系[2] - 杨立昆的创业项目在官宣前已被多家巨头关注,融资份额竞争激烈[2] 离职背景与Meta内部战略分歧 - 离职根本原因与Meta创始人扎克伯格在AI战略和技术路线上存在根本分歧长达两年[3] - 杨立昆认为大语言模型缺乏物理常识,主张通过“联合嵌入预测架构”构建具备长期记忆和推理能力的系统[3] - 其技术路线与Meta主推的大语言模型形成代际差异[3] - 直接导火索是Meta斥资143亿美元收购Scale AI并组建超级智能实验室,并从Scale AI挖角28岁首席执行官出任首席AI官[3] 对MetaFAIR实验室的影响 - Meta的组织架构调整直接冲击了FAIR实验室的领导地位与生存空间[4] - 在Meta10月启动的千人级裁员中,FAIR实验室成为重灾区,包括强化学习专家田渊栋在内的核心团队遭裁撤[4] - 此轮调整使杨立昆失去对关键项目的控制权,其直属汇报对象变更为新任AI负责人[5] 杨立昆的学术与职业成就 - 杨立昆是卷积神经网络技术的先驱,该技术应用于全球首个自动支票识别系统[5] - 其协助开发的银行支票识别系统读取了20世纪90年代末至21世纪初全美国超过10%的支票[5] - 2013年受扎克伯格邀请组建Meta FAIR实验室,推动PyTorch框架成为全球深度学习标准工具[5] - 2018年与约书亚·本吉奥、杰弗里·辛顿共同获得图灵奖,成为首位获得该奖项的法国人[5] 新创业公司进展与行业影响 - 新公司并非从零开始,其团队提出的PEVA世界模型已实现重大突破,能基于16秒视频连贯预测后续10秒的场景变化[6] - 该成果入选AI顶会NeurIPS 2025,被业内评价为“世界模型领域的里程碑式进展”[6] - 公司初步估值已达10亿美元,目前已与多家全球顶级投资机构展开融资洽谈[6] - 部分FAIR的核心成员计划跟随杨立昆一同创业[6] - 新公司或将延续“开源生态”理念,与Meta当前的闭源战略形成竞争[6] - 宗师级人物纷纷下场加码世界模型赛道,例如李飞飞创立的World Labs已获得2.3亿美元融资[6]
让VLM学会「心中有世界」:VAGEN用多轮RL把视觉智能变成「世界模型」推理机器
机器之心· 2025-10-25 11:20
VAGEN框架核心创新 - 针对VLM智能体在复杂视觉任务中表现鲁莽的问题,提出通过强化学习显式构建内部世界模型[2][3] - 核心思想是奖励结构化思考过程,强制智能体遵循"状态估计(观现状)+转移建模(预后路)"的思考模板[6][7] - 框架将智能体内部信念分为观测、推理、预测三个部分,形成完整思考循环[9][11] 技术实现方案 - 引入世界模型奖励机制,使用LLM-as-a-Judge在每一步思考后即时评估状态描述和预测的准确性[18][24] - 提出双层优势估计方法,先评估整个回合的总体价值,再精细分配至每个词元,解决传统Token-Level GAE的混乱问题[20][22][29] - 针对不同任务性质优化思考表示方法:通用任务适合自然语言,高精度操控任务需要结构化坐标格式[14][23] 性能表现结果 - 使用Qwen2 5-VL-3B基础模型训练的VAGEN-Full在5个多样化任务上综合得分达0 82,显著超越未经训练的同一模型(0 21)[26][27][30] - 在多项任务中超越闭源大型模型,包括GPT-5(0 75)、Gemini 2 5 Pro(0 67)和Claude 4 5(0 62)[28][30] - 训练成功率曲线显示VAGEN-Full在Sokoban、PrimitiveSkill等任务中学习速度更快、稳定性更强[33] 应用场景与意义 - 实验环境涵盖2D网格、3D导航、机械臂操控和SVG重建等多种视觉任务,展示广泛适用性[15] - 该框架证明通过强化世界模型推理可以构建更强大、鲁棒且具泛化能力的VLM智能体[32] - 为解决部分可观测环境下的智能体决策问题提供了新范式,使智能体从被动执行器转变为主动思考者[2][32]
正式开课!具身大脑和小脑算法与实战教程来啦
具身智能之心· 2025-09-15 08:04
具身智能行业概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦智能体在物理世界中感知环境、理解任务、执行动作并反馈学习的能力[1] - 大脑和小脑构成具身机器人核心模块 大脑负责思考感知(语义理解和任务规划) 小脑负责执行(高精度的运动执行)[1] 产业发展动态 - 近2年具身明星团队陆续创业 成立星海图、银河通用、逐际动力等公司 推动具身本体和大小脑技术进步[3] - 华为2024年底启动"全球具身智能产业创新中心" 与乐聚机器人、大族机器人等合作建设具身智能大脑、小脑关键技术[5] - 京东自2025年5月以来连续投资智元机器人、千寻智能、逐际动力等公司 强化物流科技与家庭服务场景效率[5] - 腾讯、蚂蚁集团、小米等科技巨头通过战略投资与合作加快构建具身智能产业生态[5] - 国外Tesla/Figure AI推进工业与物流机器人应用 美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人[5] - 国内企业以产业链投资与综合平台驱动具身智能落地 国外科技巨头侧重基础模型、模拟环境与类人机器人原型研发[5] 技术演进路径 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态实现静态物体抓取 但缺乏任务上下文和动作序列建模[6] - 第二阶段进入行为克隆阶段 借助专家演示数据学习从感知到控制的端到端映射 具备模仿人类完成复杂任务能力[6] - 第三阶段2023年兴起Diffusion Policy方法 通过扩散模型生成整个动作轨迹 提升策略稳定性与泛化能力[6] - 2024年进入Vision-Language-Action模型阶段 代表工作包括OpenVLA、RT-2、PI0等 融合视觉感知、语言理解与动作生成模块[7] - VLA模型支持零样本或小样本快速泛化 实现从"感知+控制"向"感知+推理+行动"的范式跃迁[7] - 2025年探索VLA模型与强化学习、世界模型、触觉感知等模块融合 弥补"只能理解不能反馈"等局限[9] - VLA+强化学习提升机器人在长时任务中的试错能力与自我改进能力[11] - VLA+世界模型引入环境动态预测 使机器人具备"想象未来"能力 助力高效规划与决策[11] - VLA+触觉信息拓展从"看"到"看+触多模态融合"的感知边界 实现更精细安全的操作[12] 应用与人才发展 - 技术演进推动人形机器人、机械臂、四足机器人等产品落地 服务于工业、家居、餐饮、医疗康复等领域[14] - 相关产品和融资络绎不绝 岗位呈现爆发式增长 导致许多学生转入具身智能领域研究[14] - 产业界重视推动具身智能从"论文"走向"部署" 对工程能力提出更高要求[17] - 需掌握Mujoco/IsaacGym/Pybullet等平台的策略训练与仿真测试能力[17] - 需具备训练部署Diffusion Policy/VLA/力触融合VLA模型的实践能力[17] - 需实现强化学习在VLA后训练上的应用 支持机器人反馈微调[17] - 需掌握从世界建模预测→策略学习→物理执行的一体化具身智能架构[17]
3个月!搞透VLA/VLA+触觉/VLA+RL/具身世界模型等方向!
具身智能之心· 2025-08-22 08:04
具身智能技术演进 - 技术发展经历了四个阶段:从抓取位姿检测(单步决策缺乏任务上下文建模)到行为克隆(端到端模仿但泛化能力弱),再到2023年Diffusion Policy(扩散模型生成动作轨迹提升稳定性与泛化能力),最终进入2024年Vision-Language-Action模型阶段(多模态协同支持零样本泛化)[6][7] - 2025年技术探索聚焦VLA模型与强化学习、世界模型、触觉感知的融合,以弥补"只能理解不能反馈""只能关注当下不能看见未来""只能看不能触"的局限[8] - 技术演进路径体现从"低层感知->中层策略->高层理解"的能力补齐,逐步迈向通用任务和开放环境智能体时代[9] 产业生态与竞争格局 - 国内企业如华为2024年底启动"全球具身智能产业创新中心"并与乐聚机器人、大族机器人合作建设大脑与小脑关键技术;京东自2025年5月连续投资智元机器人、千寻智能、逐际动力以强化物流与家庭服务场景能力;腾讯、蚂蚁、小米等通过战略投资加快生态构建[5] - 国外企业如Tesla/Figure AI聚焦工业与物流机器人应用;美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人[5] - 国内以产业链投资与综合平台驱动落地,国外侧重基础模型、模拟环境与类人机器人原型研发,双方进入关键竞赛阶段[5] 应用场景与商业化进展 - 技术发展推动人形机器人、机械臂、四足机器人等产品在工业、家居、餐饮、医疗康复等领域落地,相关产品和融资活动活跃[9] - 岗位需求呈现爆发式增长,吸引大量人员转入具身智能领域研究[9] 技术体系与学习框架 - 具身智能核心模块分为大脑(语义理解与任务规划)和小脑(高精度运动执行),需系统学习灵巧操作、移动操作、仿真框架、Diffusion Policy、VLA及融合技术[1][20] - 主流仿真框架包括Mujoco(生态系统架构与接口)、Isaac Gym(数据采集与可视化)、Pybullet(数据集与接口)[21] - 关键技术方法涵盖Diffusion Policy数学原理与3D点云融合、VLA模型(OpenVLA/PI0/SmolVLA架构与性能对比)、VLA+强化学习/触觉/世界模型的融合方案[21]
从“内部世界”到虚拟造物:世界模型的前世今生
经济观察报· 2025-08-21 20:29
核心观点 - Genie 3模型通过实时生成可交互的3D虚拟环境 展现了世界模型在实现通用人工智能路径上的潜力 其核心能力包括动态响应指令 保持记忆连贯性以及模拟物理规律 [4][5] - 世界模型模仿人脑构建内部世界的机制 通过表征学习 动态建模 控制规划及结果输出等环节 使AI具备预测和模拟未来场景的能力 从而在多个领域产生变革性应用 [8][9][15][16][17][18] - 尽管世界模型被视为通向AGI的可能路径 但学术界对其必要性存在分歧 主要围绕显式建模与隐式建模的效能对比 以及AGI定义差异展开争论 [28][29][30][31] 世界模型简史 - 世界模型的灵感源于对人脑内部世界构建机制的模仿 早期理论可追溯至18世纪康德的先验框架理论和20世纪皮亚杰的心理模型理论 [8][9] - 人工智能领域自创立初期便开始探索环境内部表示 20世纪80年代统计学习方法引入概率模型 但受限于高维数据计算瓶颈 1989年Dyna架构首次结合强化学习与内部世界模拟 [10][11] - 世界模型概念由施密德胡伯于1990年正式提出 但受限于当时技术条件未受关注 直至2018年其论文因深度学习革命和性能提升引发广泛关注 [11][12] - 谷歌DeepMind自2019年起持续推动世界模型发展 PlaNet模型仅用5帧预测50步后续发展 Dreamer模型引入RSSM技术提升预测性能 Genie系列在此基础上专注于交互式视频生成 [13] 世界模型的技术实现 - 表征学习环节通过VAE或自监督视觉模型将多模态输入数据压缩为机器可处理的内部语言 为模拟提供基础 [15] - 动态建模环节需准确刻画物理规律 通过嵌入物理约束或多样化数据训练避免错误关联 例如抛掷物体需涵盖羽毛与铅球不同场景 [16] - 控制与规划环节基于模型强化学习在潜变量空间进行多步规划 早期使用蒙特卡洛树搜索 PlaNet等模型实现策略与内部世界双向优化 [17] - 结果输出环节通过潜在空间渲染技术将内部表征解码为像素 效率远高于直接像素生成 支持多模态输出如音频与触觉 [18] 世界模型的应用领域 - 为具身智能提供安全训练场 AI可通过虚拟试错积累经验 显著降低现实操作成本与风险 例如机器人避障训练 [20][21] - 提升数字孪生应用效能 从被动模型升级为主动预测系统 可预警设备故障 优化流程并实现感知预测决策一体化 [21] - 推动教育与科研变革 虚拟实验室支持精确预测物理化学反应 交互式课堂增强学生探索体验 优化知识产业链 [22] - 重塑游戏娱乐行业 实时生成可玩世界与高智能NPC 提升沉浸感 未来或成为虚拟社会的基础设施 [22] 世界模型的争议与挑战 - 技术路径分歧:杨立坤等学者认为世界模型是AGI必经之路 因大语言模型缺乏物理一致性推理能力 而哈萨比斯等指出无模型方法如AlphaGo已在复杂任务中超越人类 [28][29] - 隐式建模可能性:部分学者主张通过海量数据训练隐含世界知识 例如GPT模型可推演事件逻辑 显式物理建模非唯一途径 [30] - AGI定义差异:若目标为机器模拟人类思维则需世界模型 若仅追求任务表现则可不依赖 需根据任务性质选择技术路径 [31] 伦理与社会风险 - 可能模糊真实与虚拟边界 生成内容交互性强于当前AI 易被用于诈骗或政治操纵 颠覆有图有真相时代 [24] - 成为行为操控工具 通过环境设计潜移默化影响用户选择 挑战商业诱导与意识形态渗透的防御机制 [24] - 加剧虚拟沉迷与现实疏离 智能乌托邦提供完美体验 可能削弱现实生存技能 [25] - 复制并放大现实偏见 训练数据中的歧视性内容被强化并通过互动传播 [25] - 责任归属不明确 虚拟伤害或不良策略重现时 开发者 平台与用户责任划分存治理缺口 [26]
深度解析谷歌Genie 3:“一句话,创造一个世界”
虎嗅· 2025-08-18 16:55
核心观点 - Genie 3是谷歌DeepMind发布的生成式交互环境模型 实现从被动观看内容到主动参与世界的范式转移 其核心使命是作为训练AI智能体的虚拟环境 推动通用人工智能发展 [1][2][15] 技术突破 - 实时交互性: 以720p分辨率和24 FPS速率实时生成并渲染整个世界 支持即时反馈和因果关系学习 [5] - 交互视界延长: 维持长达数分钟连贯可交互会话 支持复杂多步骤任务模拟和长远规划 [6][7] - 涌现视觉记忆: 物体和环境变化具有一致性 即使视线离开后变化依然存在 体现物体恒存性规则 [8][9][10] - 可提示世界事件: 通过文本提示实时动态改变环境 注入新元素或事件 支持反事实测试 [11] 模型能力演进 - Genie 1: 核心能力为从视频中学习生成可玩2D平台游戏 分辨率160x90 帧率10 FPS 交互视界约16秒 [14] - Genie 2: 核心能力为生成非实时3D环境 分辨率360p 交互视界约10-60秒(实践中更短) [14] - Genie 3: 核心能力为生成实时交互环境 分辨率720p 帧率24 FPS 交互视界数分钟 [14] 战略定位与行业对比 - 谷歌DeepMind战略路径: 将AI构建为训练其他AI的虚拟子宫 旨在创造自主学习和行动的机器智能 [2] - 与Sora/Runway差异: Genie 3是世界模型 用于模拟交互过程 Sora/Runway是视频模型 用于生成最终结果 [22][23] - 性能对比: Sora生成视频达1080p/20秒 视觉保真度高 Genie 3输出720p/数分钟 侧重物理一致性和逻辑连续性 [25][26][30] 核心应用场景 - AGI智能体训练: 解决机器人学和AGI研究中对海量多样化安全低成本训练数据的渴求 支持具身智能体如机器人和自动驾驶汽车模拟数百万种情景 [15][16] - 游戏产业: 理论上将游戏场景创建时间从数月缩短到几分钟 降低开发成本 但目前存在游戏手感不佳 图形错误和控制不精确等短板 [17][18] - 教育模拟: 创造高度互动沉浸式学习环境 如历史系学生走进AI生成的古罗马城邦 医学院学生练习急诊室突发状况 [19] 当前局限与发展方向 - 交互时长与稳定性: 数分钟交互视界不足 需稳定运行数小时才实用 长时间运行仍会退相干 [31] - 保真度与控制性: 存在图形伪影或扭曲 自然语言提示控制方式粗糙缺乏精确性 [31] - 技术挑战: 需解决实时生成立体图像 支持六自由度姿态追踪 保证低延迟和高刷新率以实现VR/AR结合 [32] 长期意义 - 对元宇宙: 预示动态无限广阔虚拟世界可由世界模型从无到有生成 而非手动搭建 [35] - 对AGI: 代表关键基础设施启动 类似航空时代初期的风洞 用于测试迭代和孕育未来人工智能 [35]
VLA/VLA+触觉/VLA+RL/具身世界模型等方向教程来啦!
具身智能之心· 2025-08-18 08:07
具身智能概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦于感知环境 理解任务 执行动作并反馈学习的能力 [1] - 具身智能的核心模块分为大脑(语义理解与任务规划)和小脑(高精度运动执行) 类比人类神经系统结构 [1] 产业动态 - 近2年星海图 银河通用 逐际动力等明星团队从实验室走向商业化 推动本体与大小脑技术进步 [3] - 国内华为2024年启动"全球具身智能产业创新中心" 联合乐聚机器人 大族机器人攻关关键技术 [5] - 京东2025年起连续投资智元机器人 千寻智能 逐际动力 强化物流与家庭服务场景能力 [5] - 国际方面Tesla/Figure AI聚焦工业物流机器人 Wayve/Apptronik获资本支持发展自动驾驶与仓储机器人 [5] 技术演进路径 - **第一阶段**:抓取位姿检测(Grasp Pose Detection) 通过点云/图像预测末端执行器姿态 但缺乏任务上下文建模 [6] - **第二阶段**:行为克隆(Behavior Cloning) 通过专家数据学习端到端映射 存在泛化能力弱 误差累积问题 [6] - **第三阶段**:2023年Diffusion Policy引入序列建模 2024年VLA模型实现多模态协同 支持零样本泛化 [7] - **第四阶段**:2025年探索VLA与强化学习 世界模型 触觉感知融合 解决反馈 预测与触觉局限 [8] 应用与产品 - 技术演进推动人形机器人 机械臂 四足机器人在工业 家居 餐饮 医疗等场景落地 [9] - 行业岗位呈现爆发式增长 吸引大量从业者转入具身智能领域 [9] 技术体系与课程 - 课程系统梳理大脑+小脑技术路线 涵盖灵巧手 移动操作 人形机器人方法 [15] - 包含主流仿真框架配置 DP/VLA/VLA+RL/VLA+触觉等方法详解 以及世界模型下一代范式 [15] - 实践环节覆盖Sim2Real演进 IsaacGym/Mujoco仿真环境 Diffusion Policy代码实战 VLA模型训练等 [21] - 目标群体包括具身算法从业人员 研究方向学生 以及传统CV/自动驾驶转行者 [24][29]
VLA/VLA+触觉/VLA+RL/具身世界模型等!国内首个具身大脑+小脑算法实战教程
具身智能之心· 2025-08-14 14:00
具身智能技术发展 - 具身智能强调智能体与物理环境的交互与适应,聚焦感知、理解、执行和反馈学习能力,其核心模块为大脑(语义理解与任务规划)和小脑(高精度运动执行)[1] - 技术演进分为四个阶段:从抓取位姿检测(静态物体单步决策)→行为克隆(端到端模仿但泛化弱)→Diffusion Policy(扩散模型提升时序稳定性)→VLA模型(多模态协同实现零样本泛化)[6][7] - 2025年技术前沿探索VLA与强化学习、世界模型、触觉感知的融合,以解决"理解不反馈"、"关注当下不预测未来"等局限[8] 产业竞争格局 - 国内企业以产业链投资驱动:华为2024年建"全球具身智能产业创新中心"联合乐聚机器人等;京东2025年连续投资智元机器人等强化物流与家庭服务场景;腾讯/蚂蚁/小米通过战略合作布局生态[5] - 海外企业侧重基础研发:Tesla/Figure AI推进工业物流机器人;Wayve/Apptronik获资本支持发展自动驾驶与仓储机器人;中美进入关键技术竞赛阶段[5] - 明星创业团队涌现:星海图、银河通用、逐际动力等从实验室走向商业化,推动本体与大小脑技术进步[3] 应用与商业化进展 - 技术落地产品涵盖人形机器人、机械臂、四足机器人,应用于工业、家居、餐饮、医疗康复等领域,融资与岗位呈爆发式增长[9] - 工程化需求激增:产业界要求从论文转向部署,需掌握Mujoco/IsaacGym等仿真平台训练、Diffusion Policy/VLA模型部署、强化学习微调等能力[24] 技术培训市场动态 - 课程体系覆盖全技术栈:包括具身仿真框架配置、Diffusion Policy/VLA/VLA+RL算法详解、触觉融合与世界模型等前沿内容[15][20] - 实践导向设计:每个模块配备实战代码(如DP3、SmolVLA)、大作业监督,目标使学员达到1-2年从业经验水平[20][30] - 受众定位明确:面向算法从业人员、转行者及在校生,要求具备Python/Pytorch基础及3090ti以上算力[13][30]
国内首个具身大脑+小脑算法实战全栈教程
具身智能之心· 2025-08-07 10:38
具身智能概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦于感知环境 理解任务 执行动作并反馈学习的能力 [1] - 大脑模块负责语义理解和任务规划 小脑模块负责高精度运动执行 构成具身机器人核心架构 [1] 产业动态 - 2024年华为启动"全球具身智能产业创新中心" 联合乐聚机器人 大族机器人等企业共建大脑 小脑关键技术 [5] - 京东2025年起连续投资智元机器人 千寻智能 逐际动力等公司 强化物流科技与家庭服务场景能力 [5] - 腾讯 蚂蚁集团 小米通过战略投资加速构建具身智能产业生态 [5] - 国外Tesla/Figure AI聚焦工业与物流机器人 Wayve Apptronik获资本支持推进自动驾驶与仓储机器人应用 [5] 技术演进路径 - **第一阶段**:抓取位姿检测技术依赖单步决策 缺乏任务上下文建模能力 [6] - **第二阶段**:行为克隆技术通过专家数据实现端到端映射 但存在泛化能力弱 误差累积缺陷 [6] - **第三阶段**:2023年Diffusion Policy采用扩散模型生成动作轨迹 提升策略稳定性与泛化能力 [6] - **第四阶段**:2024年VLA模型融合视觉 语言与动作模块 支持零样本快速泛化 实现"感知+推理+行动"范式跃迁 [7] - 2025年技术探索聚焦VLA与强化学习 世界模型 触觉感知的融合 突破环境预测与多模态感知边界 [8] 商业化应用 - 技术演进推动人形机器人 机械臂 四足机器人在工业 家居 餐饮 医疗康复领域落地 [9] - 行业岗位呈现爆发式增长 吸引大量跨领域人才转入具身智能研究 [9] 工程化挑战 - 产业界需求推动从论文向部署转型 对Mujoco IsaacGym Pybullet等仿真平台训练能力要求提升 [13] - 需解决Diffusion Policy/VLA模型训练部署 强化学习反馈微调 世界建模一体化架构等工程难题 [13] 人才能力需求 - 从业者需掌握Python/Pytorch基础 具备3090ti及以上算力设备 [17] - 核心技能覆盖仿真环境搭建 模型训练优化 触觉信息融合 世界模型应用等全栈能力 [17]