具身智能之心
搜索文档
一个P7,从自驾到具身的转行建议......
具身智能之心· 2025-09-17 08:02
行业技术发展现状 - 具身智能行业当前处于早期发展阶段,面临数据稀缺、算力不足和设备不成熟等挑战,与早期自动驾驶行业状况相似[1] - 数据采集成本高,行业采用real2sim2real或sim2real方案解决数据短缺问题,并借鉴自动驾驶数据闭环和自动标注技术[2] - 商业化部署优先选择已验证的成熟技术而非最新技术,例如VLA在智驾和机械臂应用较成熟但人形机器人应用难度大[3] - 人形机器人本体稳定性是关键挑战,需要开发类似自动驾驶的兜底方案防止摔倒或损坏[6] - 部署能力已具备轻量化技术,现有算力基本满足需求,预计随技术成熟将进一步提升一代[5] 技术方法论迁移 - 自动驾驶领域的优化方法论可直接迁移至具身智能领域,仅需调整面向对象和因素[1] - 采用机器人自采集数据并通过算法筛选dirty数据的方案,与自动驾驶数据处理流程高度相似[2] - 强化学习方法在具身智能领域仍然有效,应优先采用已验证的技术方案[3] 人才转型路径 - 自动驾驶与大模型背景人才转向具身智能领域难度较低,传统机器人背景人才也存在较多相似点[8] - 缺乏相关基础者需要完整学习体系,建议通过专业社区避免自学踩坑[8] - 行业已建立具身智能之心知识星球社区,汇聚近2000名成员,目标两年内达到近万人规模[10] 行业生态建设 - 社区覆盖产业、学术、求职、问答等多领域闭环,提供实时问题解答和技术分享[10] - 与智元机器人、有鹿机器人、优必选、傅里叶机器人、开普勒机器人等近200家头部企业建立合作[17] - 汇总40+开源项目、60+数据集及主流仿真平台,提供完整技术学习路线[17] - 建立高校与企业人才通道,覆盖斯坦福大学、清华大学、ETH等国内外知名机构[17] 技术研究体系 - 社区系统化梳理30+技术路线,包括数据采集、VLA模型、多传感器融合等13个核心领域[11] - 提供具身感知、强化学习、VLN等18个专项学习路线,加速技术入门与进阶[17] - 汇总国内外高校实验室、公司研报、零部件品牌等产业基础设施信息[19][22][29] - 持续更新开源项目、仿真平台、数据集资源,覆盖从基础研究到工程落地的全链条需求[31][37][39]
宇树开源了UnifoLM-WMA-0: 一个跨实体的世界模型+Action的框架
具身智能之心· 2025-09-16 11:29
核心观点 - 宇树科技推出开源世界模型-行动架构UnifoLM-WMA-0 专为通用机器人学习设计 具备物理交互理解能力 支持仿真引擎和策略增强两大功能 [2] 架构设计 - 架构嵌入世界模型 支持决策模式和模拟模式运行 决策模式预测未来物理交互信息辅助策略生成动作 模拟模式根据机器人动作生成高保真环境反馈 [7] - 基于视频生成模型微调 以图像和文本指令为输入 生成未来交互过程视频 适配机器人操作场景 [11] - 动作可控生成功能通过五个开源数据集训练 可根据当前图像和未来机器人动作实现交互式可控生成 [11] 数据集与模型 - 提供两个模型版本 UnifoLM-WMA-0Ba基于Open-X数据集微调 UnifoLM-WMA-0基于五个宇树机器人开源数据集训练 支持决策和模拟模式 [13] - 数据集覆盖Z1和G1机器人形态 包含双臂堆叠箱体 清理铅笔 包装相机等具体任务场景 [14] - 所有数据集和模型均通过HuggingFace平台开源提供 [13][14] 技术实现 - 训练过程分两阶段 先在Open-X数据集微调视频生成模型 再基于宇树机器人数据集训练动作可控生成能力 [11] - 测试表明模型可作为仿真引擎 实现基于图像和动作指令的交互式可控生成 [11]
那些敢于破风的具身技术一号位们......
具身智能之心· 2025-09-16 08:03
全球具身智能行业核心推动者概览 - 具身智能已成为全球商业化核心方向 国内外团队在硬件 算法及场景应用领域展开激烈竞争 技术架构革新推动研发资源 人才需求及市场竞争格局重塑[2] - 行业领军人物主导技术路线与战略决策 对抢占转型期先机具有决定性作用 涵盖学术研究 产品开发及商业化落地全链条[2] 国内具身智能企业及技术领袖 宇树科技 - 王兴兴主导四足机器人研发 推出Laikago AlienGo A1 Go1 B1等产品及Z1机械臂 拥有机器人相关专利100余项[4] - 开创低成本高性能足式机器人技术先河 2015年独立开发XDog四足机器人 公司获国家高新技术认证及专精特新"小巨人"企业称号[4] 星海图 - 赵行提出全球首个自动驾驶大模型"快-慢双系统"DriveVLM-Dual 应用于理想汽车 该架构成为Figure机器人Helix系统参考框架[6] - 许华哲系统性研究视觉深度强化学习与模仿学习 解决数据效率低和泛化能力弱问题 发表顶级期刊会议论文60余篇[8][9][10] 银河通用 - 王鹤创立具身感知与交互实验室 提出VLA大模型推动具身智能与大模型融合 自研仿真数据合成管线积累亿级真实场景数据及百亿级合成数据[12][13] - 开发轮式双臂通用机器人Galbot 获CVPR2019 Oral论文奖及世界人工智能大会青年优秀论文奖[13] 智元机器人 - 罗剑岚主导开发工业级强化学习系统SERL/HIL 实现机器人真机强化学习任务成功率100% 仅需20分钟学会精密装配[16][18] - 联合斯坦福 谷歌等机构构建全球最大跨场景机器人开源数据集Open X-Embodiment 获MIT TR35创新奖[18] 自变量机器人 - 王昊主导开发端到端具身大模型WALL-A 为2024年全球最大参数规模具身智能通用操作模型 构建统一认知与行动框架[20][21] - 开源具身智能大模型Wall-OSS并公开训练代码 支持开发者自有机器人微调与应用[21] 逐际动力 - 张巍聚焦全尺寸通用人形机器人研发 首款四轮足商用机器人W1已上市 全尺寸人形机器人将于2025年下半年公开销售[24] - 推动具身大模型技术研发及IDS生态平台建设 通过仿真数据和互联网视频数据降低数据成本[24] 星尘智能 - 来杰主导研发第一代AI机器人Astribot S1 采用"绳驱"传动方案 实现AI智能与操作能力深度耦合[26] - 拥有16年机器人研发经验 曾牵头百度小度机器人项目及腾讯轮腿式机器人Ollie开发[26] 云深处 - 朱秋国主持四足机器人"赤兔"和"绝影"研制 公司坚持全栈自研 拥有授权专利100多项[28] - 承担国家重点研发项目及国家自然科学基金10余项 发表学术论文40余篇[28] 千寻智能 - 韩峰涛主导研发国内首款高性能全身力控人形机器人Moz1 全身26自由度 负载自重比达1:1[31] - 公司成立1年4个月累计融资超10亿元 强调大模型与机器人控制深度融合[31] 国际具身智能机构与领军者 Physical Intelligence - Sergey Levine参与创立公司 成立1个月获7000万美元融资 2024年11月完成4亿美元新一轮融资 投后估值24亿美元[36] - 开发代表VLA落地最高水平的模型 强调真实世界数据对机器人基础模型发展的关键作用[36] Figure AI - Brett Adcock开发人形机器人Figure 01和Figure 02 搭载OpenAI大模型后实现搬箱子 煮咖啡等任务[37] - 发布Helix模型实现双机器人共脑合作 利用强化学习实现自然人形行走[37] 斯坦福大学 - 李飞飞发起ImageNet数据集成为AI技术基石 研究涵盖认知启发AI 机器学习及计算机视觉[40][41] - 联合创立非营利组织AI4ALL推动AI教育包容性 在《Nature》《PNAS》等顶级期刊发表论文[41] Skild AI - Deepak Pathak开发机器人"人工好奇心"技术 论文获超4000次引用[44][45] - 构建可扩展机器人基础模型Skild Brain 适应不同硬件平台和环境[45] 技术发展路径与行业趋势 - 技术领袖通过不同路径推进具身智能发展 包括学术算法深耕 产业量产强调 全链路自主研发及大模型与硬件协同[46] - 应用场景覆盖工业精准作业与家庭场景泛化 目标为打造适配本土需求的具身智能系统[46]
机器人入职洗衣房,开始打工挣钱!苹果前AI高管打造
具身智能之心· 2025-09-16 08:03
公司背景 - 公司Weave Robotic由前苹果技术高管Evan Winelan和Kaan Dogrusoz共同创立 两位创始人分别担任CEO和CTO 均毕业于卡内基梅隆大学并有苹果公司任职经历 [17][18][21] - 公司未正式发布产品时已完成三轮融资 团队具备苹果AI项目 Siri更新及Apple Watch iPhone产品研发经验 [5][18][21] 产品技术 - 机器人Isaacs为通用型家用机器人 搭载自主训练的视觉-语言-动作模型 能精准识别衣物类型和折叠边角位置 提供视觉决策支持 [12][20] - 采用高性能网络堆栈 支持人类操作员远程协助处理复杂情况 早期原型实现70%端到端自主折叠率 必要时才启动人工干预 [20] - 配备持续学习数据管道 每次折叠任务数据用于训练新一代模型 提升处理不同材质和款式衣物的效率与精度 [20] 商业应用 - 机器人已在美国付费洗衣房Tumble Laundry正式上岗 负责衣物折叠和收纳环节 为首个实现商业化衣物折叠的通用机器人 [4][5][9] - 折叠标准严格 要求衬衫版型均匀 边角整齐 衣领朝上 堆叠方向统一 并能自动整理操作台保持整洁 [6][7][8] - 未来计划拓展整理杂物 家庭安防等家务能力 设计注重隐私保护 闲置时自动关闭摄像头并降低躯干高度 [12][14][15] 行业定位 - 机器人突破展台表演阶段 率先进入商业场景 解决洗衣房人力密集型折叠环节 体现技术实用化进展 [5][6] - 公司目标为面向家庭场景设计通用机器人 强调快速完成实际工作 而非单一功能设备 [12][24]
具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法
具身智能之心· 2025-09-16 08:03
文章核心观点 - 中国电信人工智能研究院提出名为“对齐-引导-泛化”的跨本体泛化框架,旨在解决视觉-语言-动作模型在后训练阶段面临的跨本体适配挑战 [1][2] - 该框架核心思想是在潜空间中对齐跨本体动作分布,并利用统一潜空间梯度引导VLA策略更新,实现从调架构到调分布的范式转移 [2][14] - ATE框架无需改动现有VLA主干架构,兼容Diffusion和Flow-Matching等主流模型,能极大减少VLA跨本体适配的数据需求 [2][15] VLA模型面临的挑战 - 现有VLA基座模型在进行目标场景应用时,需要采集数十乃至数百小时目标本体数据完成后训练,当目标场景本体和预训练本体存在差异时,预训练和后训练阶段的动作分布出现严重失配 [1] - 决定VLA能否进行跨本体迁移的关键是预训练阶段与后训练阶段的目标本体和任务的动作分布的一致性,当目标本体的机械臂构型、执行器形态、关节自由度与本体物理约束等发生变化时,目标动作分布会偏离预训练阶段学得的分布域 [10] - 单纯通过采集大量真机数据在后训练阶段弥补分布鸿沟,面临迅速递减的边际收益,即单纯数据堆叠难以有效引导策略抵达目标域 [10] ATE框架技术方案 - 框架分为两个阶段:第一阶段构建跨本体的统一动作潜空间,将预训练和适应阶段的动作数据嵌入到同一潜空间中,通过训练变分自编码器并利用反向KL散度约束,将适应动作的潜分布嵌入到预训练潜分布的特定模式中 [14][18] - 第二阶段在统一的潜空间上设计引导函数,利用由此得到的扩散/流匹配VLA模型的分类引导,在后训练阶段显式地将微调过程牵引至期望的目标分布 [14][21] - 引导机制通过能量函数和分类器衡量生成动作与目标动作分布的差异,其梯度被直接加到扩散过程的分数函数或流匹配的速度场更新式中,在每个去噪/流动时间步对生成轨迹的分布施加“拉力” [21][22] ATE框架优势 - 样本效率提升:潜空间对齐将策略搜索范围约束在包含目标分布域的流形上,显著降低了拟合到可行动作分布所需的数据量 [15] - 训练效率提升:分布引导避免模型全参数重训练,能够在既定训练预算内获得更快的有效收敛 [15] - 工程可复用性增强:潜空间引导只作用于动作专家模型后训练,与顶层模型解耦,具备即插即用的特性,可适配目前主流分层VLA [15] 实验验证结果 - 在ManiSkill与RoboTwin 1.0等多任务仿真评测中,相较于直接后训练,ATE算法平均多任务成功率最高提升9.8% [23] - 在真实机器人跨本体现实场景中,ATE带来最高32%的成功率增益,且表现出更稳健的收敛行为与对光照、干扰的鲁棒性 [23] - 在RoboTwin 1.0基准测试的17个任务上,ATE框架对RDT与PI-0模型的平均提升分别约为+9.8与+8.7个百分点,显示出跨任务的一致增益与较好的可迁移性 [24] - 在双臂睿尔曼实验环境的长序双臂协同操作任务中,通过采集少量真机数据进行后训练,ATE算法能够将基座VLA模型快速适配到目标本体上 [26][27]
真的花了好久才汇总的大模型技术路线......
具身智能之心· 2025-09-16 08:03
大模型技术发展趋势 - 大模型已成为推动社会生产的重要工具,广泛应用于日常办公、自动驾驶、具身智能和AIGC生成等领域 [2] - 大模型产业正经历技术普惠化、应用垂直化和生态开源化的深度变革 [2] - RAG和AI Agent技术成为AI从业者核心竞争力,相关岗位需求旺盛且算法岗位年薪领先行业 [2] 技术社区建设 - 创建了集视频、图文、学习路线、问答和求职交流为一体的综合型大模型社区 [2] - 社区已邀请40+来自国内外知名高校和头部企业的专家,包括上交、清华、北大、上海AI实验室、港科大、阿里、美团、深度求索、字节、百度和月之暗面等机构 [4][66] - 社区提供学术进展追踪、工业应用交流、求职对接和行业机会挖掘等服务 [7] RAG技术体系 - 提供完整的RAG学习路线,包括Graph RAG、Knowledge-Oriented RAG、Reasoning RAG等子领域 [4][9] - 汇总了最新综述、开源仓库和BenchMark,涵盖RAG在视觉理解和AIGC中的应用 [11][12][14][16][18][21][23] - 包含个性化RAG工作汇总和专业技术资料,适合从入门到进阶的系统性学习 [4][11] AI Agent技术体系 - 详细解析AI Agent核心技术,包括前沿综述、强化学习、多模态应用和通讯协议 [25][27][29][31][32] - 汇总基座Agent、自进化Agent和Multi-Agent的最新研究成果 [34][36][38] - 提供Agent评测框架和开源工具链,覆盖工业界与学术界需求 [4] 多模态大模型训练 - 涵盖多模态大模型(MLLM)和视觉语言模型(VLM)的训练方法,包括微调、RLHF和MoE技术 [40][44][45][47][49][50] - 汇总开源数据集和提示适配器学习方案,支持3D世界应用开发 [42][51][53] - 持续扩展强化学习与模型优化模块,满足科研和工业落地需求 [40] 模型量化与部署 - 提供大模型量化、推理和部署的完整技术方案 [55][56] - 涵盖参数优化、推理加速和部署实践,助力模型高效落地 [58][60][62] - 扩展社区内容至工程应用领域,满足开发者对模型部署的需求 [56] 社区发展计划 - 计划邀请国内外顶尖学术界和工业界专家进行直播分享,内容可回放 [64] - 持续扩展专家网络,打造大模型前沿技术聚集地 [66] - 提供独家岗位招聘信息,赋能社区成员职业发展 [67]
卷VLA,提供一些参考方向......
具身智能之心· 2025-09-15 18:00
VLA模型技术价值 - VLA模型整合视觉信息、语言指令和行动决策,显著提升机器人对复杂环境的理解和适应能力 [1] - 该范式打破单任务训练局限,推动机器人向通用化、场景泛化方向发展 [1] - 能够实现从视觉输入和语言指令到机器人动作的端到端映射,应用于复杂任务规划和执行 [8] 产业应用与商业化进展 - 广泛应用于制造业、物流和家庭服务等领域,支持机械臂、四足机器人和人形机器人等多种平台 [3] - 国内外具身智能领域处于蓬勃发展阶段,Unitree、智元、星海图、银河通用、逐际动力等团队从实验室走向商业化 [5] - 华为、京东、腾讯等科技巨头与Tesla、Figure AI等国际公司共同推动领域发展 [5] 前沿研究项目 - 推动多个前沿项目发展包括pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA [3] - RT-2、OpenVLA和PI0等模型实现从视觉输入和语言指令到动作的端到端映射 [8] - PaLM-E、RT-X等模型通过多模态预训练和微调策略增强机器人环境适应性和鲁棒性 [9] 技术演进路径 - 技术演进涵盖从早期抓取位姿检测到行为克隆,再到近期Diffusion Policy和多模态基础模型 [8] - 关注多模态感知融合、触觉反馈整合、基于物理的推理以及社会互动能力等前沿发展方向 [9] - 研究如何将大型语言模型推理能力与机器人控制系统结合,实现高级任务描述到低级运动规划的转换 [9] 核心研究挑战 - 面临跨域泛化、长期规划与世界模型构建等核心挑战 [9] - 未解决难点包括长期记忆、VLA+RL原子技能库构建、动作解码问题、多模态思维链等多个前沿方向 [15] - 突破"看得见但摸不着"、"只关注当下不能预测未来"等局限性,向通用机器人智能迈进 [9]
合伙人招募,和具身智能之心一起共建平台和社区吧~
具身智能之心· 2025-09-15 13:00
一起承接B端和C端在具身数据、本体、算法和部署等方面的咨询,助力产业升级转型、促进行业人才发 展。 在企业就职的同学也不用担心啦,我们将充分保护个人隐私。 课程开发 转眼到下半年,总感觉今年的规划完不成了,和年初的预期不太一样,因为真的有太多事情值得去做了。 具身这个领域的爆发有点迅速和集中,很多业务的需求非常大,特别是各类咨询和高校的课程&学科共 建。 一个社区的运营,离不开大家的鼎力支持,具身智能之心期望能够在这波的激流中贡献自己的力量,而不 是仅仅局限于媒体身份。我们致力于成为一个真的能给行业带来价值的平台。 我们真诚邀请那些对具身领域产生影响力的大佬。和我们一起在开源项目复现、咨询服务、课程研发、学 科共建、硬件研发等多个方向展开合作。 合作内容 开源项目 和具身智能之心一起搭建具备全球影响力的开源项目。 咨询服务 待遇说明 我们提供行业有竞争力的报酬(详细内容欢迎私聊),同时您也将拥有我们的行业资源。 联系我们 感兴趣的小伙伴欢迎添加微信oooops-life做进一步咨询。 和我们一起搭建能让更多初学者受益的课程,推动行业向前发展。包括C端、企业培训、高校学科建设。 硬件研发 和我们一起搭建好用、性 ...
具身智能开源周:上海AI实验室加速助力机器人训练及应用
具身智能之心· 2025-09-15 08:04
上海AI实验室具身智能开源进展 - 上海人工智能实验室于7月开源具身全栈引擎Intern-Robotics 推动具身大脑从"碎片化开发"迈向"全栈化量产"时代 相关模型和数据集下载量超14万次[3] - 围绕导航、操作、人形机器人运动大模型及数据集评测等方向推出一系列技术新进展 计划于9月14日起集中开源 助力破解机器人从训练到应用场景落地核心难题[3] - 联合多个行业专业机构于9月17日、19日推出两场专题直播 帮助理解并运用相关技术[4] 导航大模型InternVLA N1 - 端到端双系统导航大模型实现长程空间推理与敏捷执行的有机融合 采用纯合成数据驱动异步架构的两阶段课程训练[6] - 模型在6个主流基准测试中得分达国际领先水平 以60Hz连续推理效率实现跨场景、跨本体零样本泛化[6] - 开源日期为2025年9月15日 相关资源包括模型、数据集及代码库[7][10] 操作大模型体系 - 构建覆盖"思考-行动-自主学习"完整闭环:具身操作"大脑"InternVLA M1负责空间推理与任务规划 "小脑"InternVLA A1负责运动执行 强化学习VLAC通过真实数据优化性能[8] - InternVLA M1采用两阶段训练策略 在SimplerEnv等公开操作基准达国际领先水平 真机场景中指令跟随与泛化能力显著优于GR00t和π0[11] - InternVLA A1基于虚实混合数据集训练 性能优于π0及GR00t n1.5 已适配方舟无限、国地青龙人形机器人等超5款机器人本体[12] - VLAC奖励大模型以InternVL为基座 融合互联网视频与机器人操作数据 为强化学习提供过程奖励和完成情况估计[12] - 操作模型系列开源日期覆盖2025年9月16日至18日 配套数据集与代码库同步开放[11][12] 人形机器人运动大模型InternHumanoid - 专为突破复杂运动控制技术瓶颈研发的全身运动控制工具链 核心特性为跨本体、跨技能[13] - 覆盖百余种运动类型 包括日常基础动作和舞蹈、格斗等复杂动作 实现精准动作追踪[13] - 同步开源的MotionMilions数据集与InternHumanoid Scamo7B模型 提升多模态控制可能性[13] - 开源日期为2025年9月19日 提供数据集与代码链接[14] 数据集与评测体系 - InternScenes数据集包含4万个室内场景和196万个三维物体 数据总量超现有同类开源数据集10倍 覆盖15个场景类别和288个物体类别[15] - 平均每个场景物体数量达41.5个(超同类2倍) 约20%物体可交互 为场景重建与空间智能研究提供数据基础[15] - OmniWorld数据集融合多模态与多任务 包含超61万个视频片段、总帧数超300M、额外模态标注超557M[16] - 基于OmniWorld微调的模型在重建、渲染等任务取得显著性能提升[16] - 高保真场景评测基座提供导航与操作两类评测 导航评测聚焦物理真实环境下的视觉语言导航 操作评测专注于长时序指令遵循任务[17] - 以评测为基础的IROS 2025挑战赛已上线 评测服务长期开放[17] 开源资源平台 - 官方资源平台包括官网、GitHub及Hugging Face 提供模型、数据集与代码访问[9] - 具体项目资源链接覆盖导航模型、操作模型、人形运动模型及数据集 均通过标准化平台发布[10][12][14][15][16]
正式开课!具身大脑和小脑算法与实战教程来啦
具身智能之心· 2025-09-15 08:04
具身智能行业概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦智能体在物理世界中感知环境、理解任务、执行动作并反馈学习的能力[1] - 大脑和小脑构成具身机器人核心模块 大脑负责思考感知(语义理解和任务规划) 小脑负责执行(高精度的运动执行)[1] 产业发展动态 - 近2年具身明星团队陆续创业 成立星海图、银河通用、逐际动力等公司 推动具身本体和大小脑技术进步[3] - 华为2024年底启动"全球具身智能产业创新中心" 与乐聚机器人、大族机器人等合作建设具身智能大脑、小脑关键技术[5] - 京东自2025年5月以来连续投资智元机器人、千寻智能、逐际动力等公司 强化物流科技与家庭服务场景效率[5] - 腾讯、蚂蚁集团、小米等科技巨头通过战略投资与合作加快构建具身智能产业生态[5] - 国外Tesla/Figure AI推进工业与物流机器人应用 美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人[5] - 国内企业以产业链投资与综合平台驱动具身智能落地 国外科技巨头侧重基础模型、模拟环境与类人机器人原型研发[5] 技术演进路径 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态实现静态物体抓取 但缺乏任务上下文和动作序列建模[6] - 第二阶段进入行为克隆阶段 借助专家演示数据学习从感知到控制的端到端映射 具备模仿人类完成复杂任务能力[6] - 第三阶段2023年兴起Diffusion Policy方法 通过扩散模型生成整个动作轨迹 提升策略稳定性与泛化能力[6] - 2024年进入Vision-Language-Action模型阶段 代表工作包括OpenVLA、RT-2、PI0等 融合视觉感知、语言理解与动作生成模块[7] - VLA模型支持零样本或小样本快速泛化 实现从"感知+控制"向"感知+推理+行动"的范式跃迁[7] - 2025年探索VLA模型与强化学习、世界模型、触觉感知等模块融合 弥补"只能理解不能反馈"等局限[9] - VLA+强化学习提升机器人在长时任务中的试错能力与自我改进能力[11] - VLA+世界模型引入环境动态预测 使机器人具备"想象未来"能力 助力高效规划与决策[11] - VLA+触觉信息拓展从"看"到"看+触多模态融合"的感知边界 实现更精细安全的操作[12] 应用与人才发展 - 技术演进推动人形机器人、机械臂、四足机器人等产品落地 服务于工业、家居、餐饮、医疗康复等领域[14] - 相关产品和融资络绎不绝 岗位呈现爆发式增长 导致许多学生转入具身智能领域研究[14] - 产业界重视推动具身智能从"论文"走向"部署" 对工程能力提出更高要求[17] - 需掌握Mujoco/IsaacGym/Pybullet等平台的策略训练与仿真测试能力[17] - 需具备训练部署Diffusion Policy/VLA/力触融合VLA模型的实践能力[17] - 需实现强化学习在VLA后训练上的应用 支持机器人反馈微调[17] - 需掌握从世界建模预测→策略学习→物理执行的一体化具身智能架构[17]