Workflow
具身智能之心
icon
搜索文档
从长时程推理到精准操纵:LoLA 破解机器人多步任务执行难题
具身智能之心· 2025-12-29 08:04
文章核心观点 - 由中科院、国科大与微软研究院联合团队提出的LoLA框架,通过“长时程潜动作学习”和“多模态编码 - 状态感知融合 - 动作生成”的三层架构,首次实现了长时程语言引导机器人操纵的高效执行,为解决通用机器人在真实场景落地提供了全新解决方案 [1] 现有技术挑战 - 现有视觉-语言-动作模型多聚焦于短时任务,在长时程场景下面临三大核心挑战:时序上下文理解缺失、真实场景状态漂移风险、资源消耗与泛化矛盾 [2][3] - 传统单帧模型忽视历史信息关联,难以追踪多步任务状态,导致动作连贯性不足并易出现重复错误 [4] - 在长时间交互中,微小扰动会逐渐累积,使系统脱离训练分布,引发任务失败 [5][6] - 长时程数据的采集、标注与训练成本呈指数级增长,且模型处理长序列时计算开销巨大,同时难以泛化到不同机器人平台与任务场景 [7][8] LoLA技术架构 - LoLA构建了“多模态编码 - 状态感知融合 - 动作生成”的完整三层技术架构 [9] - **第一层:多模态编码**:采用双分支编码策略,兼顾当前精准感知与历史动态捕捉,以平衡长序列信息保留与计算效率 [11] - **第二层:状态感知潜表征**:该核心融合模块旨在解决视觉-语言表征与机器人物理动作空间的对齐问题 [11] - 当前观测编码:处理多视角图像(主视角、辅助视角、手腕视角),提取高分辨率空间特征,形成当前场景静态快照 [12] - 历史运动编码:采用时空选择性采样策略,将长时程历史帧下采样以降低计算负担,同时保留关键时序信息 [12] - 语言指令融合:将多模态特征与语言指令嵌入拼接,输入预训练视觉-语言模型生成层间键值缓存 [12] - 通过状态transformer并行架构和乘性融合接地机制,构建“具象化锚定”潜空间,实现抽象特征与物理动作空间的精准对齐 [16] - 使用可学习掩码过滤背景干扰,再经潜空间压缩得到紧凑的动作相关表征 [16] - **第三层:动作生成**:基于条件流匹配构建动作专家,将多模态表征转化为平滑连贯的动作序列 [14] - 采用包含28层transformer的解码器架构,以状态感知潜表征输出的键值对为条件,建模动作时序结构 [16] - 通过端到端训练与推理,从纯噪声中逐步解码出精准、连续的多步动作序列 [16] 性能验证 - **仿真基准性能突破**:在SIMPLER和LIBERO两大权威基准测试中显著超越现有先进模型 [15] - 在SIMPLER基准的Google Robot任务中,视觉匹配与变体聚合设置下平均成功率分别达61.5%和54.6% [17] - 在SIMPLER基准的WidowX Robot多步任务中,平均成功率达71.9%,较π₀模型相对提升20.6% [17] - 在LIBERO基准中,覆盖四大任务套件,平均成功率达96.2%,其中长时程任务套件成功率达88.2% [18] - **真实场景跨平台泛化**:在Franka平台设计的28个任务中,单步任务平均成功率46.1% [21] - 在长时程任务中,完成至少两个子任务的成功率最高达33.1%,是π₀模型的2.67倍 [20][21] - **核心组件消融验证**:验证了关键模块的必要性 [23] - 引入多历史帧使平均成功率提升11.4% [24] - 状态感知潜表征模块单独贡献14.5%的性能提升 [24] - 多历史帧与状态感知潜表征联合使用时,模型达到最优性能57.3% [24] 技术贡献与行业影响 - LoLA构建了“高效编码 - 精准接地 - 连贯生成”的技术范式 [25] - 通过时空选择性采样解决长序列处理效率问题,通过状态感知潜表征模块破解模态鸿沟难题 [25] - 其100亿参数规模的模型架构、1100万条真实机器人轨迹的预训练数据以及开源方案,为相关领域提供了统一研究平台 [25] - 该框架推动通用机器人从短时简单任务向长时复杂任务跨越,加速自主机器人在家庭服务、工业生产等真实场景的落地进程 [25] 当前局限与未来方向 - 在复杂扰动场景下的鲁棒性不足,面对突发故障的恢复能力有限 [26] - 端到端长时程任务的绝对成功率仍有提升空间,需进一步降低误差累积 [26] - 未来可探索动态闭环恢复机制与在线自适应调整策略,以增强在真实复杂环境中的容错能力 [26] - 可优化模型轻量化设计,以提升推理速度与部署灵活性 [26]
亚马逊团队15分钟单GPU搞定人形机器人步态训练!Locomotion新方案
具身智能之心· 2025-12-28 18:00
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Younggyo Seo等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在人形机器人控制领域,强化学习(RL)虽已实现从仿真到现实的迁移,但高维动作空间、强域随机化需求导致训练周期冗长,严重制约迭代效率。 亚马逊 FAR 实验室团队提出的快速强化学习方案 ,以优化后的离线 RL 算法(FastSAC、FastTD3)为核心,通过 "算法调优 - 极简奖励设计 - 大规模并行仿真" 的 三位一体技术体系,首次实现单 GPU 15 分钟训练出鲁棒人形机器人 locomotion 政策,同时支持全身运动追踪任务的快速部署,彻底重构了人形机器人 sim-to-real 的迭代范式。 论文题目:Learning Sim-to-Real Humanoid Locomotion in 15 Minutes FastSAC-Humanoid — Project Page:https://youngg ...
为什么π系列对行业产生了这么大的影响?
具身智能之心· 2025-12-28 11:42
π系列VLA模型的技术演进与行业影响 - π系列是视觉语言动作模型领域的里程碑,以持续技术突破引领生成式AI时代的机器人学习范式,重塑行业应用逻辑 [2] - π0于2024年10月发布,首创Flow Matching连续动作轨迹预测,突破传统离散动作精度瓶颈,为精密制造、自动驾驶等场景提供毫米级操作基础 [3] - π0.5于2025年4月发布,通过异构任务协同训练与层次化推理,在陌生环境复杂任务泛化成功率高达94%,利用人类视频训练使数据成本降低90%,大幅提升跨本体适应性并降低机器人规模化部署门槛 [3] - π0.6于2025年11月发布,通过RECAP强化学习赋能零样本泛化与高效微调,在真实世界效率与精度超越人类,实现工业级100%任务完成率与数十分钟快速换型,推动柔性生产落地 [3] - 其模型能力引领通用机器人从实验室走向工业制造、家庭服务等实景应用,成为2025年来业界众多VLA模型的核心参考 [3] - 不少公司基于π系列搭建真机演示,如叠衣服、拆箱子等,或基于此思路改进优化,其新工作发布常引起行业反响 [3] VLA模型学习与应用的实践挑战 - 基于π系列完成数据、模型训练优化、部署一整套任务对初学者非常困难,有用户甚至踩坑半年无法真正入门 [5] - π系列模型存在“不听话”、不好调试、难以达到预期效果的问题,导致用户花费相当多时间在“踩坑”上 [4] - 对于更新快速的技术路线,如何有效学习VLA难倒了相当多同学,许多人即使拥有真机也不知如何使用 [8] 具身智能之心的VLA实战课程解决方案 - 具身智能之心基于SO-100机械臂复现了π0、π0.5、ACT、GR00T等方法,旨在解决用户缺乏真机和项目指导的问题 [7] - 该平台联合业内VLA专家开发了国内首个《面向实战与求职的VLA小班课》,手把手带领学员复现π0系列 [8] - 课程内容全面,涵盖机械臂硬件、数据采集、VLA算法、VLA评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验及具身产业讲解 [13] - 购买课程的学员将获赠一套SO-100机械臂,包含示教臂和执行臂 [17] - 课程讲师为某机器人公司VLA高级研究员,拥有5年以上机器人行业实战经验,聚焦产学研协同落地,并在顶级期刊发表学术论文10余篇 [20] - 课程面向人群广泛,包括正在具身领域求职、需要实战项目的同学,VLA领域入门进阶者,从事具身智能研究的各阶段学生,以及希望从传统领域转行进入具身的从业者等 [25] - 课程要求学员具备一定的Python和PyTorch基础,推理建议使用3060及以上显卡,训练建议使用2张以上3090ti显卡或可自租云服务器资源 [25] - 学员学后有望掌握真机调试与数据采集、各类VLA算法在真机上部署、对VLA模型量化有深入了解,并对具身产业落地有清晰认识,简历上可获得足够多的项目支撑,达到1-2年以上算法工程师经验 [25] - 课程于2025年12月30日正式开课,有效期2年,购买后不支持退款,提供微信VIP群内答疑 [26]
REALM:机器人操作任务的real2sim验证基准
具身智能之心· 2025-12-27 18:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Jai Bardhan等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 核心背景与问题 Vision-Language-Action(VLA)模型让机器人能够理解自然语言指令并执行操纵任务,但泛化能力评估一直是关键挑战——真实世界评估成本高、可重复性差,而 现有仿真基准存在明显缺陷:扰动类型有限、缺乏高保真视觉效果和真实的机器人控制对齐,导致仿真与真实世界性能脱节(即"现实-仿真差距")。 为解决这一问题, 捷克理工大学,阿姆斯特丹大学的研究团队 构建了REALM:一个高保真仿真环境与基准,核心目标是建立仿真与真实世界性能的强相关性,实现 大规模、低成本的VLA模型泛化能力评估。其核心突破在于三点:高保真视觉与控制对齐的仿真环境、覆盖多维度扰动的系统评估方案、经实证验证的真实-仿真 性能关联性。 相关工作与差异化优势 现有机器人操纵泛化基准多依赖仿真,但存在显著局限:GemBench、 ...
我们的25年竟然做了这么多事.....
具身智能之心· 2025-12-27 18:03
26年没几天了,盘了一下25年干的事情。今年扩充了很多B端合作伙伴,C端也慢慢从general的内容逐渐专业 化、精细化。 年初具身行业感觉还在初期阶段,企业端招募的大多还是没有具身经验或者刚毕业的候选人。而现在,越来越多 的人参与到这个行业,相关工作层出不穷。在和一家头部具身公司的招聘负责人聊天的时候,说到"开始能招募1 年左右从业经验的同学了"。 我们各类内容也为具身行业培养近千名从业和研究人员,每每想到这就感觉平台真的挺有价值。 今年1整年,具身智能之心创办了近40个具身群,具身智能之心的付费社区也2000+成员了。如果想看技术路线 的发展、各类圆桌、研报、职位信息,可以多来逛逛。 除此之外,我们也为很多团队(创业的)提供了各类投融资渠道和产业信息。许多以前在校的同学也逐渐成长为 首席科学家、联创~ "挺能整事儿你们",很多朋友这样说~ 临近26,也感谢新老粉丝的支持,我们为大家推出了众多福利优惠。新的一年大家再接再厉。 ❝ ❝ 时间: 12.24号-1.5号 何要课程与社区 1.所有具身课程7.5折优惠 2.知识星球新人加入6折,老学员续费5折 3.高性价比的具身科研机械臂最高减1500 (今年首次) ...
准备开放具身的榜单,模型、本体、数采、开源贡献等多个维度
具身智能之心· 2025-12-27 18:03
近期,许多具身公司和机构陆续联系我们,期望能够出具几份不同维度的榜单。 我们欢迎各家公司积极参与,提供各类参考。更多内容添加峰哥微信oooops-life咨询。 本次榜单将力图客观公正,也欢迎各家机构积极提供素材和数据。 我们将在以下几个维度展开: ✅ 具身基座模型 ✅ 本体销量榜 ✅ 比赛冠军榜 ✅ 开源贡献榜 ✅ 数据采集服务商 ...
近2k star的RLinf又又又上新了!支持真机强化学习,像使用GPU一样使用你的机器人~
具身智能之心· 2025-12-26 11:38
RLinf v0.2 框架发布与核心特色 - 公司正式发布面向真机强化学习路线的RLinf v0.2版本,旨在支持与仿真路线并行的技术探索,解决具身智能领域的数据来源之争[3] - 该框架允许用户将机器人视为与GPU同层级的可配置资源,通过编写YAML配置文件即可完成模型与机器人的映射与数据通信,极大降低了使用成本[3][6] - 框架设计旨在解锁大规模分布式真机强化学习训练范式,这被视为继扩大数据规模和模型规模之后的第三条发展路径:扩大真机规模[5] 系统架构与设计理念 - 提出Macro-to-Micro Flow (M2Flow) 新一代编程范式,将上层工作流与底层计算优化解耦,以兼顾系统灵活性与高效性[7] - 系统设计支持全异构软硬件集群配置,能够灵活适配端云协同场景,例如在NUC上运行控制器、在RTX 4090上进行推理、在A800上进行训练[8][10] - 采用全异步设计,将端侧推理节点与云侧训练节点解耦,通过数据通道进行周期性同步,实现训练与推理并行,以提高训练效率[11][14] 算法支持与数据效率 - 新增支持全异步off-policy强化学习算法,包括SAC、CrossQ和RLPD等,以应对物理世界数据收集效率低的挑战[11] - 该设计特别支持人在环介入的方法,允许在训练过程中融入专家示教或实时标注数据,从而提升数据利用率[11] - 框架同时支持多种仿真器、视觉语言动作模型、自定义策略和强化学习算法,提供了广泛的技术路线兼容性[4] 实验验证与性能表现 - 基于Franka机械臂和常见物品设计了“Charger”和“Peg Insertion”两个快速验证任务进行真机实验[12] - “Charger”任务使用异步SAC算法训练,过程中约有20次人在环鼠标接管;“Peg Insertion”任务使用异步RLPD算法训练,并预先采集了20条人类操作数据[12] - 实验结果显示,两个任务均能在1.5小时内收敛,收敛后“Peg Insertion”任务可连续成功100+次,“Charger”任务可连续成功50+次[15] - 成功验证了位于不同物理空间的两台Franka机械臂同时进行真机强化学习的可行性[16][23] 开发背景与团队生态 - RLinf框架自2025年9月1日发布以来,几乎保持每两周更新一次功能的开发速度,并于2025年12月17日正式发布了面向仿真路线的v0.1版本[1] - 开发团队由清华大学、北京中关村学院、无问芯穹联合北京大学、北京航空航天大学等多单位成员组成,背景涵盖基础设施、算法和机器人领域,形成了新的科研生态[20] - 团队秉持算法与基础设施需协同演进的理念,认为基础设施应支撑算法研发,同时算法应指导基础设施的构造[20]
盘了一下,25年竟然做了这多事.....
具身智能之心· 2025-12-26 11:38
26年没几天了,盘了一下25年干的事情。今年扩充了很多B端合作伙伴,C端也慢慢从general的内容逐渐专业 化、精细化。 年初具身行业感觉还在初期阶段,企业端招募的大多还是没有具身经验或者刚毕业的候选人。而现在,越来越多 的人参与到这个行业,相关工作层出不穷。在和一家头部具身公司的招聘负责人聊天的时候,说到"开始能招募1 年左右从业经验的同学了"。 我们各类内容也为具身行业培养近千名从业和研究人员,每每想到这就感觉平台真的挺有价值。 今年1整年,具身智能之心创办了近40个具身群,具身智能之心的付费社区也2000+成员了。如果想看技术路线 的发展、各类圆桌、研报、职位信息,可以多来逛逛。 除此之外,我们也为很多团队(创业的)提供了各类投融资渠道和产业信息。许多以前在校的同学也逐渐成长为 首席科学家、联创~ "挺能整事儿你们",很多朋友这样说~ 临近26,也感谢新老粉丝的支持,我们为大家推出了众多福利优惠。新的一年大家再接再厉。 ❝ ❝ 何要课程与社区 1.所有具身课程7.5折优惠 2.知识星球新人加入6折,老学员续费5折 3.高性价比的具身科研机械臂最高减1500 (今年首次) 自活动开始日起,具身课程消费满 ...
刷新NAVSIM SOTA,复旦提出端到端自动驾驶新框架
具身智能之心· 2025-12-26 08:55
文章核心观点 - 端到端自动驾驶的范式正从模块化向VLA模型主导的“大一统”转变,但主流自回归生成范式存在局限性,其强制性的“从左到右”时序逻辑与人类“以终为始”的驾驶直觉不符,且基于模仿学习的模型易陷入“平均司机”陷阱 [1] - 复旦大学与引望智能联合提出的WAM-Diff框架,通过引入离散掩码扩散模型、结合稀疏混合专家架构与在线强化学习,构建了一套非自回归的生成式规划系统,有效解决了上述痛点 [2] - WAM-Diff在权威评测基准NAVSIM上取得了最先进的成绩,证明了非自回归生成范式在复杂自动驾驶场景下的巨大潜力,是通往高阶自动驾驶的关键技术探索 [2][25] 技术框架与核心创新 - **生成逻辑重构**:WAM-Diff的核心创新在于重新思考生成逻辑,采用Masked Diffusion作为生成骨干,从全掩码序列出发,利用双向上下文信息并行预测所有Token,实现了全局优化,摆脱了自回归模型单向时序的束缚 [4][5] - **动作表示离散化**:框架引入了混合离散动作分词技术,将连续的2D轨迹坐标量化为高精度离散Token,并与驾驶指令的语义Token置于共享词表中,实现了在统一特征空间内的理解与规划 [5] - **“以终为始”的解码策略**:通过探索因果序、反因果序和随机序三种解码策略,发现反因果序策略表现最佳,即先确定远期驾驶意图再反推近期动作,从模型层面验证了人类驾驶员的直觉思维,并取得了91.0的PDMS最高分 [9][20][21] 模型架构与训练优化 - **稀疏混合专家网络**:通过集成LoRA-MoE架构,模型包含64个轻量级专家,能根据场景动态路由与稀疏激活,在控制计算开销的同时显著提升了模型容量与场景适应性 [12] - **多任务联合训练**:模型通过驾驶VQA等任务进行联合训练,使专家网络不仅掌握驾驶技能,更理解决策背后的因果逻辑,增强了规划的可解释性与泛化能力 [12] - **在线强化学习优化**:引入了分组序列策略优化算法,将优化粒度从单步Token提升至完整轨迹序列,依据安全性、合规性及舒适性等多维指标对整条轨迹评分,引导模型生成更安全、更规范的规划结果 [14] 性能表现与实验结果 - **NAVSIM-v1基准测试**:WAM-Diff取得了91.0的PDMS分数,超越了DiffusionDrive、ReCogDrive以及DriveVLA-W0等主流基线模型 [16][17] - **NAVSIM-v2基准测试**:在引入了更严格指标的v2测试中,模型取得了89.7的EPDMS成绩,相较于DiffusionDrive提升了5.2分,证明了其在平衡安全性、合规性与舒适性方面的稳健性 [18][19] - **消融研究验证**:对解码策略的消融研究证实,反因果序策略取得了最佳的闭环性能,支持了“以终为始”规划直觉的有效性 [20][21] - **定性分析**:可视化结果展示了模型在复杂博弈场景下的稳定性,验证了MoE架构与GSPO在提升长尾场景鲁棒性方面的作用 [22]
全身操控!星尘推出异步快慢的VLA策略,端到端训练+3 倍于同类模型的推理速度
具身智能之心· 2025-12-26 08:55
文章核心观点 - Astribot团队提出的DuoCore-FS框架通过“快慢双路径异步架构”等技术,首次实现了3B参数大模型与30Hz高频全身操控的兼顾,为解决大模型语义推理速度与机器人实时控制需求之间的矛盾提供了新方案 [1] 问题根源:大模型驱动机器人操纵的挑战 - **频率耦合瓶颈**:传统VLA系统将视觉语言模型推理与动作生成绑定在同一频率,大模型(尤其是3B级以上)的低推理速度(通常<15Hz)直接限制了全身操控的响应频率,无法满足多关节动态场景的实时需求 [2][3] - **全身操控表征难题**:全身操纵涉及25+自由度(DoF)的关节协调,高维动作空间导致传统离散token化方案出现组合爆炸,难以实现紧凑统一的动作表征 [4][5] - **异步训练推理错位**:现有异步双系统架构多采用固定频率配比或级联设计,缺乏真正的并行执行机制,且端到端训练缺失导致高层语义推理与底层实时控制难以高效协同 [6][7] 方案设计:DuoCore-FS的三层技术闭环 - **第一层:异步双路径架构**:设计真正并行的快慢双系统,实现语义推理与动作生成的频率解耦 [9] - **慢路径(1-3Hz)**:基于3B参数视觉语言模型(如PaliGemma-3B、Qwen2.5-VL-3B),处理视觉观测、本体感受与自然语言指令,生成高层任务意图指导 [9] - **快路径(25-30Hz)**:采用轻量级扩散策略网络,整合桥接缓冲的最新语义表征与实时感知数据,生成连续、协调的全身动作块,保障实时控制响应 [9] - **核心差异**:实现完全并行异步执行,快路径频率不受慢路径推理速度约束,区别于FiS-VLA的固定频率配比和Hume的级联设计 [9] - **第二层:关键技术组件** [9] - **模态对齐桥接缓冲**:作为快慢系统的交互接口,慢路径以1-3Hz刷新,快路径以25-30Hz读取,既传递高层语义指导,又避免频率耦合,同时防止关键任务信息丢失 [9][10] - **全身动作token化**:针对25DoF全身动作空间,设计几何感知的RVQ-VAE token化方案 [10] - 将29维动作向量拆分为位置增量、姿态增量、夹爪开度三个语义组件 [10] - 通过独立1D卷积编码器处理各组件,再经残差向量量化生成离散token,每个流维护1024规模码本 [10] - 位置与夹爪分支采用L2重建损失,姿态分支采用SO(3)测地线距离损失,确保token化表征的几何一致性 [10] - **跨时标联合训练**:分两阶段实现端到端优化 [10] - 第一阶段独立训练慢路径视觉语言模型,优化语义推理与动作token预测,对齐视觉-语言-动作模态 [10] - 第二阶段引入跨时标采样策略,模拟真实部署中的异步延迟,联合训练快慢路径,采用加权损失强化快路径的精准控制能力 [10] - **第三层:异步推理流水线**:部署阶段采用全异步执行流程优化推理效率 [11] - 慢路径采用Jacobi式并行解码策略加速视觉语言模型推理,降低语义更新延迟 [13] - 快路径通过TensorRT编译BF16精度模型,确保25-30Hz稳定输出 [13] - 缓冲容错机制使快路径优先使用缓冲中最新语义表征,即使慢路径未更新,仍可基于历史有效信息维持稳定控制 [13] 性能验证结果 - **核心性能突破**:在爆米花舀取与饮料柜关门任务中,DuoCore-FS表现远超同类模型 [12] - **速度提升**:推理频率达32.3Hz,是π₀模型(12.5Hz)的2.6倍,满足全身操控实时需求 [15] - **精度保持**:整体成功率90%,超越基线模型,且在细粒度动作中表现稳定 [15] - **泛化能力**:在分布外场景(如杯子置于桌沿等未见过位置)中,整体成功率50%,远超基线模型的10% [15] - **异常鲁棒性**:在杯子倾倒、倒置、被移走等异常场景中,检测与恢复成功率95.8%,略高于基线的91.7% [15] - **关键能力验证** [16] - **语言跟随**:在相同视觉观测下,执行“关门”指令的成功率达42.9%,是基线模型(14.3%)的3倍,证明慢路径语义推理的有效性 [17] - **token化效率**:RVQ-VAE token化方案的平均token长度仅36,远短于FAST token化的81.12,推理频率提升3.4倍,且任务成功率达83.3%(FAST方案为0%) [18] 局限与未来方向 - **慢路径推理加速**:未来可探索一致性解码等技术,进一步降低视觉语言模型推理延迟,提升语义更新频率 [18] - **快路径效率优化**:减少扩散模型的流匹配步骤,探索单步生成方案,突破30Hz频率上限 [18] - **桥接机制升级**:设计更精细的模态交互机制,强化快慢路径的语义对齐,提升复杂任务成功率 [18] - **多模态融合拓展**:融入力触觉、听觉等信号,适配接触密集型任务,进一步提升真实场景鲁棒性 [18] - **任务覆盖扩展**:需在更多动态场景、长时程任务中验证框架的通用性与稳定性 [18] 范式价值与行业影响 - DuoCore-FS的核心贡献在于建立了“异步架构-模态对齐-token化-联合训练”的完整技术链路,通过真正并行的快慢双路径破解频率耦合瓶颈,通过RVQ-VAE token化解决全身操控表征难题,通过跨时标训练消除异步执行的训练推理错位 [17] - 其开源的训练、推理与部署方案已集成于Astribot机器人平台,为机器人学、计算机视觉、自然语言处理等领域提供了统一研究平台,推动大模型驱动的机器人操纵从实验室走向真实场景,加速通用自主机器人的产业化落地 [17]