Workflow
视觉 - 语言 - 动作(VLA)模型
icon
搜索文档
真机RL!最强VLA模型π*0.6来了,机器人在办公室开起咖啡厅
机器之心· 2025-11-18 11:30
公司及产品发布 - 美国具身智能创业公司Physical Intelligence发布最新机器人基础模型π*0.6 [2] - 公司2024年获得超过4亿美元融资,估值突破20亿美元,成为具身智能赛道最受瞩目的玩家之一 [3] - 公司技术路线强调“视觉-语言-动作”模型,通过大规模数据训练使机器人能在未知环境中灵活执行任务 [3] 模型性能与能力 - 通过对π*0.6模型进行微调,可在除处理衣物外的多种任务上达到90%成功率 [6] - 模型能够连续运行一整天制作意式浓缩咖啡,或连续数小时不间断地折叠衣物 [9] - 利用Recap方法训练π*0.6可将最困难任务的吞吐量提高一倍以上,并将失败率降低2倍或更多 [9] - 对于制作意式咖啡等最困难任务,加入机器人真实执行经验后,吞吐量和成功率都提升了超过两倍 [27] 核心技术方法:Recap - Recap方法实现了演示训练、纠错指导和从自主经验中改进三个步骤 [9] - 该方法通过训练价值函数解决强化学习中的信用分配关键挑战 [15][20] - 在训练中保留全部数据并将价值变化注释作为输入,使模型选择高优势的动作 [20] - 训练过程包括离线强化学习预训练、任务级微调,并结合专家纠正和自主经验反馈 [25] 具体应用场景挑战 - 纸箱组装任务需执行复杂物理操作并处理如一次抓起多个箱子等边缘情况 [33] - 衣物折叠任务需处理不同衣物种类和材质的多样性,实现泛化 [33] - 意式咖啡制作任务涉及长操作序列,需判断设备状态及完成清洁工作 [33] - π*0.6能够以超过90%的成功率完成这些极具挑战性的步骤 [34] 行业发展趋势 - 从经验中学习可能成为实现高性能机器人模型不可或缺的组成部分 [37] - 未来机器人学习将结合专家示范定义新行为、纠正式指导改进策略、自主经验打磨行为 [37]
Dexmal原力灵机发布实时VLA模型!消费级显卡上完成pi0模型30Hz以上推理
具身智能之心· 2025-11-04 08:05
核心观点 - 研究团队提出并验证了一套针对十亿参数级别视觉-语言-动作模型的实时推理优化方案,在单块消费级RTX 4090 GPU上实现了30Hz图像处理与最高480Hz动作生成的性能,突破了传统VLA模型因高延迟而无法应用于动态任务的瓶颈 [3][23][37] 核心优化策略 - 通过四步优化流程将2视图模型的推理时间从初始的106.5毫秒降低至27.3毫秒,满足了实时推理所需的33毫秒阈值 [7][10][22] - 第一步消除基础开销:使用CUDA Graph技术将内核启动开销减半,使推理时间从106.5毫秒降至约53.9毫秒;通过简化计算图进一步降至约45.8毫秒 [9][10][12][14] - 第二步内核深度优化:针对GEMM操作进行底层优化,包括RMS归一化权重折叠、动作-时间嵌入层折叠、QKV投影融合等,并利用Triton框架手动调整tile参数,累计减少约1.5毫秒推理时间 [16][18] - 第三步性能下界验证:通过Roofline模型计算得出理论最低时间为19.7毫秒,叠加同步开销后理论下界为20.6毫秒,实际实现27.3毫秒的差距仅30%,表明优化已接近硬件理论极限 [20][21][22] 全流推理框架 - 提出全流推理框架,通过VLM与动作专家的并发执行,在1秒内可并行运行30个VLM与480个动作专家,实现480Hz的轨迹生成频率 [23][27][30] - 重构动作专家角色,将其从“批量输出”改为“逐步生成”模式,并结合高频传感器数据实时调整动作,确保低延迟响应 [28][30] - 设计三层反馈环:480Hz力环用于紧急停止等快速反应,30Hz视觉环实现图像驱动的动作调整,<1Hz文本环用于任务规划等低速智能场景 [29][30] 真实世界验证 - 通过抓取下落钢笔的实验验证实时VLA的有效性,在200毫秒的时间约束下,10次连续实验成功率达到100%,与人类反应速度相当 [29][32][36] - 实验证明大参数VLA模型在完成此类动态任务时具备泛化优势,可直接迁移至更复杂的动态任务而无需重新设计模型结构 [36]
智源研究院开源单图高精度6D位姿估计方法
北京商报· 2025-10-27 21:04
技术突破 - 智源研究院宣布单图高精度6D位姿估计方法OnePoseViaGen开源[1] - 该方法无需预设3D模型 仅依赖单张RGBD参考图像即可在未知物体上实现高精度6D位姿估计[1] - 相关论文入选CoRL 2025 Oral[1] 行业痛点 - 传统6D位姿估计方法依赖高质量CAD模型或多视角重建 难以满足动态、实时需求[1] - 现有单张图像推理方法受限于尺度、外观和姿态的模糊性[1] - 视觉-语言-动作模型在毫米级精度操作场景中感知-控制链条难以闭合[1]
港科大最新!超越人类示范:基于扩散的强化学习为VLA训练生成 “高质量、低方差“ 数据
具身智能之心· 2025-10-23 12:00
文章核心观点 - 提出一种改进的扩散策略优化算法,用于为视觉-语言-动作模型生成高质量、低方差的训练轨迹数据,以替代对大规模人类示范数据的依赖 [2] - 该方法在包含130项长时程操作任务的基准测试上,仅使用扩散强化学习生成的数据训练VLA模型,平均成功率可达81.9%,相比基于人类数据训练的模型提升5.3个百分点 [2] - 该扩散强化学习方法被证实可作为一种高效替代方案,为VLA模型生成数量充足、质量优异且方差较低的演示数据 [2] 技术方法与优势 - 该方法构建了一套以扩散强化学习为核心的VLA训练流程,其优势在于借助扩散模型的高表达能力探索复杂行为,并依托迭代去噪过程的隐式正则化生成平滑一致的演示数据 [2] - 所生成轨迹不仅比人类演示数据更平滑、一致性更强,也优于标准高斯强化学习策略生成的轨迹 [2] - 该方法是一个通用强化学习框架,可适配任意VLA架构 [6] 性能成果 - 在LIBERO基准测试集上评估,基于扩散强化学习生成数据训练的VLA模型平均成功率为81.9% [2] - 该成绩相比基于人类数据训练的模型提升5.3个百分点,相比基于高斯强化学习生成数据训练的模型提升12.6个百分点 [2] - 该方法实现了超越人类示范的性能突破 [6]
RLINF-VLA:一种用于 VLA+RL 训练的统一高效框架
具身智能之心· 2025-10-22 14:02
文章核心观点 - 研究团队提出了一个名为RLinf-VLA的统一高效框架,旨在解决视觉-语言-动作模型在强化学习训练中存在的框架零散、效率低下和缺乏统一比较平台的问题 [2] - 该框架通过高度灵活的资源分配设计和统一接口,可无缝支持多种VLA架构、RL算法与模拟器,显著提升了训练效率 [2] - 在仿真实验中,单一统一模型在130个LIBERO任务和25个ManiSkill任务上取得了极高的成功率,分别达到98.11%和97.66% [2][5] - 真实世界部署初步验证表明,经过RL训练的策略比监督微调策略展现出更强的泛化能力 [2][5] 框架设计 GPU分配策略 - 框架针对CPU并行与GPU并行模拟器资源利用模式的差异,支持三种GPU分配模式:共置模式、分离模式和混合模式,用户可通过配置文件轻松切换 [6][8] - 针对GPU并行模拟器,特别提出了“混合分配 + 细粒度流水线”策略,通过将单个GPU上的模拟器拆分为多个子模拟器来减少闲置时间 [8][10] - 混合细粒度流水线分配模式结合了共置和分离模式的优势,训练速度相比基准分离模式提升1.61至1.88倍 [2][35] 模型兼容性 - 框架支持LoRA这一参数高效微调方法,启用后可减少可训练参数、降低内存消耗并加速训练 [12] - 在模型类型上,目前支持OpenVLA(约70亿参数)和其扩展OpenVLA-OFT,后者优化了微调效率、推理速度与部署能力 [12] 多模拟器支持 - 框架选择ManiSkill(擅长基于物理的操作任务)与LIBERO(侧重指令驱动任务)作为主要模拟器,二者功能互补 [13] - 通过统一接口支持不同模拟器的向量化环境,并支持PPO和GRPO等多种强化学习算法 [13] 算法设计 优势函数与对数概率 - 框架支持“动作块”概念,即策略在每个时间步预测一段短期未来动作序列,并为此定义了块级和动作级两种优势函数计算方式 [14] - 支持动作级、块级与令牌级三种对数概率计算粒度,不同选项会带来不同的优化动态 [15] - 优势函数类型兼容所有粒度不细于其自身的对数概率类型,并通过广播机制处理优势值 [17] PPO设计选择 - 在评价网络设计上,为避免增加计算开销,框架让动作网络与评价网络共享大部分参数,仅在VLA模型上附加轻量级价值头 [19] - 实验表明,OpenVLA-OFT模型使用动作级价值估计通常性能更优 [19] - 部分重置模式在“一次成功”优化目标下能提升样本效率,成功率始终高于固定episode长度模式 [19][41] GRPO设计选择 - 框架为GRPO实现了轨迹长度归一化损失,以均衡成功与失败轨迹在优化中的贡献,实验显示该设置能显著提升性能 [20][43] - 成功率过滤机制会丢弃所有轨迹回报相同的组,可提升GRPO训练稳定性,但其有效性具有任务依赖性 [20][46] 实验结果 高性能表现 - 在ManiSkill的25个任务上,无论是OpenVLA还是OpenVLA-OFT模型,强化学习均带来显著性能提升,成功率相比基准提升45%至70% [21][22] - PPO算法在ManiSkill任务中始终优于GRPO,且训练稳定性更高 [22] - 在LIBERO的130个任务上训练单一模型,整体平均成功率从约65.43%提升至98.11%,性能提升约32.68个百分点 [26][28] 高效率表现 - 在GPU并行模拟器评估中,RLinf-VLA的混合模式(pipe=2)在8 GPU配置下吞吐量比基准分离模式提升1.88倍 [35] - 扩展到16与32 GPU时,混合模式通过流水线重叠计算与通信,仍比分离模式提升1.61至1.69倍 [35] - 对于CPU并行模拟器,RLinf-VLA的共置模式相比基准框架SimpleVLA-RL实现1.34至2.27倍的吞吐量提升 [35][37] 消融实验与超参数 - 动作级价值估计相比块级估计能实现更高的成功率与更低的价值损失,学习过程更有效 [39] - 有效动作掩码与轨迹长度归一化结合可带来性能提升,但其效果具有任务依赖性 [44] - 更大的轨迹批次大小有利于性能提升,且不同LoRA配置可能需要单独进行超参数调优 [48][50] 真实世界部署 - 在真实世界Franka机械臂上的部署实验对比了RL训练模型与SFT模型,任务涉及6个未见过物体的拾取放置 [51] - RL训练模型在30次尝试中成功8次,而SFT策略全部失败,显示出RL训练策略更强的零样本泛化能力 [5][51] - 除基础校准外未采用额外仿真-真实迁移技术,初步验证了基于仿真的强化学习在泛化能力上的优势 [51]
会自检的VLA!ReflectDrive:更安全更高效scaling的端到端框架(理想&清华)
自动驾驶之心· 2025-09-28 07:33
文章核心观点 - 提出ReflectDrive新型学习框架,通过离散扩散的反思机制实现安全轨迹生成,解决端到端自动驾驶在安全性和多模态性能方面的核心挑战 [2][3] - 该方法首次将离散扩散应用于端到端自动驾驶轨迹生成,集成反思机制实现无梯度安全引导再生,在NAVSIM基准测试中展现出接近人类水平的安全关键轨迹生成能力 [7][13][35] - 框架核心是将二维驾驶空间离散化构建动作代码本,通过微调预训练扩散语言模型用于规划任务,结合目标条件生成和安全引导再生两阶段优化 [6][14][20] 技术方案创新点 - **离散化表示**:对二维驾驶空间进行离散化处理,将连续路径点映射为离散令牌对,实现鸟瞰图空间中高效搜索可行解 [15] - **反思推理机制**:包含目标条件轨迹生成与安全引导再生两个阶段,通过评分函数引导实现迭代自校正,无需梯度计算 [20][22][25] - **安全锚点搜索**:对于不安全路径点,在曼哈顿邻域内进行局部搜索确定更优令牌对,作为轨迹修复的安全锚点 [26][27] 性能评估结果 - **基准测试表现**:在NAVSIM基准测试中,ReflectDrive的PDMS综合评分达91.1,使用真值智能体信息时提升至94.7,接近人类水平的94.8 [35][38] - **安全指标提升**:与无反思推理版本相比,DAC提升3.9个百分点至99.3,TTC提升1.3个百分点至93.5,NC提升0.8个百分点至97.7 [37] - **进度优化效果**:EP指标提升7.9个百分点至86.9,使用真值智能体时进一步提升至88.9,超过人类水平的87.5 [37][38] 技术优势特点 - **多模态行为建模**:通过目标条件生成捕捉多样驾驶行为,支持在交叉口选择不同转向方向等大规模调整 [23][24] - **实时性能优化**:局部搜索在小型离散邻域进行,大多数安全违规可在1-3次反思迭代内解决,推理开销可控 [31] - **修复能力强化**:利用离散扩散模型的修复能力,以安全锚点为条件对轨迹片段再生,保持全局连贯性 [11][26] 应用前景展望 - **可扩展架构**:离散令牌结构支持并行解码和双向特征融合,实现可扩展训练,为自动驾驶系统提供可靠解决方案 [3][19] - **实际部署潜力**:实验表明通过更准确的检测与预测结果,系统性能可进一步提升,有望全面超越人类驾驶性能 [38][44]
当机器人学会 “模仿” 人类:RynnVLA-001 如何突破操作数据稀缺困境?
具身智能之心· 2025-09-22 08:03
文章核心观点 - 阿里巴巴达摩院团队提出新型视觉-语言-动作模型RynnVLA-001,旨在解决机器人操作领域大规模高质量数据稀缺的核心难题 [1] - 该模型创新性地利用1200万条以自我为中心的人类操作视频进行两阶段预训练,成功将人类演示技能迁移至机器人操作任务 [1] - 在LeRobot SO100机械臂的实验中,模型在多项操作任务中平均成功率高达90.6%,在含干扰物的复杂场景中仍保持91.7%的高成功率,性能显著超越GR00T N1.5和Pi0等主流基线模型 [2][15][18] 研究背景与问题 - 视觉-语言-动作模型的发展受限于机器人操作数据的稀缺,传统数据采集方法依赖人类远程操控实体设备,成本高昂且效率低下 [5] - 现有解决方案,如构建大规模机器人数据集或利用预训练生成模型,均未能有效弥合视觉预测与机器人动作控制之间的差距 [5] 模型创新与方法论 - 提出两阶段预训练框架:第一阶段进行以自我为中心的视频生成预训练,学习人类操作的视觉动态;第二阶段进行以人类为中心的轨迹感知建模,关联视觉预测与动作生成 [6][9][10] - 引入ActionVAE模块,将动作序列压缩为紧凑的潜在嵌入,降低模型输出空间复杂度,并保证预测动作的平滑性和时间连贯性 [6][13] - 构建大规模数据筛选流程,从网络资源中筛选出1200万条高质量人类操作视频用于模型训练 [6] 实验结果与性能对比 - 在拾取放置绿色方块、草莓抓取、钢笔入架三项任务中,RynnVLA-001的成功率分别为90.0%、91.7%和90.0%,平均成功率达90.6%,显著高于GR00T N1.5的55.6%和Pi0的70.4% [15] - 在单目标操作、多目标操作和含干扰物的指令跟随三种场景下,模型成功率分别为93.3%、86.7%和91.7%,展现出强大的指令跟随与抗干扰能力,性能稳定性优于对比模型 [18] - 消融实验证实两阶段预训练的有效性,完整模型性能最优,表明预测人类轨迹的能力能有效弥合视觉与动作间的鸿沟 [19][20][21] 技术细节与组件分析 - 模型采用双摄像头输入策略:前置摄像头负责物体粗定位与3D场景信息获取,手腕摄像头负责精细局部调整 [29][30][34] - 在Calvin基准上的消融实验显示,使用384×384图像分辨率、预测ActionVAE嵌入以及采用单一线性层动作头的模型配置性能最佳 [22][23][24][25] - 推理时,模型输出动作嵌入由ActionVAE解码器生成可执行的机器人动作序列,实现闭环控制 [16]
TrajBooster:首个全身人行操作VLA方案,跨构型解决数据难题(代码全开源)
具身智能之心· 2025-09-18 08:03
文章核心观点 - TrajBooster框架通过以末端执行器轨迹为通用语言,将轮式人形机器人的海量数据转化为双足人形机器人的有效训练资源,解决了双足人形机器人因数据稀缺导致训练困难的核心瓶颈[2] - 该框架采用"真实轨迹提取-仿真重定向-双阶段微调"流程,仅需10分钟双足机器人遥操作数据,就能让Unitree G1完成深蹲、跨高度操控等桌面级以上任务,大幅提升鲁棒性与泛化性[2][5] - 这一突破降低了双足人形机器人对昂贵同形态数据的依赖,使视觉-语言-动作模型的零样本技能迁移成为可能,为双足人形机器人的实用化按下加速键[2][40] 研究背景与问题 - 视觉-语言-动作模型让人形机器人自主执行家庭任务成为可能,轮式人形机器人已能完成深蹲、跨高抓取等复杂动作,AgibotWorld Beta数据集显示其末端执行器轨迹覆盖0.2-1.2米范围,足以应对日常家庭场景[1][3] - 双足人形机器人研发陷入瓶颈:需在保持下半身动态平衡的同时用上身完成操控,实现大范围全身动作难度极高[1][3] - 训练双足人形机器人需要大规模高质量演示数据,但传统遥操作流程依赖昂贵设备和专家操作,生成的数据集规模小、场景单一,导致视觉-语言-动作模型难以适配新机器人的动作空间[1][4] 技术方法创新 - TrajBooster是"真实-仿真-真实"的跨形态pipeline,核心流程分为真实轨迹提取、仿真中重定向、真实人形机器人微调三步[6] - 真实轨迹提取阶段采用Agibot-World Beta数据集(含超100万条真实机器人轨迹)作为源数据,通过轨迹映射处理解决Agibot与Unitree G1工作空间差异问题[7] - 仿真重定向采用分层复合模型架构,将控制解耦为上、下半身系统,包括手臂策略、工人策略和管理者策略,通过协调在线DAgger方法进行训练[9][11][12][14][16] - 真实微调采用"后预训练→后训练"两步流程,后预训练使用重定向动作数据与Agibot-World数据集整合的多模态三元组,后训练使用约10分钟的真实遥操作数据[18][20][22][23] 实验结果与性能 - 在全身跟踪实验中,TrajBooster(M=10带DAgger)在移动场景实现最低位置误差2.851厘米和旋转误差6.231度,静态场景位置误差也最优为1.893厘米[27] - 视觉-语言-动作模型评估显示,带后预训练的模型仅训练3K步就在多数任务中成功率超过无后预训练的10K步模型,无后预训练的3K步模型完全无法学习任务[33] - 当目标物体放置在遥操作未覆盖位置时,带后预训练的模型成功率达80%,而无后预训练的模型成功率为0%,证明后预训练显著提升轨迹泛化性[34][36] - 在"传递水"任务中,带后预训练的模型可在Unitree G1上零样本完成该任务,证明后预训练提升了模型对未见过任务的泛化能力[39] 应用价值与意义 - 首次实现利用大量重定向动作数据进行微调,在真实场景中实现双足人形机器人基于视觉-语言-动作模型的全身操控[5] - 仅需10分钟遥操作数据采集就能完成桌面级以上家庭任务,显著减少对高成本同形态数据的依赖,增强零样本技能迁移能力[5][40] - 该框架为双足人形机器人的实用化提供新方案,推动机器人自主执行家庭任务的可靠性与泛化性提升[3][40]
SimpleVLA-RL:突破 VLA 模型训练瓶颈,RL实现端到端在线训练
具身智能之心· 2025-09-15 08:04
研究背景与核心问题 - 视觉-语言-动作(VLA)模型是机器人操控领域的关键范式 能整合视觉感知 语言理解与动作生成 实现复杂物理环境中的任务执行 [2] - 当前主流训练流程为大规模预训练加监督微调(SFT) 但存在数据稀缺性和泛化能力弱两大核心瓶颈 [2][5] - 数据稀缺性体现在SFT需大规模人类操作机器人轨迹数据 采集成本极高且规模受限 严重制约模型扩展性 [5] - 泛化能力弱体现在面对分布偏移如未见过的任务 环境或对象时性能大幅下降 尤其在长时序 组合型任务中表现突出 [5] - 大推理模型领域的突破证明强化学习(RL)仅通过结果奖励就能显著提升逐步推理能力 但VLA应用RL面临独特挑战 [2] SimpleVLA-RL框架设计 - 基于veRL扩展 加入VLA交互式轨迹采样 多环境并行渲染及训练推理渲染一体化设计 解决VLA与环境交互慢 成本高的问题 [6][9] - 采用结果奖励建模 摒弃传统RL复杂的过程奖励 使用二元结果奖励 任务成功则整个轨迹奖励为1 失败则为0 [9] - 通过探索增强策略解决VLA模型探索不足问题 包括动态采样 调整GRPO裁剪范围和提高采样温度 [9][10] - 采用修改后的Group Relative Policy Optimization目标函数 移除KL散度正则项 减少内存消耗并避免限制新行为探索 [9][10] - 动作token化策略选择与PPO类RL算法兼容性最好的动作token分布生成方案 通过随机采样生成多样化轨迹 [9][10] 基准测试性能 - 在LIBERO基准测试中 平均成功率从91.0%提升至99.1% 其中长时序任务LIBERO-Long提升12.0个百分点(86.5%→98.5%) [12][13] - 在RoboTwin1.0基准测试中 四个任务平均成功率从39.8%提升至70.4% 其中Blocks Stack任务提升33.1个百分点(7.1%→40.2%) [13] - 在RoboTwin2.0基准测试中 覆盖短中长超长时序12个任务 平均成功率从38.3%提升至68.8% 超越π₀(49.2%)和RDT(33.3%) [14][15] - 即使是需多轮交互的超长时序任务如Put Bottles Dustbin 也提升18.7个百分点 [14][15] 数据效率 - 在单轨迹SFT场景下 LIBERO平均成功率从48.9%提升至96.9% 长时序任务LIBERO-Long从17.3%提升至91.7% [16][17] - 与全轨迹SFT加RL(99.1%)的差距仅2.2个百分点 证明RL可大幅降低对大规模演示数据的依赖 [16][17] 泛化能力 - 在LIBERO的9个已见任务训练加1个未见任务测试实验中 SimpleVLA-RL所有未见任务成功率均提升 [18][22] - LIBERO-Object的Unseen Task 2提升36.5个百分点 LIBERO-Spatial的Unseen Task 1从43.3%提升至71.8% [22] - 证明RL能学习通用技能而非过拟合特定数据 避免SFT的灾难性遗忘问题 [18][22] 真实世界部署 - 仅用仿真数据训练 真实世界机械臂任务平均成功率从17.5%提升至38.5% [7][23] - Stack Bowls任务提升32个百分点(38.0%→70.0%) Pick Bottle任务实现14%成功率 [23] - 验证了高效的Sim-to-Real迁移能力和真实部署能力 [7][23] Pushcut现象与失败模式 - 在RoboTwin2.0任务中 RL训练使模型自主探索出推等超越人类演示的新策略 被定义为Pushcut现象 [8][24] - 结果奖励允许模型探索所有能完成任务的路径 而非局限于人类演示的单一方式 [24] - SimpleVLA-RL的有效性依赖初始模型能力 初始成功率需在阈值以上 RL才能通过探索进一步优化性能 [27][28][29] - 初始成功率为0时即使施加RL性能仍维持0 初始成功率较低时提升有限 初始成功率较高时提升显著 [28][29] 研究结论 - 降低对大规模演示数据的依赖 提升数据效率 [30][32] - 增强模型在分布偏移场景下的泛化能力 [30][32] - 实现高效的Sim-to-Real迁移 提升真实世界任务性能 [30][32] - Pushcut现象证明RL能让VLA模型超越人类演示的局限 探索更优策略 [8][24][32]
机器人入职洗衣房,开始打工挣钱!苹果前AI高管打造
量子位· 2025-09-14 13:05
公司背景 - 由前苹果技术高管Evan Winelan和Kaan Dogrusoz共同创立 两位创始人曾任职于苹果公司[15][16] - 公司已完成三轮融资 在未正式推出产品前已获得资金支持[4] 技术能力 - 搭载自主训练的视觉-语言-动作模型 可精准识别衣物类型并判断折叠边角位置[18] - 配备高性能网络堆栈 支持人类操作员远程协助处理复杂情况 早期原型实现70%端到端自主折叠[18] - 建立完善数据管道 通过持续学习提升处理不同材质和款式衣物的效率与精准度[18] 产品特性 - 为首个实现付费衣物折叠服务的通用型机器人 已应用于洗衣房Tumble Laundry[3][4] - 折叠标准严格 要求衣物版型均匀 边角整齐 堆叠方向统一且衣领朝上[5][6] - 具备收纳功能 可保持操作台整洁[7] - 设计注重隐私保护 闲置时摄像头自动关闭且躯干降低收纳[14] 应用场景与规划 - 当前专注于洗衣房衣物折叠场景 正在进行数据采集以提升模型鲁棒性[10][11] - 定位为通用型家用机器人 未来计划拓展整理杂物和家庭安防等多样化家务能力[12][14] - 团队核心目标为开发面向家庭场景且能高效完成工作的机器人[19]