具身智能之心
搜索文档
「具亮计划 2026」——全球具身智能黑客松正式启动!
具身智能之心· 2026-01-14 10:02
公司战略与产品定位 - 公司致力于基于具身大模型构建可精细操作的通用智能体[2] - 公司发起并主办【具亮计划 2026】全球具身智能黑客松,旨在推动具身智能从实验走向场景、从设想迈向日常[4] - 公司为活动提供自研操作臂和VR/外骨骼采数设备等硬件支持[4] 核心技术平台 - 公司自研了端到端的具身基础开源模型 WALL-OSS,并以此构建了可复现、可验证的开发者挑战体系[4] - WALL-OSS 是一个开源框架,开发者可用其完成从数据采集、训练到任务部署的完整流程,让机器人在真实物理世界中执行任务[6] - 公司提供了WALL-OSS相关的官方教程、实操示例及GitHub、Hugging Face等学习资料站点[10][13] 黑客松活动详情 - 【具亮计划2026】分为线上初赛(1月14日-3月16日)和线下黑客松(3月27-30日,深圳站)两个阶段[4] - 报名及作品提交截止时间为3月9日[9] - 参赛队伍要求每队人数不超过2人,项目必须基于WALL-OSS开源模型完成训练与推理[9] - 参赛作品需将演示视频发布至Hugging Face和小红书等平台,评审将基于材料完整性、项目创新性、技术难度等维度进行[10] 活动支持与激励 - 为参赛者提供全程技术指导与社区支持[6] - 表现突出者的项目可入选WALL-OSS官方示例库,获得行业认可[6] - 优秀学生参赛者可获得公司面试直通卡,直接进入校招/实习面试环节[6] - 活动设置奖金,并提供自研臂及赛事专属纪念品[6]
具身智能开年最大融资,字节红杉领投10亿
具身智能之心· 2026-01-14 10:02
公司融资历程 - 2026年初,公司完成10亿元A++轮融资,由字节跳动、红杉中国领投,北京信息产业发展基金、深创投、南山战新投、锡创投等机构联合参与[2] - 2025年9月,公司完成近10亿元A+轮融资,由阿里云与国科投资领投,国开金融、红杉中国、渶策资本跟投,美团战投超额加码[5] - 2025年5月,公司完成数亿元A轮融资,由美团战投领投,美团龙珠跟投[7] - 2025年早些时候,公司还完成了数亿元Pre-A+++轮融资(华映资本领投)和数亿元Pre-A++轮融资(光速光合、君联资本领投)[9][11] - 公司成立两年多以来,已完成9轮融资,累计融资额超过30亿元[13] 公司背景与技术路线 - 公司成立于2023年12月,聚焦自研“通用具身智能大模型”[14] - 创始人兼CEO王潜毕业于清华大学和美国南加州大学,研究方向为Robotics Learning,是较早将Attention思想引入神经网络的研究者之一[14] - 联合创始人兼CTO王昊为北京大学计算物理博士,曾担任IDEA研究院大模型团队负责人,主导发布过多个开源大模型[14] - 公司核心观点认为,具身智能模型是平行于语言模型的独立基础模型,需要直接面对真实物理环境中的连续状态、因果关系与动作反馈[15][17] - 围绕此观点,公司自研了「WALL-A」系列VLA操作大模型,将感知、理解、决策与动作输出统一纳入端到端模型[18][19] 产品与技术进展 - 2024年10月,公司发布WALL-A模型,成为当时全球参数规模最大的端到端统一具身智能大模型之一[20] - 2025年9月,公司开源具身基础模型WALL-OSS,在RoboChallenge榜单中排名全球第三[20] - 硬件方面,公司推进“量子一号”与“量子二号”两代具身机器人[21] - 量子一号为轮式双臂机器人,搭载WALL-A模型,用于数据采集、模型验证及科研教学[21] - 量子二号升级为轮式仿人形结构,具备更高自由度与精细力控能力,用于采集复杂操作数据[23] - 公司选择先搭建一套可持续进化的具身智能底座,形成模型在真实世界学习、硬件为模型服务、数据反哺模型迭代的闭环[25] 行业与资本动态 - 具身智能行业在2026年开年依旧火热[1] - 公司在A+轮融资中,吸引了阿里云首次明确布局具身智能赛道[6] - 公司是国内唯一同时获得字节跳动、美团、阿里三家互联网大厂投资的具身智能公司[2] - 红杉中国在2025年9月A+轮后,于2026年A++轮选择继续加码[2] - 字节跳动少见地在具身智能投资领域直接出手[2] - 公司的连续融资体现了资本对其“具身智能独立基础模型”技术路线的高度认可[13]
人形机器人和强化学习交流群成立了
具身智能之心· 2026-01-14 10:02
行业动态 - 行业正围绕具身智能和人形机器人领域建立技术交流社群,社群聚焦于强化学习技术 [1] - 社群面向从事强化学习与人形机器人相关方向的专业人士,旨在促进技术交流与合作 [1]
一个模型统一4D世界生成与重建,港科大One4D框架来了
具身智能之心· 2026-01-14 10:02
文章核心观点 - 香港科技大学研究团队提出One4D框架,旨在解决现有视频扩散模型缺乏三维几何显式建模的问题,通过一个统一的模型同步生成RGB视频和Pointmap几何视频,并支持从单张图像生成、稀疏帧补全到完整视频重建等多种4D任务,为世界模型、具身智能等应用提供更实用的基础能力 [3][7][32] 技术框架与核心创新 - **多模态同步输出**:One4D将动态4D场景表示为同步输出的两种模态:RGB帧(外观)和Pointmap(XYZ几何视频),后者可进一步导出深度图并估计相机轨迹,形成4D点云 [7] - **解耦LoRA控制**:提出DLC方法,为RGB和Pointmap分别挂载模态专属LoRA,形成两条解耦的计算分支,再通过少量从零初始化的控制连接实现像素级对齐,以在低资源微调下保持基础模型先验并减少模态间干扰 [9][10][11] - **统一掩码条件**:提出UMC方法,将单帧、稀疏帧、全视频等不同输入条件统一打包成一个条件视频,并用掩码指定需生成的帧,使同一模型结构无需改动即可平滑切换于4D生成与重建任务之间 [14] 训练数据与效率 - **混合数据策略**:采用合成数据与真实数据混合训练,合成数据通过游戏引擎渲染提供精确的几何真值,真实数据则使用现有方法生成几何标注以覆盖复杂真实分布,结合两者以保持视频质感与几何精度 [16][17] - **训练效率**:使用34,000条视频,在8张NVIDIA H800 GPU上训练5,500步即获得良好效果 [17] 实验结果与性能 - **单图到4D生成**:在用户偏好研究中,One4D在一致性、动态性、美学、深度质量和整体4D连贯性上全面领先对比方法4DNeX,偏好率分别达到78.9%、83.3%、82.3%、88.3%和90.0% [19][20] - **单图到4D生成**:在VBench评测中,One4D的动态性得分达55.7%,显著高于4DNeX的25.6%,同时图像到视频一致性保持在97.8%的可比水平 [21] - **完整视频到4D重建**:在Sintel和Bonn深度重建数据集上,One4D作为生成与重建统一模型,性能超越多个仅做重建的方法,如Abs Rel在Sintel为0.273,优于MonST3R的0.335和CUT3R的0.311,接近专用重建方法Geo4D-ref的0.205 [22][24][25] - **相机轨迹估计**:在Sintel和TUM-dynamics数据集上,One4D的相机轨迹估计精度保持可用水平,例如在Sintel上的绝对轨迹误差为0.213,证明了其统一重建与生成的能力 [27][28] - **稀疏帧到4D生成**:在仅输入极稀疏帧(如5%的帧)的条件下,One4D仍能生成合理的4D结构,在Bonn数据集上Abs Rel为0.151,δ<1.25为87.2%,展现了强大的动态场景生成能力 [29][30]
当黄仁勋在CES重申物理 AI 路径,它石已提前走通具身智能 Scaling Law
具身智能之心· 2026-01-13 12:47
行业技术发展路径 - 自动驾驶被广泛认为是通向物理AI与具身智能的关键技术路径和“钥匙”[2] - 自动驾驶与具身智能在技术上同宗同源,自动驾驶是具身智能的一个关键子任务,代表了智能体在复杂物理环境中的移动与导航能力[3] - 自动驾驶中成熟的端到端系统,统一了时空坐标下的感知、决策与规划,为机器人在物理世界中的理解与行动提供了根本性的底层框架[3] 公司技术前瞻与行业地位 - 公司创始人早在2025年7月便在世界人工智能大会上系统阐述了自动驾驶与具身智能的技术同源性,时间领先业界半年以上[2] - 公司基于对物理AI发展路径的早期战略判断和自动驾驶的深厚积累,推动具身智能从实验室走向真实世界应用[8] 核心驱动力:数据 - 业界共识认为,高质量、大规模、丰富的数据是遵循Scaling Law、驱动智能水平跃升的关键燃料[3] - 具身智能对高质量、真实数据的需求量是自动驾驶的十倍以上[3] - 公司提出了“以人为中心”的真人数据采集新范式,并于2025年12月开源了全球首个具身VLTA多模态数据集World In Your Hands[5] 数据价值与技术创新 - 融入“以人为中心”的数据后,机器人在极其杂乱场景中的操作成功率由8%暴涨至60%,并显著提升了灵巧手在桌面操作任务中的泛化性与稳定性[5] - 公司自研的数据采集套件实现了厘米级的运动捕捉精度,并能输出包含6D位姿信息的高丰度数据流[6] - 该创新路径降低了数据采集难度与成本,单采集员日均5小时内即可采集生成1.8TB数据,为训练更强大的模型构筑了可扩展的数据供给基础[6] - 公司首席科学家表示,“以人为中心”的数据采集范式配合其数据引擎,可以记录和生产最高质量、最丰富的具身智能数据,真正使得Scaling Law成为可能[5]
挑战GRPO,英伟达提出GDPO,专攻多奖励优化
具身智能之心· 2026-01-13 08:54
文章核心观点 - 英伟达的研究指出,在多奖励强化学习优化场景中,当前广泛采用的GRPO算法存在根本性缺陷,它会将不同的奖励信号混合归一化,导致训练信号被削弱和信息损失 [2][4] - 为解决此问题,英伟达提出了一种新的策略优化方法GDPO,该方法通过对各个奖励信号分别进行归一化,保留了奖励间的相对差异,从而实现了更准确的多奖励优化和更稳定的训练过程 [4] - 在工具调用、数学推理和代码推理等多项任务上的实验结果表明,GDPO在所有设置中均稳定地优于GRPO,能够实现更强的目标偏好对齐和更优的跨目标权衡 [7][37] GRPO算法在多奖励优化中的问题 - GRPO通常用于优化单一目标奖励,但在多奖励优化中,常见的做法是将所有奖励分量相加后直接应用GRPO,这会导致问题 [10] - GRPO会对聚合后的总奖励进行群组级归一化,这本质上压缩了奖励信号,导致优势估计中的信息损失 [10] - 具体示例显示,在涉及两个二值奖励的场景中,尽管存在六种不同的奖励组合,但GRPO归一化后只产生两个唯一的优势组,例如(0,1)、(0,2)和(1,2)会产生相同的归一化优势值,这削弱了学习信号 [11][12] - 这种局限性可能引入训练不稳定的风险,在数学推理任务中,使用GRPO训练时,正确率奖励分数在约400个训练步后开始下降,出现了部分训练坍塌 [12] - 移除标准差归一化项的GRPO变体仅能略微增加不同优势组的数量,但并未带来更好的收敛性或更优的下游评估表现,在工具调用任务中甚至导致格式奖励完全失败 [13][26] GDPO算法的核心改进 - GDPO的核心创新在于“解耦归一化”,即在聚合之前对每个奖励分别进行群组级归一化,计算各自的归一化优势,然后再求和并进行批次级优势归一化,以保持数值稳定 [17] - 这种方法避免了不同奖励信号被混合“抹平”,更真实地保留了它们的相对差异 [4] - 理论分析表明,GDPO能产生显著更多的不同优势组,随着rollout数量或奖励数量的增加,其优势粒度也逐步增大,实现了更精确的优势估计 [18] - GDPO能够持续产生更稳定的训练曲线和更好的收敛性,例如在工具调用任务中,GDPO在格式奖励和正确率奖励上都实现了更好的收敛 [19] - 论文还探讨了当不同目标重要性不相等时,如何通过调整奖励权重或修改奖励函数来优先考虑更重要的目标 [19] 工具调用任务实验结果 - 在工具调用任务上,GDPO在所有运行中都能在格式奖励和正确率奖励上收敛到比GRPO更高的值 [23] - 在BFCL-v3评估中,对于Qwen2.5-Instruct-1.5B模型,GDPO在Live任务上的整体准确率从GRPO的50.63%提升至55.36%,在Non-Live任务上从37.87%提升至40.58%,平均准确率从30.18%提升至32.81%,正确格式比例从76.33%提升至80.66% [25] - 对于Qwen2.5-Instruct-3B模型,GDPO在Live任务上的整体准确率从GRPO的69.23%提升至71.22%,平均准确率从39.20%提升至40.87% [25] - 移除标准差归一化项的GRPO变体在格式奖励上完全失败,在BFCL-v3上的正确格式比例为0% [26] 数学推理任务实验结果 - 在数学推理任务中,GDPO比GRPO更有效地恢复了正确率奖励,并且避免了GRPO在约400步后出现的训练不稳定性 [29] - 对于DeepSeek-R1-1.5B模型,GDPO在所有基准测试上都优于GRPO,在MATH、AIME和Olympiad基准上的准确率分别提升了2.6%、6.7%和2.3% [30] - 对于DeepSeek-R1-7B模型,GDPO在更具挑战性的AIME基准上将准确率从GRPO的50.2%提升至53.1%,同时将超长率从2.1%大幅降低至0.2% [30][34] - 对于Qwen3-4B-Instruct模型,GDPO在AIME基准上将准确率从GRPO的54.6%提升至56.9%,同时将超长率从2.5%大幅降低至0.1% [30][34] 代码推理任务实验结果 - 在代码推理任务的双奖励设置下,GDPO在所有任务上都提升了通过率,同时保持相似的超长比例 [35] - 例如,在Codecontests任务上,GDPO将通过率从GRPO的63.2%提升至65.8%,超长比例仅从14.2%微增至14.3% [35] - 在三奖励设置下,GDPO在所有目标上都实现了更有利的平衡,在保持与GRPO相似通过率的同时,显著降低了超长比例和bug比例 [36] - 具体在Taco任务的三奖励设置中,GDPO将超长比例从GRPO的14.7%降低至10.6%,同时将bug比例从30.0%降低至28.0% [36]
不用再对比paper了,一个网站看完各个VLA 的性能
具身智能之心· 2026-01-13 08:54
文章核心观点 - 上海交大与物智进化团队推出了一个名为Evo-SOTA的具身大模型(Vision-Language-Action, VLA)性能榜单平台,旨在解决该领域研究成果分散、评测标准不一的问题,通过统一整理、系统汇总和可视化比较,帮助研究人员快速了解领域发展脉络与最新技术前沿 [1] 平台目标与功能概览 - 平台核心目标是追踪VLA模型发展、收集整理公开论文的评测结果、提供结构化榜单与可视化图表、支持对开源模型的筛选与快速查找,并提供透明的评价方法与数据来源说明 [6] - 平台重点覆盖四个机器人操作领域的benchmark:LIBERO、LIBERO-plus、MetaWorld和Calvin [2][6] - 平台提供可检索、可筛选、可视化的比较工具 [1] 主页内容构成 - 主页由三部分核心内容构成:数据概览、四大benchmark的缩略榜单、以及“时间-性能演化”的可视化散点图 [3] - 数据概览部分展示已收录的VLA模型数量和当前支持的榜单数量,体现平台作为持续更新型数据库的定位 [4][7] - 缩略榜单部分展示各benchmark的Top-5模型关键信息,包括排名、模型名称、总分和论文日期,并突出展示第一名模型,用户可快速浏览当前最强模型并进行直观比较 [5][10] - “时间-性能演化”散点图以模型论文发布时间为横轴,以对应benchmark的metric数值为纵轴,展示性能演进过程,回答VLA性能在过去几年如何演进的核心问题 [9][11] - 散点图提供“仅显示最高性能”和“仅展示开源模型”两个筛选功能,用户既可观察整体趋势,也可只关注最高性能或开源进展 [9] 榜单页面详细信息 - 每个benchmark对应一个独立榜单页面,页面顶部提供benchmark的简要介绍和官方GitHub仓库链接,帮助用户快速了解评测背景 [13][14] - 结构化榜单中,每个模型条目包含排名、模型名称、是否开源、总分、论文发布日期和论文链接 [15][16] - 用户可通过“展示所有指标”选项查看模型在细分任务维度上的具体得分,通过“仅显示开源模型”选项进行筛选 [15] - 点击模型条目可展开查看更多详细信息,包括模型简介、细分指标以及开源模型的代码库链接 [18] - 页面底部给出各metric的含义和评测维度的简单说明,以降低理解门槛 [19] - 以LIBERO榜单为例,已收录32个模型,排名第一的模型“Simple VLA-RL”总分为99.1,发布于2025年9月 [20] 方法论与平台价值 - 平台设有独立的Methodology页面,说明数据来源于发表论文、数据收集截止时间、开源模型的定义方式(截止日期前可找到代码库),并提供错误反馈渠道(GitHub issue、email或社区微信群),体现了公平性、可追溯性和可更正性的基本态度 [21][22][23] - 该平台的价值在于不仅能追踪VLA模型的发展趋势(time-performance curves)和对比不同benchmark下的方法差异,还能作为研究人员查找相关模型、阅读论文前快速概览、进行领域综述或教学的辅助工具 [24][26] - 对于模型提出者,该平台可以提高模型在公开benchmark上的排名可见度 [24][26]
低成本机械臂一直复现不出pi0,该怎么办?
具身智能之心· 2026-01-13 08:54
行业痛点与市场需求 - 复现视觉语言动作模型任务面临高成本障碍,市面“能用”的机械臂价格基本在1.5万元以上,加上相机等传感器,对自学者或缺乏设备的群体构成硬伤[3] - 开源低成本机械臂虽可用,但初学者在数据采集、模型训练和动作输出方面普遍遇到困难,难以调出理想效果,大量时间被浪费在“踩坑”上[4][5] - 打通从数据、VLA模型、训练优化到部署的完整任务链对初学者非常困难,特别是对于π0、π0.5、GR00T等前沿模型,其数据采集和训练过程存在诸多技术窍门[5] - 市场存在对低成本完成各类VLA任务的强烈需求,许多学习者希望在预算有限的情况下也能入门该领域[7] 解决方案与课程产品 - 具身智能之心平台基于SO-100机械臂和LeRobot框架,成功复现了ACT、GR00T、π0、π0.5等方法,旨在解决学习者缺乏真机、真机昂贵以及不知如何上手的问题[8] - 平台联合业内VLA专家开发了国内首个《面向实战与求职的VLA小班课》,旨在帮助学习者有效学习快速更新的VLA技术路线,解决即使拥有真机也不知如何使用的困境[9] - 课程内容全面,涵盖机械臂硬件、数据采集、VLA算法、VLA评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验以及具身产业讲解等[14] - 该课程被描述为目前平台最大、最完整的课程,采用软硬结合的方式,旨在助力更高效的学习[15] - 课程已于近期正式开课,学习社群内交流活跃,为学员提供问题解答支持[16] 课程硬件与讲师配置 - 购买课程的学员将获赠一套SO-100机械臂,包含示教臂和执行臂,通过淘宝购买后直接发货给学员[18] - 课程讲师为某机器人公司VLA高级研究员,拥有超过5年的机器人行业实战经验,专注于产学研协同落地[21] - 讲师熟练掌握具身智能全栈技术,覆盖数据采集、模型训练与验证、工程化落地等环节,并积累了对人形/轮式机器人、机械臂等多种本体的深度实操经验[21] - 讲师在自动控制、机器人领域的IEEE Trans系列、Neural Networks等顶级期刊上发表过10篇以上学术论文[21] 目标学员与课程要求 - 课程面向正在具身领域求职、需要实战项目和经验的同学;VLA领域的入门及进阶学习者;从事具身智能研究的本科生、硕士生和博士生;希望从传统计算机视觉、机器人或自动驾驶领域转行进入具身智能的人员;以及对具身智能领域感兴趣的其他人员[25] - 课程对计算资源提出建议:推理建议使用RTX 3060及以上显卡;训练建议使用2张以上RTX 3090 Ti显卡;学员也可自行租赁云服务器资源[25] - 学员需具备一定的Python和PyTorch基础[25] 学员收获与课程安排 - 完成课程后,学员预期能够掌握真机的调试与数据采集技能,掌握各类VLA算法在真机上的部署,并对VLA模型的量化有深入了解[25] - 学员将对具身智能产业及其落地应用有清晰的认识,简历上能积累足够多的项目支撑,学完后达到具备1-2年以上经验的算法工程师水平[27] - 课程项目经验可直接写入简历,课程中学到的技术窍门可作为面试答案,从而为学员节省大量自行摸索和“踩坑”的时间[12] - 课程计划从2025年12月30日开课,分九章进行,最后一章课程安排在2026年2月25日[28] - 课程价格为788元[29]
李飞飞与NVIDIA联合提出了能够实时推理的3D操作基座模型
具身智能之心· 2026-01-13 08:54
文章核心观点 - 斯坦福大学与NVIDIA联合团队提出的PointWorld框架,通过“3D点流统一表征”和“大规模数据集构建-世界模型设计-实时操纵部署”三层技术体系,首次实现了单一预训练模型在真实野生环境下的多类型物体操纵,为通用机器人技术提供了全新范式 [2] 问题根源:野生环境3D世界建模的挑战 - **表征割裂问题**:传统模型将状态与动作采用不同模态表征,难以捕捉物理交互的几何关联性,导致跨机器人形态迁移困难 [5] - **场景适应性局限**:物理基模型存在仿真到真实的鸿沟,学习基模型依赖特定领域归纳偏置,视频生成模型缺乏物理一致性 [5] - **数据稀缺瓶颈**:野生环境下3D标注需要精准的深度、相机姿态与点追踪信息,现有数据集规模小且标注质量不足 [5] - **推理效率不足**:复杂场景下的动态预测往往耗时过长,难以满足机器人实时操纵的低延迟需求 [5] 方案设计:PointWorld的三层技术闭环 第一层:大规模数据构建 - **数据规模与多样性**:整合DROID真实世界数据集与BEHAVIOR-1K仿真数据集,涵盖单臂、双足、全身等多种机器人形态,总计约200万条轨迹、500小时交互数据 [9] - **场景与任务覆盖**:覆盖厨房、工作室等野生场景,包含刚性物体推送、可变形物体操纵、关节式物体交互与工具使用等多种任务,并兼顾成功与失败轨迹以提升泛化性 [7] - **高精度标注流水线**:结合FoundationStereo深度估计、VGGT相机姿态优化与CoTracker3点追踪技术,将轨迹误差控制在1.8厘米、旋转误差1.9度以内 [9] 第二层:世界模型设计 - **统一表征设计**:状态以RGB-D重建的全场景3D点云表示,动作通过机器人URDF模型生成3D点流轨迹,二者在同一3D空间中建模物理交互 [11] - **高效网络架构**:采用PointTransformerV3(PTv3)作为骨干网络,通过U型结构实现长距离依赖建模,支持从50M到1B参数的规模化扩展 [11] - **稳定训练机制**:引入运动加权损失、不确定性正则化与Huber损失提升噪声鲁棒性,并采用10步块预测策略减少推理漂移 [11] - **实时推理能力**:单次前向传播即可完成10步动态预测,推理延迟仅0.1秒,满足机器人模型预测控制(MPC)的实时需求 [11] 第三层:操纵部署 - **MPC集成方案**:采用采样式MPPI控制器,通过3D点流预测结果构建成本函数,优化末端执行器的6自由度姿态序列 [16] - **任务适配能力**:支持刚性物体推送、可变形物体操纵、关节式物体交互与工具使用等多样化任务 [16] - **零样本部署特性**:单一预训练模型无需额外演示或微调,仅通过单张野生环境RGB-D图像即可驱动真实Franka机器人完成操纵任务 [16] 验证逻辑:全面性能验证 模型性能突破 - **动态预测精度**:在DROID测试集上,移动点的L2误差低至0.0312,静态点误差0.0056,较GBND等基线模型提升明显 [15] - **推理效率优势**:1B参数模型的推理延迟仅0.12秒,远低于像素级方法的秒级延迟 [18] - **架构扩展性**:PTv3骨干网络可扩展至957倍于传统GBND模型的参数规模,同时保持内存与计算效率的平衡 [18] 泛化能力验证 - **跨域迁移**:在零样本情况下实现真实到仿真、仿真到真实的双向迁移,微调仅需原始训练迭代次数的1/20即可达到领域专用模型性能 [20] - **跨场景泛化**:对未见过的真实实验室场景,零样本性能与专用模型相当,微调后实现超越 [21] - **跨机器人形态迁移**:通过3D点流的形态无关表征,支持从单臂Franka到双足人形机器人的无缝迁移 [23] 真实部署效果 - **多样化任务成功率**:在真实机器人操纵任务中,抽屉关闭成功率90%、围巾折叠成功率80%、纸巾盒推送成功率70% [26] - **环境鲁棒性**:在部分遮挡、光照变化等野生环境条件下,仍能准确预测物体动态,实现稳定操纵 [29] 局限与未来方向 - **初始状态假设**:当前模型假设观测时刻世界静态,需扩展至动态初始条件的建模 [31] - **精细交互局限**:对纤细物体(如笔、线缆)的标注与预测精度有待提升 [31] - **因果关系建模**:当前模型主要捕捉相关性,未明确分离机器人动作与环境外源因素的因果影响 [31] - **多模态融合**:未来可结合外观模型预测光度动态变化,增强对光照、屏幕等场景的适应性 [31] 总结:范式价值与行业影响 - PointWorld建立了“大规模数据构建-模型设计原则-真实部署验证”的完整技术链路,其开源的数据集、模型权重与代码为机器人学、计算机视觉等领域提供了统一研究平台,有望推动通用自主机器人从实验室走向真实生活场景 [30]
欢迎和具身智能之心一起前行,合伙人招募啦~
具身智能之心· 2026-01-12 19:00
文章核心观点 - 公司面向全球具身智能领域从业者发出合作邀请 旨在通过招募合作伙伴共同拓展业务 涵盖技术服务 培训 课程开发与科研辅导等多个领域 [1] 合作背景与目标 - 年底收到大量合作伙伴与学员的诉求 期望公司在线上/线下培训 方案咨询 数据采集 技术升级等多个方向进行赋能 [1] - 公司认为更大的事业需要更多人参与 希望通过招募优秀伙伴实现“众人拾柴火焰高” [1] 合作方向与领域 - 合作技术方向广泛 包括但不限于视觉语言动作 视觉语言导航 扩散策略 强化学习 视觉语言动作结合强化学习 遥操作 动作捕捉 仿真到现实迁移 多模态大模型 仿真 运动控制 端到端学习 3D感知等多个前沿方向 [3] - 合作主要面向具身智能解决方案研发 硬件研发以及培训合作 [4] - 培训合作分为企业端与消费端 企业端主要面向企业 高校及研究院所 消费端主要面向学生及求职人群 [4] 合作激励与联系方式 - 公司将提供高额酬金与丰富的行业资源以吸引合作伙伴 [2] - 感兴趣的从业者可通过添加指定微信进行进一步咨询 [5]