击败英伟达,全球四项第一!优必选自研人形机器人最强大脑Thinker登顶全球!
机器人圈·2025-09-10 17:07

技术成就与行业地位 - 优必选自研的百亿参数多模态大模型Thinker在机器人感知与规划领域三大国际权威基准测试中斩获四项全球榜单第一[2] - 测试包括微软发起的MS COCO Detection Challenge、谷歌DeepMind提出的RoboVQA及香港大学提出的Egoplan-bench2,针对21个场景、四大类型任务规划[2] - 榜单吸引了英伟达、北京智源研究院、上海AI Lab等全球顶尖团队参与,竞争激烈[2] - 在MS COCO detection challenge - Segmentation Mask中排名第一,AP指标达0.58,AP at IoU=0.50达0.81,AP at IoU=0.75达0.64[5] - 在MS COCO detection challenge - Bounding Box排名中并列第一,AP指标达0.66[5] - 在RoboVQA测试中Bleu-1得分72.7,Bleu-avg得分63.5,超越GPT-4V的26.8和英伟达ThinkAct-7B的59.8[5] - 在Egoplan-bench2测试中Overall得分58.21,超越RoboBrain2-32B的57.23和GPT-4V的32.6[5] 核心技术架构与创新 - 自研视觉编码器基座,结合Co-DETR检测头,通过多阶段模态对齐机制实现视觉-语言模态高效融合[7] - 构建具有百亿参数的多模态大模型Thinker基座,实现视觉-语言-时间的跨域统一表征[7] - 采用时序增强算法与强化学习方法,通过大模型蒸馏技术将百亿参数模型效果浓缩至7B参数模型中[7] - 创新性采用"通用基础能力打造+工业场景精调"微调策略,基于超200万条视频数据预训练,并引入亿级工业数据集微调[11] - 优化使模型可在端侧部署,用机器人自身算力实时自主拆解复杂流程,避免规划中断或逻辑混乱[7] 工业应用性能与效果 - 技术提升使机器人具备高精准环境感知能力,在动态场景中高效完成任务分解、实时调整与稳定规划[12] - Walker S2可精准识别设备、物料与障碍物,深度理解场景语义及操作前后逻辑关联[12] - 采用工业数据集二次微调后,Walker S2在拆码垛规划等典型任务中的规划精度提升超过20%[12] - 模型能够快速学习工业场景的视觉特征、任务规则与操作偏好,显著提升理解准确率、规划适配性与决策可靠性[11] - 在复杂流水线环境中展现出持续连贯的规划能力,大幅降低对人工干预的依赖[12] 行业生态与发展战略 - 公司将逐步开源一系列业界稀缺的工业场景数据集与通用基础大模型,为全行业提供高质量合规数据资源[14] - 开发者可基于优必选多模态大模型Thinker面向各类新场景开展精调与二次开发,提升开发效率[14] - 人形机器人正在进入大规模应用的关键阶段,发展亟需与开发者共同构建开放、协同的应用生态[14] - 技术为人形机器人在生产线上的稳定、高效部署奠定基础,加速其从技术验证走向规模化实战应用[9]