π0模型

搜索文档
具身大脑风云榜!盘一盘国内外具身大脑的灵魂人物们...
自动驾驶之心· 2025-09-15 07:33
文章核心观点 - 具身智能已成为全球焦点 国内外公司正积极开发机器人"大脑"系统 包括具身大模型和多模态感知决策系统 [2][3] 国内公司技术布局 - 自变量机器人聚焦通用具身大模型研发 以真实世界数据构建具备精细操作能力的通用机器人 [4] - 星海图成立于2023年 坚持端到端的具身通用大模型路线 成立不到两年完成8轮融资 [5] - 星海图推出WALL-A模型 为全球最大参数规模的具身智能通用操作大模型 能整合视觉 语言与运动控制信号 [5] - 星海图开源具身智能基础模型Wall-OSS 具备强大泛化性和推理能力 [5] - 优必选为全球人形机器人商业化领导者 拥有全栈自研能力包括运动控制和AI-Embodied系统 [6][9] - 优必选Thinker大模型在三大国际权威基准测试中斩获四项全球第一 显著提升机器人感知与规划能力 [9] - 智元机器人聚焦AI与机器人深度融合 推出启元大模型Genie Operator-1 任务成功率较市面模型提升32% [7][9] - 智元机器人建立"具身智脑"分层系统 包括云端超脑 大脑 小脑和脑干 形成完整控制体系 [9] - 银河通用构建三大技术壁垒 自主研发全球首个"通用具身大模型" 采用大脑+小脑协同框架 [8][9] - 银河通用推出GraspVLA模型 全球首个端到端具身抓取基础大模型 仅通过合成数据达到预训练能力 [9][13] - 千寻智能Spirit V1 VLA模型攻克柔性物体长程操作难题 实现自然语言指令驱动的复杂任务 [10][13] - 星动纪元研发端到端原生机器人大模型ERA-42 支持机器人完成超过100种动态任务 [11][13] - 逐际动力聚焦具身智能机器人研发 构建具身Agent开发工具链 推动多领域应用 [12][13] - 穹彻智能聚焦以力为中心的具身智能大模型 其Noematrix Brain 2.0新增实体概念学习能力 [14][16] - 智源研究院推出RoboBrain 2.0 以70亿和320亿参数实现感知 推理与规划能力统一 [15][16] 国外公司技术进展 - Figure AI致力于开发具备AI能力的人形机器人 解决劳动力短缺等问题 [17] - Figure AI推出Helix模型 采用独特双系统AI架构模仿人类直觉和思考的认知模式 [17] - Physical Intelligence专注于为机器添加高级智能 发布机器人基础模型π0和π0.5 [18][21] - 谷歌DeepMind推出Gemini Robotics模型 可直接控制机器人执行复杂任务 [19][21] - 谷歌DeepMind开发Gemini Robotics-ER 增强机器人对空间和物理世界的理解能力 [21] - 英伟达Eureka系统基于GPT-4打造 支持机器人实现30余种复杂动作 [20][25] - 英伟达GR00T N1开源模型采用双系统架构 实现接近人类的运动控制能力 [25] - Skild AI研发通用机器人操作系统Skild Brain 通过摄像头图像直接控制机器人动作 [22][25] - Covariant构建RFM-1模型 为世界上首个基于真实任务数据训练的80亿参数机器人大模型 [23][25] 知名研究团队成果 - Meta和CMU联合打造RoboAgent 采用多任务动作分块Transformer架构 [24][25] - 斯坦福李飞飞团队开发VoxPoser 利用VLM和LLM常识知识实现零样本机器人操纵 [24][25]
国内外那些做具身大脑的公司们......
具身智能之心· 2025-09-13 12:03
文章核心观点 - 具身智能已成为全球焦点 重点关注开发机器人"大脑"系统的企业 包括具身大模型和多模态感知决策系统 [2][3] 国内公司技术布局 - 自变量机器人聚焦通用具身大模型研发 采用端到端技术路线 成立不到两年完成8轮融资 [4][6] - 星海图专注于智能导航技术 坚持"一脑多形"理念 开发具身基础模型EFM-1采用快-慢双系统架构 [5][6] - 优必选拥有全栈自研能力 Thinker大模型在三大国际权威基准测试中斩获四项全球第一 [7][10] - 智元机器人发布启元大模型 采用VILLA架构 任务成功率较市面模型提升32% 支持跨本体应用 [8][10] - 银河通用构建三大技术壁垒 自主研发全球首个通用具身大模型 采用大脑+小脑协同框架 [9][10] - 千寻智能开发Spirit V1 VLA模型 国内首个攻克柔性物体长程操作难题的AI模型 [11][14] - 星动纪元研发端到端原生机器人大模型ERA-42 支持机器人完成超过100种动态任务 [12][14] - 逐际动力聚焦本体硬件设计制造 基于强化学习的全身运动控制和具身大脑训练范式 [13][14] - 穹彻智能开发Noematrix Brain 2.0 新增实体概念学习能力 支持3D模仿学习框架和视-触觉融合网络 [15][17] - 智源研究院推出RoboBrain 2.0 以70亿和320亿参数规格实现感知 推理与规划能力统一 [16][17] 国外公司技术突破 - Figure AI开发Helix模型 采用独特双系统AI架构模仿人类直觉和思考认知模式 [18] - Physical Intelligence发布π0通用机器人基础模型 采用预训练+后训练模式 π0.5采用知识隔离训练方法提升泛化能力 [19][22] - 谷歌DeepMind推出Gemini Robotics系列 具备通用性 交互性和灵巧性 Project Astra体现具身智能在人机交互应用 [20][22] - 英伟达开发Eureka系统基于GPT-4打造 支持30余种复杂动作 GR00T N1采用双系统架构实现接近人类运动控制能力 [21][26] - Skild AI研发Skild Brain分层架构 适用于各种四足机器人 人形机器人和移动机械手 [23][26] - Covariant开发RFM-1模型 参数80亿 是世界首个基于真实任务数据训练的机器人大模型 [24][26] 知名研究团队贡献 - Meta和CMU联合打造RoboAgent 采用多任务动作分块Transformer架构恢复高性能策略 [25][26] - 斯坦福李飞飞团队开发VoxPoser 利用VLM和LLM常识知识实现零样本机器人操纵 [25][26]
质疑VLA模型、AI完全不够用?有从业者隔空回应宇树王兴兴
第一财经· 2025-08-11 22:51
行业核心观点 - 具身智能的AI能力不足是当前人形机器人行业面临的最大瓶颈 而非硬件问题[3] - 行业需重构VLA模型并寻求新的解决范式以突破感知 决策 执行的闭环断裂问题[4][7] - 强化学习和模仿学习需遵循Scaling law法则以实现机器人泛化能力和智能水平提升[4] 技术架构争议 - VLA模型被部分从业者质疑为"相对傻瓜式架构" 但仍是具身智能领域重要技术路线[3][5] - 当前最强通用机器人控制VLA模型π0仍无法有效运用全参数大型语言模型 且对数据要求极高[5] - 开源VLA模型OPEN VLA基于Llama2语言模型 参数规模为7B(70亿)相对较小[5] 系统协同挑战 - 人形机器人需要云端与终端算力协同分配 构建完整的"云网端"部署架构[6] - 理想技术体系需实现大脑(完整参数模型) 小脑(轻量化实时模型)和肢体的深度协同[5][6] - 当前大语言模型研究与端侧智能研究呈现割裂状态 未能有效融合[6] 三大核心痛点 - 感知局限:传统机器人依赖预设规则 难以理解复杂多变的环境动态性[5][6] - 决策断层:多任务切换需人工干预重新编程或调整策略[5][6] - 泛化瓶颈:面对新任务或场景需重新进行大量训练和调试[5][6] 发展前景与方向 - 2025年被行业普遍视为人形机器人量产元年 从业者从怀疑转向确信其产业重要性[7] - 需通过生物仿生等原创性研究提出具身智能基础模型新范式[7] - 行业发展依赖机制 理念 政策及从业者创新力的综合推动[7]
质疑VLA模型、AI完全不够用?有从业者隔空回应宇树王兴兴
第一财经· 2025-08-11 19:33
人形机器人行业挑战 - 传统人形机器人面临感知局限、决策断层、泛化瓶颈三大核心挑战[1][5] - 行业当前最大问题是具身智能AI完全不够用,硬件虽不够好但已够用[1] - 机器人难以理解复杂多变环境动态性,多任务切换需人工干预重新编程[5] - 面对新任务或场景需重新进行大量训练和调试[5] VLA模型争议 - VLA模型被质疑为"相对傻瓜式架构",感知-认知-决策-执行闭环尚未闭合[1][2] - 目前最强通用机器人控制VLA模型π0无法有效运用全参数LLM且对数据要求更高[4] - 业界需要重构VLA模型,寻求新解决范式,探索云端与终端算力协同分配[2][4][6] - 理想VLA模型不应简单等同于"小脑",需与大语言模型有效融合[4] 技术发展方向 - 强化学习与模仿学习都需要进入Scaling law法则提升机器人泛化能力[2] - 业界需构建完整"云网一端"部署架构,实现大脑模型完整参数与小脑模型体积突破[4][6] - 前瞻性思考通过生物仿生提出原创具身智能基础模型[6] - 当前技术研究呈现割裂状态,大语言模型与端侧智能尚未有效融合[4] 行业前景 - 2023年被称作人形机器人量产元年,从业者从怀疑转向确信其将成为重要产业[6] - 行业发展关键取决于机制、理念、政策及从业者战斗力与创新力[6] - 需推动人形机器人成为规模化、可落地的产业方向[6]
自变量机器人王潜:具身智能大模型没法抄国外作业
36氪· 2025-05-29 09:05
公司概况 - 自变量机器人成立于2023年,创始人王潜为清华大学本硕、南加州大学博士,曾在美国创立量化基金公司,后因执着机器人事业回国创业 [5][6] - 公司成立不到一年半完成7轮融资,累计金额超10亿元,最新一轮获美团数亿元独家投资 [5] - 国内人形机器人融资梯队中,公司以超10亿元融资金额进入准一线阵营(第一梯队为宇树科技、智元机器人、银河通用,融资均超15亿元) [5] 技术路线 - 坚定采用"端到端统一VLA大模型"技术路线,研发节奏为每2-3个月更新一版模型 [7][13] - WALL-A模型已实现衣物处理、收纳整理等复杂精细操作,领先于仅能完成Pick&Place的竞品 [8] - 模型能力对标国际:与Physical Intelligence(PI)、Google Gemini robotics同步实现any-to-any多模态输出及思维链(COT)功能 [14][15] - 技术路线选择上,放弃Figure采用的两层模型架构,坚持单层端到端范式以追求更高天花板 [16][17] 商业化进展 - 当前商业化重心在服务业场景,已有本体产品实现销售但未大规模发布,计划年底至明年初完成POC验证 [27][29] - 拒绝科研教育/迎宾表演等"小场景",认为其市场规模有限且偏离通用智能目标 [10][31] - 质疑工厂场景价值:认为现有工厂任务过于简单,属于PR行为且不利于模型能力提升 [35][36] - 商业化时间表:预计1-2年内实现付费商业化,C端家庭服务机器人需3-5年 [21] 行业竞争格局 - 国内具身智能呈两极分化:朱啸虎等质疑商业化前景,但资本持续加注(2023年赛道融资超15亿元案例达3家) [5] - 中美技术差距:承认整体落后于PI、Google、特斯拉,但公司部分指标已实现国际对标甚至超越 [37][38] - 开源模式争议:认为具身智能领域开源难以复现(PI开源的π0模型跨本体适配效果不佳),软硬一体特性决定商业化必须闭源 [39][43][44] 研发战略 - 研发投入占比:三分之二支出集中于模型能力提升 [12] - 数据策略:自建高质量数据集为主,拒绝依赖低质量开源数据 [23] - 技术预判:类GPT-3水平具身模型有望1年内出现,行业进步速度将被低估 [20][22] 创始人观点 - 批判跟随策略:强调原创性研发,认为等待开源再模仿会导致团队丧失创造力 [41][42] - 定义商业化标准:必须依赖模型泛化能力突破,而非简单场景堆砌 [11][36] - 行业周期判断:波谷源于成果不足,公司目标成为引领技术突破的标杆 [25]