机器人基础模型 - 财报，业绩电话会，研报，新闻

机器人基础模型

搜索文档

广州日报· 2026-02-23 23:36

公司融资与估值 - 智平方于2026年2月23日完成B轮融资，融资规模超10亿元人民币，公司估值正式超过百亿，稳居中国具身智能企业第一梯队 [1] - 投资方包括百度战投、中车资本、森麒麟等特斯拉生态链企业，以及沄柏资本、国泰海通等头部基金 [1] - 公司在2025年半年内连续完成7轮数亿级融资后，再获5轮加注，一年内累计完成12轮融资 [2] 公司定位与团队背景 - 智平方成立于2023年，是一家全球领先的通用智能机器人企业，专注于用统一机器人形态搭载具身大模型，在不同场景中学习与完成任务 [1] - 公司由国家创新领军人物郭彦东博士创立，团队拥有5位斯坦福全球前2%科学家加盟，科学家密度高 [3] - 公司是行业稀缺的生产力型通用智能机器人研发、生产与服务提供商，聚焦颠覆性的生产力型通用智能机器人（非表演）品类 [3] - 创始团队具备顶级AI创新能力，并完整经历了多轮智能终端变革与大规模量产，积累了业内稀缺的硬件量产经验 [3] 核心技术：具身大模型GOVLA - 公司自创立便确定构建物理世界大模型的核心技术方向，原创研发全球首个全域全身VLA大模型GOVLA [5] - 2024年6月，公司发布并开源创业公司中首个VLA模型GOVLA 0.0，在模型规模仅为谷歌同类模型1/20的情况下，性能提升超过80% [5] - 2025年6月，公司推出快慢系统深度融合的最强开源模型GOVLA 0.5，成为业内首个“异构输入+异步频率”双系统VLA模型，在仿真与真实任务中全面超越当时主流模型，超越Pi0达30%，并以117.7 Hz的超高控制频率重新定义机器人性能 [5] - 公司自成立即使用千卡级算力集群，并构建自有训练加速体系，已研发出更强大的GOVLA 1.0版本 [7] - 公司践行“正反金字塔”数据观，在大型双臂机器人数据集RoboCOIN中，成为half-humanoid领域数据与本体数量最多的贡献者，贡献占比超35%，覆盖50余场景 [7] 硬件产品与量产能力 - 公司围绕GOVLA打造AlphaBot系列机器人，不到两年完成三次迭代，最新款AlphaBot 2采用轮式双臂结构，核心部件无故障运行时间超过5万小时，达到工业级可靠性标准 [8] - 2025年9月自建产线投产后迅速完成产能爬坡，当年12月实现单月百台级真实交付，目前产线已具备年产千台能力，并计划在2026年扩产至万台规模 [8] - 从整机研发、核心部件定制到结构件加工、组装验证的全链条均在体系内完成，确保了质量、成本与交付节奏的自主可控 [8] 商业应用与市场验证 - 公司是全球最早跑通“数据×商业”双闭环的生产力型通用智能机器人公司，产品已在多个领域实现规模部署 [8] - 工业柔性制造：深入汽车、生物科技及半导体面板显示等高端场景，执行分拣、转运、贴标等任务 [8] - 与全球第三大面板厂商惠科签订3年1000台订单，被摩根士坦利认定为该领域全球最大单一订单 [8] - 公共服务：在一线城市核心交通枢纽等复杂开放环境中运行，验证了机器人在高动态场景下的安全性与即时决策能力 [9] - 新零售：2025年底推出全球首个模块化具身智能服务空间“智魔方”，已在北京、深圳等多地常态化运营，机器人日均工作超10小时，制作数百杯咖啡与冰淇淋，全程自主零失误 [9] - 未来三年，公司计划落地1000个智魔方，开辟工业之外的新增量曲线 [9] 资金用途与战略方向 - 本轮融资将重点用于保持GOVLA具身大模型能力的最强领先，并驱动AlphaBot系列机器人产品迭代与产线扩容 [1] - 旨在进一步夯实公司在“模型×硬件×场景”三位一体体系上的领先优势 [1]

微软Rho-alpha模型能否把机器人真正带入物理智能的世界？

搜狐财经· 2026-01-30 00:14

文章核心观点 - 微软研究院推出首款机器人专属Rho-alpha模型，其核心创新在于将触觉感知纳入决策闭环，旨在实现从自然语言指令到机器人控制信号的端到端转化，推动机器人进入复杂真实的物理世界工作，这标志着机器人行业的技术竞争重心正从硬件本体向基础模型和操作系统层转移 [1][4][6][12] Rho-alpha模型的核心定义与目标 - 模型是微软首款专为机器人场景打造的模型，核心能力是将人类自然语言指令直接转化为机器人控制信号，以完成双手协同操作任务 [4] - 研发目标是打破机器人只能在高度可控环境内运行的限制，推动其进入复杂且充满不确定性的真实世界，摆脱固定脚本约束，依靠模型自主生成适配不同场景的动作 [6] - 微软将该技术路径命名为“Physical AI”，旨在让人工智能从数字世界延伸到物理世界，实现与真实环境的直接交互，发力点在于解决机器人“动手执行”的实际问题 [6] Rho-alpha模型的差异化优势 - 在主流视觉-语言-行动模型基础上，创新性地将触觉感知模块纳入核心决策环节，后续还计划引入力觉等更多感知模态，使机器人能根据物理接触反馈动态调整动作，不再单纯依赖视觉信息 [7] - 触觉与力觉的加入让机器人不仅能识别物体“是什么”，还能判断“能不能操作”以及“该用多大力度”，模仿人类操作中“手感”的决定性作用，成为少数真正面向“物理操作”的机器人模型 [8] - 模型从训练阶段就将触觉、视觉、语言和双臂控制技术融合共训，形成完整的感知-动作闭环系统，能根据接触过程中的力和力矩变化实时微调操作角度和力度，避免动作卡滞或损坏物体 [8] - 在官方演示中，UR5e双臂机器人借助该技术完成了精准插接任务，通过力觉、触觉传感信号捕捉阻力变化并调整动作策略，实现稳定顺畅的插入操作 [8] 模型的训练方案与学习能力 - 采用全新训练方案，将真实机器人演示数据、仿真任务数据和大规模视觉问答数据三者深度融合 [9] - 海量合成数据由运行在Azure云平台上的机器人仿真和强化学习流水线生成，再与商业数据集、开放数据集中的真实机器人数据整合使用，有效缓解了机器人领域长期存在的数据稀缺难题 [9] - 模型拥有强大的持续学习能力，支持在实际部署后通过人类反馈持续优化自身行为表现，人类操作者可借助3D输入设备等工具进行干预纠正，系统会将纠正反馈纳入后续学习过程 [9] 行业技术重心与竞争格局演变 - Rho-alpha已在双臂机器人和人形机器人平台上完成评估测试，标志着人形机器人的技术重心正从过去的硬件配置和控制算法层面，向作为“操作系统层”的模型发生根本性转移 [10][12] - 当前行业内形成三种主要技术路线：特斯拉走“硬件+数据闭环”路线，谷歌专注于“算法+顶级机器人本体”研发，微软则主打“基础模型+云+生态”的技术布局 [12] - Rho-alpha改变了机器人行业的竞争逻辑，从比拼谁能造出结构更复杂、性能更强大的机器人本体，转向思考谁能定义下一代机器人的基础模型 [12] - 随着谷歌、微软、特斯拉、OpenAI等科技巨头纷纷入局，机器人行业迈向全新发展阶段，构建基础模型体系的话语权成为竞争关键 [12]

机器人“大脑”60年进化史：基础模型五代进化与三大闭源流派

36氪· 2026-01-15 11:48

文章核心观点 - 2025年成为机器人基础模型的“元年”，以视觉-语言-动作模型为代表的新一代范式开始涌现，其核心在于将大语言模型的常识推理能力与机器人控制相结合[23][31][35] - 机器人基础模型的发展是60年技术积累的集大成者，融合了编程式机器人的精确控制、基于模型方法的环境感知、行为克隆的示范学习、强化学习的自我优化以及大语言模型的常识推理[35] - 当前机器人行业围绕如何实现“通用机器人”的路径，形成了全栈整合、垂直突破和生态平台三大主要流派，它们对“通用性”的实现有着不同的底层假设和赌注[41][55][70][79] - 尽管2025年各家公司展示了令人惊叹的技术进展和Demo，但大规模商业化落地仍面临挑战，处于“展示很精彩，落地还未知”的阶段[82] 机器人技术范式演进 - **第一代：编程式机器人**：始于1960年代，完全依赖预设代码执行固定动作，零容错和零灵活性，典型代表是1961年在通用汽车工厂投入使用的Unimate[6][8] - **第二代：基于SLAM的方法**：兴起于1990年代，核心是让机器人通过传感器感知环境并构建地图进行路径规划，在导航任务上成功，但在操作复杂任务上效率低下，例如2010年机器人叠一条毛巾平均需24分钟[9][11] - **第三代：行为克隆**：在2010年代中期出现，通过模仿人类演示数据来训练神经网络，实现了从数据中学习，但存在数据效率低和泛化性差的致命缺陷，例如训练抓取需要数十万次数据且难以跨机器人型号迁移[13][15] - **第四代：强化学习**：2010年代后期随AlphaGo成功而受关注，让机器人通过试错和奖励机制自主学习，但存在训练速度慢、成本高、难以获取物理常识的根本问题[16] - **第五代：VLA模型**：2020年代中期随大语言模型成熟而诞生，将视觉、语言和动作统一到一个端到端的神经网络中，能直接理解指令并利用大模型中的常识进行推理与规划，代表了当前的范式革命[17][18][19] 2025年成为机器人基础模型元年的关键因素 - **大语言模型“够用了”**：2024至2025年，OpenAI、Anthropic、Google等公司发布的模型在理解指令、规划任务和常识推理方面已足够成熟和稳定，为具身智能提供了良好基础[24][26] - **算力价格大幅下降**：随着GPU云服务商价格战和NVIDIA GPU大量铺货，算力强度增强而等效价格降低，初创公司已能负担数千张卡进行模型训练[27][30] - **硬件供应链成熟**：2024年人形机器人热潮带动资本涌入上游零部件领域，中国供应商在电机、减速器、传感器等部件上获得大额融资并扩产，降低了硬件成本和机器人开发门槛[31][33] 闭源模型机器人主要流派 - **全栈整合派**： - 代表公司为特斯拉Optimus和Figure AI，核心理念是机器人基础模型必须与硬件深度垂直整合才能发挥最大效果[41] - 特斯拉试图将其在FSD上积累的海量真实世界数据、端到端架构迁移至机器人，但2025年量产计划遇阻，组装1000多台后暂停生产并面临重新设计，且其使用人类视频训练模型的方法受限于机器手与人手之间的“物理差异”[43][45][46][47] - Figure AI在2024年初与OpenAI深度合作，2025年2月宣布分手并迅速推出自研的Helix模型，该模型采用“System 1, System 2”双系统架构，用单一神经网络控制上半身35个自由度，公司于2025年9月完成10亿美元C轮融资，估值飙升至390亿美元[49][50][52][54] - **垂直突破派**： - 代表公司为Dyna Robotics，核心理念是追求“从专精到泛化的涌现”，先让机器人在洗衣房、餐厅等垂直场景“打工”做到极致，积累高质量数据和元学习能力，再迁移至其他任务[55][57] - Dyna Robotics于2025年4月发布DYNA-1基础模型，其机器人在24小时内自主折叠700多张餐巾，成功率超过99.4%，吞吐量达人类速度的60%[55] - 该流派认为机器人基础模型的缩放定律与大语言模型不同，性能瓶颈更在于“数据质量”和“物理一致性”，而非单纯追求参数和数据量[60][62] - 其他玩家包括从通用模型切入的Skild AI，以及拥有海量垂直场景数据的亚马逊，后者在2025年7月宣布部署了第100万台专用机器人，并正在开发通用机器人基础模型[65][68][69] - **生态平台派**： - 代表参与者为NVIDIA、Google、OpenAI、Meta等，核心理念是通过控制工具链和生态标准来赢得市场，技术路线本身并非唯一决胜因素[70][72] - NVIDIA在2025年3月GTC大会上开源了GR00T N1模型，但旨在通过全套生态工具链实现生态锁定[72] - Google通过开源RT系列研究及开放数据集在学术界建立影响力，并推动Gemini AI成为通用控制平台[74] - OpenAI和Meta采取投资、招聘和内部研发并举的策略低调布局机器人平台，例如OpenAI投资了Physical Intelligence[74][77] 行业现状与未来展望 - **2025年现状**：各家公司技术展示精彩但落地规模有限，特斯拉Optimus量产遇阻，Figure AI估值虽达390亿美元但实际部署仅几十台，NVIDIA的GR00T N1实际应用情况尚不明确[82] - **商业化路径与时间线**：预计将率先在商用服务场景与人工协同完成任务，家用场景的进入可能早于预期，不需要完整的通用人工智能，可能从叠衣服等单一功能切入，时间线可能在1-2年左右[83][85] - **市场潜力**：人形机器人有望成为史上最庞大的产业之一，预测将是一个5万亿美元的市场，全世界将遍布十亿台机器人[35]

GEN-0：史上规模最庞大多元的具身真实世界操作数据集！

自动驾驶之心· 2025-11-11 08:00

文章核心观点 - GEN-0是一种新型具身基础模型，专为基于高保真原始物理交互进行多模态训练而构建，其能力随真实物理世界交互数据实现可预测的持续增长 [5][6][9] - 该模型在机器人领域首次观察到明确的扩展定律，证明模型性能随算力、数据和参数规模增长而持续提升 [6][14][15] - 模型在70亿参数规模出现智能“相变”临界点，突破了过去机器人领域模型规模和数据量的限制 [6][11][13] 模型架构与技术突破 - 架构继承视觉语言模型优势并实现突破，原生设计可捕捉人类级条件反射与物理常识 [5] - 核心特性“谐波推理”使模型接受同步思维与行动的无缝训练，在异步连续时序的感知与行动标记流之间建立谐波互锁 [5][6] - 架构原生支持不同机器人平台，已在6自由度、7自由度及16+自由度半人形机器人完成验证 [6] 规模化与扩展定律 - 在70亿参数临界点观察到相变，较小模型呈现固化态势，而更大模型持续提升，目前模型已扩展至100亿+参数规模 [6][11] - 模型展现出强扩展定律，更多预训练数据与算力持续且可预测地提升模型在多任务中的训后表现 [6][15] - 预训练数据规模与下游微调性能之间存在显著幂律关系，增加预训练数据能系统性地提升所有下游任务的模型性能 [15][16][18] 数据规模与演进 - 基于超27万小时真实世界异构操控数据进行预训练，该数据集正以每周1万小时的速度持续扩张且不断加速 [6][20] - 数据采集自全球数千个家庭、仓库及工作场所的多样化作业场景，由覆盖全球的硬件网络及数千台数据采集设备驱动 [20][22] - 正在构建史上规模最庞大、最多元的真实世界操作数据集，涵盖人类能设想的所有操作任务 [22]