具身智能模型
搜索文档
字节、红杉中国押注,自变量机器人再获10亿元融资
南方都市报· 2026-01-12 09:54
公司融资与股东背景 - 自变量机器人近期完成10亿元A++轮融资 投资方包括字节跳动、红杉中国、北京信息产业发展基金、深创投、南山战新投、锡创投等机构及地方平台 [1] - 公司已先后获得美团、阿里和字节跳动三家互联网大厂的押注 其中阿里云在2025年9月初的A+轮领投近10亿元 美团战投在2025年5月的A轮领投 [1] - 公司未披露A++轮融资后的估值情况 [2] 公司技术定位与核心能力 - 自变量是一家具身智能模型公司 其核心是研发物理世界的基础模型 让机器人具备实时处理非结构化、动态及随机任务的能力 [1] - 公司认为具身智能基础模型独立于大语言模型、多模态模型等虚拟世界基础模型 [1] - 在解决数据瓶颈问题上 公司大规模依赖真机强化学习 坚持数据质量优先于数据总量 以物理世界真实数据为主 [1] 公司技术研发与数据策略 - 公司自研了遥操、外骨骼、无本体等多种数据采集设备 并搭建了模型驱动的数据管线 通过数据生成、过滤、增强、标注等环节获取规模化高质量数据 [2] - 公司已下场自研机器人本体 并于2025年8月发布轮式双臂仿人形机器人“量子2号” [2] - 公司实现了机械臂、关节模组、动力驱动器、主控制器等核心零部件的全面自研与算法深度适配 促成了整机成本的大幅下降 [2] 行业竞争与资本动态 - 国内具身智能模型公司受到资本青睐 银河通用、千寻智能、它石智航等同类玩家此前也获得了数亿元乃至数十亿元的单轮次融资 [2] - 银河通用当前估值已达30亿美元(约211亿元人民币) 是目前估值最高的一家中国具身智能公司 [2]
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026
具身智能之心· 2025-12-22 09:22
文章核心观点 - 具身智能模型应被视为一个独立于、平行于语言模型和多模态模型的全新基础模型,是专门为物理世界构建的智能底座 [1][7][60] 物理世界与虚拟世界的本质差异 - 物理世界充满连续性、随机性、不完全可观测性以及大量与力、接触和时序强相关的过程,而虚拟世界(语言/多模态模型所面对)是高度可复现、低随机性的符号世界 [2][10] - 物理事件具有高度随机性,例如用相同的角度和力度推一个杯子,十次可能停在十个不同的地方,这在虚拟世界中几乎不会发生 [10][11][12] - 现有的以语言和视觉为中心的模型架构、训练方法和数据能力,难以精确刻画物理世界的高度随机性现象 [12][16] 现有技术范式的局限性与新模型必要性 - 沿用以语言和视觉为中心的建模范式存在结构性错位,语言和视觉并非描述动作和物理过程的理想工具 [3][16] - 语言只能描述长序列(如10秒以上)事件,难以描述精细操作(如炒菜)[16] - 图像精度优于语言,但仍面临工具使用、遮挡等问题,大量涉及力和接触的过程无法靠语言和图像描述 [18][19] - 因此需要“另起炉灶”,重新训练一个专门供物理世界使用的基础模型,而非仅在现有模型上做微调 [20] 模型架构与学习范式的转变 - 感知和决策层面需要转变思路,人类在物理世界中的学习方式(如Active Perception, Interactive Perception)与虚拟世界中的静态统计学习范式有根本不同 [24][27][28][29] - 物理世界学习通过带有时序、因果和空间信息的连续观察流,以及与环境的主动互动实现,这应是多模态模型未来的重要发展方向 [27][28][29] - 坚持静态、固定的数据学习方式,无法实现人类般高效、节省数据和算力的学习效果 [30] 具身智能基础模型的潜力与影响 - 以十年为周期看,具身智能基础模型有可能反过来吞噬现有多模态模型的生存空间 [12][31] - 构建统一的基础模型应是完全端到端的,这已成为行业共识 [12][32] - 需要设计专门考虑端侧部署和推理的模型架构,以解决推理速度等权衡问题,而非沿用旧架构 [33] - 具身智能模型应是一个集成了语言能力、世界模型能力、视频生成能力和三维重现能力的统一模型 [39][40] 数据与Scaling Law - 数据的Scaling Law在机器人领域被认为是最困难的事情之一 [46] - 现实世界的数据应是最主要的来源,训练应分阶段(预训练、后训练),并发现了第三个Scaling Law:在推理时通过思维链等方式拓展模型能力 [48] - 物理世界适合持续学习范式,即端侧实时更新数据,进行体验式学习,这本质优于集中式批次训练,但带来体系架构、系统和硬件上的新挑战 [51][52] 软硬一体与AI定义硬件 - 需要让AI定义硬件,而非先制造完美硬件再适配AI模型 [53] - 公司坚持软硬一体同步发展,已实现两款全自研轮式底盘人形机器人及高自由度灵巧手,并开始市场销售 [54] - 实现了跨本体泛化,例如从夹爪模型迁移到20个自由度(15个主动自由度)的灵巧手,仅需非常少量样本,表明模型已学会基础物理规律和动作模式 [36] - 在高度复杂任务上,实现了超过人类遥操作训练速度的1倍速实时控制,并维持高准确率 [33][34] - 公司自研的WALL-OSS是领先的开源物理世界基础模型,具备VLA模型控制机器人、良好泛化、智能跟随及构建长序列思维链解决复杂问题的能力 [41][44] 具身智能的宏观重要性 - 普遍观点低估了具身智能的发展和影响,认为语言、数学、代码等领域比具身智能有本质重要性,但此观点存在隐藏假设 [54] - 创造超越人类的AGI/ASI所需的一切资源(算力、芯片、电力、能源、数据)都来自物理世界 [54] - 当前物理世界未出现指数级增长的核心卡点是“人手的劳动”,几乎所有商品和服务都无法脱离这一步 [57][58] - 若具身智能实现,万事万物可遵循类似芯片摩尔定律的发展规律,从而带来更多资源以创造更聪明的ASI,走向真正的通用智能未来 [59]
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026
量子位· 2025-12-21 13:45
文章核心观点 - 具身智能模型应被视为一个独立于、平行于语言模型和多模态模型的全新基础模型,是专门为物理世界构建的智能底座,而非仅仅是现有模型的一个应用 [1][6][7][61] 对具身智能模型独立性的论证 - 物理世界与虚拟世界存在本质差异:物理世界充满连续性、随机性、不完全可观测性,以及大量与力、接触和时序强相关的过程,而虚拟世界是高度可复现、低随机性的符号世界 [2][10][12] - 现有以语言和视觉为中心的建模范式存在结构性错位:语言和视觉并非描述动作和物理过程的理想工具,语言难以描述精细操作(如10秒以下的事件),图像则面临工具使用、遮挡等局限,无法处理涉及力和接触的过程 [17][19][20] - 将具身智能视为独立基础模型将彻底改变模型架构、数据范式、推理方式乃至硬件形态的研发视角 [3][9][12] 模型架构与学习范式的变革 - 感知与决策方式需革新:人类在物理世界通过主动感知和交互感知进行学习,这与虚拟世界中基于静态图片的统计学习范式有根本不同,是多模态模型未来的重要发展方向 [28][29][30] - 需构建完全端到端的统一基础模型:该模型应整合视觉-语言-动作能力,并同时具备世界模型、空间智能和语言能力,而非让这些能力相互替代 [12][33][40][41] - 需专门设计以适应端侧部署和快速推理:当前架构在推理速度上的权衡是暂时的,根本解决方案是设计一个专为物理世界、考虑端侧推理的新模型 [33][34] 数据与Scaling Law的演进 - 现实世界数据是主要来源:训练需分阶段,包括预训练和后训练数据 [49] - 发现第三个Scaling Law:在后训练之后,可通过推理时的思维链等拓展方式进一步提升模型表现 [49] - 持续学习范式更优:物理世界中的机器人应能实时利用新数据进行体验式学习,这优于集中式批次训练,但对体系架构和硬件提出了新要求 [52][53] 硬件与商业化路径 - 必须让AI定义硬件:应软硬一体同步发展,而非先制造完美硬件再适配AI模型 [54] - 公司已实现软硬一体产品化:自主研发并开始销售轮式底盘人形机器人及高自由度灵巧手 [55] - 模型具备领先的泛化与执行能力:公司模型在跨本体泛化(如从夹爪迁移到20个自由度的灵巧手)和复杂任务执行速度上表现优异,速度快于人类遥操作 [34][35][37][38] 行业影响与长期愿景 - 具身智能可能反向吞噬多模态模型的生存空间:以十年为周期,物理世界基础模型的影响力可能超越现有虚拟世界模型 [12][32] - 具身智能是实现通用人工智能的关键:其发展能突破“人手劳动”的瓶颈,实现“机器制造机器”的指数增长,从而为AGI/ASI提供更多算力、芯片、电力和数据资源 [55][56][58][60] - 公司已推出开源模型:自研的WALL-OSS是领先的开源物理世界基础模型,具备视觉-语言-动作控制能力 [42]
8位具身智能顶流聊起“非共识”:数据、世界模型、花钱之道
36氪· 2025-11-24 09:00
行业资金需求与投入方向 - 加速进化创始人认为100亿元资金不足以推动具身智能发展,倾向于联合更多合作伙伴共同投入[1] - 智元机器人合伙人计划用100亿元构建全球最大的自我进化、自我闭环的数据飞轮[1][54] - 星海图联合创始人计划用资金构建最大的数据引擎,实现物理世界信息的全面数字化[55] 数据策略与瓶颈解决方案 - 招商局集团AI首席科学家强调真实物理世界数据的重要性,并主张以人自身作为本体采集数据作为成本最低的预训练方案[29][30] - 银河通用创始人认为在真实数据难以采集的场景下,合成数据将发挥重要作用[2][38] - 自变量创始人主张根据具体任务选取合适数据源,采用融合数据策略,互联网数据用于预训练,仿真数据用于导航规划,真实数据用于接触操作[2][46] 世界模型的技术定位 - 银河通用创始人认为世界模型所代表的预测能力是核心,但训练数据必须来自机器人自身,而非人类行为视频[4] - 智源研究院院长认为世界模型对具身智能有作用,但不一定是必须基座,需要基于时空状态进行预测[5] - 加速进化创始人关注世界模型的预测能力,希望模型能基于需求和环境输出未来100帧的动作[18][19] 模型架构发展路径 - 招商局集团AI首席科学家认为具身智能需要完全属于自己的架构,可能转向Vision First或Vision Action First模式,而非延续VLA范式[7] - 星海图联合创始人主张建立平行于大语言模型的基础模型,更可能是Large Action Model,并强调需要闭环模型而非开环的大语言模型[8][10] - 智元机器人合伙人认为最终解决方案将是融合系统,包含VLA、世界模型和强化学习等要素[11] 当前行业挑战与突破点 - 银河通用创始人指出人形机器人数量过少是制约Action First模型发展的关键瓶颈[16] - 智源研究院院长认为统一架构模型需要超大
【对话机器“人”】“机器人有大量可落地场景”
中国证券报· 2025-08-13 21:00
行业技术发展现状 - 2024年机器人行业处于技术打磨和体系打磨阶段 算法成熟度已获充分验证且体系化建设初步完成 为产业落地奠定基础 [1][7] - 具身智能模型目前仅具备单一场景任务执行能力 尚未实现融会贯通 [5] - 行业普遍面临数据不足问题 数据短缺是当前制约模型发展的关键因素 [5] 技术研发路径与突破 - 采用Real to Sim to Real虚实融合方法 通过1:9的真实数据与仿真数据比例构建模型 该方法已在移动导航、商超操作、工业分拣等多场景验证有效性 [6] - 灵巧手技术存在较大提升空间 需在拟人化尺寸下实现大负载和精细化感知 对空心杯电机驱动、结构设计和传感器集成提出更高要求 [6] - 硬件方面需权衡跑跳能力与上半身作业性能 若兼顾两者则需进一步提升下半身器件性能 [6] 应用场景落地进展 - 在浙江服装纺织工厂完成堆叠布料分离、模板机上下料等场景的概念验证 即将进入实际应用阶段 [1][2] - 实验室场景已实现化工、生物医药领域的试管分液、测试及清洗等自动化操作 [2] - 创新中心通过校企合作开发具实际应用价值的产品 结合下游企业场景实现技术快速落地 [4] 区域产业生态建设 - 浙江省凭借机器人及新能源汽车产业链完整布局 为具身智能机器人本体开发提供产业基础 [2] - 浙江人形机器人创新中心于2024年3月在宁波挂牌 获省市区三级政府支持 联合多家产业方共建 [3] - 创新中心聚焦高精度作业泛人形机器人开发 强调双臂与手部作业能力 下肢根据场景采用双足或轮式设计 [3] 未来发展趋势 - 具身智能模型预计需两到三年时间趋于成熟 未来有望出现通用人形机器人或通用具身智能模型 [1][6][7] - 汽车、手机等行业企业跨界加入人形机器人赛道 推动多技术融合创新 [7] - 研发采用需求导向的反向布局模式 基于现有技术规划发展路径 [7]
AI模型正在让机器人“钞能力”觉醒
36氪· 2025-08-04 08:26
行业投资与商业化进展 - 2025年上半年具身智能行业投资达91起,总额110.37亿元,超过2024年全年总量 [1] - 应用端成交额同比激增17倍,呈现爆发趋势 [1] - 机器人赛道进入规模化商业价值兑现期,核心驱动力是"数据采集-模型训练-商业转化"的技术变现闭环加速成型 [1] - 2050年全球人形机器人市场预计突破5万亿美元,规模是2024年全球前20大汽车OEM总收入(2.488万亿美元)的近两倍 [9] - 中国在服务机器人领域将率先形成集群效应,并保持5%-10%的年均增速 [9] 技术突破与智能化发展 - 基于Transformer架构的具身智能模型使机器人自然语言理解准确率提升至92.3%,接近人类水平 [3] - 深度强化学习系统通过千亿级参数规模神经网络训练,赋予机器人环境理解、语境识别、情感感知等多维度认知功能 [3] - 机器人实现从"程序驱动"向"认知驱动"转变,具备跨场景任务泛化执行能力 [3] - 模型具备自学习与自我纠正能力,可基于已有经验快速组合优化新任务策略,并实时监测偏差自主调整行为 [6] - 端侧大模型将关键计算能力下沉至本地设备,使机器人在网络不佳时也能快速决策和实时处理任务 [7] 数据支撑与产业生态 - 高质量、大规模数据集是机器人"人性"觉醒的关键,需要海量涵盖各类场景的细致数据 [4] - 数据标注需要专业人员耗时费力地进行,国内众多企业包括大型上市公司和传统行业企业正参与数据标注行业 [4] - 数据标注服务覆盖机械工业、教育、医疗、金融、文学、自动驾驶、音视频等多个领域,为人工智能和机器人研发企业提供定制化服务 [4] - 模型透明化与开源性加速迭代,如GR00T大模型80%训练数据来自AgiBot World并登陆国内开源平台 [6] - 开源模型汇聚全球开发者智慧,从不同角度改进创新,加速技术普惠 [6] 应用场景与市场格局 - 人形机器人最早且最大的价值应用场景是工业生产及军事领域 [9] - 由于成本因素,2050年预计仅有约10%的人形机器人进入家庭环境,绝大多数将应用于工业和商业领域 [9] - 传统汽车工业总收入在未来25年可能持续萎缩,而机器人产业呈现指数级增长 [9] - 中国具身智能产业化拐点已经到来,从技术验证到商业闭环的市场格局变迁正在发生 [9]
自变量机器人王潜:具身智能大模型没法抄国外作业
36氪· 2025-05-29 09:05
公司概况 - 自变量机器人成立于2023年,创始人王潜为清华大学本硕、南加州大学博士,曾在美国创立量化基金公司,后因执着机器人事业回国创业 [5][6] - 公司成立不到一年半完成7轮融资,累计金额超10亿元,最新一轮获美团数亿元独家投资 [5] - 国内人形机器人融资梯队中,公司以超10亿元融资金额进入准一线阵营(第一梯队为宇树科技、智元机器人、银河通用,融资均超15亿元) [5] 技术路线 - 坚定采用"端到端统一VLA大模型"技术路线,研发节奏为每2-3个月更新一版模型 [7][13] - WALL-A模型已实现衣物处理、收纳整理等复杂精细操作,领先于仅能完成Pick&Place的竞品 [8] - 模型能力对标国际:与Physical Intelligence(PI)、Google Gemini robotics同步实现any-to-any多模态输出及思维链(COT)功能 [14][15] - 技术路线选择上,放弃Figure采用的两层模型架构,坚持单层端到端范式以追求更高天花板 [16][17] 商业化进展 - 当前商业化重心在服务业场景,已有本体产品实现销售但未大规模发布,计划年底至明年初完成POC验证 [27][29] - 拒绝科研教育/迎宾表演等"小场景",认为其市场规模有限且偏离通用智能目标 [10][31] - 质疑工厂场景价值:认为现有工厂任务过于简单,属于PR行为且不利于模型能力提升 [35][36] - 商业化时间表:预计1-2年内实现付费商业化,C端家庭服务机器人需3-5年 [21] 行业竞争格局 - 国内具身智能呈两极分化:朱啸虎等质疑商业化前景,但资本持续加注(2023年赛道融资超15亿元案例达3家) [5] - 中美技术差距:承认整体落后于PI、Google、特斯拉,但公司部分指标已实现国际对标甚至超越 [37][38] - 开源模式争议:认为具身智能领域开源难以复现(PI开源的π0模型跨本体适配效果不佳),软硬一体特性决定商业化必须闭源 [39][43][44] 研发战略 - 研发投入占比:三分之二支出集中于模型能力提升 [12] - 数据策略:自建高质量数据集为主,拒绝依赖低质量开源数据 [23] - 技术预判:类GPT-3水平具身模型有望1年内出现,行业进步速度将被低估 [20][22] 创始人观点 - 批判跟随策略:强调原创性研发,认为等待开源再模仿会导致团队丧失创造力 [41][42] - 定义商业化标准:必须依赖模型泛化能力突破,而非简单场景堆砌 [11][36] - 行业周期判断:波谷源于成果不足,公司目标成为引领技术突破的标杆 [25]
启明创投周志峰:AI的性能和成本已达到临界点,AI应用将在今年爆发
IPO早知道· 2025-04-29 11:01
AI行业投资框架 - AI行业投资分为三个层次:基础设施层、模型层、应用层 [7] - 基础设施层包括工具链、数据软件、AI安全、训练推理加速技术以及AI芯片和云算力平台等硬件基础 [7] - 模型层公司现阶段通过底层技术创新实现差异化,最终都将转型为应用企业 [7] - 应用层企业将占据AI市场主体地位,预计99%的企业属于应用层,捕获70%-80%的行业价值 [7] AI技术发展阶段 - 2025年将成为AI应用全面落地的关键年份,性能与成本将达到临界点 [4][7][8] - 科技浪潮发展规律显示,底层基础技术成熟后应用才会爆发,AI技术已临近这一阶段 [8] - 过去半年AI模型性能取得突破性进展,最新模型智能水平接近人类天才级别 [10] - 成本优化与性能突破同等重要,行业已进入"普惠成本"时代 [10][11] 启明创投AI布局 - 已投资14家大语言模型、多模态模型、具身智能模型或端到端智驾模型的领军企业,数量在亚洲位居前列 [5] - 协助管理规模达100亿元的北京市人工智能产业投资基金 [6] - 在模型层已布局10余个具备模型开发与创新能力的公司,覆盖大语言模型、3D模型生成、语音生成等新兴领域 [11] - 应用层重点布局AI硬件、AI教育、AI医疗、企业级AI、AI内容平台、具身智能等细分领域 [11] AI商业化路径 - AI商业化将遵循与互联网相似的发展路径,从单一工具向平台性产品转型 [10] - AI技术不仅创造全新产品形态,也能在传统产品中创造巨大价值 [11] - AI应用将渐进式改变生活,而非突然颠覆 [11]