Workflow
视觉语言动作(VLA)模型
icon
搜索文档
谷歌拍了拍Figure说,“起来卷”
虎嗅· 2025-06-28 14:50
技术突破 - 谷歌Gemini Robotics On-Device模型实现机器人脱机工作,无需持续互联网连接[3] - 该模型是公司首个"视觉-语言-动作"模型,帮助机器人更快适应新任务和新环境[3] - 模型解决了灵巧操作、新任务微调和适应、基于本地运行的低延迟快速推理三大问题[5] - 在双臂Franka FR3机器人和Apptronik Apollo人形机器人上展示了通用指令执行能力[14][17] 性能表现 - 模型泛化能力略低于旗舰Gemini Robotics模型,但远超之前最好的离线模型[8] - 在分布式任务和复杂多步骤指令方面优于其他设备端替代方案[10] - 通过50到100次演示即可快速适应新任务,展示了强大的适应能力[12][14] - 能够处理以前未见过的物体和场景,完成折叠衣服等灵巧任务[14] 行业比较 - 与Figure的Helix模型不同,谷歌模型独立于数据网络运行,适合延迟敏感应用[3] - 模型提供了微调选择,而Helix使用一组神经网络权重学习所有行为[12] - 技术白皮书提出机器人应成为物理世界的解读者而非人类模仿者[19] 应用展示 - 机器人未经教授完成"扣篮"动作,展现快速适应新场景能力[1] - 在RSS2025大会上完成全球首个互动式现场展示[1] - 灵巧手可以拿起笔并相互配合拔掉笔盖[7] - 完成"放置蓝色砖块"、"拉开抽屉"等基于自然语言指令的任务[8]
3个月斩获两轮数亿融资,头部具身智能机器人创企迎技术、商业化双重突破!
Robot猎场备忘录· 2025-04-21 10:38
行业技术动态 - 2025年2月20日,Figure AI推出全球首个双系统架构VLA模型Helix,采用S1(快反应)和S2(慢思考)协同设计,专为人形机器人上半身高频灵巧控制优化 [2] - 2025年2月26日,Physical Intelligence发布分层交互式机器人系统Hi Robot,整合VLA模型π0实现高层VLM推理与低层VLA执行的两级架构 [4] - 2025年3月18日,英伟达开源GR00T N1模型,成为第三个采用双系统架构的通用人形推理基础模型 [4] - VLA模型成为具身智能主流技术方向,整合视觉编码器、语言编码器、多模态融合和动作生成器四大模块,突破传统独立处理感知-理解-执行的割裂问题 [7] 智平方核心突破 - 2025年4月17日发布全域全身VLA大模型Alpha Brain(GOVLA),包含空间交互基础模型+慢系统(System2逻辑推理)+快系统(System1实时动作控制),首次融合DeepSeek技术强化长程任务推理能力 [8][10] - 同步推出新一代仿生机器人AlphaBot 2,搭载Alpha Brain实现34+自由度全身控制,垂直工作范围0-240cm,单臂臂展700mm,续航6h+,适配汽车制造、半导体、生物科技等场景 [11][12] - 技术商业化领先:2024年RoboMamba模型泛化能力超越Google RT系列,成为NeurIPS 2024入选成果 [8] 公司背景与融资 - 创始团队为国内唯一全栈AI系统能力组合:CEO郭彦东(微软/小鹏/OPPO背景)+副总裁邱巍(西门子/驭势科技背景),核心成员来自微软、Momenta及清华/伯克利等顶尖机构 [14][15] - 2025年完成两轮数亿元融资(Pre-A轮达晨财智领投、Pre-A+轮敦鸿资产领投),累计融资额超5亿元 [19][21] - 商业化进展:2024年实现数千万确认收入,签约车企/高端制造/互联网巨头,2025年与吉利晶能微电子、华熙生物达成半导体/生物科技场景战略合作 [18][20] 行业趋势与竞争格局 - 具身智能赛道形成"车企/自动驾驶精英创业潮":智平方、它石智航(1.2亿美元天使轮)、星海图等具智驾背景公司2025年密集完成亿级融资 [21] - 技术路线共识:全栈自研成为竞争关键,软件算法(尤其是大模型通识理解与多级推理能力)决定长期竞争力,硬件需与软件协同迭代 [22] - 市场格局分化:非自研AI的本体公司面临被收购风险,同时具备大模型+本体能力的初创企业成为资本首选标的 [22]