Workflow
VLA模型
icon
搜索文档
Cocos系统:让你的VLA模型实现了更快的收敛速度和更高的成功率
具身智能之心· 2025-08-22 08:04
核心观点 - 扩散策略训练中存在损失崩塌问题,导致训练效率低下和策略性能下降 [3] - 提出Cocos方法,通过将源分布修改为依赖于生成条件的分布来解决损失崩塌问题 [3] - Cocos方法显著提高训练收敛速度和任务成功率,且与现有扩散策略架构兼容 [3] 技术原理 - 流匹配方法通过求解常微分方程将简单源分布转化为复杂目标分布 [5] - 条件分布流匹配的优化目标为$$\mathcal{L}_{\text{CPMc}}(\theta):=\mathbb{E}_{t,q(x_{0}),q(x_{1},c),p_{t}(x|x_{1},x_{0})}\left\|v_{\theta}(t,x,c)-u_{t}(x|x_{1},x_{0})\right\|^{2}$$ [5] - 损失崩塌发生时神经网络难以区分生成条件,优化目标退化为对边际动作分布的建模 [6] - 梯度差异上界为$$\left\|\nabla_{\theta}{\mathcal{L}}_{\mathrm{CFMc}}(\theta,c_{1})-\nabla_{\theta}{\mathcal{L}}_{\mathrm{CFMc}}(\theta,c_{2})\right\|\;\leq\;2\left(M+K D\right)\epsilon$$ [6] 方法实现 - Cocos的优化目标定义为$$\mathcal{L}_{\mathrm{Cocos}}(\theta):=\mathbb{E}_{t_{\tau/(x_{0}|c)},q(x_{1},c),p_{t}}\left\|v_{\theta}-u_{t}\right\|^{2}$$ [9] - 源分布采用$$q(x_{0}|c)=\mathcal{N}(x_{0};\alpha F_{\phi}(\mathcal{E}(c)),\beta^{2}I)$$形式 [9] - 实验使用DiT架构插入交叉注意力层融入视觉和语言信息 [9] - 视觉编码使用Dinov2,语言编码使用T5 [9] 实验结果 - LIBERO基准测试中Cocos达到94.8平均成功率,对比基线86.5提升8.3个百分点 [23] - MetaWorld任务中Cocos在faucet-open任务取得100%成功率,较基线84.0提升16个百分点 [16] - 现实世界xArm机械臂任务Cocos获得93.3%成功率,较基线67.3%提升26个百分点 [16] - SO100机械臂任务Cocos达到74.8%成功率,较基线59.5%提升15.3个百分点 [16] 案例研究 - LIBERO任务中Cocos策略成功区分多视角相机,非Cocos策略出现相机注意力崩塌 [18] - 腕部相机意外脱手时,Cocos策略仍能通过外部相机定位目标 [18] - 余弦相似度显示Cocos对所有视角相机的区分能力均高于非Cocos策略 [18] 源分布设计 - 标准差0.2时LIBERO平均成功率94.8%,0.1时降至77.5% [23] - VAE训练源分布效果与手动设计0.2标准差相当,达到93.8%成功率 [23] - 同时训练源分布和扩散策略需配合EMA更新机制以保持稳定性 [24]
理想张骁: 这些事一定会在i6上解决掉
理想TOP2· 2025-08-21 16:10
产品交付与供应链 - i8首批交付覆盖20多个城市,首批交付量约200台,预计9月底交付量将快速提升至超8000台挑战1万台 [4][6] - 供应链质量稳定性是产能爬坡的核心考量,需平衡爆产能与质量管控的关系 [6] - i8试驾车准备不足与交付速度慢是前期主要挑战,公司承诺在i6车型上解决这些问题 [1][21] 技术迭代与智能驾驶 - i8交付时已搭载VLA架构(拟人化高阶智驾),9月中旬将通过OTA推送语音控车功能(小李师傅) [11][12] - VLA模型在丁字路口、视野盲区、变道超车等场景的拟人化表现优于旧架构,但功能开发需兼顾AD Max存量用户同步更新 [12][14] - 算力卡投入可加速VLA进展,但需综合评估仿真测试需求(公司提及拥有5万张卡) [16][17] 产品设计与性能优化 - 21寸运动轮毂与20寸轮毂续航几乎一致,通过定制米其林轮胎花纹(LA标识)降低滚阻,轮毂罩风阻优化设计使侧面更平整 [28][29][31] - 轮毂尺寸对续航无本质影响,传统车型大轮毂通常导致续航减少20-30公里,公司通过风阻/滚阻标定消除差异 [31][32] 充电网络布局 - 新建高速充电站将全部配备5C桩,城市站标配4C桩,老旧站点翻新周期内可能优先服务理想车主 [2][32] - 充电桩功率分配采用智能调度策略,5C/4C指单桩峰值能力而非全站同时满负荷运行 [2] 公司战略与文化 - 管理层强调自我迭代能力,认为问题根源在于内部执行而非外部竞争,提出"除非自己犯错,无人能打败我们" [2][24] - 公司反思i8项目在服务端、产品价值交付端的不足,认为需回归用户体验核心 [19][25] - 高层管理风格兼具自信与务实,如张骁同时负责多城市交付并参与一线问题解决 [7][23]
行业深度 | 大模型重塑战局 智能驾驶商业化奇点已至【民生汽车 崔琰团队】
汽车琰究· 2025-08-21 09:55
智能驾驶行业核心观点 - 智能驾驶已从技术亮点演变为车企产品差异化关键因素和出行服务商业化核心支点,技术深度、迭代速度和落地规模将深刻影响未来竞争格局[2] - 大模型重构行业竞争格局,云车协同算力竞赛加剧,百亿参数级模型训练依赖云端超算集群支撑,车端芯片算力需同步升级[2] - 商业化落地进程提速,2024年10-20万元车型搭载高阶智驾功能占比仅5%,"智驾平权"趋势将驱动渗透率增长,Robotaxi或于2026年规模化落地,2030年市场规模达数千亿[3] - 技术路径向多模态认知驱动范式收敛,VLA架构推动智能驾驶从"统计模仿"向"因果认知"跃迁,2025年被视为"VLA上车元年"[41][51] 技术架构演进 算法迭代路径 - 早期模块化架构依赖"感知-决策-控制"分布式模块,受限于人工规则和结构化场景[13] - BEV+Transformer架构突破2D到3D转换难题,实现多传感器融合和全局场景感知,摆脱高精地图依赖[14] - BEV+Transformer+OCC架构通过体素化技术精确还原障碍物三维体积,显著提升动态障碍物识别能力[15] - 端到端架构实现感知决策一体化,代码量从30万行缩减至3千行,驾驶行为更接近人类直觉反应[23][29] - VLA模型整合视觉、语言和动作模态,通过思维链技术解决黑盒问题,实现决策透明化和场景泛化[33][34] 算力需求变化 - L2级算力需求100+TOPS,L3需500-1,000+TOPS,L5或超5,000TOPS,端到端架构使特斯拉算力需求从300TOPS跃升至3,000-5,000TOPS[52] - 车端芯片自研加速,小鹏图灵AI芯片单芯抵三颗Orin X,蔚来神玑NX9031实现1,000+TOPS算力[59][60] - 云端算力建设白热化,吉利星睿智算中心2.0达23.5EFLOPS,特斯拉Dojo超算中心2024年末算力达88.5EFLOPS[64][85] 商业化落地 市场渗透 - "智驾平权"推动高阶功能下探至10-20万元主力价格带,目前占比仅5%,将成为销量增长核心杠杆[3][11] - 激光雷达2024年装机量突破150万颗,同比增长245.4%,装配率跃升至6%,价格从数万元降至数千元[75] - 纯视觉方案成本优势显著,特斯拉8摄像头总成本约200美元,相当于单颗激光雷达价格[79] Robotaxi前景 - 预计2026年开始规模化落地,24小时运营和智能调度能力将驱动规模效应[3] - 每公里综合成本将在2026年后低于传统出租车,2030年市场规模达数千亿[3][11] - 特斯拉Robotaxi试点技术反哺FSD升级,参数规模扩大4.5倍,形成自动驾驶迭代闭环[86] 车企竞争格局 特斯拉领先优势 - 一体化多模态端到端架构实现3000公里人工干预间隔,复杂路口接管率较V12降低6倍[83] - 数据闭环实现周级迭代效率,4D自动标注替代500万小时人工作业,全球150万辆车构成数据采集网络[84] - Dojo超算中心采用D1芯片,训练效率较GPU集群高1.3倍,D2芯片性能将再提升10倍[85] 国内车企追赶 - 华为ADS3.0采用三网协同架构,本能安全网络实现200毫秒应急响应,决策速度提升3倍[90] - 小鹏XNGP+整合三大神经网络模块,强化学习后通过知识蒸馏保留90%核心能力[47][50] - 理想采用"蒸馏先行+强化兜底"策略,云端构建超10亿公里仿真里程优化模型[42]
理想VLA司机大模型新的36个QA
自动驾驶之心· 2025-08-17 00:04
VLA技术架构与部署 - VLA模型通过"3D局部空间+2D全局理解"实现多模态对齐 解决自动驾驶特有的3D空间理解难题 [3] - 公司自研底层算子与引擎 在Orin芯片上实现2.2B参数模型部署 为业界首个双系统VLM部署方案 [3] - 采用FP8/FP4量化技术优化计算精度 通过分层精细调优实现模型压缩与算力优化 [45][46] 模型设计方法论 - 从并联VLM架构升级为串联VLA架构 实现每一步计算的自主思考能力 [5] - 引入Diffusion模型生成轨迹 基于机器人领域技术验证及年初预研结果确认其可行性 [6][11] - 通过语言思考模块提升决策一致性 解决上一代模型在高速场景中的决策摇摆问题 [20] 感知能力升级 - 整合3D空间编码与全局语义理解 使模型具备距离判断能力(传统VLM仅支持2D输入) [7] - 采用前融合方案结合视觉与激光雷达数据 提升对小物体(如锥桶)的识别置信度 [27][57] - 90%训练数据来自真实场景 10%合成数据用于特殊场景(雪天/事故车)补充 [53] 渐进式技术路线 - 采用L2到L4渐进路径 通过无图方案实现全场景覆盖 与Robotaxi玩家依赖高精地图的方案形成差异 [9][10] - 已储备语音控车、地库漫游等能力 但需配合法规逐步释放 [25][33][38] - 通过世界模型仿真平台测试4000多万公里 使用动态场景库(数十万clips)避免过拟合 [53][54] 算力与模型优化 - 大模型在垂域场景可通过语言压缩技术减少算力需求 同等智力水平下推理性能年提升10倍 [16] - 采用8×0.4 MoE特殊架构优化芯片部署效率 相比开源模型(如千问)具备硬件适配优势 [30] - 通过模型蒸馏与数据配比优化 在参数量不变(如7B)情况下持续提升模型智力 [16] 数据与训练体系 - VLA标注体系与端到端方案完全不同 需对原有数据全部重刷标注 [32] - 强化学习需要推理卡与训练卡交替使用 公司今年显著增加推理卡投入 [13] - 基座模型团队负责通识知识训练(交规/驾驶基础)并提供多尺寸模型蒸馏 [30] 行业技术对比 - 特斯拉FSD V13未使用Language模型 其漫游能力依赖端到端架构而非VLA的寻路能力 [41][42] - 互联网公司开源模型(如千问)缺乏3D数据资产 难以具备物理空间理解能力 [31] - Waymo等Robotaxi玩家受限于高精地图 扩城速度远低于无图方案(如特斯拉奥斯汀覆盖超Waymo) [9] 功能实现与用户交互 - 语音控车简单指令可通过规则实现 但连续组合指令必须依赖语言模型保障扩展性 [55] - EID界面细化需消耗座舱芯片算力 当前仅渲染车辆/车道线等基础元素 [40] - 用户记忆功能实现千人千面需求 解决不同驾驶风格(如超车决策)的个性化适配 [25]
头部企业抢夺标准定义权,机器人“暗战”升级
第一财经· 2025-08-14 13:04
核心观点 - 机器人具备自主学习和失败后反复尝试的能力,这种数据驱动的闭环大模型是行业追逐的技术亮点[3][5][7] - 行业在具身智能大模型架构上存在分歧,包括统一模型直出和分层设计两种路径[9][10] - 企业正通过开源数据集、自研核心零部件等方式争夺行业标准定义权和生态主导权[14][15][16] - 模型架构的优劣将直接影响未来训练成本、算法效率和规模化落地能力[16] 技术发展现状 - 星海图发布的G0模型具备端到端双系统全身VLA能力,能在任务失败后自主尝试新解法[5] - 自变量采用统一模型直出架构WALL-A,可处理长序列任务但算力需求巨大[10] - 行业主流VLA模型定义宽泛,目前大部分模型都可归入视觉-语言-动作处理范畴[9] - 具身智能模型通过模仿学习和强化学习实现环境感知与动作调整能力[7] 商业策略 - 自变量短期目标聚焦商业服务和公共服务场景,如酒店和养老院[11] - 企业认为击穿单一标杆场景即可证明技术商业价值,撬动千亿级市场[12] - 星海图开源500小时Galaxea数据集,涵盖150种任务以吸引开发者生态[14] - 多家企业从单点技术向平台型公司转型,布局全产业链生态[15] 行业竞争焦点 - 算力消耗、延迟表现与落地场景成为技术路线选择的博弈关键[3][10] - 头部企业正争夺性能测评标准制定权和核心数据集主导权[14][16] - 模型架构差异直接影响数据需求量、算法流畅度和算力消耗[16] - 行业尚未形成技术共识,但快速迭代中架构优势将成核心竞争力[16]
【钛晨报】事关智能网联新能源汽车,两部门征求意见;腾讯控股:第二季度营收1845.0亿元,同比增长15%;央行7月重要金融数据一览:今年M1-M2“剪刀...
钛媒体APP· 2025-08-14 07:40
智能网联新能源汽车监管政策 - 市场监管总局与工信部联合发布征求意见稿,要求企业加强智能网联新能源汽车缺陷调查与召回管理,需在车辆App、车载系统及用户手册中显著显示驾驶辅助系统的安全提示和使用说明 [2] - 企业需开发安全优先的驾驶员监测功能,在驾驶员脱手、睡眠等情况下采取语音警告、方向盘震动、限速、靠边停车等措施,并禁止主动关闭监测功能 [2] - 强化生产一致性监管,要求企业完整填报组合驾驶辅助系统、储能装置等关键信息,未经备案不得开展OTA升级活动,禁止通过OTA隐瞒缺陷 [3] - 企业需真实宣传驾驶自动化等级和系统能力,禁止暗示具备自动驾驶功能或夸大驾驶性能,防止误导消费者 [3] - 企业需及时报告组合驾驶辅助系统使用期间发生的安全事件和碰撞事故 [4] 企业动态 国内公司 - 腾讯控股第二季度营收1845亿元(同比增长15%),净利润556.3亿元(同比增长17%),经营利润(Non-IFRS)692.5亿元(同比增长18%),受益于AI驱动 [6] - 深度求索(DeepSeek)下一代大模型DeepSeek-R2在8月内无发布计划,此前市场传闻不实 [6] - 中国平安、中国人寿、中国人保已停发月保费收入数据,转向更注重价值指标 [6] - 东风日产7月销量52,655台(同比增长19.4%),日产品牌销量51,005台(同比增长27.5%) [7] - 宁德时代2025年中期分红方案为每10股派10.07元,实际派发44.11亿元,股权登记日为8月19日 [8] - 恒大物业清盘人聘请瑞银及中信证券寻找买家,恒大已变现20亿港元非核心资产(占2022年总资产不足1%) [8] 国外企业 - 马斯克指控苹果应用商店偏袒OpenAI,苹果否认并强调公平原则 [6][7] - 软银计划发行1000亿日元次级债券(期限35年,附5年赎回权)推动AI发展,资金用于赎回明年到期的混合债券 [7] - 特斯拉奥斯汀Robotaxi服务将于9月向公众开放,此前已在6月启动小范围运营 [7] 行业数据与趋势 - 7月M2同比增长8.8%(环比上涨0.5个百分点),M1同比增长5.6%(环比上涨1个百分点),M1-M2剪刀差收窄至3.2个百分点,显示资金活化程度提升 [9] - 8月1-10日全国乘用车零售45.2万辆(同比下降4%,环比增长6%),新能源车零售26.2万辆(同比增长6%,环比增长6%),渗透率达57.9% [9] - IEA将2025年全球石油供应增长预测从210万桶/日上调至250万桶/日,需求增长预测从70.4万桶/日下调至68.5万桶/日 [9] 政策与金融 - 财政部表示1%贴息比例可带动100元贷款资金用于消费或服务业供给 [8] - 金融监管总局将个人消费贷款贴息政策执行情况纳入日常监管 [8] - 商务部对欧盟两家金融机构采取反制措施,禁止境内组织与其交易 [9]
WRC观察:操作失误不新奇、更多厂商追求软硬一体、消费级机器狗上牌桌
财经网· 2025-08-14 00:29
行业动态 - WRC大会规模显著扩大,参展企业达200+,人形机器人整机厂商50+,展品1500+,全球新品100+款,人流量体感翻倍[1] - 具身智能模型成为讨论焦点,行业专家指出当前VLA路线存在"傻瓜式架构"问题,模型架构不够统一是核心瓶颈[1][2] - 机器人产品形态快速进化,从Demo阶段到实际"上岗",但落地场景仍集中在搬运、服务、表演等雷同岗位[2] - 四足机器狗在消费级市场取得突破,多款产品售价下探至2-4万元区间,功能涵盖陪伴、搬运、娱乐等[2][12][13][14] - 行业呈现明显同质化竞争,厂商通过外观设计、功能差异化寻求突破[7][8][9] 技术进展 - 宇树科技与Reborn AGI合作部署Roboverse框架,将机器人策略训练速度提升30倍,共同探索零售、工业自动化等场景[3] - 自变量机器人推出轮式双臂仿人形机器人"量子2号"和自研五指灵巧手,展示清洁收纳、分拣快递等多场景任务执行能力[3][4][5] - 星动纪元L7机器人具备400·m峰值扭矩与25rad/s峰值转速,55个自由度实现360度旋转跳等高难度动作[6] - 数字华夏升级PAAS平台,提供运动控制及交互接口,加速机器人行业落地[10][11] - 汉王科技开辟"嗅觉"技术路线,研发可识别毒品、炸药的电子鼻系统,补足具身智能五感[11][12] 产品创新 - 傅利叶GR-3采用莫兰迪暖调配色与软包覆材质,55个自由度实现拟人化动作,配备"能听、会看、会感受"的交流系统[1][8][9] - 数字华夏夏澜机器人升级7大类22种表情,新增电子皮肤感知温度与力度,星行侠实现本体与轮式双形态切换[10] - 维他动力"大头大头"采用全新Agent架构,支持语音手势控制,续航6小时以上,可加装机械臂等外设[13] - 魔法原子MagicDog售价2.48万元,主打娱乐互动功能,支持后空翻等趣味动作和自主避障[14] - 乐享科技WAWA具备20-30kg搬运能力,集成移动音响、电源等功能,售价3.59万元[2] 商业化探索 - 人形机器人商业化处于探索期,GR-3聚焦科研教育、导览咨询、效率赋能及医疗康养四大领域[9] - 桥介数物打造通用机器人动作开发平台,服务16家机器人厂商,商业模式转向License+服务费+订阅制[11] - 消费级机器人价格下探趋势明显,宇树、松延等人形机器人价格已低于4万元[2] - 陪伴机器人需攻克"聪明度"积累、情绪识别、任务执行等难点才能形成生活刚需[10] - 行业投资环境偏冷,具身智能融资总量和估值低于自动驾驶领域,但长期发展潜力被看好[5]
热爆了!中国机器人企业近100万家、融资超240亿,但仍有三大具身智能“非共识”争论
钛媒体APP· 2025-08-13 07:25
行业规模与增长 - 中国现存机器人相关企业达95.8万家 其中2024年注册量19.32万家 同比增长4.59% 2025年前7个月注册量15.28万家 同比增长43.81% [2] - 华东地区机器人企业占全国39.64% 人形机器人整机平台超160家 占全球50%以上 核心零部件供应链企业逾600家 [2] - 2025年1-7月具身智能和机器人领域投资事件超200起 融资总额超240亿元 预计2025年中国人形机器人市场规模超82亿元 占全球50%以上 [4] - 花旗预测2050年全球人形机器人市场规模达7万亿美元(约50万亿元人民币) 全球人形机器人数量近6.5亿台 其中超50%来自中国市场 [4] 技术路线争议 - 行业存在VLA模型与世界模型的技术路径分歧 VLA模型通过视觉-语言-动作多模态框架实现端到端闭环 但当前性能尚未达到理想状态 [6][8] - 宇树科技CEO王兴兴认为VLA模型存在泛用性不足问题 训练新动作需从头开始 且强化学习的Scaling Law尚未出现 [6][8] - 世界模型路线(如视频生成模型)可能更快收敛 但存在GPU消耗大、精度要求过高等问题 谷歌DeepMind的Genie3模型展现物理对齐潜力 [8][9] - 星动纪元陈建宇认为世界模型是VLA技术的一种路径 下一代VLA模型需融合语言交互、视觉感知和物理世界操作能力 [9][10] - 国家创新中心江磊指出全参数模型尚未适用 需通过云端与终端算力协同构建"云网一端"架构 [14][15] 数据与模型发展瓶颈 - 王兴兴强调行业过度关注数据而忽视模型架构 当前模型统一性和泛用性不足 具身智能的"ChatGPT时刻"预计在1-5年内实现 [19][22] - 陈建宇认为模型优先级高于数据 需提升数据利用效率 当前工业场景机器人效率达人类70% 预计明年达90% [21] - 自变量机器人CEO王潜指出数据质量控制困难 端到端架构是突破性能上限的关键 需3-5年达到ChatGPT水平 [22][24] - 江磊强调中国拥有全球最大机器人数据集和最多模型从业者 制造业与数据优势是重大历史机遇 [24] 真机数据与合成数据应用 - 超90%企业倾向真机数据训练 仅银河通用、跨维智能等少数企业坚持合成数据路线 [26] - 银河通用99%训练数据为合成数据 通过自研引擎生成百亿级抓取和柔性操作数据集 真实数据仅占1% [26] - 跨维智能自研DexVerse引擎构建仿真到现实的端到端闭环 彻底颠覆传统真实数据采集模式 [27] - 星海图赵行强调真机数据是打破能力天花板的关键 需在真实环境中采集数据 [29] - 卢策吾指出复杂操作(如擦桌子)更依赖真实数据 比例应由模型自动计算而非人为决定 [29] 商业化与应用场景 - 行业分歧在于机器人应侧重娱乐表演(如跳舞)还是实用场景(如进厂打工、家庭服务) [30][32] - 宇树科技终极目标是工业与家务场景 现阶段通过娱乐展示运动能力 [32] - 王兴兴预测行业处于"ChatGPT时刻"前夜 未来2-5年需解决端到端模型、低成本硬件和算力问题 [33] - 王鹤预计人形机器人每三年产值乘10 未来十年市场规模超1000亿元 二十年后达万亿级 [33] - 行业将进入淘汰赛阶段 分析称80%企业可能无法跨越量产门槛 [33]
2025世界机器人大会闭幕 四大趋势勾勒机器人产业新图景
深圳商报· 2025-08-13 06:52
行业趋势 - 机器人产业正经历从技术展示向商业落地的深刻转型 强调产品实用性、场景贴近性和成本可控性 [1] - 展会规模显著扩大 200多家企业展出1500多件产品 新品发布数量达100款 较去年增长近100% [2] - 核心零部件国产替代加速 为行业奠定坚实基础 新能源汽车产业链技术(电机/电控/电池)正快速复用至机器人领域 [2] 产品创新 - 奥比中光推出行业首款多模式3D激光雷达Pulsar ME450及耐高温双目相机Gemini 345Lg 突破户外适应性及扫描模式限制 [2] - 速腾聚创推出融合色彩/深度/运动信息的Active Camera 解决传统3D视觉"看不清/看不准/反应慢"痛点 [2] - VLA(视觉-语言-动作)模型成为技术热点 实现从环境感知到任务执行的闭环 银河通用GroceryVLA实现动态商超环境全自主商品抓取 [6] 应用场景突破 - 越疆DOBOT Atom Ⅱ展示毫米级分拣、重量感知及双手协同烹饪能力 [3] - 优必选Walker S2实现15公斤负载搬运与3分钟自主换电 支持全天候作业 [3] - 众擎T800重载人形机器人可在高动态场景稳定作业 宇树G1通过格斗表演验证动态平衡与快速恢复能力 [3] 价格策略 - 人形机器人价格大幅下探 宇树R1起售价3.99万元 优理奇定价8.8万元 众擎SA02陪伴型售价3.85万元 [4] - 低价策略旨在吸引开发者生态建设 非全面商用准备 当前AI模型泛用性不足仍需数年打磨 [4] - 性价比竞争核心是提升功能价值 需兼顾情绪互动与实际任务协助能力 [5] 技术挑战 - VLA模型需与感知、运控、模型量化模块深度结合 才能突破物理世界落地的"最后一公里" [6] - 智平方GOVLA模型实现从单臂操作到全身协同的跨越 支持工业分拣与巡检混合任务 [6] - 人形机器人从演示到实际产线应用仍需数年生态培育 重点突破运动控制与环境适应性 [3]
聊模型的王兴兴
36氪· 2025-08-12 16:05
公司战略与技术路线 - 公司创始人打破外界对其仅专注机器人本体的刻板印象,强调模型、算法和数据的重要性 [1] - 公司对当前行业热门的VLA路线持怀疑态度,认为现存数据量不足且模型架构不够好 [1] - 公司模型团队规模不算小,但相比AI大厂较少,并认为创新不一定依赖资源多少 [2] - 公司在VLA模型上尝试结合AI训练,但更倾向于视频驱动的技术路线 [2][3] - 公司去年已尝试视频生成模型驱动机器人完成任务,认为视频路线比VLA发展更快 [3] 行业趋势与算力需求 - 公司判断未来机器人领域需搭建低成本、大规模、分布式的算力集群 [4] - 公司认为工厂内分布式服务器集群可解决机器人通讯延迟问题 [4] - 公司预测机器人的ChatGPT时刻最快2-3年实现,最慢3-5年,具身智能浪潮不超过10年 [7] 产品定位与市场落地 - 公司机器人目前以表演为主,因现阶段进工厂或家庭干活不现实 [5][6] - 公司内部仍重点研究机器人干活场景,但对外宣传较少因AI模型挑战大 [7] - 公司希望机器人具备通用型、多功能能力,而非单一功能 [7] - 公司设想机器人的ChatGPT时刻为随机吩咐任务均可完成的临界点 [8]