强化学习
搜索文档
专访中科第五纪黄岩:在具身智能的狂热中,做一位技术实干家
机器之心· 2026-03-27 12:09
行业概况与融资热度 - 2026年春季,具身智能赛道迎来狂热浪潮,短短两个月内实现全行业近150亿元融资 [1] 公司核心人物与背景 - 中科第五纪青年首席科学家黄岩,是中科院自动化所研究员与博士生导师,是具身智能全栈技术的代表人物,技术背景覆盖多模态感认知、具身世界模型与强化学习 [2] - 黄岩及其团队的技术探索从真实场景痛点出发,进行全栈式架构重构,旨在解决行业数据利用效率瓶颈 [3] 技术发展路径与前瞻性 - 黄岩在2013年深度学习兴起时,前瞻性地选择了结合视觉与语言的跨界冷门路线,为其后进军具身智能埋下伏笔 [5][6] - 2019年,黄岩团队通过强化学习增强视觉-语言模型的认知机制,在语言驱动的视频行为定位任务上取得国际领先精度,执行效率提升7倍,相关成果入选CVPR Oral论文(前3%) [6] - 团队将强化学习基因延续至多模态大模型时代,推出MM-RLHF成果,系统性将强化学习技术扩展到全方位人类偏好对齐,标志着大模型从能力构建迈向价值对齐 [8] 核心技术与架构创新 - 面对行业普遍试图通过暴力堆叠算力和数据(Scaling Law)催熟具身大脑的路径,黄岩团队持冷静审视态度,选择聚焦真实工业场景,解决样本量少、可靠性低等核心产业痛点 [11][12][13] - 公司基于对数据瓶颈的预判,联合中科院自动化所推出了行业首个超少样本大模型FAM系列,旨在解决工业现场数据匮乏难题 [14] - FAM模型的核心创新在于架构重构,通过将模型中间层从一维特征拉高到三维热力图,实现空间结构信息的无损传递,从而摆脱对庞大数据量的依赖 [16][19] - 该架构赋予机器人“既见森林,又见树木”的认知能力,既能进行全局空间结构建模,又能通过局部注意力机制精准锁定关键操作点 [19][21] - 在真实工业落地中,FAM模型展现出强悍的小样本学习能力,面对新任务仅需3到5条真机演示数据即可完成高可靠性部署,基础任务成功率接近97% [22] - 在基准测试中,其前代模型BridgeVLA在多项任务上平均成功率高达96.9%,显著高于其他对比方法 [23] 安全与世界模型 - 为确保工业场景下的操作安全,公司引入了世界模型技术,推出BridgeV2W世界模型,利用其预见未来的能力让机器人产生更准确、安全的行为 [26] - BridgeV2W通过引入“本体掩码”设计,将机器人的抽象坐标动作实时渲染成二维图像剪影,让预训练的视频大模型能理解动作意图,从而打通视频生成与具身世界模型的桥梁 [26][28] - 该模型在“未见视角”和“未见场景”测试中表现出优秀的视角鲁棒性和泛化能力 [30] 强化学习与推理优化 - 为进一步提升泛化能力并降低交付成本,团队开展了具身强化学习后训练,完成了名为E-TTS的“具身测试时拓展”工作 [31] - E-TTS框架通过推理与动作联合扩展、历史感知的闭环验证、自适应在线选择策略三大机制,提升推理质量对动作的决定性影响 [32] - 该框架无需更新模型权重或收集额外专家数据,极大地降低了落地门槛,并证明在机器人领域,在推理时引入“慢思考”机制比单纯扩大模型规模或数据集更有效 [32] 数据利用与认知模拟 - 团队技术创新的深层驱动力是试图在机器系统中复现人类认知机制,如注意、记忆、推理、决策等 [35][37] - 为激活互联网海量无标注人类操作视频数据,公司提出了EC-Flow流预测框架,让机器人能够“看视频自学” [38][39][41] - EC-Flow通过预测视频中机械臂关键点的运动轨迹,再结合机器人本体配置文件解算出精确行为,在面临高难度任务时,其成功率较当时最佳方案分别提升62%和45% [43] - 在Meta-World基准测试和真实世界操作任务中,EC-Flow均表现出显著优势 [44][45] - 公司还研发了一键生成多视角数据的技术,基于单视角演示数据自动生成多角度高保真训练数据,使用该数据训练后,模型在已知视角和全新视角下的任务成功率最高分别提升18.3%和25.8% [47] 商业化进展与公司实力 - 2026年,行业投资风向转向务实,更看重机器人在真实场景中创造复购率的能力 [52] - 中科第五纪在2026年初一个月内接连完成规模达数亿元的Pre-A及Pre-A+轮融资,获得市场认可 [52] - 公司核心研发团队来自中科院自动化所和清华大学,拥有十余年技术积累,是国内最早投入多模态研发的先驱之一 [53] - 团队在学术与工程上成果丰硕,包括2013年发表首篇视觉-语言理解ICCV论文,2016年将注意力机制引入多模态匹配达到国际领先,2019年投入VLN模型研发并于2023年全球率先实现真机部署 [53] - 公司在多项国际机器人赛事中夺冠,展现了硬核的集体作战能力 [55] - 公司构建了从底层架构到软硬协同的完整交付能力,直接向客户交付具身大脑和机器人 [57] - 硬件方面,公司推出了自研轻量化轮式具身机器人,身高187厘米,具备28个自由度,手臂具备亚毫米级作业能力 [57] - 公司以具身大脑供应商身份与多家知名大型央企展开合作,通过提供统一模型大脑赋能各式硬件,利用规模化出货反哺数据体系 [59] 技术理念总结 - 公司的技术底气源于13年的技术蛰伏,其核心理念是反对盲目算力堆叠,强调通过对底层认知的敬畏和极致的数据利用率,让具身智能与工业需求完美结合 [61][62]
中国“原生”NEO Lab攻坚世界模型,高瓴、北大系基金联投超千万美元
暗涌Waves· 2026-03-26 08:58
文章核心观点 - 世界模型被视为通用人工智能(AGI)的关键拼图,全球科技巨头和资本市场已开始重点布局,该领域可能正处在融资爆发的前夜 [3][4] - 中国创业公司「逆矩阵科技」完成超千万美元首轮融资,其核心特点是本土化、年轻化及深厚的学术背景,旨在通过结合强化学习与世界模型,构建能够理解并预测物理规律的通用世界模型,代表了中国在底层AI范式创新上寻求突破的尝试 [3][11][16][17] 行业趋势与资本动态 - 世界模型的研发在全球范围内仍处于技术路线的“混沌期”,尚未形成统一范式,主要团队在“重塑虚拟世界”和“走向物理世界”之间有不同的侧重 [6] - 一种名为“NEO Lab”的新型创业形态在海外崛起,由顶尖高校或实验室的精英学者与年轻天才主导,成为资本最愿意押注的故事,其核心逻辑是押注最聪明的大脑率先突破底层科学临界点,以捕获下一代AI范式 [6][7][8] - 全球资本市场对世界模型展开积极布局,例如李飞飞创立的World Labs完成了10亿美元新融资,估值直逼50亿美元;LeCun领衔的AMI Labs官宣了10.3亿美元的“欧洲有史以来最大的种子轮” [3] - 国内一级市场因经历过大型语言模型公司的爆发式增长,产生了“害怕错过下一个百亿级标的”的焦虑,对世界模型创业团队的关注度正在上升 [3] 公司「逆矩阵科技」概况 - 公司完成超千万美元首轮融资,投资方为高瓴创投和燕缘创投,高鹄资本担任独家财务顾问 [2][3] - 公司核心创始人是1998年出生的吉嘉铭(北京大学人工智能研究院博士生)和2004年出生的陈博远(北京大学元培学院人工智能方向大四本科生),团队具有鲜明的本土、年轻及学术底色 [2][11][12] - 公司计划在2026年内发布旗舰模型,其核心目标不同于仅追求视觉逼真度的主流世界模型,而是让模型真正“理解”物理规律,并能响应动作指令做出物理正确的预测 [3][16] - 公司团队已汇聚30余名北大本硕博顶尖人才和大厂的头部算法人才,成员背景涵盖国际学科竞赛金牌得主、华为昇腾开发者代表、省级高考状元等 [13] 创始团队背景与实力 - 联合创始人吉嘉铭是北京大学人工智能研究院博士生,学术成果显著:已发表人工智能顶会论文30余篇,代表论文以第一作者获得ACL2025最佳论文;谷歌学术总引用达5600余次;GitHub开源项目累计获星超3.2万,模型下载量突破500万次;同时是苹果学者(Apple Scholar,2025年全球遴选,中国大陆仅2位)、首届腾讯青云奖学金、蚂蚁Intech奖学金(全球共10名)获得者 [12] - 联合创始人陈博远是北京大学元培学院人工智能方向大四本科生,综合排名第一,学术产出突出:大一发表NeurIPS2023,大三以第一作者发表NeurIPS2025亮点论文(全球前2.6%),代表论文获NeurIPS Oral(接受率仅0.35%),谷歌学术引用超2000次 [12] - 两位创始人均为北京大学2025学年年度人物(每届仅遴选10位),其中吉嘉铭是北大人工智能研究院与智能学院两院历史上首位获此荣誉者,陈博远是2025年获奖者中唯一的人工智能方向本科生 [13] 技术路径与战略愿景 - 公司选择将强化学习与世界模型相结合,认为下一个AI范式的核心将从静态生成转向交互式的物理世界预测(Next Physical State Prediction) [16] - 公司旗舰模型旨在应用于工业场景(如预测传送带速度变化的影响、机械臂碰撞风险)和游戏场景(作为“学到的物理引擎”),使模型能够根据动作输入推演出物理正确的响应,而不仅是被动生成逼真视频 [16] - 公司的长远终极目标是构建一个“能够在任意物理场景中进行因果推理与反事实预测”的通用世界模型,为具身智能、工业严肃场景、开放世界游戏、科学仿真等领域提供物理世界的“大脑” [17] 投资方观点 - 高瓴创投认为世界模型是超越语言建模、通往通用智能的必经之路,看好公司在定义下一代AI范式上的底层原创力及极高的人才密度,期待其完成真正的技术颠覆 [17] - 燕缘创投认为世界模型要解决的是物理世界基础模型问题,是实现物理世界终极智能的数字底座,并强调构建世界模型是一场科学范式的革命,其底层科研和技术能力的源头在高校,坚信公司能代表北大攻克这一难题 [17]
「华舟魔」三强之一,加速迈向物理AI
雷峰网· 2026-03-25 18:05
公司战略与融资 - 轻舟智航于3月23日完成D轮新一轮1亿美元融资,投资方包括某国内头部主机厂、宁波宁海兴泰合基金、梁溪科创产业母基金(博华资本管理)、华德科创及某头部汽车电子零部件公司等产业与财务投资方 [2] - 获得融资后,公司将加大世界模型与强化学习等前沿物理AI技术研发,并加强组织人才建设 [3] - 公司战略重心已大幅转向L4自动驾驶及通用物理AI,将已搭载其辅助驾驶系统的100万台智能汽车视为宝贵的真实训练场 [11] 技术路线:物理AI与自动驾驶 - 公司将物理AI视为未来5-10年的最大机遇,并认为自动驾驶是通向物理AI的最佳入口 [5] - 自动驾驶作为物理AI的最佳入口,其优势在于拥有充分的结构化数据,比通用机器人领域更有机会率先突破 [7] - 公司提出“世界模型+强化学习”是解决自动驾驶演进难题的核心路径,世界模型可模拟数百万种长尾场景,强化学习则持续优化AI决策路径,使系统具备主动思考和应对未知的能力 [9][10] - 行业普遍认同此技术方向,小鹏、蔚来、极氪等公司均在结合强化学习与世界模型开发相关功能 [10] 量产规模与市场地位 - 公司辅助驾驶系统搭载量已突破100万辆,与华为、Momenta共同构成中国智驾行业量产第一梯队“华舟魔” [13] - 搭载公司辅助驾驶系统的已上市车型有近30款,覆盖理想、奇瑞等近10家主机厂,并计划在2026年新增超过50款量产车型,且绝大部分支持城市NOA [13] - 公司规模快速扩张的关键在于2025年4月宣布单颗地平线征程6M芯片(算力128TOPS)即可实现城市NOA,并于2026年1月在理想L系列上通过OTA推送,成为行业首个将其量产的公司 [13][14] - 基于该高性价比方案,公司计划在2026年将城市NOA功能下探至10万元级车型,并即将发布算力大于500TOPS的高阶城市智驾方案 [16] - 公司聚焦在10-20万元价格带,该区间新能源乘用车占比达43.4%,是中国新能源市场规模最大的细分区间,公司通过在此价格带的深耕,规模效应已从验证期步入爆发期 [16][17] 技术积累与工程能力 - 公司核心团队源自L4自动驾驶先驱Waymo,技术路线学习特斯拉,追求工程标准化与“L2+L4”双线并行 [20] - 公司基于同一套技术架构,完成了在高通、英伟达、地平线三大主流芯片平台上的城市NOA适配,并通过大量平台化工作压缩了不同车型的适配周期 [21] - 公司方案具备很强的泛化能力,无论传感器配置(7颗或11颗摄像头,是否搭载激光雷达)或车型大小,都无需大幅调整即可适配 [21] - 公司自首次量产起便推动交付标准化,使团队规模未大幅增长却能支持车型从1款扩至23款 [21] - 公司认为L2与L4底层技术架构本质相同,共享AI模型底座,差异主要在产品逻辑层面 [21] - 公司L4无人物流车完全采用L2量产思路设计,计划启动小范围试点的Robotaxi外观也将与普通量产车一致 [24] - 公司注重数据前后兼容,L2业务曾使用大量L4数据,现在L4产品也可复用L2数据甚至直接使用L2模型 [24]
离职特斯拉“隐身”14个月,杨硕创业终于亮牌:重新定义机器人训练范式
量子位· 2026-03-25 07:52
公司核心技术:DiT4DiT模型 - 核心模型为“DiT4DiT”,是一个端到端的机器人学习视频动作模型,将视频扩散和动作扩散整合到一个级联框架中[9] - 该模型的核心创新在于“中间去噪”设计,即在视频生成模型的去噪过程中途提取关键特征,用于直接指导机器人动作决策,无需等待完整视频生成[11][16] - 模型采用“三时间步”方案,分别为视频生成时间步、特征提取时间步和动作生成时间步,让视频生成与动作预测任务能独立高效工作并协同[25][27][34] - 在LIBERO基准测试中,DiT4DiT模型达到98.6%的平均成功率,证明了其领先的性能[30] - 在宇树科技G1人形机器人上的7个场景任务测评中,DiT4DiT模型的性能全面优于预训练的GR00T-N1.5模型及参数匹配的Qwen3DiT基准模型[41][42] 技术优势与突破 - **数据与训练效率**:采用该视频生成方案,模型的收敛速度提升7倍,数据效率高出10倍以上[29] - **硬件部署优势**:模型整体参数约20亿,可在RTX 4090显卡上实现6Hz推理速度;相比之下,对比方案Cosmos Policy需使用H100专业算力卡才能达到1Hz效率,表明该方案有更好的端侧部署潜力[42][43] - **感知方案简化**:模型仅使用机器人主视角相机,无需腕部相机,降低了系统复杂度,且实验证明主视角相机能达到同等甚至更好的效果[31][35] - **解决行业痛点**:该方案是world model在人形机器人上的首次落地,解决了此前业内相关方案未能在人形机器人上跑通的问题[4][33] - **泛化能力**:通过提取“物理规律”而非“具体画面”特征,使机器人能够零样本适配新场景、新物体,例如面对不同颜色、形状的杯子都能完成放入抽屉的任务[24][40] 研发背景与团队 - 研发公司为妙动科技,其联合创始人兼CTO杨硕曾任职于特斯拉Optimus(擎天柱)团队,是业内知名的离职创业专家[1][47][49] - 公司法定代表人、董事长高建荣曾是大疆最年轻的高管,与杨硕曾在大疆共事[48] - 研究团队共7人,来自妙动科技、香港科技大学(广州)和香港科技大学,通讯作者为梁俊卫教授与杨硕[44][46] - 公司技术团队大量使用强化学习和深度学习技术开发机器人的运动与操作控制器,并已有产品原型和算法成果计划在2026年公布[53] 行业意义与应用前景 - 该技术旨在解决传统视觉-语言-动作模型因基于静态图片和文字训练而无法理解动态物理规律的问题,让机器人通过视频学习物理规律[36][37] - 改变了生成式视频模型在机器人领域的应用方式,使其从辅助生成训练素材变为直接指导机器人动作决策[38][40] - 模型已获得包括Agility Robotics的AI负责人在内的硅谷机器人专家的关注与转发[7] - 公司主营消费级机器人,该研究成果是其研发体系的重要佐证[48][53]
宇树毛利率60%的秘密
36氪· 2026-03-24 18:43
公司核心财务表现 - 2025年前三季度,公司整体毛利率达到59.5% [5] - 分业务看,四足机器人、人形机器人、机器人组件业务的毛利率分别为55.5%、62.9%、60.4% [7] - 公司毛利率显著高于行业可比公司,机器人行业上市公司优必选和越疆近三年平均毛利率为37%,公司是其均值的1.5倍 [8] - 公司毛利率甚至高于消费电子巨头苹果,苹果2026财年第一季度毛利率为48.2% [9] 高毛利率的驱动因素:极致的成本管控 - 创始人王兴兴对成本控制极为严格,其个人简朴作风(无房无车)也影响了公司文化 [12][13][14] - 公司坚持通用机器人核心组件全栈自研,涵盖核心算法、智能系统及电机、减速器等核心部件,实现了技术模块在不同产品线的高度复用,降低了研发投入并加速了产品交付 [16][18][19] - 在生产制造上采用自建产线与外协加工结合的模式,在核心环节自建产线,非核心及标准化工序采用外协,以平衡技术迭代与成本 [20][21] - 采用“以销定产+安全库存”策略,2025年四足产品产销率达86%,人形产品达96%,有效避免了库存积压和资金占用 [22] - 通过动态协调机制,每月召开产供销会议,同步销售、生产、采购信息,使生产计划与市场前端挂钩 [22] - 成本控制效果体现在产品售价持续下降,2025年1-9月,四足机器人平均销售单价为2.72万元,同比下降15.8%;人形机器人平均单价为16.76万元,同比下降35.7% [24][25] - 公司销售费用率和管理费用率极低,2025年前三季度销售费用率仅6.5%,约为优必选和越疆的一半;管理费用率仅4.2%,约为行业均值的六分之一 [26][27] - 公司及其子公司均无自有房产,采用租赁方式,降低了折旧和摊销费用 [27] 收入增长与市场拓展 - 公司营收在2025年实现爆发式增长,前三季度整体营收激增至11.5亿元,知情人士透露2025年全年营收实际接近20亿元 [31][32] - 2025年销量大幅增长,售出超过1.8万台四足机器人和约5500台人形机器人 [33] - 2025年营收激增的重要契机是抓住了春晚的流量,将巨大曝光转化为机器人销售,并为人形机器人开拓了ToC的增量场景,如商业演出和展览导览 [34] - 公司业务拥有稳定的基本盘,机器人产品在行业级市场(如巡检勘测、消防救援、智慧城市)和消费级市场(如科学研究、教育教学)均有落地 [36] - 自研的机器人组件(灵巧手、协作机械臂、激光雷达)成为重要收入来源,2025年前三季度贡献超六千万元收入,2022年该部分收入曾占整体营收的18% [39][40]
宇树科创板IPO获受理,看好后续国内外产业链共振机会
国投证券· 2026-03-22 19:49
报告行业投资评级 - 领先大市-A [4] 报告核心观点 - 宇树科技科创板IPO申请获受理,拟募资42.02亿元,有望带动机器人板块关注度和活跃度提升,看好国产链价值重估机会 [1][9] - 特斯拉Optimus新品计划于2026年第一季度发布,并于2026年夏季启动规模量产,后续国内外机器人产业链有望形成共振 [9] 公司经营与财务表现 - 2025年公司实现收入17.08亿元,同比增长335.36%,归母净利润2.88亿元,同比增长204.29%,扣非归母净利润6.00亿元,同比增长674.29% [1] - 2025年前三季度营收结构:四足机器人收入4.88亿元,占比42.25%;人形机器人收入5.95亿元,占比51.53%;机器人组件收入0.67亿元,占比5.76% [1] - 2025年前三季度销量:四足机器人17946台,人形机器人3551台,远高于2024年的7136台和410台 [1] - 2025年前三季度产品均价:四足机器人2.72万元,人形机器人16.76万元,较2024年的3.23万元和26.07万元有所下滑 [1] - 2025年前三季度盈利能力:四足机器人毛利率55.49%,人形机器人毛利率62.91%,机器人组件毛利率60.42%,综合毛利率达到59.45% [1] - 2025年前三季度渠道结构:线下销售占比13.50%,线上销售占比86.50%;线下销售中直销和经销分别占比50.29%和36.21%;线上销售中直销和电商入仓分别占比9.92%和3.58% [1] 公司技术与生产模式 - 公司坚持“自研自产”运营体系,主营业务毛利率从2022年的44.18%提升至2025年前三季度的59.45%,扣非后净利率从-6.57%提升至36.88% [2] - 研发上全栈自研具身智能、强化学习、运动控制等核心模型算法,散热管理、能源管理、电机驱动等智能系统,以及高性能电机、减速器、灵巧手、激光雷达及各类传感器等核心部件 [2] - 生产上内部自主完成机器人整机及核心部件的生产和装配,非核心部件和部分工序采用外采加外协相结合方式 [2] - 2025年前三季度原材料采购以机械零部件、电子元器件和电气类材料为主,分别占比47.88%、25.10%和22.03% [2] - 前5大供应商合计采购占比约21.72%,其中第一大供应商上海曜励电子占比约5% [2] 公司股东与募投项目 - 2025年6月公司完成最后一轮市场化股权融资,投后估值127亿元 [3] - 前十大股东中,实控人王兴兴直接加间接持有33.36%股权,其他股东包括美团系、小米系、红杉系、经纬系、金石投资、北京机器人产业基金等 [3] - 此次IPO拟发行不低于4044.64万股,不低于总股本的10.00%,预计扣除费用后募集42.02亿元 [3][8] - 募投资金主要投向:“智能机器人模型研发项目”20.22亿元、“机器人本体研发项目”11.10亿元、“新型智能机器人产品开发项目”4.45亿元和“智能机器人制造基地建设项目”6.24亿元,其中模型研发占比最高,达48.12% [8] - 公司目前已布局VLA和WMA路线,2026年初自研的工业级具身大模型UnifoLM-X1-0已在自有工厂完成关节电机装配等任务 [8] - 公司计划3年内发布“通用人形机器人具身基础模型”,使之系统性具备场景泛化、指令泛化、动作泛化、任务泛化4大核心能力,实现“云端模型训练-端侧推理执行-线上数据采集”的完整闭环 [8] 投资建议与关注标的 - 宇树链建议关注:模塑科技、美湖股份、华锐精密、中大力德、宏昌科技、奥比中光、绿的谐波、长盛轴承、金发科技、卧龙电驱等 [9] - 特斯拉链建议关注:1)总成:三花智控、拓普集团、恒立液压、新泉股份、科达利等;2)灵巧手:浙江荣泰、新剑传动、天创时尚等;3)电子皮肤:汉威科技、日盈电子、福莱新材、晶华新材、太力科技等;4)结构件及轻量化:领益智造、长盈精密、福赛科技、模塑科技等 [9]
ICLR 2026 | Shop-R1: 给AI补上「内心戏」,在RL博弈中复刻人类网购脑
机器之心· 2026-03-21 09:09
文章核心观点 - 亚马逊研究团队提出Shop-R1训练框架,旨在实现电商AI智能体从传统的“任务导向”向“模拟导向”的范式转移,即从单纯完成购物指令转变为复刻真实人类的复杂决策过程[2][5] - Shop-R1通过结合监督微调与创新的多层级奖励强化学习,显著提升了AI在动态、嘈杂的在线购物环境中预测用户下一步操作(包括点击、输入、终止)的准确性,其核心价值在于为电商平台提供一个低成本、高保真的“虚拟A/B测试”环境[5][9][28] 技术框架与训练方法 - **双阶段训练范式**:首先通过监督微调实现行为基准的“冷启动”,帮助模型内化上下文、推理与动作间的结构性依赖;随后在强化学习阶段,利用多层级奖励机制驱动深度迭代,提升在复杂环境下的逻辑推理与泛化表现[9][12] - **多层级奖励机制**:将每一步决策拆分为推理生成和动作预测两个子任务,并设计专门的奖励函数[13] - **二值格式奖励**:鼓励模型以结构化的JSON格式输出,确保可解析性[14] - **推理奖励**:采用self-certainty score(基于KL散度)衡量模型对其生成推理的置信程度[15] - **层级式动作奖励**:对粗粒度的动作类型和细粒度的子动作分别给予奖励,以稳定训练并抑制奖励黑客行为,例如“click”和“type_and_submit”动作在类型正确后可因预测正确的子组件(如按钮名称、输入文本)获得额外奖励,而简单的“terminate”动作则没有子动作奖励[16][17] - **难度感知奖励缩放因子**:对预测难度较高的长文本子动作(如从数千个候选元素中识别按钮名称)给予放大的奖励,防止模型为获取容易的奖励而不断选择简单动作[18] - **评估标准**:对离散动作类型使用完全匹配,对自由文本形式的子动作使用ROUGE-L相似度评估,超过阈值(如0.75)时给予软奖励[19] 实验结果 - **基准模型表现**:直接使用zero-shot提示的Qwen-2.5-3B-Instruct模型,其精确动作准确率仅为0.32%,表明长序列网页行为无法仅靠通用指令能力恢复[22][23] - **训练方法对比**: - 仅使用稀疏二值奖励的强化学习从零训练效果有限,精确动作准确率仅1.01%[22][23] - 一轮监督微调可显著提升性能,将Qwen-2.5-3B-Instruct的精确动作准确率提升至16.76%[22][23] - 在SFT基础上仅使用二值奖励进行强化学习提升有限(16.55%)[22][23] - **Shop-R1最终效果**:结合了层级奖励、self-certainty信号、格式奖励及难度感知奖励缩放的Shop-R1框架,将Qwen-2.5-3B-Instruct的精确动作准确率提升至27.72%,相对于仅使用SFT提升了65%,同时动作类型准确率提升至36.40%[22][23] - **模型规模扩展性**:该框架在不同参数规模的模型上(如1.5B和0.5B)均表现出显著性能提升[23] 未来发展方向 - **感官增强**:计划引入视觉语言模型,使AI能捕捉图片、买家秀等非文本信息中蕴含的隐含情绪,弥补当前高度依赖HTML代码的局限[25] - **个性化模拟**:构想通过调整强化学习的奖励权重,赋予AI不同的消费画像,例如“极致性价比党”、“精致参数控”、“颜值正义者”,以复刻真实世界中“千人千面”的消费心理[26][32] 行业应用与价值 - **虚拟A/B测试环境**:Shop-R1这类模拟导向智能体可作为低成本、高保真的“购物模拟器”,使电商平台能在实验室环境中投喂数万个“AI购物者”,测试新推荐算法或页面布局,观察其在面对价格波动、界面改版时的实时反馈,从而优化运营策略[28]
宇树科技-上市保荐书
2026-03-20 19:54
公司概况 - 公司注册资本为36,401.7906万元人民币[12] - 有限公司成立于2016年08月26日,股份公司成立于2025年05月28日[12] - 公司是高性能通用机器人公司,专注相关产品研发、生产和销售业务[13] 业绩数据 - 2025年1 - 9月资产总额为286,476.07万元,2024年度为152,689.65万元,2023年度为39,127.15万元,2022年度为36,618.43万元[19] - 2025年1 - 9月归属于母公司所有者权益为243,014.33万元,2024年度为127,957.61万元,2023年度为29,904.49万元,2022年度为30,969.21万元[20] - 2025年1 - 9月资产负债率(母公司)为14.94%,2024年度为16.20%,2023年度为23.57%,2022年度为15.43%[20] - 2025年1 - 9月营业收入为116,749.01万元,2024年度为39,237.06万元,2023年度为15,913.44万元,2022年度为12,291.95万元[20] - 2025年1 - 9月主营业务毛利率为59.45%,2024年度为56.41%,2023年度为44.22%,2022年度为44.18%[20] - 2023 - 2025年主营业务收入分别同比增长29.95%、145.83%和335.31%(经审阅),同期主营业务毛利率分别为44.22%、56.41%和60.27%(经审阅)[26] - 2024年及2025年1 - 9月,营业收入分别为39237.06万元和116749.01万元[31] - 2024年及2025年1 - 9月,扣除非经常性损益后归属于母公司股东的净利润分别为7750.36万元和43061.23万元[31] 用户数据 - 报告期内四足机器人销量合计超30,000台[15] - 2025年度人形机器人出货量已超5,500台,出货量全球第一[15] 新产品和新技术研发 - 公司坚持通用机器人核心技术全栈自研,引领产业创新和规模化落地[15] - 公司自研多项核心技术已实现商业化,应用于多款产品[15] - 一体化关节集成技术处于大批量生产阶段[15] - 高紧凑度机器人身体集成技术处于大批量生产阶段[15] - 机器人激光相关技术处于大批量生产阶段[15] - 机器人抗摔防护相关核心技术可将冲击峰值削减30 - 50%,关节与电子模块失效率降低≥30%[16] - 公司通用机器人产品集成自研具身本体智能模型,G1等产品集成较成熟大语言模型,具身大模型在试点场景研发测试[22][23] 市场扩张 - 公司在全球推动通用机器人在巡检勘测等领域的行业级应用,在消费领域以策略获行业领先市场份额与品牌影响力[18] - 报告期内境外主营业务收入分别为6935.28万元、8764.24万元、21570.73万元、45278.62万元,占比分别为57.21%、55.63%、55.70%、39.20%[30] - 报告期各期境外收入占比均超35%,境内代理商采购进口物料约占原材料整体采购总额的20%[34] 其他新策略 - 本次发行股票为人民币普通股(A股),每股面值1.00元[39] - 发行股数不低于40446434股(超额配售选择权行使前),占发行后总股本比例不低于10%[39] - 本次发行后公司股本总额不少于3000万元[63] - 本次发行前公司总股本36401.7906万股,拟公开发行不少于4044.6434万股,新股发行比例不低于10%[64] - 2025年6月公司最近一次市场化股权融资投前估值120亿元、投后估值127亿元,预计市值不低于100亿元[65] - 公司具有表决权差异安排,选择上市标准为预计市值不低于100亿元[66] - 持续督导期为发行上市当年以及其后三年[67]
宇树科技,招股书公开
财联社· 2026-03-20 18:40
公司IPO进程与财务表现 - 公司已正式披露IPO申报材料并完成上交所预先审阅及两轮问询答复 [1] - 2025年1-9月实现营业收入超10亿元 其中境内收入7.02亿元 境外收入4.53亿元 [1] - 2025年1-9月实现扣非净利润4.31亿元 2025年度预计营业收入超17亿元 扣非净利润超6亿元 [1] - 2025年1-9月实现经营活动现金净流入4.28亿元 2025年度经营活动现金净流入超6.7亿元 [2] - 公司毛利率从2023年的44.22%显著提升至2025年的60.27% [1] 业务与产品发展 - 2025年1-9月 人形机器人收入已超越四足机器人 产品产销率超过95% 基本满产满销 [3] - 四足机器人报告期内累计销量超3万台 全球市场份额连续多年第一 [3] - 人形机器人自2023年开始量产 报告期内累计销量近4000台 2025年度出货量已超5500台 [3] - 公司自主研发了具身智能 强化学习 运动控制等核心算法 以及高性能电机 减速器 灵巧手等核心部组件 [3] 技术研发与战略布局 - 公司在具身大模型领域双线布局WMA和VLA架构 并已开源发布相关模型 [3] - 行业当前处于快速探索期 技术共识与竞争格局未定 VLA架构已成为诸多通用机器人企业的主流选择 [3] - 公司IPO预计募资规模达42亿元 其中85%的募投资金将专项用于研发投入 重点布局智能机器人大模型 [3] - 募资中占比48.13%(超20亿元)的最大单项投资 将用于聚焦具身大模型等机器人“大脑”与“小脑”底层技术攻坚 [4] 产能与制造规划 - 公司IPO募投项目包括制造基地建设 项目建成后预计可实现年产7.50万台人形机器人与11.50万台四足机器人的产能规模 [5]
Cursor自研模型反超Opus 4.6!价格脚踝斩,氛围编程沸腾了
量子位· 2026-03-20 11:52
文章核心观点 - Cursor公司发布其最新编程模型Composer 2,该模型在多项基准测试上的性能超越了Claude Opus 4.6,同时价格实现了大幅下降,即“脚踝斩”[1][3][4] - 公司能够在行业普遍涨价的背景下实现降价,核心在于引入了一种名为“自我总结”的新强化学习方法,该方法通过训练使模型具备主动总结长任务上下文的能力,从而在提升性能的同时显著降低了成本[6][21][22] 模型性能与定价 - **性能表现**:Composer 2在CursorBench、Terminal-Bench 2.0和SWE-bench Multilingual等所有衡量基准上均取得大幅提升[11] - 在Terminal-Bench 2.0上的水平已跃居GPT-5.4和Claude Opus 4.6之间[12] - 具体基准分数:CursorBench为61.3,Terminal-Bench 2.0为61.7,SWE-bench Multilingual为73.7[15] - **定价策略**:Composer 2的价格远低于竞争对手,实现了“脚踝斩”[16] - 标准版定价:输入价格为0.5美元/百万tokens(约3.5元人民币),输出价格为2.5美元/百万tokens(约17.2元人民币)[15] - 快速变体Composer 2 Fast定价:输入为1.5美元/百万tokens(约10.3元人民币),输出为7.5美元/百万tokens(约51.7元人民币)[19] - **模型迭代速度**:从Composer 1到Composer 2的进化速度不断加快,性能提升显著[14][15] 核心技术:自我总结强化学习 - **解决的核心问题**:解决AI编程助手在处理长链条、复杂任务时,因上下文窗口有限而容易“掉链子”或遗忘关键信息的问题[25][26][27] - **方法原理**:该方法不是推理技巧,而是通过强化学习训练出来的能力[22][34] - 模型在任务执行过程中,会主动暂停并生成“阶段总结”(即“做笔记”),将关键信息压缩后传递至后续步骤[23][31] - 在强化学习过程中,总结能力被计入奖励函数,使模型学会区分并保留关键信息[35] - **技术优势**:相比传统的上下文压缩方法(如摘要法或滑动窗口),Cursor的新方法更高效、更准确[28][29] - 在高难度软件工程任务上,传统摘要法需要数千tokens的提示词,压缩后平均仍需5000+ tokens[37] - Composer方法仅需一句简单提示词(如“Please summarize the conversation”),压缩后输出平均仅1000个tokens[38] - 效果对比:Composer的token用量仅为传统方法的1/5,且压缩带来的错误减少了约50%[39] - **实际效果验证**:模型成功解决了经典长链条难题——将Doom游戏移植到MIPS架构[43][44] - 经过170轮交互,模型将超过10万tokens的上下文总结压缩至1000个,并最终找到精确解法[45] 公司战略与行业背景 - **行业背景**:随着大模型(文中喻为“龙虾”)的爆火,全球大模型Token消耗量呈指数级增长,导致年初以来国内外云厂商和大模型公司集体涨价[6][9] - **公司定位与目标**:Cursor在此背景下,将发展重心明确转向“性价比”[9][10] - 公司CEO表示,Cursor既不是纯粹的应用程序开发商,也不是纯粹的模型提供商,具有双重身份[48] - **产品迭代节奏**:公司发展节奏很快,在发布Composer 2后,研究员已开始放出Composer 3的消息[47]