具身智能之心
搜索文档
中国移动以亿元战略投资落子,抢占具身智能触觉“必争之地”
具身智能之心· 2025-12-04 08:04
行业概况与市场前景 - 触觉传感器是实现机器人精细操作的核心组件,使机器人能够处理不同材质物体、完成复杂交互任务并实现平衡力控制[3] - 2024年全球触觉传感器市场规模已达到153.3亿美元,预计到2031年将增长至355.9亿美元,期间年复合增长率(CAGR)稳定在12.8%左右[4] - 触觉技术的成熟度正成为决定人形机器人能否真正进入生产力场景的关键变量[10] 公司融资历程与资本认可 - 戴盟机器人在两年内累计完成四轮融资,总金额达数亿元,创下触觉传感器领域的天使轮融资纪录[6][7] - 融资节奏为:2023年9月数千万天使轮(昆仲资本);2024年11月两轮亿元级天使+轮(金鼎资本、国中资本、联想创投、招银国际);2025年8月亿元级天使++轮(招商局创投领投,东方嘉富、架桥资本跟投);2025年12月亿元级Pre-A轮(中国移动链长基金独家投资)[6][8] - 投资者覆盖科技巨头基金、国家级产业资本与风投资本三大体系,资本持续进场表明触觉被视为具身智能落地的关键,公司被视为最具工程可能性的公司之一[7] - 中国移动链长基金的加入具有象征意义,代表一套完整的产业体系,公司将获得实现技术规模化落地所必需的基础设施与生态通道[8][9] 技术路线与产品创新 - 公司选择单色光视触觉技术路线,区别于MIT主导的三色光GelSight路线,通过单色光配合图案追踪编码接触形变[11][15] - 单色光方案在功耗、发热与帧率上更具优势,量产产品可稳定在120Hz刷新率,且结构更简单、稳定性更高、更易工程化量产[15][17] - 2025年11月推出新一代视触觉产品矩阵:面向大面积高防护的DM-Tac W2、适用于狭窄空间的DM-Tac X、为灵巧手指尖设计的DM-Tac F[17] - DM-Tac W2被定位为全球首批突破IP65防护等级、在每平方厘米集成数万个感知单元的视触觉传感器之一[17] - 公司产品起步价拉至1299元,显著低于国际主流产品(6000-7000元)和国内厂商主流区间(2000-3000元),并在W系列上实现了万片级量产,通过欧盟CE和美国FCC认证,已接到欧美订单[19] 系统解决方案与工程化突破 - 公司推出DM-Flux端侧AI计算平台,体积为68mm*58mm*15mm,搭载高性能边缘AI处理器,提供最高10 TOPS算力,可同时挂载五路视触觉传感器,以“即插即用”形态解决下游算力占用问题[20] - 公司定位为“触觉感知公司”,提供从视触觉采集、端侧计算到上层模型的完整技术方案,旨在将触觉做成产业链“算得起、用得上”的基础设施[22] - 公司视触觉产品已率先在全球范围内实现万片级出货,在早期探索阶段的触觉赛道上并不多见[19] 行业挑战与发展逻辑 - 触觉传感器全球仍处早期探索阶段,工程化和商业化难度远高于视觉传感器等成熟技术分支[7] - 行业尚无确定的技术路线,触觉数据如何被具身大模型吸收与利用也未清晰,所有路线都在同时探索[23] - 现阶段比追求“性能天花板”更重要的是让触觉技术被真正用起来,只有集成到灵巧手、本体及大模型的技术链路中,经历足够多的任务与场景迭代,技术才能进化并跟上产业高速发展节奏[24][25] - 触觉企业的现实任务是跑通路线、降低成本、实现可复制可规模化的工程化,让产业链企业愿意使用,从而参与下一阶段的产业叙事[25]
为什么给机器人装上昂贵的触觉传感器,反而让它变笨了?
具身智能之心· 2025-12-04 08:04
文章核心观点 - 当前机器人多模态学习的主流方法——特征拼接(Feature Concatenation)在处理传感器信息稀疏或互补的任务时存在根本缺陷,会导致性能下降甚至失败[3][7] - 提出了一种名为“组合策略”(Compositional Policies)的新框架,通过为每个传感器模态训练独立的专家策略,并在策略层面进行组合,有效解决了传统方法的局限性[9][12] - 新方法在模拟和真实世界的多项机器人操作任务中,性能显著优于传统的特征拼接方法和单模态策略,并具备模块化、增量学习和运行时鲁棒性等优势[29][33][34] 当前多模态机器人学习方法的局限性 - **主流方法**:目前多采用特征拼接,即提取所有传感器的嵌入(embeddings),拼接成一个大向量后输入单一神经网络策略[5] - **根本缺陷一:稀疏信号被抑制**:在处理如“在黑暗背包中找钥匙”这类任务时,偶尔出现的关键信号(如触觉)在统计上被视为“噪音”而被网络过滤掉,导致增加传感器反而降低性能[3][16] - 实验数据显示,在遮挡抓取任务中,仅使用RGB视觉的成功率为35%,而增加触觉数据后,采用特征拼接方法的成功率暴跌至5%[3][16] - **根本缺陷二:缺乏模块化**:所有模态在特征层面紧密耦合,导致无法灵活添加或移除传感器[8][16] - 添加新传感器或移除故障传感器时,必须从头重新训练整个策略,成本高昂[16] - 单个传感器故障可能导致系统发生灾难性故障[16] 提出的解决方案:组合策略框架 - **核心思想**:放弃特征级拼接,转向策略级组合。为每个感官模态(如RGB、触觉、点云)训练独立的专家策略,然后学习如何组合它们的动作预测[9][17] - **工作原理**: - **模态特定专家**:每个专家是一个基于扩散策略/能量模型的实例,专注于自己的感官流,互不干扰[17] - **模态内分解**:在模态内部可进一步分解为互补的子策略(如视觉分为粗略几何和细粒度细节)[17] - **学习共识权重**:通过一个路由器网络(Router)学习预测权重,动态决定每个模态对最终动作的影响程度[17] - **关键优势**: - **解决稀疏性**:每个专家学习自己的动作分布,稀疏模态(如触觉)的专家可以高度专业化,不被其他模态干扰[12] - **模块化设计**:专家独立训练,添加新传感器只需训练新专家并与现有专家组合,无需重训整个系统[13] - **简单实现**:在扩散模型中,组合多个策略对应于概率分布相乘,等同于简单的分数函数相加[13] 实验验证与性能结果 - **模拟环境(RLBench)**:在四个操作任务上,组合策略方法的平均成功率为66%,显著优于单模态策略的49%和特征拼接方法的56%[29] - **真实世界实验(UR5e机器人)**: - **遮挡记号笔抓取**:组合策略成功率为65%,而仅RGB为35%,特征拼接方法仅为5%[34] - **勺子重定向**:一种灵巧的手内操作任务,组合策略成功率为75%,特征拼接方法为21%[34] - **拼图插入**:需要毫米级精度的任务,组合策略成功率为52%,特征拼接方法为40%[34] - **增量学习演示**:完全独立训练RGB和触觉策略后,使用固定相等权重组合(无联合训练),成功完成了单独策略都无法处理的遮挡记号笔抓取任务[15][18] 系统的鲁棒性与自适应性 - **运行时扰动**:在执行过程中突然抢走物体,机器人能适应并完成任务[21] - **传感器损坏**:遮挡一个摄像头模拟故障时,路由器网络将权重转移到剩余功能传感器上,系统表现保持稳定[23] - **物体重新定位**:移动任务相关物体后,策略能成功泛化到新位置[25]
浙大系具身智能再闯港交所:主打工业场景,每天进账1000000元
具身智能之心· 2025-12-04 08:04
公司概况与上市进程 - 仙工智能是一家以机器人控制系统为核心的智能机器人公司,正第二次向港交所递交招股书冲刺IPO [2][3][4] - 公司成立于2020年4月,由赵越、戴萧何、叶杨笙、王群共同出资组建 [76] - 公司已完成4轮累计约2.83亿元人民币的融资,在2025年4月IPO前最后一轮融资中,估值已攀升至32.7亿元人民币 [92][93] 财务表现 - 营收持续高速增长:2022年至2024年,营收分别为1.84亿元、2.49亿元和3.39亿元,复合年增长率为35.7% [5][40] - 公司尚未实现盈利:2022年至2024年连续三年亏损,依次亏损3226万元、4770.4万元和4230.8万元,累计亏损1.22亿元 [7][8][53] - 综合毛利率相对平稳:2022年至2024年,综合毛利率依次为46.8%、49.2%、45.9% [45] - 营收结构以机器人销售为主:2024年机器人销售收入为2.36亿元,占总收入的69.5%,占比接近七成 [41][42] - 软件业务毛利率极高:2024年软件业务毛利率达到87.8%,在產品矩阵中断层领先 [47][48] - 机器人控制器业务毛利率同样高企:2024年机器人控制器业务毛利率达到81.0% [49] 业务与产品 - 公司提供一站式解决方案,产品矩阵包含四个象限:机器人控制器、软件、机器人、配件 [12] - **机器人控制器**:自主研发的SRC系列控制器是机器人的“大脑”,截至2025年6月30日,已适配超过300款零部件,客户可快速组装机器人 [15][16][17] - **软件**:运行于云端的中央指挥中心,负责统一指挥调度整支机器人队伍,并基于世界模型搭建了仿真平台 [18][19][20] - **机器人**:通过星云系统可直接选用的机器人模型已超过1000款,产品定位主要服务于工业场景 [21][23] - **配件**:提供由第三方开发制造的传感器、电源模组等配件,公司负责适配与集成,以降低客户集成难度 [26][27][28] - 公司聚焦工业场景解决方案,产品重心落在工业级AMR(含移动机械臂)与人形机器人 [11][24] - 所有产品的核心技术、开发与设计均由公司主导,但制造与零部件采购均外包给供应商 [31][32] 市场地位与客户 - 根据灼识咨询数据,2024年仙工智能按机器人控制器销量计算已位居全球第一,市场份额达到23.6% [37] - 客户数量稳步上升:2022年服务380家,2023年增至587家,2024年进一步提升到832家 [34] - 截至目前,已服务超过1600家集成商与终端客户,业务覆盖35个以上国家和地区 [35] - 知名客户包括飞利浦荷兰总部工厂、施耐德电气以及一汽大众等 [36] - 通过其平台落地的机器人型号累计已超2000款,已进入3C制造、汽车、新能源、半导体等20多个细分行业 [36] 运营与现金流 - 公司回款周期明显拉长:贸易应收账款周转天数从2022年的48天延长至2024年的81天,2025年上半年进一步增至116天 [66][67] - 公司向供应商付款时间也在延长:贸易应付账款周转天数从2022年的74天延长至2024年的96天,2025年上半年增至129天 [70][71] - 公司经营性现金流净额为负 [69] - 对供应商存在依赖:2022年至2024年及2025年上半年,前五大供应商合计占销售成本的比例分别为55.6%、40.1%、38.7%和34.8% [73] 研发与销售投入 - 研发费用高企:2022年、2023年、2024年的研发开支分别为3930万元、6370万元与7130万元 [56][57] - 软件研发团队是公司研发部门中规模最大的团队 [43] - 销售及分销开支巨大:2022年至2024年,销售及分销开支分别为5110万元、7230万元与8900万元,占当年收入的27.7%、29.0%与26.2% [59][61] - 公司近一半力量押在市场端:截至2024年底,公司共有全职员工430人,其中销售与市场人员达201人,占比高达46.8% [62][63] 管理团队 - 创始人兼CEO赵越,拥有约15年机器人系统架构与深度学习算法研发经验,本科与硕士均毕业于浙江大学,主导研发了SRC系列控制器并持有40项发明专利 [78][79][81] - 联合创始人王群,毕业于浙江大学,是公司核心的技术与产品驱动力之一,带领团队推出了智能叉车解决方案、星云平台等关键成果 [84][85] - 联合创始人兼产品研发负责人叶杨笙,毕业于浙江大学,主导推动了公司多项核心软件产品的开发 [86][87] - 战略与市场负责人丁霞,是CEO赵越的妻子,拥有机器人行业投资与加速器管理经验 [89][91] - 核心创始团队均具备浙江大学背景,且多人曾作为核心成员助力浙江大学夺得RoboCup世界机器人足球赛冠军 [80][85][88]
都在说VLA,很多同学连demo都跑不好......
具身智能之心· 2025-12-03 18:00
文章核心观点 - 视觉语言动作模型领域面临从理论到实践的巨大挑战,特别是在真机数据采集、模型训练与部署等环节,存在显著的学习壁垒和落地困难 [2][6] - 行业技术发展迅速,开源框架和新算法不断涌现,但模型性能高度依赖硬件本体和数据质量,仿真与真实场景存在泛化差距 [2][4] - 为应对上述挑战,推出了一个全面的实战课程,旨在通过软硬结合的方式,系统化地培养VLA领域的实操人才 [14][16][19] 技术发展现状与挑战 - 算法层面近2年涌现大量新方法,如ACT、OpenVLA、π0、π0.5、π0.6系列,性能持续提升,基于强化学习的优化方案使模型运行更流畅 [4] - 开源硬件本体多样化,支持不同类型的研究需求,例如SO-100机械臂、openarm双臂操作系统、XLeRobot移动操作平台 [4] - 核心挑战在于数据、模型、训练、部署的全流程打通,初学者常陷入长期调试而难以入门,尤其π0、π0.5、GR00T等模型的数据采集和训练包含大量未公开技巧 [6] VLA模型落地关键模块 - **数据采集**:主要基于模仿学习(遥操作、VR、全身动捕捉)和强化学习,机械臂领域多采用前两种,如何保证数据质量及实现real2sim2real是关键问题 [7][8] - **模型训练**:真机部署前需进行仿真调试,Mujoco、Isaac Gym等框架在数据不足时尤为重要,训练技巧至关重要,不同算法难度差异大,ACT相对简单易出效果,而π0和π0.5则极难训练成功 [9][10] - **模型部署**:面临模型参数量大(即使2B规模)导致的边缘芯片部署挑战,必须进行轻量化操作如量化、蒸馏,以在保证性能的同时最小化参数量 [11][12] 课程解决方案与目标 - 课程定位为国内首个面向实战与求职的VLA小班课,内容覆盖机械臂硬件、数据采集、VLA算法、评测、仿真、主流模型部署、VLA+世界模型、真机实验及产业讲解 [14][16] - 课程目标为使学员掌握真机调试与数据采集、各类VLA算法真机部署、模型量化技术,并对产业落地有清晰认识,学完后达到1-2年算法工程师经验水平 [30] - 面向人群包括具身领域求职者、VLA入门进阶者、相关专业学生、以及希望从传统CV/机器人/自动驾驶转行的人员,建议具备Python和PyTorch基础,推理需3060及以上显卡,训练需2张以上3090ti显卡 [27]
今年9家盈利最高的人形机器人公司......
具身智能之心· 2025-12-03 11:47
机器人行业2025年订单与出货量排名 - 根据公开信息梳理2025年机器人行业营收前9名公司 包括订单总金额和出货量等关键数据 [1] 公司具体业绩与客户分析 - 众擎机器人订单金额3年2亿元 出货量3年内2000台 核心客户包括多伦科技2000台具身智能机器人三年框架采购协议 与尚品宅配智能家居生态合作 以及与英伟达 亚马逊等头部企业场景化合作 融资规模达近10亿元 [2] - 松延动力订单金额超1亿元 全年订单量突破2500台 主要覆盖教育 科研 文旅展示和商业演出等领域 [2] - 星尘智能订单金额约5亿元 未来两年部署上千台AI机器人 与仙工智能战略合作 应用于工业制造和仓储物流等场景 [2] - 智平方订单金额5亿元 3年内交付超1000台机器人 与惠科签署协议主要应用于工业场景 [2] - 乐聚机器人订单金额约5亿元 全年出货近2000台 [2] - 智元机器人订单金额约7亿元 出货量数千台 核心客户包括中移(杭州)信息7800万元订单 珠海具身智能创新中心1274万元订单 富临精工数千万元订单 均普智能电子汽车零部件产线 龙旗科技数亿元订单部署近千台机器人 [2] - 优必选科技订单金额超8亿元 出货量约2700台 订单主要来自汽车厂商和广西 四川的数据采集需求 覆盖汽车制造 科技服务 工业数据采集等领域 [3] - 越疆机器人订单金额约11亿元 全年出货约2万台 根据官方信息2024年工业协作机器人出货量8万台 2025年10万台 [3] - 宇树科技订单金额近12亿元 出货量超万台(含四足机器人) 核心客户包括中移(杭州)信息技术有限公司中标4605万元 同济大学826万元订单 中国科学技术馆627万元订单 与巨星传奇成立合资公司宇星娱乐 威刚科技签订1000台四足机器人采购合同总价超2000万元 云工场科技采购5000台四足机器人合同金额超1亿元 公司创始人称营收已破10亿 [3]
五年,终于等来Transformers v5
具身智能之心· 2025-12-03 11:47
Transformers v5版本发布概述 - Hugging Face发布Transformers v5首个候选版本v5.0.0rc0,标志着该库结束了长达五年的v4技术周期 [1][2] - 作为最核心的开源项目,其日下载量从2020年11月的2万次激增至超过300万次,总安装量突破12亿次 [2] - 支持的模型架构从最初的40个扩展至超过400个,社区贡献的模型权重超过75万个 [2] 核心进化维度 - v5版本将PyTorch确立为唯一核心后端,并聚焦于四大维度的进化:极致的简洁性、从微调迈向预训练、与高性能推理引擎的互操作性、将量化提升为核心功能 [2] 简洁性与模块化 - 团队首要关注点是简洁性,旨在实现干净清晰的模型集成方式,以带来更广泛的标准化和生态支持 [3][4] - 大力推进模块化设计,使维护更简单、集成速度更快,并促进社区协作 [8] - 引入AttentionInterface等抽象层来简化通用辅助函数的管理 [10] 模型支持与工具 - 目标是收录所有最新模型架构,成为模型定义的唯一可信来源,过去5年平均每周新增1-3个新模型 [5][6] - 构建工具帮助识别新模型与现有架构的相似性,并希望自动化模型转换流程以减少手动工作 [11][12] 代码精简与后端聚焦 - 对建模文件和标注相关文件进行大规模重构,使建模代码只保留模型前向/反向传播的核心部分 [14] - 简化tokenization & processing文件,未来将只关注tokenizers后端,并移除Fast和Slow tokenizer概念 [15] - 逐步停止对Flax/TensorFlow的支持,专注于PyTorch作为唯一后端 [16] 训练能力增强 - v5加大了对大规模预训练以及完整训练的支持,重新设计了模型初始化方式并加入对优化算子的支持 [18][19] - 继续与Python生态系统中的微调工具紧密合作,并确保与JAX生态中的工具兼容 [20] 推理优化 - 推理是v5优化重点,带来多项范式级更新,包括专用内核、更干净的默认设置和新的API [21][22][23] - 定位并非取代vLLM等专业推理引擎,而是目标与这些引擎实现兼容 [24] 生产环境与部署 - 与流行推理引擎紧密合作,使模型一旦被添加到Transformers中就能立即在这些引擎中可用 [26] - 与ONNXRuntime、llama.cpp和MLX密切合作以确保互操作性,并推动设备端直接运行 [26][27] 量化与新兴功能 - 量化正成为前沿模型开发标准,许多SOTA模型以8-bit和4-bit等低精度格式发布 [28] - 包含连续批处理和paged attention机制,并推出全新的transformers serve服务系统,可部署兼容OpenAI API的服务器 [29]
免训练!使用贝叶斯去微调VLM,机器人操作任务取得SOTA!
具身智能之心· 2025-12-03 11:47
核心技术框架 - 提出T²-VLM框架 一种无需训练且具有时序一致性的方法 通过跟踪视觉语言模型推导出的子目标状态变化来生成精确奖励 [2] - 框架首先在每轮交互前查询视觉语言模型以建立空间感知的子目标及初始完成度估计 随后采用贝叶斯跟踪算法利用子目标隐藏状态动态更新目标完成状态 [2] - 该方法为强化学习智能体生成结构化奖励 增强长程决策能力并借助强化学习提升故障恢复性能 [2] 技术优势与性能 - T²-VLM在两个机器人操作基准测试中取得最先进性能 在降低计算消耗的同时展现优异奖励准确性 [2] - 方法在不牺牲视觉语言模型通用泛化能力前提下显著提升其空间理解能力 为真机强化学习训练提供更精确反馈 [5] - 解决预训练数据集缺乏领域特定机器人知识及高昂计算成本阻碍实时应用的问题 [2] 应用场景 - 针对长序列机械臂操作任务中视觉语言模型难以稳定提供准确奖励信号的挑战提出解决方案 [5] - 框架专为机器人操作任务设计 通过时序一致性增强在具身任务如目标分解与视觉理解中的性能 [2]
智源发布具身数据创新基座,携手行业共筑物理AGI基础设施
具身智能之心· 2025-12-03 11:47
具身智能数据创新基座发布 - 2025年11月20日北京智源人工智能研究院发布具身数据创新基座包括智源具身一站式平台RoboXstudio、大型高质量双臂机器人真机数据集RoboCOIN、具身数据软件框架CoRobot [6] 具身智能数据发展挑战 - 面临数据孤岛挑战具身数据格式不统一标准缺失导致数据处理复杂工具链分散形成数据使用壁垒 [7] - 存在质控缺失挑战数据普遍存在丢帧卡顿静止帧关节信息不齐时间戳错位等记录问题以及动作过快过慢等操作问题 [7] - 面临成本难题挑战数据生成依赖大量人工操作与标注缺乏成熟平台支撑设备场地人力综合导致生产成本居高不下 [8] CoRobot具身数据软件框架 - 框架目标为定标准保质量提效率面向异构本体规范操作流程提升研发效率 [10] - 由5大组件构成包括泛本体数采工具支持接入各种本体和遥操作设备格式转换工具支持双向转换数据处理工具可处理丢帧卡顿等标注信息数据管理工具支持原子化存储可视化模型训推工具支持模型训练任务快速接入 [10] - 软件框架主页为https://github.com/FlagOpen/CoRobot [11] RoboCOIN双臂机器人数据集 - 数据集由智源研究院联合8家企业及多所高校共建具备本体数最多标注最精细使用最便捷三大优势 [14] - 涉及15款双臂机器人数据量达18万条覆盖工业家居零售等10多个场景 [16] - 完成轨迹级段级帧级三层次细粒度标注依托CoRobot实现开箱即用 [16] - 数据集主页为https://flagopen.github.io/RoboCOIN/ [16] RoboXstudio一站式平台 - 平台基于CoRobotFlagOS-RoboEmu3.5打造覆盖数据采集标注管理训练评测部署全流程 [19] - 具备更全面特点支持多类型机器人及人体数据采集覆盖全场景多样化任务 [22] - 具备更系统特点构建数采前配置数采中监控数采后管理闭环体系 [22] - 具备更智能特点集成开源框架与多模态大模型内置智能算子实现任务拆解数据扩增 [22] - 平台体验申请地址为https://ei2data.baai.ac.cn/home [20] 开源生态与行业协作 - 智源FlagOpen体系开源模型全球总下载量达6.9亿次截至2025年8月 [23] - 发布智源具身智能一站式平台社区版供免费使用CoRobot和RoboCOIN面向全社会开源 [23] - 以RoboCOIN为起点分享高质量数据工具链及方法论推动行业统一标准协同创新 [23]
VLM也能「自我进化」!RL自我进化框架VisPlay突破视觉推理难题
具身智能之心· 2025-12-02 17:30
文章核心观点 - VisPlay研究首次提出自进化强化学习框架,使视觉语言模型仅通过海量未标注图像数据实现自我演化和能力提升[2] - 该框架将基础模型分解为提问者与推理者角色,通过迭代自我进化机制协同进化,结合GRPO算法和多样性/难度奖励平衡问题复杂度与答案质量[2][10] - 实验证明VisPlay在Qwen2.5-VL和MiMo-VL等主流模型上实现持续性能提升,尤其在视觉推理、组合泛化和幻觉减少方面效果显著[3] 技术背景与挑战 - 当前VLM提升复杂推理能力依赖耗费巨大的人工标注数据或启发式奖励,成本高昂且难以规模化[1] - 随着模型规模扩大,人工标注成本速度已跟不上模型演化需求,成为能力提升主要瓶颈[5] VisPlay框架设计 - 核心理念为自我进化,从基础预训练VLM出发分解为提问者和推理者两大相互作用角色[8] - 提问者负责生成具有挑战性但可回答的视觉问题,采用难度奖励和多样性奖励机制指导进化质量[10] - 推理者基于图片和问题生成伪标注答案,采用回答准确性作为训练信号[12] - 通过奖励机制有效解决自进化模型中答案质量低和问题重复度高的问题[11] 实验结果与性能 - 在八个主流基准数据集评估显示VisPlay实现一致且显著准确率增益[15] - Qwen2.5-VL-3B模型在MMMU任务从基准19.95提升至37.11,视觉数学推理从26.14提升至35.15,幻觉检测从32.81大幅提升至90.54[16] - Qwen2.5-VL-7B模型在MMMU任务从23.10提升至38.27,幻觉检测从66.88提升至92.32[16] - MiMo-VL-7B模型在多个任务上实现稳定提升,如视觉数学推理从41.80提升至46.02[16] - 框架展现出强大组合泛化能力和有效抑制幻觉现象的概率[17]
清华成立具身智能与机器人研究院
具身智能之心· 2025-12-02 17:30
文章核心观点 - 国内高校正以前所未有的速度和规模布局具身智能领域,从单点实验室研究向跨学科研究院、本科专业设置等全链条体系化发展升级 [4][28][33] - 清华大学于11月30日新成立具身智能与机器人研究院,标志着高校在该领域的投入进入“集团军协同”的新阶段 [5][16][28] - 具身智能行业展现出巨大的市场潜力和人才需求,预计2025年中国市场规模达52.95亿元,2030年全球市场有望突破2326亿元 [37][38] 清华大学具身智能布局 - 清华大学于11月30日正式揭牌成立具身智能与机器人研究院,由自动化系主任张涛教授出任院长 [5][7] - 新研究院定位为跨学科整合、重大项目承接、产学研协同与高端人才培养的综合平台,区别于此前侧重基础研究的实验室 [13][16] - 此次是清华大学继今年3月30日设立具身智能系统北京市重点实验室后,在具身智能领域的又一次重大动作 [9][10] 其他高校布局动态 - 复旦大学于今年1月率先成立可信具身智能研究院,聚焦基础模型、数据引擎等五大核心方向 [18][21] - 北京航空航天大学于今年11月启动具身智能机器人研究院,并设立“具身智能机器人项目制实验班” [22][24] - 北京大学将具身智能与机器人研究中心挂靠在人工智能学院下,中心共同主任为刘宏教授和王启宁教授 [25][26] 学科建设与人才培养 - 上海交通大学已开设全球首个具身智能四年制工学本科专业,首年招生30人 [31] - 包括北航、北理、浙大、哈工大在内的9所高校正在申报具身智能本科专业,另有9所高校申报增设未来机器人专业 [31][32] - 设立新专业旨在解决传统专业培养内容零散、毕业生缺乏软硬件集成工程能力的问题,以应对产业对复合型人才的迫切需求 [40] 行业前景与市场数据 - 具身智能在一年内走完了大模型三年的发展路程,行业发展速度极快 [4] - 2025年中国具身智能市场规模预计达52.95亿元,全球市场2030年有望突破2326亿元 [37] - 高盛预测2035年全球人形机器人市场规模将达380亿至2050亿美元,人社部预计2025年相关领域存在3000万人才缺口 [38][39]