RoboFinals
搜索文档
别再想靠“demo”糊弄,NVIDIA联合光轮智能正式开启具身评测驱动的时代!
具身智能之心· 2026-01-26 09:04
文章核心观点 - 具身智能行业正从研究走向工程落地,但缺乏统一、可规模化、可复现的评测体系已成为最大系统性风险,行业亟需从依赖“经验”和“直觉”转向“评测驱动” [2] - 仿真评测是解决真机评测无法规模化问题的唯一可行路径,而行业当前缺失的是一套面向工业级决策的评测基础设施 [13][21] - NVIDIA与光轮智能联合推出的开源评测体系Isaac Lab-Arena及其上构建的RoboFinals平台,旨在建立规模化的机器人评测基础设施,标志着具身领域迈入评测驱动的新阶段 [23][77] 行业现状与挑战 - 模型能力增长远超现有测试基准的边界,行业缺乏测量模型真实能力的“尺子”,研发决策依赖“经验”和“直觉” [2] - 行业展示的“完美”动作背后存在“过拟合”问题,机器人缺乏全面泛化能力,在场景变化时可能“手足无措” [4][5] - 当前评测存在诸多局限:专做1-2个场景、测试案例少、缺乏边界测试标准、测试场景不够规模化、测试要求与标准不统一 [6] - 真机评测在成本、周期、硬件稳定性与安全风险等因素上,无法支持大规模、并行、可重复的评测流程,结构上不可能规模化 [10][12] 现有评测基准的不足 - 现有广泛使用的具身仿真benchmark(如LIBERO、BEHAVIOR、RoboCasa)任务规模有限,场景变化受控,更多用于算法验证而非能力上限测量 [16][18] - 学术级benchmark普遍存在问题:任务与场景规模不足、忽略策略在边界条件下的失败模式、各自维护独立环境导致结果难以统一对比 [20] - 现有评测更像是“验证实验”,而非真正意义上的“能力测量”,无法回答模型在真实世界中的稳定工作能力及边界等关键工程问题 [20] 解决方案:工业级评测基础设施 - 仿真不是备选方案,而是具身评测唯一可行的路径 [13] - 行业真正需要的是一套能够面向工业级决策、统一和可规模化、确定性的具身评测基础设施 [21] - 工业级评测基础设施的目标是:测量模型在复杂真实世界中的能力边界;支持跨团队、跨版本、跨时间的工程级可比评测;为下一轮数据生成与模型设计提供明确反馈信号 [22] NVIDIA Isaac Lab-Arena 的核心创新 - Arena将评测从“写死的脚本”升级为可组合、可扩展的模块化系统,一个评测环境由物体、场景、任务、本体等模块按需组合、即时生成 [27] - 引入Affordance(可供性)作为中间抽象层,使任务绑定“可交互语义”而非具体资产,实现了评测体系跨物体、跨场景、跨本体的扩展能力 [28] - 将任务多样化本身工程化,同一任务定义可系统性地替换不同对象、机器人本体和环境结构,无需重写评测逻辑,能系统性覆盖整个任务分布以观察泛化边界 [30][31][37] - 设计为策略无关(policy-agnostic)的评测框架,不绑定任何特定策略或模型形态,配合并行能力与固定随机种子,使不同模型的结果可被稳定对比分析,类似CI工程流程 [34] - 评测与示教采集、数据生成、后训练过程形成闭环,其输出是可操作的工程信号,而非孤立的排行榜 [38][39] - 定位为开源、可扩展的评测底座,希望不同团队能在同一核心上共建评测生态,避免“各自为政” [41] 光轮智能的角色与RoboFinals平台 - 光轮智能具备全栈自研仿真能力,覆盖从底层物理求解(Solver)、面向交互的SimReady资产生产、框架层到应用层的完整工程链路,与Arena目标形成端到端能力对齐 [51][55] - 光轮智能长期服务全球主要具身智能团队,深度理解真实评测需求与失败模式,能将NVIDIA的评测框架延伸到真实工业使用场景,充当“工程放大器” [56] - 基于Isaac Lab-Arena,光轮智能构建并开源了RoboFinals工业级仿真评测平台,提供超过250个可直接运行的评测任务,覆盖家居与工业等核心场景 [62][64] - RoboFinals作为“工业级尺子”同时覆盖三层关键维度:支持人形机器人、机械臂等多类本体;覆盖从家居到工业的多样化场景;覆盖操控、移动等核心能力任务 [66][68] - RoboFinals已被通义千问等多家领先的模型团队采用,嵌入其内部研发流程提供持续评测信号 [71] - RoboFinals的评测任务已被纳入Hugging Face LeRobot生态,可被全球1300万开发者直接调用,从工具转变为基础设施 [73]
李飞飞的World Labs联手光轮智能,具身智能进入评测驱动时代!
量子位· 2026-01-19 11:48
文章核心观点 - 具身智能行业正面临模型进步速度远超评测能力的瓶颈,规模化评测成为关键制约因素[18][20][22][23] - 为解决此问题,行业两大关键基础设施公司——李飞飞旗下的世界模型公司World Labs与仿真合成数据公司光轮智能宣布合作,标志着具身智能正式迈入“评测驱动时代”[1][2][76] - 双方合作基于“数字表亲”理念,分工明确:World Labs的Marble产品解决高保真3D环境生成的规模问题,光轮智能则提供与真实物理对齐的资产及评测闭环,共同构建可规模化运行的仿真评测系统[3][45][49][51] World Labs(世界模型公司)分析 - 公司由AI领域权威人物李飞飞创立,成立仅两年已融资数亿美元,股东包括Andreessen Horowitz、英伟达、Databricks、Adobe等顶级风投与AI生态公司[4][5][17] - 公司选择“空间智能”作为AGI发展路线,旨在构建能感知、生成、推理并与环境互动的世界模型,以突破大语言模型的智能天花板[6][7] - 核心产品Marble是一款可视化世界模型,仅需一句话、一张图片或一段视频等轻量输入,即可生成高保真、持久、可下载的3D环境,支持导出多种格式,并内置AI世界编辑器Chisel[8][9][11][12][14] - Marble主要服务于视觉特效、游戏开发等领域,实现了“一句提示→生成3D世界→一键导出至Unity”的生产力链路,但其生成的世界缺乏物理参数,需与物理引擎结合才能用于机器人训练与评测[15][16][36] 光轮智能(仿真合成数据公司)分析 - 公司是当前最炙手可热的具身智能基建公司,与英伟达关系紧密,深度参与其仿真系统底层共建,是Newton物理引擎的早期验证者和开发合作者[54][55] - 公司在仿真合成数据市场占有率极高,服务了全球前三的世界模型公司,国际主要具身团队的仿真资产和合成数据80%以上来自光轮智能[58][59] - 公司构建了三位一体的自研仿真技术体系:1)自研GPU物理求解器,支持百万级自由度并行计算;2)全自动虚实对标物理测量工厂;3)将真实物理特性规模化映射为SimReady资产与场景[52] - 基于其基础设施地位,公司推出了工业级仿真评测平台RoboFinals,并与英伟达联合打造了开源仿真评测框架Isaac Lab Arena,致力于成为行业评测标准[63][64] 行业瓶颈与解决方案 - 具身智能模型迭代速度极快(几乎每隔一两周),现有学术基准已无法准确评估其能力,行业缺乏有效的规模化评测手段[20][22][23] - 在真实物理环境中测试机器人成本高昂、难以规模化,且存在安全风险,仿真被视作规模化评测具身智能的唯一可行路径[24][27][28][29] - 李飞飞提出的数据金字塔框架中,仿真合成数据被视为最具可扩展性的主干数据形态,是解决数据与评测这一根本约束的关键[31][32][35] - 传统追求“数字孪生”(一比一复刻真实世界)的仿真方式成本极高、无法规模化,行业转向“数字表亲”理念,即追求物理与空间结构可信,细节允许近似[42][43][44][45][46] World Labs与光轮智能的合作细节 - 合作本质是“世界模型×仿真基础设施”的历史性交汇:World Labs解决“世界从哪来”,光轮智能解决“进步怎么被衡量”[3] - 分工明确:Marble负责将环境创建时间从数周压缩到数分钟,解决环境生成的规模问题;光轮智能则承担仿真中最难的部分——提供与真实物理对齐的资产及构建评测闭环[47][49] - 合作旨在构建一个世界、行为、评测高度耦合的闭环系统,使仿真成为一个可重复运行、可持续扩展的数据生产系统,让规模化评测第一次真正成为可能[50][51] - 此次合作有深厚的学术渊源,李飞飞在斯坦福时期推动的BEHAVIOR系列研究及其2025年的BEHAVIOR Challenge,早已为具身智能建立长期、可扩展的评测工程奠定基础[38][40][41] 评测驱动时代的行业意义 - 随着众多大模型公司、机器人本体公司及行业巨头涌入,具身智能路线高度分叉,行业亟需能指引方向的“路标”或“北极星”[65][67][68][69][70] - 好的评测不仅能评估模型能力,更能提前发现技术瓶颈、反向塑造研究方向,是具身智能发展中必须与模型同步扩展的系统级能力[71][72] - 作为仿真与评测基础设施提供商,光轮智能处在所有技术路线之上而非其中,这使其最适合承担客观的行业评测角色[73][74] - World Labs与光轮智能两大关键基建的联手,串联起从环境生成到物理仿真再到规模化评测的全链条,有望推动具身智能行业进入以评测为驱动的新发展阶段[75][76]
北京人工智能第一城“炼金术”
北京商报· 2026-01-05 23:10
文章核心观点 - 北京市人工智能产业已形成从底层芯片、大模型到上层应用及产业生态的完整链条,展现出强大的综合实力和领先地位,其核心竞争力在于高效运转的产业生态链和系统韧性[1][2][20] 产业规模与地位 - 2025年上半年,北京市人工智能核心产业规模达2152.2亿元人民币,同比增长25.3%,初步估算全年产业规模有望冲击4500亿元人民币[1] - 北京市备案大模型达209款,占全国近三成[9] - 北京AI学者总量1.5万人,占全国30%[13] AI芯片领域 - 北京已形成自主可控的“芯片矩阵”,包括昆仑芯、寒武纪、摩尔线程、清微智能等国产明星产品[1] - 昆仑芯拿下中国移动十亿级集采项目订单,在三个标包中全部排名第一[3] - 寒武纪的旗舰芯片思元590支持千亿参数大模型训练[3] - 摩尔线程专注国产GPU自主研发,MTT系列芯片在通用计算、图形渲染与AI算力输出上表现抢眼[3] - 清微智能聚焦低功耗AI芯片研发,核心产品已在工业物联网、智能终端等领域实现规模化商用[3] - 北京大学与中国科学院空天信息院合作开发出全球首款基于光频梳芯片化的集成式光子时钟芯片,时钟频率超100GHz,将芯片时间调控速度提升100倍[3] - 中国科学院计算技术研究所联合软件研究所推出“启蒙”系统,实现国际首个全自动化设计的CPU芯片“启蒙1号”,5小时内完成32位RISC-V CPU全部前端设计[3] 大模型领域 - 豆包、智谱GLM、月之暗面Kimi、文心一言等大众日常依赖的AI应用均为“北京造”,站稳全球第一梯队[1][8][9] - 智谱AI发布新一代轻量级通用基座模型GLM-4.7-flash,其训练方法在保证性能的前提下显著提升了训练效率,大幅降低了计算资源消耗和时间成本[10] - 面壁智能发布最新大模型MiniCPM-o 4.5,是全球首个可部署在端侧的全双工全模态大模型,支持“自主回答”[12] - 面壁智能与清华大学联合发现揭示大模型演进规律的“密度法则”,该理论提出“大模型的能力密度约3.5个月翻一番”,并登上全球科学顶刊《Nature》的子刊封面[13] 软件与生态建设 - 智源研究院发布面向多种AI芯片的系统软件栈——众智FlagOS 1.6,旨在通过统一技术生态解决大模型使用不同AI芯片时的适配迁移难题,实现“一次开发,多芯运行”[3][7] - FlagOS 1.6版本发布了统一多芯片插件系统,作为实现“N+M”连接的关键技术[7] - 作为FlagOS 1.6的一部分,KernelGen 1.0是全球首个支持多芯片的算子自动生成平台,过去花两年时间开发200个高性能算子,现在通过该平台仅用3小时就能生成200个算子[7] 应用场景与产业生态 - AI已深入北京日常生活与城市治理,例如银河通用Galbot G1机器人在智慧药仓分拣药品,海淀依托空间计算模型使部分重点区域平均拥堵指数下降超40%[1] - 北京拥有超2500家人工智能公司,核心竞争力体现在一整条环环相扣的产业生态链上[2] - 北京将深入实施“九大行动”以加快建设全球人工智能创新高地,包括技术创新策源、智算自主生态强基、高质量数据聚能、全域应用赋能等行动[14] - 光轮智能发布具身智能工业级仿真评测平台RoboFinals,是全球首个针对具身智能的工业级评测平台,形成“数据生成—模型训练—能力评测”的完整闭环[15][18] - 北京市将坚持“以数赋模”,强化具身智能、科学智能及各行业高质量数据集供给,加快数据处理、合成、仿真、安全等关键技术攻关,培育头部数据服务商[18] - 仿真技术在医疗手术机器人训练、物流分拣等场景中发挥关键作用,机器人绝大部分技能在虚拟世界中习得[19] - AI已渗透至智能制造、信息技术软件、生物医药、金融服务、未来产业等场景[19] - 北京发布了首批人工智能创新街区,将优先聚集支持政策,区级层面也会因地制宜制定特色政策[19]
全自研仿真GPU求解器x虚实对标物理测量工厂,打造具身合成数据SuperApp,加速具身仿真生态丨光轮智能@MEET2026
量子位· 2025-12-22 16:01
文章核心观点 - 具身智能的发展正从大模型的“语言世界”迈向“物理世界”,而仿真正成为连接两者并实现落地的底层基础设施[1] - 具身智能的市场规模和数据机会远大于文本、视觉模型及智能驾驶,其数据维度更真实、复杂,潜在规模是大语言模型的1000倍[2][10][14] - 具身智能时代的核心挑战在于数据,仿真是解决数据问题的唯一可行方案,其关键在于解决仿真真实性(Sim2Real)的行业痛点[3] - 光轮智能通过自研“测量、生成、求解”三位一体的全栈仿真基础设施,为具身智能提供数据、训练、评测的全流程解决方案,旨在成为支撑产业规模化发展的基础[3][6][12] 行业趋势与市场机会 - 具身智能的数据机会预计是大语言模型的1000倍,源于其需要处理力反馈、逻辑电路、阻尼等多维复杂物理交互,远超智能驾驶(主要是视觉和车辆动力学)的数据复杂度[10][14] - 具身智能的预训练数据需求巨大,因为缺乏“本体在跑”的真实数据,而真机数据采集面临成本高昂、易损坏、场景单一和“Real2Real”差距等挑战[17][18] - 传统仿真方法因物理不真实、资产视觉失真、交互行为不准确三大问题,导致仿真与真实世界差异巨大,部署成功率从理论100%降至5%[15][19][20] 光轮智能的仿真技术解决方案 - 公司自研了“测量、生成、求解”三位一体的仿真基础设施,以解决Sim2Real的可靠性问题[3][15] - **测量**:通过自研设备实现自动化物理测量,建造“虚实对标物理测量工厂”,不再依赖猜测和经验[21][24] - **生成**:核心是生成系统,确保资产、场景、力的反馈与真实世界100%对齐,覆盖钢体、铰链、流体、可形变物体等,并主导制定了行业规范LW-Ready[23][24][25] - **求解**:自研了全栈GPU Solver,支持百万级自由度的实时求解,实现多物理场耦合,物理精度达亚毫米级,更新频率达千赫兹[23][36][38] 仿真应用与生态构建 - 公司认为仿真平台的成功离不开生态支撑,因此聚焦打造“爆品应用”来验证和优化平台[15][39] - **仿真遥操数据采集工厂**:建立了全球最大的遥操数据采集工厂,运用6D鼠标、AR、VR等多种采集方式,并配备自动化质检与标注[6][40] - **大规模RL训练平台(LW-BenchHub)**:可在高仿真环境中运行成千上万的并行仿真实例,进行24小时不间断训练,并能自动生成极端、长尾场景以增强机器人鲁棒性[6][42][44] - **工业级机器人评测平台(RoboFinals)**:行业首个针对前沿机器人模型的工业级评测平台,包含一百项涵盖家居、工厂、零售等真实场景的任务,已成为全球使用频次最高的仿真应用之一[6][45] 公司业务与客户进展 - 公司成立于2023年,商业化进展迅速,已服务全球具身智能和世界模型领域的头部客户[12] - 客户包括英伟达、DeepMind、Figure AI等国际公司,以及国内字节、阿里等科技企业,还包括丰田、吉利等场景应用方[12] - 公司与学术界合作紧密,其自研仿真工作流已成为Hugging Face官方指定的仿真环境[13] - 公司通过仿真技术帮助客户将机器人本体真正地Sim2Real落地到实际工厂中[12]