Workflow
世界模型
icon
搜索文档
图灵奖得主 Yann LeCun:大模型是“死胡同”,下一步押在哪一条路?
36氪· 2025-11-28 09:43
核心观点 - 图灵奖得主Yann LeCun宣布离开Meta,创办专注于先进机器智能的新公司,标志着AI技术路线可能发生重大集体转向[1][2] - Yann LeCun和OpenAI前首席科学家Ilya Sutskever在一周内先后质疑大语言模型主流路线,认为“拼算力”时代结束,后LLM时代正在成形[3][8][31] - 下一代AI的竞争焦点将从模型规模和训练数据转向新架构的发明以及系统的强大与可控性[31][32][39] 对LLM的批判 - LLM被Yann LeCun称为通往人类智能的“死胡同”,因其缺乏对真实世界的理解、常识和因果关系,仅是统计相关性的堆叠[3][5] - 模型规模增大带来语言流畅度提升,但世界理解力未同步跟上,Meta的Llama 4在真实场景中表现远不如基准测试即为例证[5] - LLM能力在实验室显露天花板,性能趋于饱和,更大模型不一定带来更高真实智能,继续堆算力边际收益越来越低[6][7][8] - LLM的核心缺陷在于无法进行多步骤推理、长期规划和具身交互,智能本质是行动能力而非语言能力[12][13] - 语言被视为人类智能的副产品而非核心机制,真正的智能应源于对物理世界的建模、预测和行动[9][10][11] 世界模型与JEPA架构 - Yann LeCun提出的下一代AI路径是构建“世界模型”,让AI能从多模态输入中构建对世界的内部理解,并基于此预测和行动[14][15] - 世界模型的关键在于让AI具备类似人类和动物的抽象内部投影能力,以理解重力、速度、距离等物理概念[15] - LeCun推动的新架构是联合嵌入预测架构,其与LLM的核心差异在于处理多模态数据、预测抽象状态变化及结合表征学习与因果建模[16][17][26] - JEPA架构的学习模式是让AI在模拟环境中自主互动,从中提取因果关系并形成持续记忆,最终具备规划行动能力,不依赖更多token而依赖更好的世界模型[19][20][21] 后LLM时代的技术路线分歧 - Yann LeCun押注世界模型方向,目标是让AI具备对物理世界的理解和行动能力,判断10年内会出现具身AGI原型[25][28] - Ilya Sutskever押注安全超智能方向,关注点在解决AI系统的泛化脆弱性,确保AI能力提升过程中的安全可控[25][29] - 两位先驱代表了后LLM时代的两个主要方向:架构创新派和安全优先派[30] 工业界的动向与影响 - 工业界出现悄然转向迹象:OpenAI确认首个AI硬件原型已完成,计划2年内发布无屏幕AI设备[34] - Google挖来波士顿动力前CTO,推动Gemini成为通用机器人控制平台,目标是让同一模型适配任何形态的机器人[34] - 李飞飞的World Labs融资2.3亿美元后发布商业产品Marble,Figure AI估值达390亿美元,Tesla Optimus计划2026年量产,显示下一代AI将不局限于对话框[35][36][37] - 新架构的突破需要时间,LeCun预估需几年到十年,Sutskever预估需5到20年,当前LLM仍是主流应用基础[38][39][40] - 对创业者和开发者的启示包括:不要迷信模型规模、垂直场景存在机会、开源路线重要以及需做好长期准备[41][42][43][44]
理想披露了一些新的技术信息
自动驾驶之心· 2025-11-28 08:49
端到端模型与VLA技术路线 - 理想汽车在端到端模型结合视觉语言模型量产的后期发现两大问题:训练数据量超过1000万片段后,模型性能提升速度显著变慢,5个月内平均无干预接管里程仅增长约2倍[5];端到端模仿学习缺乏深度逻辑思维能力,导致违反常理行为、决策不够智能及安全感不足[5] - 为解决上述问题,公司引入视觉语言模型,并主推视觉语言行为模型量产,期望其平均无干预接管里程达到1000公里以上[2][5] - 视觉语言行为模型具备三大核心能力:空间智能代表对远距空间和全局语义的理解能力;语言智能代表通过思维链生成决策并听懂人类指令,联合训练后推理速度可达10赫兹以上;行为策略代表使用扩散模型直接生成平滑轨迹,支持多种驾驶可能性[6] 仿真测试与闭环训练体系 - 公司升级模型评测方式,使用世界模型进行闭环仿真和测试,使后训练和强化学习环节的评测效率更高,测试成本从每公里18.4元大幅降低至0.53元[9] - 基于世界模型构建的仿真平台可实现强化学习,架构包括云端训练平台进行数据管理和奖励模型更新,更新后的模型在仿真平台运行,高价值数据反馈至样本库[11] - 为配合区域仿真,公司构建世界模型3D资产库,可根据训练需求将资产注入仿真世界作为交通参与智能体[12] 算力资源配置 - 理想汽车总算力达到13EFLOPS,其中10EFLOPS用于训练,3EFLOPS用于推理[13] - 公司拥有5万张训练和推理卡,推理卡算力等效3万个L20,训练卡算力等效2万个H20[13] - 在视觉语言行为模型时代,推理算力尤为重要,缺乏推理卡将无法生成仿真训练环境[13]
从游戏工厂到空间智能仿真:混元 3D 为何是腾讯 AI 的“侧翼突围”
AI前线· 2025-11-27 12:02
公司AI战略与产品发布 - 混元3D创作引擎发布国际版,API上线腾讯云国际站,同时开源版全球下载量突破300万次[2] - 公司AI战略路线基于业务需求端、技术端和生态端的复合能力,形成"业务—技术—生态"三位一体的独特优势[3][4] - 公司AI投入重点不是堆规模而是提效率,AI被定义为贯穿内部业务的基础能力,第三季度营收同比增长15%[33] 3D生成技术在游戏行业的应用 - 传统3D制作成本高昂,美术成本占游戏研发50%–80%,一个3D角色模型成本在几万元到近百万元,顶尖3D游戏投入高达数亿美元[6] - 混元3D通过两条技术主线提升效率:面向3D资产提升批量产出效率,面向世界模型解决场景级搭建问题[8] - 在《元梦之星》案例中,玩家输入描述后几秒钟即可生成可编辑3D资产,道具制作时间从2天缩短至0.2天,效率提升10倍[9][12] - 在《轻游梦工坊》中,新手可在一周左右完成游戏开发,约四成参赛者无游戏开发经验却完成了优秀作品[10] 3D生成技术面临的挑战与突破方向 - 技术上面临质量、可控性和速度三座大山,目前真正达到要求的内容比例不足10%[30][35] - 核心挑战包括组件化生成、低多边形拓扑平衡等问题,影响游戏工业化管线对AI产出的接纳[14] - 数据成为行业瓶颈,全球可用3D数据仅千万量级,远不及文本百亿级规模,限制模型泛化能力[38] - 公司正从数据层面、模型架构层面和交互面三个层面进行突破,包括扩充高质量数据和支持多模态输入等[42] 跨行业应用与商业化进展 - 超过150家企业通过腾讯云接入混元3D模型,应用横跨游戏制作、电商展示、影视特效等行业[25] - 3D打印领域率先跑通商业闭环,拓竹MakerWorld平台月调用量预计突破10万次,创想三维可实现5分钟生成Q版手办[26] - 电商场景中家居商家实现约35%的点击率提升,教育文博领域制作成本降至传统流程十分之一[29] - 在自动驾驶和具身智能领域,混元3D承担补齐仿真场景短缺的角色,被多家厂商用于补充真实道路采集[30] 技术竞争与生态建设 - 世界模型竞争白热化,Google DeepMind、Meta、OpenAI、NVIDIA、特斯拉等巨头都在推进相关技术[17][18] - 公司通过开源策略构建生态,开源版下载量超过300万次,社区反馈推动技术改进[20][22] - 混元图像3.0在LMArena全球26个模型盲测中登顶,获得最佳综合文生图模型与最佳开源模型两项第一[31] - 公司定位Model as a Service为核心竞争力,不急于求成,注重技术领先性巩固后的自然商业化平衡点[39]
没有身体就没有AGI!Hillbot苏昊对谈千寻高阳:具身智能泡沫很大但进展真实
量子位· 2025-11-27 11:00
文章核心观点 - 具身智能是通往通用人工智能的必经之路,其本质与大语言模型无异,核心在于数据规模的扩展[2][3][4] - 行业正处于“全民做科研”的泡沫与真实进展并存阶段,技术突破是连续过程,机器人具身模型的GPT-3.5时刻预计在2-3年内到来[31][33][38][41] - 中国在具身智能领域具备硬件与软件协同设计、供应链效率和现实世界数据采集的显著结构性优势[25][26][27][30] 具身智能的战略重要性 - 具身智能是实现通用物理智能和通用智能的关键出口,缺乏身体则无法验证认知和改变世界[2][16][19] - 无论是虚拟智能体还是物理机器人,与环境的交互和经验学习是获得通用能力的必不可少环节[21][23] - 科学发现和拓展人类生存空间等宏大目标,均需具身智能实现感知与交互的配合[19] 技术路径与突破预期 - 技术路径借鉴大语言模型的成功经验,核心是解决预训练问题,让模型具备先验知识[39][40] - 世界模型是技术框架的重要组成部分,旨在建立对物理世界常识的表征,视觉-语言-动作架构需要其支撑[34][36] - 下一个突破是模型听话程度和完成多样化物理行为能力的连续提升,最终能串联复杂任务[40][41] - 机器人具身模型的GPT-3.5时刻预计还需2-3年,GPT-4时刻则需更长时间[41] 中美竞争与中国优势 - 中美在顶尖技术层面差距不大,美国在人才绝对数量和资本对“世界第一”量级的投入上具有优势[24][25] - 中国的核心优势在于硬件和软件的协同设计能力、供应链效率以及现实世界数据采集的迭代速度[25][26][27] - 硬件迭代周期在中国可比美国快3-10倍,配件获取速度以天为单位,而美国需周以上[25][26] - 中国全社会对具身智能的投入度和决心更强,且在该领域“没有退路”,必须持续支持[30] 行业现状与挑战 - 当前AI行业处于“全民做科研”状态,因问题宏大,资本和研究力量过早介入导致泡沫与真实进展并存[31][33] - 具身智能发展的最短板是数据,其瓶颈与大语言模型的电力瓶颈不同[27] - 芯片供应,特别是端上芯片,是中国面临的一个明确挑战[30]
第八届 GAIR 全球人工智能与机器人大会,首批嘉宾公布
雷峰网· 2025-11-27 08:28
大会背景与定位 - GAIR全球人工智能与机器人大会自2016年首届举办至今已走过九年历程,记录人工智能行业高光时刻[2][3] - 2025年AI行业正从技术破壁迈入价值深耕关键节点,大模型向多模态融合、算力底座产业竞争规则重构、世界模型成为解锁通用智能核心密钥[4] - 大会作为粤港澳大湾区最具影响力AI论坛,历届邀请多位图灵奖与诺贝尔奖得主、50位院士、30位人工智能国际顶会主席、100多位Fellow及500多位知名企业领袖[4] 2025年大会核心信息 - 第八届GAIR大会将于2025年12月12-13日在深圳博林天瑞喜来登酒店举办,由GAIR研究院与雷峰网联合主办[4] - 高文院士任指导委员会主席,杨强院士与朱晓蕊教授任大会主席,现场开设三个主题论坛与两个闭门会议[4] - 会议聚焦大模型、具身智能、AI算力、世界模型、AI硬件等多个前沿议题[4] 首批参会嘉宾阵容 - 学术界代表包括深圳理工大学算力微电子学院院长唐志敏、中国工程院院士高文、加拿大皇家科学院院士杨强、清华大学教授杨士强等[8] - 产业界代表包括京东集团副总裁郑宇、美的首席信息安全官刘向阳、燧原科技首席生态官李星宇、诺亦腾机器人创始人戴若犁等[10][16] - 研究机构代表涵盖之江实验室科学模型总体部技术总师薛贵荣、国家超级计算无锡中心副主任付昊桓、上海人工智能实验室青年科学家王靖博等[11][13]
闭环训练终于补上了!AD-R1:世界模型端到端闭环强化学习新框架(澳门大学&理想等)
自动驾驶之心· 2025-11-27 08:04
行业技术趋势 - 世界模型成为自动驾驶领域关键发展方向,具备数据生成、预训练、闭环仿真和轨迹预测等核心能力[1] - 行业领先公司积极布局世界模型技术:小米用于数据生成和闭环仿真,蔚来和华为宣布基于世界模型量产,理想汽车提出从数据闭环走向训练闭环的技术路径[1] - 中科院和华为引望提出的DriveVLA-W0模型利用7000万数据验证了自动驾驶模型的data scaling law,引发行业广泛关注[1] 技术瓶颈识别 - 现有强化学习世界模型存在系统性"乐观偏差"问题,仅基于安全专家数据训练,无法预测错误行为后果[2] - 当输入不安全轨迹时,模型会幻想不切实际的安全未来(如障碍物消失、道路被忽视),而非预测即将发生的故障[2][7] - 这种"无法想象失败"的特性使世界模型难以成为学习稳健驾驶策略的可靠评估器[2] 解决方案创新 - 提出基于公正世界模型的后训练策略优化框架,通过反事实合成流水线生成包含合理碰撞和偏离车道事件的训练样本库[3] - 创新性引入轨迹感知门控模块和自车轨迹保真度损失,确保模型预测始终忠实于指令轨迹[10][25][26] - 构建风险预测基准(RFB)系统量化模型预测灾难性故障能力,为行业提供关键评估工具[15] 技术架构设计 - AD-R1框架包含两大核心模块:新型公正世界模型设计和强化学习框架集成[14] - 公正世界模型基于I²-World高效架构扩展,采用两阶段设计:场景Token化和自回归预测[17][22] - 训练数据混合80%真实nuScenes数据与20%合成反事实数据,实证验证最优比例平衡故障样本与真实驾驶动态[44] 性能验证结果 - 公正世界模型在风险预测基准上表现优异:G-IoU达40.21%,DAF达25.10%,显著优于DOME和I²-World基线模型[47][48] - 后训练优化使两个基线模型的规划决策综合指标(PDMS)分别实现1.7%和1.1%的绝对提升[15][49] - 消融实验证实三大核心组件协同作用:反事实合成带来最关键提升,模型优化增强因果保真度,4D奖励实现最优性能[51][52] 应用价值体现 - 框架具备即插即用特性,可提升任何驾驶智能体的安全性,在复杂仿真场景中大幅减少安全违规事件[3][9] - 4D奖励建模基于物理的丰富基础,能捕捉安全性、舒适性与任务进度,超越传统2D BEV方法的限制[35] - 该方法使智能体能够在安全离线环境中从大量想象故障中学习,为现实世界自动驾驶提供关键能力[15]
北京人形机器人!WoW:200万条数据训练的全知世界模型
具身智能之心· 2025-11-27 08:04
文章核心观点 - 当前主流视频模型(如Sora)依赖被动观察数据,在理解物理因果关系方面存在不足 [2] - 真正具备物理直觉的世界模型必须基于与真实世界的大规模、富含因果关系的交互数据进行训练 [2] - 北京人形机器人创新中心推出的WoW模型,是一个基于200万条机器人交互轨迹训练、拥有140亿参数的全生成式世界模型,代表了该领域的重要突破 [2] - 通过SOPHIA框架引入视觉语言模型作为评判者,并对生成结果进行物理合理性评估与迭代优化,实现了从“思考”到“行动”的完整闭环 [2] - 在WoWBench基准测试中,WoW模型在物理定律遵循(80.16%)和指令理解(96.53%)方面表现突出,证明了其强大的物理一致性与因果推理能力 [3] 模型架构与技术突破 - 推出WoW模型,这是一个基于200万条真实世界机器人交互轨迹训练而成的、拥有140亿参数的全生成式世界模型 [2] - 模型对物理规律的理解呈现为概率性的可能结果分布,这种特性可能引发随机不稳定和物理幻觉 [2] - 提出SOPHIA框架,通过引入视觉语言模型作为评判者,对生成结果进行物理合理性评估,并借助语言指令进行迭代优化 [2] - 框架中协同训练一个逆向动力学模型,负责将优化后的视觉想象转化为可执行的机器人动作,形成完整闭环 [2] - 模型架构体现了“想象、行动、反思”的智能体设计思想 [7] 性能评估与基准测试 - 为系统评估模型的物理一致性与因果推理能力,构建了WoWBench基准测试 [3] - 在该基准上,WoW模型在人工评估与自动评估中均达到领先水平 [3] - 模型在物理定律遵循方面得分达到80.16% [3] - 模型在指令理解方面得分达到96.53% [3] - 测试结果证明了模型在物理因果关系、碰撞动力学和物体持久性等方面的强大能力 [3] 行业趋势与应用前景 - 研究以扎实证据表明,大规模真实世界交互是培养AI物理直觉不可或缺的基石 [3] - 世界模型在具身智能领域存在垂直应用前景 [7] - 模型具备预测未来、推演物理、还原因果的能力 [7] - 行业关注可落地的实践应用场景 [7] - 分享内容涵盖了国内外世界模型的发展趋势 [7]
“AI主流发展路线已经遇到瓶颈”
第一财经· 2025-11-26 17:52
文章核心观点 - AI行业单纯依靠堆算力、扩规模的阶段已经结束,行业正从“规模化时代”回归到“研究时代”,需要重新思考通往AGI的真正范式[4][9] 对当前AI发展路径的批判 - 前OpenAI首席科学家苏茨克维认为,AI的扩展(Scaling)时代已经终结,算力规模已很大但不能持续带来更好的“扩展”,扩展与浪费算力的界线变得模糊[4] - 当前主流路线遇到瓶颈,行业从规模化扩展回到了研究范式本身,进入“只是有了更大的计算机”的研究时代[4] - 图灵奖得主杨立昆认为,绝大多数同行致力于的大语言模型是死胡同,LLM由于其计算机制的限制,无法进行复杂的推理和规划,只是为了迎合训练数据的统计规律[8] - 斯坦福大学教授李飞飞指出,当前以LLM为代表的AI虽然擅长处理抽象知识,却如同在“黑暗中行走”,缺乏对物理世界的真实理解[9] AI模型存在的核心问题 - 大模型的泛化能力比人类差很多,这是通向AGI途中需要解决的根本问题[5] - 模型在各种评测上表现出色,但在某些情况下会重复犯错,例如编程时能解决复杂问题却不断引入简单Bug,存在评测性能与现实世界性能的脱节[6] - 苏茨克维提出两种可能解释:一是强化学习训练让模型变得过于一根筋和视野狭窄;二是强化学习训练时针对评测集选择数据,导致训练数据太狭窄[6] - 当下的AI可能缺少了类似人类情绪的价值函数,这能让AI更有方向感,苏茨克维引用脑损伤案例说明情绪对人类有效决策的重要性[7] 对未来AI发展范式的探讨 - 杨立昆认为,世界模型将成为人工智能架构的主流模型,它通过摄取视觉信息来了解周围世界,学习方式类似动物幼崽或人类幼儿[8] - 杨立昆将于年底离开Meta,创建专注于世界模型的初创公司,他认为未来五到十年解决“世界模型”相关难题,有望构建真正智能、能够规划和推理的AI系统[9] - 李飞飞强调建立“世界模型”和空间智能的重要性,她认为人类对世界的理解是整体性的,关乎空间关系、意义及关联[9] - 李飞飞提出,新的“世界模型”需要具备生成性、多模态性和交互性三种核心能力,以构建环境内部表征[9]
蔚来汽车
数说新能源· 2025-11-26 13:58
公司业绩与财务表现 - Q3公司交付智能电动车87,071台,同比增长40.8% [1] - 10月公司交付40,397台智能电动车,同比增长92.6%,连续三个月创月度交付新高 [1] - Q4预计总交付量12万-12.5万台,同比增65.1%-72%,再创季度新高 [1] - Q3总营收218亿元人民币,同比增16.7%,环比增14.7% [4] - 整车销售额192亿元,同比增15%,环比增19% [4] - 其他销售26亿元,同比增31.2%,环比降9.8% [4] - Q3整车毛利率提升至14.7%,综合毛利率13.9%,为近三年最高 [1][4] - Q3经营亏损35亿元,同比减32.8%,环比减28.3% [5] - 调整后经营亏损28亿元,同比减39.5%,环比减31.3% [5] - 公司经营现金流与自由现金流均转正,期末现金及等价物等总计367亿元 [1][5] 产品与品牌发展 - 推出两款大型三排座纯电SUV:ONVO L90与全新蔚来ES8,需求稳健 [1] - Firefly品牌覆盖更广价格区间,三大品牌共同推动交付量显著增长 [1] - 全新ES8于9月正式上市,41天内交付破万,创40万元以上纯电车型最快交付纪录 [7] - 11月ES6交付量突破30万台,蝉联30万元以上纯电SUV销量冠军 [7] - ONVO L90自7月底上市三个月交付超3.3万台,连续三个月领跑大型纯电SUV市场 [7] - L60前三季度稳居20万元以上纯电SUV前二 [7] - Firefly品牌持续领跑高端小型电动车市场,产品已走向全球 [7] 技术研发与智能化 - 蔚来发布全球首个世界模型NWM,具备闭环训练能力 [1] - 将为搭载NX9031及NVIDIA ORIN-X芯片的车型分批推送NWM升级 [2] - 年底即将推送COCONUT 2.1.0,采用面向城市/高速NOA及泊车的端到端模型方案 [2] - NX9031(5纳米)芯片已量产上车,性能与成本优势明显 [11] - 芯片不仅自用,还将通过合资公司等途径向行业输出,拓展至机器人等非汽车场景 [11] - 坚持核心技术自研,依托12大技术领域全栈自研 [1] 销售网络与基础设施 - 现有172家蔚来中心、395家蔚来空间、422家ONVO门店、405家服务中心及70家交付中心 [3] - 全球换电站达3,641座,累计换电超9,200万次 [3] - 建成超2.7万根充电桩与目的地充电桩 [3] - 坚持"可充、可换、可升级"的纯电路线 [1] 未来展望与战略 - 对Q4实现季度盈亏平衡有信心 [6] - Q4整车毛利率预计约18% [6] - 预期明年上半年达成"月销5万"目标 [8] - 2026年non GAAP全年盈利是明确业务目标 [10] - 明年将发布三款大型车,月销有望1.5-2万 [10] - 目标整车毛利率20% [10] - 海外扩张战略顺序为"Firefly → ONVO → NIO" [15] - ONVO长期价格带覆盖10-30万元,目标抢占年容量1500万台的最大细分市场 [15]
具身智能无共识,就是最好的共识
36氪· 2025-11-26 07:32
文章核心观点 - 具身智能行业在2025年末仍处于技术探索早期,尚未形成统一的技术发展共识,但这种“无共识”状态被视作具有积极意义,它打破了单一技术路线的垄断,为不同背景的团队提供了平等的试错空间,并为技术创新预留了弹性空间 [1][3] - 行业认为,真正的具身智能并非源于一条预设的完美路径,而是通过模型、数据和架构领域的持续试错、冲突与调和“雕刻”而成,当前的不完美状态恰恰是领域生命力的体现 [1][14] 技术路线与模型发展 - **世界模型价值与局限**:世界模型的核心价值在于“预测”物理交互,对机器人底层控制至关重要,但其短板突出,难以成为万能方案,主要问题包括:训练数据多依赖人类行为视频,与机器人身体结构差异大,帮助有限;在真实复杂场景(如做饭、装配)中预测精度仍不足 [4][5] - **专属模型需求**:行业共识认为需要打造平行于大语言模型的具身专属模型,例如以“动作”为核心的“Large Action Model”,或能同时控制动作和预测物理规律的“物理世界基础模型”,因为物理世界的精细交互(如摩擦、力反馈)无法用语言准确描述 [6] - **架构革新探索**:Transformer架构在具身智能领域的适用性受到质疑,因其以语言为核心的处理逻辑与物理世界“视觉-动作”直接交互的操作逻辑相悖,硅谷头部团队已在探索“Vision First”或“Vision Action First”的新架构,以减少语言中介的损耗 [7][8] 数据策略与需求演变 - **数据来源的适配选择**:行业没有统一的数据使用答案,普遍采取多源融合、按需选择的策略:1) **真机数据**:保真度高,是精细操作场景的首选和高质量数据的来源,被视为构建数据飞轮的起点 [9];2) **仿真数据**:成本低、可规模化,是底层控制训练和生成极端场景数据的主力 [9];3) **视频数据**:包含时空、因果等多维度信息,能大规模获取,是训练基座模型、认识世界的重要补充,但缺乏力反馈、触觉等精细信息 [10] - **数据需求全方位升级**:行业对数据的需求在“数量”、“质量”和“种类”上均提出更高要求:1) **数量**:期待“互联网级别”或“具身智能互联网”级别的海量数据,当前业内构建的27万小时真机数据集仍远未达到海量标准,不足以引发质变 [11];2) **质量**:高质量数据比海量低质数据更有价值,在具身场景中,数据质量比总量更能拉开量级差距,金字塔顶尖的真机数据虽少但至关重要 [13];3) **种类**:需丰富多模态数据(如触觉、力反馈),当前能力多承袭基座模型的视觉与语言,真正物理交互的模态数据稀缺,未来数据采集需全面记录机器人动作、环境变化、交互反馈及人类需求 [13][14] 产业发展态势 - **“无共识”的产业利好**:共识缺失对产业有三重利好:1) 打破单一技术路线垄断,避免路径依赖,让不同技术理念和学科背景的团队获得平等试错空间 [3];2) 降低准入壁垒,为中小企业、初创团队及跨界玩家提供弯道超车的机会 [3];3) 在技术基础快速迭代的早期,避免过早形成共识固化技术路径,为向更高维度突破预留“弹性空间” [3] - **发展路径展望**:短期突破依赖仿真模拟与合成数据以加速探索,长期发展则依赖于现实世界中“机器人人口”规模的持续快速扩张,通过能力提升与数据积累相互推动,才能催生真正强大的具身大模型 [8][11]