Workflow
RoboBrain
icon
搜索文档
2025,中国大模型不信“大力出奇迹”?
36氪· 2025-12-19 19:06
文章核心观点 - 2025年生成式AI发展进入新阶段,其演进围绕认知深化、维度突破和效率重构三条核心脉络交织进行,开始定义AI进化的新范式 [1] - 单纯依赖算力和参数规模扩张的Scaling Law边际效益递减,行业正通过架构创新(如MoE、稀疏注意力)和多模态数据(尤其是视频)利用来寻求新的性能提升路径 [1][8] - 大模型行业的竞争格局呈现中美、开源与闭源“双核驱动”的态势,商业化成功的关键在于构建算力、能力、生态三层“护城河”,并聚焦于高价值的专业用户(ToP)市场 [3][7][10] - 智能体(Agent)和具身智能(Embodied AI)是重要的演进方向,但面临商业化、技术成熟度及软硬件协同的挑战,端云协同与模型“能力密度”提升是未来发展核心 [3][11][17][19] - 中国AI产业有望通过开源生态和专注于提升模型效率(如“密度法则”)的路径,在算力受限环境下实现突围 [3][20] 2025年大模型进化三大脉络 - **认知深化:从“直觉”到“逻辑”**:一线模型通过强化学习(RL)和更长的中间推理,从快速的模式匹配(System 1)向多步深度推理(System 2)演进 [1] - **维度突破:从“语言”到“物理空间”**:AI演进逻辑从理解语言符号进化到理解物理世界本身,“空间智能”成为关键,视频数据因其蕴含的丰富时空信息成为迈向物理世界的关键桥梁 [1][2] - **效率重构:从“暴力美学”到“性价比”**:产业落地回归极致的算力效能比,采用混合专家模型(MoE)、稀疏注意力等架构革新使模型变“轻”,以解决无限上下文带来的算力挑战 [1] Scaling Law与模型迭代新范式 - **Scaling Law面临瓶颈**:在大语言模型领域,由于互联网文本数据枯竭,单纯堆算力、堆参数的边际效益在递减 [8] - **多模态数据成为新红利**:视频数据的量级是互联网文本数据的百倍、千倍乃至万倍,从视频中学习(Learning from Video)成为大模型新的性能提升机会 [8] - **“密度法则”成为新方向**:类似于芯片摩尔定律,行业追求在单位参数内提升“智能密度”,通过技术创新实现模型能力压缩,预计每100天模型密度变得更高 [3][9] - **端云协同成为未来格局**:未来算力格局将是云端负责规划,端侧负责执行(做事),预计到2030年,端侧设备可承载GPT-5级别的模型能力 [3][18] 大模型公司的竞争“护城河” - **三层金字塔结构**:最底层是算力的获取、组织和有效利用;中间层是维持SOTA水平的模型能力;最上层是触达用户、获得数据反馈的生态 [9][10] - **“双核驱动”格局已定**:开源与闭源大模型、中国与美国的企业和人才,形成双核驱动格局,2025年被视为中国大模型的破局之年 [3][7] - **赢家通吃**:大模型是一个全球留不下几家公司的赢家通吃行业 [9] 智能体(Agent)的商业化现状与瓶颈 - **从玩具到工具的挑战**:智能体商业化面临三大技术瓶颈:基础模型推理能力仍有欠缺、领域适配时的“翘翘板效应”(能力此消彼长)、模型的记忆和遗忘机制不完善 [11][12][13] - **端侧与云端智能体的区别**:端侧智能体需满足隐私、实时、稳定需求,并对全模态数据有感知理解与个性化服务能力;云端智能体主要处于数字世界 [13] - **商业化变现聚焦ToP市场**:在ToB(企业)和ToC(消费者)之间,面向专业型用户(ToP)的市场是目前中美AI行业变现效率最高的地带,如AI编程和创作者付费工具 [14] - **ToB与ToC市场挑战**:ToB是门槛高的“攻坚战”,落地较好的是嵌入特定环节的流程型Agent;ToC则因能力不足、缺乏新硬件载体及商业模式(Token成本高于广告收益)的悖论而尚需时日 [15] 具身智能(Embodied AI)的发展与挑战 - **产业处于早期阶段**:需要足够耐心,其发展依赖于世界模型和具身大脑等基础模型的进步 [17] - **世界模型是关键底座**:如智源的多模态世界模型Emu3.5,从视频中学习时空、因果等信息,致力于预测下一个时空状态,为具身智能构建“世界模型”底座 [2][17] - **“大小脑”协同架构**:未来机器人将采用类似“大小脑”的分工,实时感知与行动留在本地(小脑),深度思考可借助云端(大脑) [17] - **软硬结合是理想路径**:大模型AI走向物理世界,智能(软件)至关重要,但在中国环境下,硬件比重可能更重,最理想的模式是软硬结合 [19] 开源生态与中国AI的突围之路 - **开源开放推动行业进步**:人工智能行业的快速发展离不开开源开放生态,这推动了技术普惠和产业化落地 [20] - **高效模型是突围关键**:通过“密度法则”等技术提升模型效率,降低训练和使用成本,是中国在算力存在短板情况下的重要突围路径,适用于端侧和云侧 [20] - **开源模型是国运级机会**:集全国之力支持优秀开源模型,在此基础上比拼应用和生态,是中国AI发展的良好路径 [20] - **给创业者的关键建议**:在大模型难以触及的行业深处寻找机会,并建立能够跨越模型迭代周期的商业结构,避免做过于通用的产品 [21]
具身智能商业化大单“含金量”几何?从业者也看不明白
南方都市报· 2025-11-23 13:50
行业商业化进展与潜在风险 - 今年下半年以来,行业连续宣布亿元级商业化大单,营造出乐观的落地前景 [1] - 有从业者对部分订单背后的虚实表示质疑,提出其是否解决实际问题、形成商业闭环、创造真实场景价值的疑问 [1] - 机器人厂商的量产可能并非由真实需求驱动,而是由伪需求或示范性验证的小需求形成,存在热度退去后场景方停止续购的风险 [1] - 众多公司集中涌入工业和物流领域的搬运、分拣、安防,以及商用领域的导览、导购和文娱表演等应用方向 [3] 行业面临的核心挑战 - 硬件存在关节发热、关节扭矩密度低、电池能量密度低、端侧算力有限等问题,尚未达到真正量产可用阶段 [4] - 智源研究院采购的10台某品牌人形机器人,在一两个月内损坏了五台,硬件稳定性阻碍其进入真实工业及家庭场景 [4] - 硬件难题被视为“线性瓶颈”,可持续投入以取得进步,但零部件迭代可能触及物理极限 [4] - 软件瓶颈属于“非线性”,具身智能模型的“ChatGPT时刻”难以预测,可能短则两三年,长则十年之久 [4] 技术发展路径与数据之争 - 业内爆发并持续着真机数据与仿真数据的路线之争 [4] - 有观点认为数据质量优先于数据总量,应坚持以物理世界真实数据为主 [5] - 另一观点则认为仿真能提供丰富的物理交互基础,是合成数据的使命,可用于习得复杂身体控制并为真实世界部署提供基础控制器 [5] - 具身智能模型训练成本高企,现阶段订单量不足以支撑创业公司进行高风险的模型训练尝试 [5] 可行的发展策略与建议 - 短期内不应对人形机器人的通用能力和泛化能力抱有过高期待 [6] - 更现实的路径是先用小的专用具身智能模型进行场景化落地,在特定场景和任务上做到99%以上的准确率,并保证硬件长时间稳定运行 [6] - 建议机器人公司先活下来,熬过可能出现的寒冬 [6] - 建议政府层面更多从政策上给予支持与引导,而非直接提需求,因为真实需求始终来自企业和用户侧 [1]
100亿都不够烧!机器人公司CEO们给出新判断:具身智能不能再照搬LLM
搜狐财经· 2025-11-22 10:41
智源研究院技术进展 - 发布原生多模态世界模型Emu3 5,训练数据从15年视频扩展至790年,参数规模从8B提升至34B,并引入自研DiDA技术使视频、图像生成速度提升至与Diffusion、DiT类模型相当 [5] - 构建跨异构本体具身智能体系,包括RoboBrain(具身大脑)、RoboOS(跨本体操作系统)与基于VLA的RoboBrain-0,已在多款不同形态机器人本体上部署,能完成导览、导购到复杂交互任务 [5] - 展示全身控制能力,宇树G1机器人在其控制框架BAAI Thor加持下完成拖动1 4吨汽车的实验 [5] 行业核心议题讨论:模型与架构 - 世界模型需从海量视频中学习,面向具身智能所需的“下一时空状态预测”,而非语言主导的“下一个Token预测”,且必须建立在大量属于机器人的数据之上 [5][7] - 具身智能未来可能需要一套“先行动、再视觉、最后语言”的具身原生结构,以行动与感知为核心,而非沿用当下“大模型的语言中心范式” [10] - 具身智能的最终“大模型”并非单体模型,而是VLA+世界模型+RL的闭环系统 [12] 行业核心议题讨论:数据来源与使用 - 机器人必须在真实场景中学习真实性、多样性和规模化,但仿真是当前更现实的突破口,许多底层控制能力如行走、跳跃等全身控制及灵巧手操作需在模拟器中完成,真实世界仅做微调 [15] - 视频数据被视为最容易大规模获取且最接近真实世界的关键数据形式,训练逻辑可类比人类从视频理解世界再到真实交互校正的过程 [15] - 真实与仿真数据会形成螺旋上升关系,先落地采集真实数据,回仿真扩大覆盖,再回真实验证,不同阶段根据任务需求使用不同类型数据 [15] 行业核心议题讨论:资源投入与硬件形态 - 若有100亿元资金推进具身智能,投入优先级集中在顶尖人才吸纳、算力与数据引擎等基础设施,以及打造属于具身智能的模型体系 [17][19][21] - 人形机器人并非具身智能的唯一最终形态,硬件瓶颈问题的核心是场景需求,模型不定义硬件,硬件也不定义模型,场景定义硬件 [22][23] - 具身智能体系应分层,上层大模型可跨本体复用,但贴近执行的小脑层模型需随硬件结构细调,同一模型部署到不同本体上未必最优 [23]
VLA的基础模型与大规模训练任务汇总
具身智能之心· 2025-10-08 10:49
视觉-语言-动作模型优化 - 机器人思维链推理通过预测中间表征提升策略性能与泛化能力,但存在依赖专用数据和推理速度慢的局限性 [3] - 研究提出推理提升性能的三种机制:更优表征学习、更完善学习课程化、更强表达能力,并设计简化变体验证每种机制作用 [3] - 基于机制理解提出两种轻量级机器人推理替代方案,在LIBERO-90基准实现最先进结果,推理速度较标准方法提升3倍 [3] - 利用视觉语言模型生成反事实标签扩充机器人数据集,解决现有数据语义多样性和语言接地性不足问题 [5] - 反事实重标记方法在无需额外采集数据下,使VLA模型导航任务成功率提升27%,指令跟随能力媲美最先进方法 [5] 机器人脑与操作能力构建 - 多模态大语言模型在机器人长周期操作任务中缺乏规划能力、可供性感知和轨迹预测三大关键能力 [7] - 引入ShareRobot高质量异构数据集,标注任务规划、对象可供性和末端执行器轨迹等多维度信息,基于此开发RoboBrain模型 [7] - RoboBrain结合机器人与通用多模态数据,采用多阶段训练策略,融入长视频和高分辨率图像,在各种机器人任务中实现最先进性能 [7] - 提出DROID大规模机器人操作数据集,包含7.6万条演示轨迹(350小时交互数据),由50名采集者在564个场景中完成86项任务 [9] - 利用DROID训练的策略在性能和泛化能力上均有提升,数据集及学习代码已开源 [9] 视觉表征与技能学习迁移 - 针对具身智能预训练视觉表征的最大规模实证研究构建CORTEXBENCH基准,包含17项任务,发现无单一表征在所有任务中占优 [13] - 整合超过4000小时第一视角视频(含超430万张图像)与ImageNet训练视觉Transformer,发现扩大数据规模多样性不普遍提升所有任务性能但平均有提升 [13] - 规模最大模型VC-1平均性能优于所有现有预训练视觉表征,任务或领域特异性适配可带来显著提升,适配后VC-1在所有基准任务上达到或优于最佳结果 [13] - 提出语义动作流作为中间表示捕捉操作者-物体交互,ViSA-Flow框架从无标签大规模视频数据中自监督学习该表示 [11] - ViSA-Flow在CALVIN基准和真实任务实现最先进性能,低数据情况下通过将知识从人类视频迁移到机器人执行超越现有方法 [11] 通用策略微调与模仿学习 - 通用机器人操作策略微调性能因策略设计选择而有显著差异,包括动作空间、策略头、监督信号及可调参数选择 [15] - 深入实证研究评估每个单一配置2500次rollout,低数据情况下精心选择的微调策略使GMPs显著优于最先进模仿学习算法 [15] - CACTI框架通过数据收集、增强、视觉表征学习和模仿策略训练四阶段实现机器人学习可扩展性,专注于多任务多场景操作 [17] - CACTI在真实机器人设置中训练单一策略完成10项厨房操作任务,在仿真环境中完成18项语义任务(每项100种布局变化) [17] - R3M视觉表示在Ego4D人类视频数据集上预训练,下游机器人操作任务中比从头训练成功率提高超过20%,比CLIP和MoCo提高超过10% [19] - R3M使机械臂在仅20次演示下于真实杂乱公寓环境中学习操作任务,作为冻结感知模块实现数据高效学习 [19]
对话智源王仲远:具身智能“小组赛”才刚刚开打,机器人需要“安卓”而非 iOS
AI科技大本营· 2025-06-07 17:42
大模型发展瓶颈与突破方向 - 大语言模型性能提升速度明显放缓 主要受限于互联网数据使用瓶颈 [2] - 行业共识认为AI需要从"读万卷书"转向"行万里路" 即从虚拟数据走向物理世界交互 [2] - 英伟达CEO黄仁勋提出AI下半场方向是打造"AI工厂" 迎接"物理AI"时代 [2] - 智源研究院推出"悟界"系列 旨在突破虚拟与现实边界 相比早期"悟道"系列更注重物理世界交互 [2] 多模态与具身智能技术路线 - 大模型正从语言模型转向原生多模态世界模型 目标是实现AI对物理世界的感知与交互 [4] - 具身智能面临"循环悖论":硬件不成熟→数据稀缺→模型能力弱→商业化困难→无法反哺硬件 [6] - 破解方案包括利用互联网视频数据预训练 再通过有限真实机器人数据微调 类似人类学习模式 [9][11] - 关键能力突破在于时空智能 使AI不仅能识别物体还能预测物理交互后果 [11] 智源研究院的技术布局 - 推出四大核心技术:Emu3多模态模型 RoboOS/RoboBrain协作框架 Brainμ脑科学模型 OpenComplex2原子生命模型 [7] - 采用"安卓"式开放策略 打造通用具身智能平台而非专用系统 适配各类机器人硬件 [12][13] - 明确区分"大脑"(任务规划)与"小脑"(运动控制) 采用端云协同方案而非强行融合 [14] - 定位为做"高校做不了 企业不愿意做"的通用平台研发 填补产业空白 [12] 行业发展阶段与商业化前景 - 当前阶段类比大模型爆发前的探索期 技术路线尚未收敛 产业格局未定 [15] - 预测未来3年将率先在工厂等封闭场景落地 解决重复性危险劳动 [15] - 行业处于"小组赛"阶段 各类参与者带来不同视角 远未到淘汰赛时期 [15] - 长期来看需要5-10年才可能实现真正的大小脑融合模型 [14] 典型案例与学习范式 - 通过小女孩观察学习案例 验证视频数据+强化学习的技术路径可行性 [9] - 人类通过跨本体知识传递(如语言文字) 启发AI应具备类似通用能力 [12] - 当前AI缺乏时空感知能力 例如仅能描述杯子而无法预判跌落风险 [11]