泛化

搜索文档
为什么行业如此痴迷于强化学习?
自动驾驶之心· 2025-07-13 21:18
核心观点 - 强化学习(RL)相比监督微调(SFT)能显著提升大语言模型的泛化能力,尤其在跨领域任务迁移中表现更优 [5][6][14] - 数学推理能力的提升可正向迁移至其他理科领域,验证了RL训练对机器智能发展的关键作用 [7][15] - SFT训练会导致模型在非推理任务上出现负向迁移(TI_non达113.7),而RL模型保持稳定(TI_non仅36.9) [7][12] 训练方法对比 - **模仿学习(SFT)**:依赖高质量数据集直接复制解题过程,但导致模型输出冗长(3000+重复token)且破坏原有知识结构(158-390个无关token变化) [6][13][16] - **强化学习(RL)**:仅提供最终答案奖励,模型自主探索解题路径,保持表示空间稳定(仅14-15个任务相关token变化) [10][11][16] 实验设计 - 使用相同基础模型(Qwen3-14B-Base)和数学数据集(47K问题)对比RL与SFT效果 [11] - 可迁移指数量化显示:RL模型在数学/其他推理/非推理任务的TI分别为8.5/3.5/36.9,显著优于SFT模型(21.4/10.9/113.7) [8][12] - PCA分析证实RL模型的表示漂移距离最小,知识结构保留度最佳 [10] 案例表现 - 数学问题求解:RL模型直接建立方程(简洁),SFT模型产生大量冗余检查步骤 [13] - 非推理任务:RL模型高效完成辞职邮件,SFT模型陷入过度思考循环 [13] 行业意义 - 研究为Grok 4等新一代RL训练范式提供了理论支撑,证明探索式学习更接近人类智能发展路径 [1][14][15] - 数学能力作为基础学科的迁移效应,验证了跨领域知识转移对AI系统的重要性 [7][15]
对话梅卡曼德机器人邵天兰:冲向具身智能终局的路上,我们先上桌了|牛白丁
钛媒体APP· 2025-06-25 18:49
公司发展历程 - 梅卡曼德机器人成立于2016年,专注于机器人的眼、手、脑技术,通过标准化产品适配广泛硬件形态,覆盖汽车、物流、重工等多个领域[2] - 公司连续四年市占率第一,成为全球"AI+机器人"领域规模最大的独角兽企业[2] - 2017年初获得华创资本独家领投的Pre-A轮融资[2] - 经过8年发展,公司的高精度工业级3D相机和人工智能软件已广泛应用于物流和制造场景[5] 技术路线与产品 - 公司专注于机器人的感知能力、规划能力和决策能力,产品应用于上料、搬运、装配、切割、焊接、涂胶、质检等多个场景[5] - 采用标准化产品策略,通过十几个SKU覆盖绝大部分场景,最高精度可达0.2微米[21][22] - 不做机器人本体,而是适配几十个品牌、上千个不同机器人型号,专注于机器人的眼睛和大脑[23] - 当前处于L2阶段,L3技术已有很好进展,预计一年内会有初步应用[43] 行业趋势与竞争格局 - 机器人行业正经历从机械控制向人工智能化的转变,计算机背景人才大量涌入[7][8] - 当前行业热度类似2015年的自动驾驶,技术突破带来希望但存在泡沫和激进时间表[11][12] - 全球工业机器人存量约400万台,与制造业从业人数相比仍有巨大增长空间[35] - 人形机器人在制造业和物流行业可能不是主流形态,工业机器人仍有很大发展空间[35] 市场拓展策略 - 海外业务收入占比已达50%,从2019年开始布局国际市场[28][29] - 进入发达国家市场是为了应对高标准要求,倒逼产品升级[29] - 全球工业自动化市场中,大中华区收入占比约1/4-1/3,因此全球化布局至关重要[30] 未来展望 - 预计10年内机器人将进入千家万户,但短期内3-5年进展可能不会太快[17][47] - 技术演进路径与自动驾驶类似,从L2逐步向更高阶段发展[44][57] - 公司采取"销售一代、改进一代、预研一代"的策略,避免过度依赖单一技术路线[59] - 在冲向具身智能终局的过程中,公司已具备上桌竞争的能力和位置[60][61]