泛化能力
搜索文档
突然爆发,巨头都急了!
格隆汇· 2025-12-04 17:07
特朗普又画K线了? 刚发布的AI"创世纪计划"的美国政府,又亲自下场了。 特朗普政府All in机器人!据称考虑明年发机器人行政令,美股机器人概念股突然爆发啊,iRobot盘中飙涨近80%,特斯拉涨4%。 A股人形机器人板块今日顺势全线反弹,景顺长城基金机器人50ETF、机器人ETF易方达均涨3%,且盘中均获资金越涨越买,分别净申购300万份、1.22亿 份。 | 序号 | 证券代码 | 证券简称 | 当日涨跌幅 | 年涨跌幅 | 童等是插入 | | --- | --- | --- | --- | --- | --- | | ل | 159502.SZ | 标普生物科技ETF | 3.85% | 35.75% | 嘉实县金 | | 2 | 561980.2H | 半导体设备ETF | 3.63% | 54.87% | 招商基金 | | 3 | 159559.SZ | 机器人50ETF | 3.16% | 23.60% | 景顺长城基金 | | 4 | 588710.SH | 科创半导体设备ETF | 3.14% | 0.00% | 华泰柏瑞基金 | | 5 | 159582.SZ | 半导体产业ETF | 3 ...
Ilya辟谣Scaling Law终结论
AI前线· 2025-11-30 13:33
AI发展范式转变 - 单纯依靠算力规模扩张的"大力出奇迹"时代可能已经结束,即使资源增加100倍也未必能带来AI能力的质变[2] - AI发展正从"规模扩张时代"重新回到"研究驱动的时代",但这次研究建立在前期积累的超大算力基础之上[16][42][45] - 当前AI进展的瓶颈已从"算力"转向"想法本身",行业内公司数量远多于真正新颖的思路[16][60] 当前AI模型的局限性 - 现有大模型出现明显断层:在基准测试中成绩惊人,但在简单真实任务中经常翻车,智能表现脆弱[16][17] - 模型泛化能力远逊于人类,既体现在需要海量数据、样本效率极低,也体现在教授复杂任务非常困难[16][47] - 强化学习可能让模型变得过于单一目标驱动,过度聚焦评测分数反而削弱了向真实应用场景泛化的能力[16][19] 未来AI发展方向 - 实现通用人工智能可能还需要更多突破,持续学习和样本效率是常被提及的两个方向[5] - 价值函数被认为是重要发展方向,能让AI更高效地学习,预计未来会广泛应用[37][46] - 人类学习机制为AI发展提供重要启示,人类拥有强大的内部价值函数和鲁棒的学习机制[55][56] AI经济影响与部署策略 - 即使没有进一步研究突破,当前技术范式也足以产生巨大的经济和社会影响[5] - 最强大的AI部署关键在于能够把在整个经济体系中各个实例的学习结果合并起来,这种集体知识汇聚可能触发智能爆炸[16][81] - AI部署应该采用渐进式方式,让社会逐步接触和适应,而不是一次性推出完全成熟的超级智能[72][73][85] 行业竞争格局 - 行业内专家共识远多于分歧,普遍认为通用人工智能大概率会在20年内实现,而非需要100多年[5][111] - 当前AI行业公司数量多于真正新颖的思路,竞争格局呈现同质化趋势[60][113] - 随着AI能力提升,不同公司可能会在技术路径和对齐策略上逐渐收敛[115][116] 研究资源分配 - 用于研究的算力需求相对可控,AlexNet仅用2块GPU,Transformer初期实验使用8-64块GPU[61] - 大公司算力被分割到不同模态和产品线,真正用于纯研究的算力差距并不像表面数字那么大[63][66] - 研究时代需要的是思维多样性而非简单算力堆砌,思维多样性比同质化复制更重要[124]
前OpenAI创始人称:大模型将从“堆芯片”转向“拼研究”
阿尔法工场研究院· 2025-11-27 08:07
AI行业发展模式转变 - 行业此前聚焦于通过海量芯片部署或获取大规模训练数据来实现算力扩张 [3] - 通过堆算力提升AI智能水平的模式已经逼近极限 [2][6] - 科技企业已投入数千亿美元采购GPU并建设数据中心以提升AI工具性能 [5] 对算力扩张路径的质疑 - OpenAI联合创始人伊利亚·苏茨克维尔对“算力扩张是AI进步核心路径”的传统共识提出质疑 [5] - 过去约五年间,算力扩张模式确实产出了具有影响力的成果,对企业而言是一种简单且风险极低的资源投入方式 [6] - 数据是有限的,而各类机构已拥有海量算力,单纯将规模扩大100倍并不会带来彻底改变 [6] 未来发展方向 - 行业需要重返研究时代,但这次有了强大的计算机加持 [4][5][6] - 需要找到高效利用现有算力的有效途径,研究将起到关键作用 [4][6][7] - 研究重点应转向让模型具备与人类相当的泛化能力,即仅通过少量信息或示例就能完成学习的能力 [7] - 算力仍是研究的必要条件,并在所有主流机构遵循同一范式时可能成为核心差异化优势之一 [6]
参数空间对称性:深度学习理论的统一几何框架
机器之心· 2025-10-29 17:25
文章核心观点 - 深度学习模型的有效性部分源于神经网络参数空间中广泛存在的对称性,即大量不同的参数配置可实现相同的模型函数 [2] - 参数空间对称性为理解深度学习的优化动态、损失地形和泛化性能提供了统一的数学框架和几何视角 [2][6] - 对称性研究正从理论概念转化为可操作的算法原则,影响优化方法、模型融合及权重空间学习等多个领域 [31] 参数空间对称性的定义与类型 - 参数空间对称性是指保持神经网络损失函数不变的参数变换,数学上表示为 L(g·θ) = L(θ),这些变换构成一个群并在参数空间中定义等价轨道 [6] - 离散对称性如神经元置换对称:交换隐藏层中两个神经元及其关联权重,网络函数保持不变 [4][6] - 连续对称性如ReLU网络的缩放对称和自注意力机制的一般线性对称,可将孤立极小值点拉伸成连续的平坦流形 [7][8][10] 对称性对损失地形的影响 - 连续对称性导致损失地形中出现平坦的极小值流形,沿此流形移动损失值不变,这意味着许多平坦方向由结构对称性决定而非泛化能力 [10][13] - 离散对称性会在参数空间复制大量功能相同的极小值副本,使极小值数量随网络宽度呈阶乘级增长 [13] - 对称性天然创造连接功能等价参数的连续路径,这解释了独立训练模型间观察到的模式连通性及模型融合的有效性 [10] 对称性在优化算法中的应用 - 对称性导致等损失点可能对应不同的梯度和训练轨迹,为算法设计带来新可能 [15][16] - 一类优化方法主动利用对称性在等价轨道中寻找梯度更优的点以加速收敛,另一类方法追求对称不变性使优化结果对初始变换不敏感 [16][19] - 对称性成为理解和改进优化算法的重要线索,其应用思路分为利用自由度和约简冗余两种 [19] 对称性与学习动力学 - 连续对称性对应训练过程中的守恒量,类似物理中的诺特定理,这些量在梯度流中保持恒定 [21][22] - 守恒量如线性网络中相邻层的Gram矩阵差、ReLU网络中输入输出权重的范数差,揭示了训练稳定性并帮助解释优化的隐式偏置 [22][23] - 不同的初始化对应不同的守恒量值,从而影响最终收敛点和泛化性能,参数空间的对称结构决定了学习轨迹与结果的统计分布 [23][25] 跨空间的对称性联系 - 参数空间对称性与数据空间和内部表征空间的对称性紧密相连,当数据分布具有对称性时,模型参数会继承这些结构 [27][28] - 在权重空间学习等新兴方向中,对称性成为新的数据结构,支持等变元网络在模型性质分析、生成及优化权重更新等任务中的应用 [28][29] - 等变元网络可直接在模型权重上进行学习,用于预测模型泛化能力或生成满足特定特征的新模型 [29]
对比之后,VLA的成熟度远高于世界模型...
自动驾驶之心· 2025-09-27 00:03
端到端自动驾驶技术格局 - 当前行业与学术界中90%以上采用分段式端到端方案,纯粹的视觉-语言-动作模型和世界模型非常罕见 [2] - 视觉-语言-动作模型代表包括高德地图模型、地平线SENNA模型和加州大学洛杉矶分校AutoVLA [2] - 世界模型代表包括上海AI实验室GenAD、中科慧拓GenAD、华为与浙江大学Drive-OccWorld以及理想汽车World4Drive [2] 性能测试方法与数据集 - 性能测试主要分为两类:在模拟器中使用合成数据进行闭环测试,以及在真实采集数据上进行开环测试 [4] - 开环测试无法获得预测指令执行后的反馈,常用评估指标为3秒内平均L2距离和3秒内平均碰撞率 [4] - 闭环仿真测试主要基于CARLA、nuPlan和NAVSIM平台,其中NAVSIM数据集来自nuPlan [4] - 常用数据集规模:nuScenes为5.5小时,Waymo为11小时,Argoverse2为4.2小时,nuPlan为120小时,而合成数据规模理论上无限 [3] 主要模型性能对比 - 基于nuScenes数据集的开环测试是当前最常见评估方式 [5] - 视觉-语言-动作模型阵营性能表现优于世界模型阵营,例如地平线SENNA模型在加入自车状态后L2平均距离为0.22米,3秒平均碰撞率为0.08% [5][6] - 世界模型相关论文多集中于2024年初,近期研究更多集中于生成长尾训练视频 [6] - 华为与浙江大学Drive-OccWorld在不同评估协议下表现差异显著,采用TemAvg协议时L2平均距离为0.47米,碰撞率为0.11% [5] 上海AI实验室GenAD模型 - 模型最大特色是训练数据完全来自互联网,绝大部分来自YouTube,无需任何标注 [7] - 公司认为使用标注数据的监督学习难以具备强泛化能力,主张采用海量无标注在线驾驶视频 [8][19] - 模型采用两级训练,基于扩散模型和Transformer,但需添加基于高精度地图和交通规则的任务头,因此不能算纯粹的世界模型 [26] 华为与浙江大学Drive-OccWorld模型 - 模型框架包含历史编码器、具有语义和运动条件归一化的记忆队列、世界解码器三个组件 [32] - 世界模型输出两个任务头:基于动作可控的占据栅格网络生成和基于占据的轨迹预测 [28] - 模型采用混合密度网络结合高斯混合模型,在输出部分引入不确定性,更接近强化学习范式 [30] - 端到端轨迹规划借鉴ST-P3的代价函数聚合图 [36] 理想汽车World4Drive模型 - 框架包含驾驶世界编码模块和规划模块,其中编码模块包括意图编码器和物理潜在编码器 [37] - 意图编码器对轨迹词典中的轨迹按终点进行K-means聚类得到意图点,结合正弦位置编码获得意图查询 [37] - 采用IDEA的Grounded SAM算法获得基于深度的语义分割图,该过程需要大量3D标注数据 [39] - 通过交叉注意力机制引入场景上下文信息,并通过多层感知机输出多模态轨迹 [41] 技术路线对比与部署考量 - 视觉-语言-动作模型技术成熟度远高于世界模型,且架构更加简洁 [43] - 世界模型经过传统融合激光雷达的感知算法增强后性能提升,但丧失了无需标注数据和泛化能力强的优点 [43] - 通常世界模型参数量在10亿以下,部署成本相对较低,但加入扩散模型后运算和存储资源消耗显著增加 [43]
从 SEAL 自适应学习到 DFT 奖励矫正,LLM 泛化能力的实质提升又有多少?
机器之心· 2025-09-07 09:30
大模型泛化能力研究进展 - 大模型泛化能力存在本质争议 部分研究认为其优势源于海量训练数据的记忆而非真正的逻辑推理 例如CoT推理在分布外测试中性能急剧崩溃[9][10] - 模型规模扩大对泛化影响呈现分化 参数从13M增至12B时 推理任务生成全新短语组合能力增强(Spearman ρ下降) 而知识任务仍高度依赖预训练语料共现片段(Spearman ρ>0.35)[9] - 2022-2025年LLM研究爆发式增长 ACL论文数增长近6倍 arXiv论文数增长近15倍 当前研究重点依次为推理、泛化、幻觉、偏见和安全性[11] 泛化能力提升技术路径 - 研究重心从早期关注数据分布与模型规模 转向训练策略、模型更新机制及数据设计创新 包括自适应微调、动态梯度调整和数据增强等[7][11] - 动态微调(DFT)通过纠正传统微调(SFT)隐含的反向奖励机制提升泛化能力 上下文学习(ICL)相比SFT在泛化提升方面具显著优势[1] 行业研究动态 - 学界对泛化本质存在根本性分歧 ReflectionAI CEO提出"不存在泛化 仅存在测试分布被纳入训练分布"的观点 强调训练数据覆盖度的决定性作用[10] - 知识密集型任务(如TriviaQA)准确率高度依赖预训练语料共现频率 对共现片段去重或扰动会导致性能显著下降[9]
深度|OpenAI联创:GPT-5的突破在于智能开始触及真正的深度认知领域;理想状态应该是默认使用我们的自动选择,而非手动配置
Z Potentials· 2025-09-06 12:40
文章核心观点 - OpenAI联合创始人Greg Brockman分享GPT-5和GPT-OSS的技术突破及AGI战略路径 强调推理能力演进、算力核心地位和模型泛化能力 [3][4][6] - GPT-5实现深度认知突破 在数学证明、编程和科研领域达到接近人类专家的智能水平 标志AGI发展进入新阶段 [24][25][26] - 强化学习与在线学习范式成为技术核心 通过推理-训练循环和现实交互提升模型可靠性 推动智能体集群协同发展 [9][10][29] - 算力规模化是技术突破的根本驱动力 成本两年半降低1000倍 未来算力分配将成社会核心议题 [12][39][59] OpenAI推理能力演进 - GPT-4后期训练发现对话能力 但存在可靠性不足和错误答案问题 通过强化学习实践提升假设验证能力 [5][6] - 推理技术团队提出10种方案验证 最终由Jerry领导团队取得突破 依赖卓越基础设施和跨团队协同 [7] - 模型从离线预训练转向在线学习 通过token价值强化实现高质量数据生成 样本效率远超传统预训练 [8][9] - 人类策划任务产生高杠杆效应 10-100个任务可激发复杂行为 下一步将实现实时在线学习 [10] 算力规模化与超临界学习 - 算力是根本瓶颈 通过持续突破算力边界推进技术 扩展过程蕴含工程实践价值 [11][12] - 算力转化为智能势能 通过摊销效应降低单次使用成本 形成优美技术范式 [12] - IMO模型能力可迁移至IOI竞赛 核心团队仅三人 证明通用学习技术解决复杂问题的可迁移性 [14] - 生物学语言与人类语言在神经网络中同构 400亿参数模型已达GPT-2水平 需突破长上下文处理 [18][21][22] GPT-5技术特征与应用 - 智能达到深度认知领域 能写出媲美人类的数学证明 在编程任务中实现无需调整的完美执行 [23][24] - 作为科研合作伙伴加速研究 帮助物理学家快速推导洞见 改变传统科研范式 [25] - 在竞争性编程平台表现卓越 但真实编程环境更复杂 需连接智能与现实应用多样性 [26][27] - 通过多实例协同释放潜力 用户需培养模型直觉 成为智能体集群管理者而非单智能体 [28] 模型优化与安全架构 - 采用指令层级技术建立信任层级 类似SQL注入防护 通过沙盒隔离和多级防护保证安全性 [30] - Model Spec提供价值对齐框架 规范与行为差距持续缩小 社区反馈完善争议问题处理 [31] - 架构决策受限于运行时资源 混合专家模型优化内存占用和计算消耗 体现工程务实性 [43] - 本地与远程模型协同实现隐私架构 边缘计算保持基础功能 智能分配计算负载 [44] 技术普及与生态建设 - 降价策略激进 价格降低80%后用量激增 需求曲线陡峭 推理效率持续优化 [39] - 开源模型构建技术栈依存关系 有利于商业发展和国家战略 形成完整生态系统 [46] - 软件工程变革聚焦AI优化架构 创建自包含单元和模块组合 提升10倍效率 [47][48] - 算力分配成未来核心议题 物质需求满足后 算力访问权决定问题解决能力 [59] 发展路径与行业展望 - 研究领域存在多样性 各实验室持有独特视角 OpenAI专注阶跃式突破和范式转移 [52][53] - 多模态、语音、图像生成相互关联 但需聚焦连贯核心问题 硬件瓶颈领域进展缓慢 [55] - 模型连接现实应用蕴藏机遇 需深入理解行业和建立合作关系 而非单纯技术优化 [56] - 技术发展速度使2045年难以想象 人类或成多行星物种 算力需求持续飙升 [58][59]
探究下VLA模型泛化差的原因......
具身智能之心· 2025-08-20 08:03
研究背景与核心问题 - 大规模数据集(如Open X-Embodiment/OXE)训练的通用机器人策略在分布范围内表现良好,但泛化能力受限 [2] - 泛化受限的根本原因是捷径学习,即模型过度依赖与任务无关的特征 [2] - 捷径学习由两个关键因素导致:单个子数据集内部多样性有限,以及子数据集间存在显著分布差异(数据集碎片化) [2] 数据集结构分析 - OXE等大规模数据集由多个独立收集的子数据集构成,这些子数据集来自不同环境和机器人形态 [2] - 这种固有结构导致数据集内部多样性不足和碎片化问题 [2] 解决方案与实证发现 - 通过精心选择的数据增强策略可有效减少现有离线数据集中的捷径学习 [2] - 数据增强方法能提升通用机器人策略在仿真和真实环境中的泛化能力 [2] - 研究结果为改进机器人数据集收集策略提供了重要见解 [2] 研究应用与延伸 - 研究成果适用于视觉语言动作模型(VLA),当前VLA的泛化能力十分有限 [5] - 针对OXE数据集的深入分析为数据收集提供了指导方针 [5] - 研究涉及真实场景下的机器人导航和运动控制(real2sim2real)以及真机性能提升(如32%的性能提升)等应用方向 [7]
链式思维是幻象吗?从数据分布视角重新审视大模型推理,马斯克回复,Grok破防
机器之心· 2025-08-14 17:11
思维链(CoT)提示技术的本质 - 核心观点:CoT提示技术生成的推理链条可能并非真正的逻辑推理,而是对训练数据分布内模式的复现,当输入任务与训练数据分布存在差异时,推理链条会迅速失效[2][10] - 典型例证:模型回答「美国建国年是否为闰年」时,推理步骤正确但结论自相矛盾,显示其仅复述逻辑规则而非实际应用[10] - 性能提升来源:CoT效果主要依赖表层语义匹配,问题改写或引入无关内容会导致表现显著下降[11] 数据分布视角的理论框架 - 结构性归纳偏差:CoT有效性源于模型对训练数据中常见模式的复现,而非真实逻辑推演[13] - 理论公式:通过分布差异指标量化推理性能受分布偏移的影响,公式显示测试风险与训练风险、分布差异及样本量相关[15] - 实验验证:分布偏移时模型准确率从100%骤降至0.01%,全新变换下性能几乎完全丧失[23] 可控实验平台与泛化性测试 - 数据炼金术框架:从零训练语言模型,通过字母原子序列和ROT/循环平移变换构建可控任务,精确生成标准推理链以评估差异[18][19][21] - 任务泛化:变换顺序重组或新字母组合导致准确率暴跌,监督微调仅扩展分布边界而非提升抽象能力[23][24] - 长度泛化:输入序列长度或推理步数微小变化即引发表现显著下降,模型通过增减词元凑长度[26] - 格式泛化:提示格式扰动(如元素/变换部分修改)即使逻辑不变也可导致推理失败[28] 普遍性与现实意义 - 普遍脆弱性:不同采样温度和模型规模下CoT对分布偏移的敏感性一致,表明此为普遍现象而非个别特性[31] - 应用警示:高风险领域(医疗/金融/法律)需警惕流畅但逻辑错误的推理链误导性,评测需引入严格分布外测试[34][35] - 发展建议:需正视CoT泛化瓶颈,平衡分布内优势与评测部署的谨慎性[37][38]
字节发布全新 VLA 模型,配套机器人化身家务小能手
搜狐财经· 2025-07-24 00:51
GR-3模型技术亮点 - 具备高泛化能力,能理解抽象语言指令并操作柔性物体,通过少量人类数据即可高效微调[2] - 采用改进模型结构,可处理长程任务并实现高灵巧度操作,包括双手协同和全身操作[2] - 采用三合一数据训练法,融合遥操作机器人数据、人类VR轨迹数据和公开图文数据[7] - 采用MoT网络结构,将视觉-语言模块与动作生成模块结合为40亿参数端到端模型[7] - 计划扩大模型规模和训练数据量并引入RL方法,提升泛化性突破模仿学习局限[7] ByteMini机器人特性 - 专为GR-3设计的通用双臂移动机器人,具备22个自由度和无偏置7自由度机械臂[4] - 机械臂采用球形手腕设计,可在狭小空间完成精细操作[4] - 搭载多颗摄像头实现细节与全局感知,配备全身运动控制系统[4] - 作为GR-3的配套躯体,能高效处理真实环境中的复杂任务[4] GR-3实际应用表现 - 在超长序列餐桌整理任务中展现高鲁棒性和成功率,严格遵循分步指令[4] - 能准确判断无效指令并保持不动,如处理不存在的物品指令[4] - 可控制双臂协同操作柔性物体,鲁棒识别整理不同摆放方式的衣服[5] - 能泛化抓取未见物体,理解复杂抽象指令如处理未训练过的短袖衣物[5] 行业技术发展趋势 - 泛化能力成为VLA模型研发重点,助力机器人在复杂场景快速适应新任务[7] - 机器人公司持续发力"机器人大脑"端,推动VLA模型技术进步[7]