AI强化学习
搜索文档
GPT-5争议、开源追赶、能力飞跃:Epoch AI年终报告揭示AI能力加速
36氪· 2025-12-25 11:36
文章核心观点 AI模型能力正在以前所未有的速度提升,全球前沿模型的进步速度自2024年4月起几乎翻倍[19][23] 在此背景下,中国开源模型正以惊人速度追赶,但与全球顶尖水平仍存在约七个月的差距[8] 同时,AI推理成本正以指数级速度下降,前沿能力正快速向消费级硬件普及[29][30] 中国模型的追赶与现状 - 在专家级数学基准测试FrontierMath中,中国模型的最高分仍落后全球前沿水平约七个月[8] 两年前,开源模型与闭源前沿模型的差距按“年”计算,如今已不足一年[8] - 在FrontierMath包含的350道问题中,中国开源模型在极难的第4层(50道题)表现欠佳,绝大多数模型几乎未能得分[1] 唯一取得非零分的中国模型是DeepSeek-V3.2 (Thinking),正确回答了1道题,准确率约2%[1][8] - DeepSeek通过多头潜在注意力(MLA)、混合专家(MoE)架构创新以及多标记预测等技术,在仅用十分之一算力的情况下,达到了与Meta Llama 3相当的预训练水平[9] 其推理模型R1在性能上媲美OpenAI的o1,但开发成本仅为后者的一小部分[9] - 评测中使用了第三方API,这可能轻微影响模型得分,意味着中国模型的实际能力可能比公开评测显示的更强[9] 全球前沿模型的竞争格局 - GPT-5于2025年发布,相比GPT-4在多项基准测试上实现了显著飞跃,例如MATH提升+37%,HumanEval提升+67%,Mock AIME 24-25提升+84%[12] 但其市场“震撼感”减弱,主要因模型发布节奏加快,从GPT-4到GPT-5仅用了一年[11][41] - 在FrontierMath评测中,Gemini 3 Pro在Tier 1-3题库上准确率为38%,但因API错误导致10道题失分;在Tier 4超难题中准确率为19%,有3道题受API错误影响[12] API稳定性已成为前沿模型表现的重要约束[12] - xAI的Grok 4遭遇严重的网络和超时问题,在Tier 4的48道问题中,有8道(16%)无法正常评分[12] - OpenAI 2024年50亿美元的算力预算中,约45亿美元(90%)用于基础研究、实验性训练和未发布模型,仅约4亿美元用于GPT-4.5的最终训练[13][33] 这表明打造顶尖模型的核心成本在于研发探索,而非最终训练[13][34] AI模型能力的加速趋势 - 根据Epoch AI能力指数(ECI)分析,自2024年4月起,顶尖模型在各类基准测试中的进步速度几乎是此前两年的两倍[19] 断点前的年度能力增幅约为8.2分/年,断点后增至约15.3分/年,加速比例约1.86倍[23] - 这一加速与推理模型(如OpenAI的o1、DeepSeek R1)的崛起以及前沿实验室加大强化学习投入同步发生[21] AI发展模式正转变为通过预训练、推理计算和强化学习的多重策略来提升能力[21] - 任何前沿AI能力,从出现到广泛可用的时间窗口已不到一年[10] 2025年AI关键趋势总结 - **推理成本暴跌**:从2023年4月至2025年3月,在相同性能水平下,推理成本呈指数下降,最慢任务成本下降9倍/年,中速任务下降40倍/年,最快任务下降900倍/年[29] 成本下降受市场竞争加剧和效率提升驱动[29] - **消费级硬件与前沿模型差距缩短**:单个消费级GPU(如RTX 4090)上运行的最佳开源模型,与绝对前沿模型的差距已压缩至约7个月[30] - **英伟达算力存量高速增长**:自2020年以来,全球已安装的英伟达AI算力每年增长约2.3倍,每10个月翻一番[38] - **DeepSeek实现低成本高性能**:通过MLA、MoE架构创新和多标记预测三项关键技术,其开源预训练模型所需算力仅为Llama 3的十分之一,达到了当时最佳性能[47] - **推理模型扩展空间或受限**:强化学习在推理训练中的算力增长可能无法长期维持,或在1-2年内触及算力基础设施的极限[51] - **国家级AI项目潜力**:分析指出,类似曼哈顿计划规模的美国国家级AI项目,其训练规模可能达到比GPT-4大约10,000倍[53] - **AI价值来源**:AI对社会的影响更可能通过各行业广泛自动化以分散、渐进模式显现,而非仅依赖科研加速带来的短期突破[54] - **单次查询能耗较低**:估算显示,GPT-4o一次查询的平均能耗低于点亮一只灯泡五分钟[44]
直击WRC | 淋雨表演!“机器狗”集体舞耍宝卖萌引围观
新浪科技· 2025-08-08 13:16
2025世界机器人大会 - 2025世界机器人大会于8月8日至12日在北京经济技术开发区北人亦创国际会展中心举办 [1] 智身科技四足机器人产品钢镚ZSL-1 - 钢镚ZSL-1是专为复杂场景打造的"全能选手"四足机器人 [2] - 采用AI强化学习运控算法和强劲动力系统 [2] - 可在山路、废墟、沙地等复杂地形中实现智能决策 [2] - 技术参数:最高运动速度3.7米/秒 最大爬坡角度40° 连续攀爬楼梯高度16cm 最大载荷8kg [2] - 产品在雨天户外场景展示时吸引了观众目光 [2]
机器人杭州上演格斗赛!拳拳到肉,宇树CEO王兴兴:创造了人类历史新时刻
量子位· 2025-05-26 13:27
全球首个人形机器人格斗赛 - 比赛在杭州举行 四支参赛队伍均使用宇树科技G1人形机器人 最终"AI测算师"机器人夺冠 [1][4][5] - 现场解说员评价机器人对比两三个月前进步天差地别 宇树科技CEO称创造了人类历史新时刻 [7][8] 比赛规则与过程 - 比赛规则:击中头部/躯干计分(手部1分 腿部3分) 倒地扣5分 8秒内无法起身扣10分 [9] - 竞技赛采用三回合制 每回合两分钟 分组为小黑VS小粉 小绿VS小红 小黑VS小绿 [16][20][51] - 机器人展现侧踢 直拳 勾拳等格斗动作 出现背对背定位失误 自主起身等场景 [19][22][24] - 小绿机器人使用组合拳和嘲讽挑衅 小黑凭借更少失误夺冠并获得世界机器人大赛邀请函 [39][41][53][54] 技术亮点 - 宇树G1机器人身高130cm 体重35kg 配备先进计算能力和运动控制 通过AI强化学习掌握8套格斗动作 [56][57][60] - 采用语音控制+遥感控制双模式 融合动作控制/智能决策算法 实现实时定位对手并生成策略路径 [61][63] - 硬件设计强化抗冲击性能 金属外壳耐击打 骨骼结构采用抗干扰材料 动态平衡算法优化稳定性 [65][66][68] - 赛前进行动作捕捉和"抗击打"训练 暴露的定位错误 平衡问题将推动算法迭代 [59][60][68] 行业影响 - 赛事首次验证人形机器人在高压环境下的多模态感知和全身协调能力 推动技术商业化落地 [56] - 网友热议机器人格斗成为新兴竞技形式 与机器人马拉松共同展示技术进步 [70][71]
功夫机器人来了!直拳勾拳、战术闪避……格斗比赛会有怎样精彩?探营↓
央视网· 2025-05-24 19:04
赛事概况 - CMG世界机器人大赛机甲格斗擂台赛将于5月25日在杭州举行,分为表演赛与竞技赛两大板块 [3] - 表演赛通过单机特技、群体对抗结合灯光音乐编排展示机器人协同控制与动态响应能力 [3] - 竞技赛由4支队伍进行实时操控对抗,参赛机器人均搭载国产自主研发技术 [3] 机器人技术细节 - 参赛机器人通过专业格斗选手动作捕捉获取运动轨迹数据,并利用AI强化学习完成动作训练 [14] - 机器人已具备8套基础格斗动作和多个组合动作,包括直拳、勾拳、踢腿等 [17] - 机器人关键结构件经过保护设计,高强度训练产生的划痕不影响功能运作 [10][12] 测试与优化 - 赛前进行成百上千次室内外测试,评估关节电机损耗以提升性能 [28] - 压力测试重点优化地形适应性、摩擦力及平衡能力等指标 [26][28] - 极端格斗环境考验有助于算法升级,为未来生产生活应用奠定基础 [24][30] 操控与比赛机制 - 采用"人机协作"模式,真人选手通过遥控器组合按键操控机器人招式 [21][23] - 3D立体操控需实时关注站位与动作姿态以精准出拳 [21] - 现场配备技术安全员保障比赛顺利进行 [23] 行业应用前景 - 硬件稳定性是机器人未来服务工厂与家庭场景的基础条件 [30][31] - 格斗大赛极端环境可精进机器人移动能力、动作流畅度等核心性能 [30]
摔倒的宇树和人形机器人的“求生”博弈
36氪· 2025-04-23 07:51
全球首次人机半程马拉松赛事 - 2025北京亦庄半程马拉松首次实现人类与21支人形机器人队伍同场竞技 包含天工Ultra 松延动力N2等明星机型 [1] - 赛事设置特殊规则:每队最多3名选手(含领跑员) 机器人间距1米以上 出发间隔1分钟 允许中途换电或更换同型号机器人 [1] - 天工Ultra以2小时40分42秒夺冠 松延动力N2获亚军 上海卓益得行者二号得季军 体现中国人形机器人产业初具规模 [1] 参赛机器人技术参数与厂商 - 参赛机型涵盖120cm-180cm身高区间 重量17-88kg不等 优必选 钛虎 乐聚等厂商参与 高校团队如华中科大 清华大学通班亮相 [2] - 松延动力N2以1.2米/30kg规格 18个自由度 3.5米/秒奔跑速度成为焦点 预售价仅3.99万元 [11] - 实际比赛暴露技术缺陷:宇树G1等机型频繁摔倒 需领跑员遥控操作 与厂商宣传的自主运动能力存在差距 [2][3] 行业价格战与成本结构 - 国内人形机器人价格快速下探:众擎PM01报价8.8万 松延动力N2预售3.99万 较宇树G1基础款9.9万降幅显著 [9] - 特斯拉Optimus Gen2硬件成本约13万 配备42自由度+14触觉传感器 远高于国内入门机型配置 [11] - 松延动力宣称3.99万售价仍可盈利 但18自由度的N2与高端机型存在明显性能差距 [13] 商业化落地现状与挑战 - 当前主要应用场景为商业租赁 日租价格从高峰2万降至3000元以下 用于展会 开业等营销场景 [16] - 优必选Walker S探索工业协同生产 与吉利 比亚迪等合作 智元机器人发布开源具身大模型Genie Operator-1 [18][20] - 行业面临核心矛盾:低价策略限制性能拓展 消费级市场尚未成熟 82亿市场规模预测依赖未来场景落地 [15][17] 资本动态与行业洗牌 - 2025Q1智元 众擎等获腾讯 TCL等投资 但同期超10家企业倒闭 达闼机器人陷财务危机 [21] - 优必选2024年亏损11.6亿 金沙江创投批量退出人形机器人项目 反映短期盈利困境 [21] - 业内预测技术成熟需5-10年 杨立坤认为需等待AI架构突破 王兴兴指出商业模式尚未跑通 [22][23]