Workflow
强化学习
icon
搜索文档
AI 智能体老“崩”?DeepSeek 前员工联手李飞飞等大佬开源新框架,教会模型真正推理
AI前线· 2025-04-24 11:03
AI智能体发展现状 - 2025年被普遍认为是"AI智能体元年",基于大语言模型(如OpenAI、Anthropic、Google、DeepSeek)的智能体系统将专注于特定任务[2] - 当前64.2%的企业AI智能体仍处于试点阶段("pilot purgatory"),仅4.6%接近规模化应用[3][4] - 行业面临核心挑战:强化学习训练易崩溃,模型易陷入重复输出相似内容的"回声陷阱"现象[18][19] RAGEN系统技术突破 - 由李飞飞团队联合西北大学、微软等机构开发,聚焦提升AI在企业应用中的稳定性和可靠性[5] - 采用StarPO强化学习框架,通过"状态-思维-动作-奖励"策略优化,强调完整决策路径训练而非单次回答优化[11] - 开源框架包含三项创新机制:优先选择模型"犹豫"的交互序列、移除KL惩罚项、非对称PPO剪裁,显著提升训练稳定性[27][28][29][30] - 实验基于阿里巴巴Qwen系列开源模型(1.5/2.5版本),确保结果可复现性[14] 测试环境与评估方法 - 设计三类符号化测试环境:Bandit(风险收益推理)、Sokoban(规划能力)、Frozen Lake(适应性思考)[23] - Bandit任务要求模型通过类比推理(如将"龙"关联力量、"凤凰"关联希望)预测奖励分布,而非依赖直接概率数据[25][26] - 测试环境剥离现实先验知识干扰,纯粹评估训练所得策略的有效性[24] 企业应用现实挑战 - 训练效果三大关键因素:情境多样性、交互粒度(支持多动作/轮)、rollout新鲜度(数据与当前策略同步)[33][34] - 当前奖励机制缺陷:过度关注结果正确性而忽视推理过程质量,导致多轮任务中推理能力退化[36][38] - 技术局限性:长任务场景仍可能崩溃,符号类问题解决方案向真实业务(如发票处理)迁移存在不确定性[40] 行业影响与开源生态 - RAGEN标志着向"具备自主推理能力智能体"迈进,重构大模型训练边界认知[41] - 项目采用MIT协议开源,GitHub已获1.4k星、102分支,主要代码为Python(88.7%)和Shell(11.3%)[16][17] - 核心开发者王子涵(前DeepSeek研究员)专注大语言模型自主性与长文本理解,曾参与DeepSeek-V2项目[6]
Agent、DeepSeek、多模态热点炸场!60+重磅嘉宾共探AI未来,2025全球机器学习技术大会完美收官!
AI科技大本营· 2025-04-21 18:24
以下文章来源于CSDN ,作者CSDN CSDN . 成就一亿技术人 作者 | 《新程序员》编辑部 出品 | CSDN(ID:CSDNnews) 在万物向 "智 " 生长的 2025 年,AI 领域的热潮持续升温,正引领着技术革新与产业探索的新浪潮。 了新的破解思路?围绕这些关键问题,欢迎回看大会首日视频,看众多技术大咖如何从理论、算法到实际应用层面进行了深度剖析 ,以此 了解 AI 技术 的更多最新进展: 大模型技术创新驱动的 AI 生态和应用演进 李建忠 CSDN 高级副总裁、 Boolan 首席技术专家 4 月 18-19 日,由 CSDN 联合高端 IT 咨询与教育平台 Boolan 举办的 2025 全球机器学习技术大会(ML-Summit 2025),在上海虹桥西郊庄园丽笙 大酒店隆重拉开帷幕。本次大会围绕 AI 最前沿的发展趋势与落地实践,聚焦大语言模型技术演进、AI 智能体、具身智能、DeepSeek 技术解析与行业 实践等 12 大专题,邀请了超 60 位来自全球顶尖科技企业与学术机构的重磅嘉宾齐聚一堂,全面呈现 AI 领域的技术风向与应用前沿。 在生成式 AI 重构技术边界的浪潮下,产业实 ...
21支队伍参加人形机器人半马,每位选手最多三位人类“陪跑员”
第一财经· 2025-04-18 13:07
赛事概况 - 全球首个人形机器人半程马拉松将于4月18日上午7:30在北京亦庄南海子公园举行 共有21支机器人队伍参赛 分别来自国家队 民营企业和学校科研团队 [1] - 组委会预计首名机器人撞线时间为明日上午10:10左右 全程21.0975公里 [1][3] 参赛机器人技术特点 - 国家队代表天工Ultra身高1.8米 体重52公斤 实测平均时速10km/h 最高速度12km/h 具备斜坡 楼梯 草地等多种地形移动能力 [1] - 天工Ultra采用轻量化设计 配备人类同款跑鞋减震 带有视觉感知的泛化移动能力 [1] - 最矮机器人小巨人身高75厘米 脚踝配备180度运动关节电机 脚底贴橡胶鞋底应对不平路面 [1] 比赛规则与组织形式 - 机器人采用强化学习算法路线 比赛过程中大多采用遥控方式 每队由1个人形机器人和最多3名人类陪跑员组成 [2] - 机器人按Z形布阵排成两列 前后垂直间距3米 出发时间间隔1分钟 间距需保持1米以上 高速机器人需主动绕行低速机器人 [2] - 赛事设裁判长 主裁判和随行裁判 随行裁判全程跟随判罚 佩戴录音录像设备 更换机器人将面临罚时 [2] 注:文档4 5 6内容为乱码或无实质信息 故未纳入总结
谷歌高管入职两个月,字节AI开始扁平化?
以下文章来源于AI科技评论 ,作者梁丙鉴 AI科技评论 . 字节 AI Lab 是 Seed 成立之前字节主要的 AI 探索部门,目前由李航管理,自2024年开始向 Seed 时 任负责人朱文佳汇报。今年2月下旬,原 Google DeepMind 副总裁吴永辉入职字节,成为 Seed 基础 研究负责人。此后李航的汇报对象变为吴永辉。 字节 AI Lab 成立于2016年,最初由微软亚洲研究院前常务副院长马维英负责,直接向张一鸣汇 报。AI lab 目前有多个子团队,包括机器人、AI4S 等方向,几乎覆盖人工智能领域所有前沿技术研 究。2018年其团队规模达到150人,为字节跳动AI研究的核心部门。 AI Lab 主要研究重点是开发为字节跳动内容平台服务的创新技术,曾参与字节手势识别、短视频特 效等功能开发。其研究成果应用于今日头条、抖音等产品,是支持抖音成长为国民级应用的基石, 并奠定了当时字节在国内AI领域的领先地位。 随着抖音、TikTok 占据绝对优势的市场地位,流量商业化成为字节面临的 Top 级问题,AI Lab 在 字节内部重要性下降。2020年,AI Lab 从集团级前瞻性项目转为技术中台,为 ...
DeepSeek-R1与Grok-3:AI规模扩展的两条技术路线启示
Counterpoint Research· 2025-04-09 21:01
核心观点 - DeepSeek-R1 和 Grok-3 代表了AI发展的两种不同路径:前者通过算法创新和高效资源利用实现高性能,后者依赖大规模计算资源投入 [2][8] - 行业趋势正从“原始规模主导”转向“战略效率优先”,算法设计、混合专家模型(MoE)和强化学习成为关键杠杆 [8][10] - 未来AI发展将更注重投资回报率(ROI),平衡规模扩展与算法优化 [8][10] 模型性能与资源对比 - DeepSeek-R1 仅使用约2000块NVIDIA H800 GPU即达到全球前沿推理模型性能,展现高效训练能力 [2] - Grok-3 动用约20万块NVIDIA H100 GPU,性能略优于DeepSeek-R1、GPT-o1和Gemini 2,但资源消耗相差百倍 [2][8] - 两者性能相近,但资源投入差异显著,凸显算法创新可抗衡纯计算规模 [8] 发展路径差异 - Grok-3 采用“蛮力策略”,依赖数十亿美元GPU计算规模,边际性能提升显著但ROI递减 [8] - DeepSeek-R1 通过混合专家模型(MoE)、推理强化学习和高质量数据,以最小硬件代价实现顶尖性能 [8] - 行业可能从“规模法则”转向“算法突破+工程实用主义”的全局发展观 [10] 未来AI趋势 - 集中式训练项目(如Grok-3)成本过高,仅限少数巨头参与,中小机构需转向效率优化策略 [10] - 混合专家模型(MoE)、稀疏化、改进微调和强化学习将成为核心,降低资源消耗 [10] - 新数据训练与强基础模型结合(如RAG或定期微调),可避免持续大规模计算负担 [10]
清北天才扎堆的机器人赛道 ,杀出一个大专生
36氪· 2025-04-08 20:45
行业背景 - 人形机器人行业在2023年迎来爆发式增长,主要受大模型技术推动[3][23] - 高盛预测2035年仿人机器人市场规模将达1540亿美元[29] - 行业竞争加剧,特斯拉、小米、华为等科技巨头纷纷入局[29] 公司发展历程 - 宇树科技创始人王兴兴2016年创立公司,初期融资200万元[15] - 众擎机器人创始人赵同阳经历三次创业失败后,2023年成立新公司并完成近4亿元融资[3][24] - 两家公司均从四足机器人切入,最终转向人形机器人赛道[18][24] 产品与技术 - 宇树科技推出首款人形机器人H1售价9万美元,第二代G1定价9.9万元[24] - 众擎机器人推出SA01、SE01、PM01三款人形机器人产品[24] - 两家公司均采用"先做头脑简单、四肢发达"的技术路径[29] 市场表现 - 宇树科技产品登上2021年央视春晚,品牌知名度大幅提升[6][21] - 众擎机器人2024年完成Pre-A轮2亿元融资,由Stone Venture领投[3] - 宇树G1人形机器人预售首日订单超3000台[24] 创始人特质 - 两位创始人均非名校背景,早期融资困难[8][17] - 赵同阳擅长团队建设,提出"长板理论"聚集人才[25][26] - 王兴兴开创低成本电驱方案,技术路线受市场认可[11][24] 行业趋势 - 新一代创业者更注重强化学习技术应用[29] - 行业面临产品同质化挑战,差异化竞争成关键[29] - 人才争夺战激烈,头部公司高薪吸引顶尖人才[25][26]
速递|DeepSeek联手清华新模型GRM开源,算力降低性能反升
Z Potentials· 2025-04-08 20:30
图片来源: DeepSeek DeepSeek 正与清华大学合作,致力于减少其 AI 模型所需的训练量,以降低运营成本, 开发自我进 化的 AI 模型。 DeepSeek 曾以一月份推出的低成本推理模型震动市场,现与高校研究人员联合发表论文,详述了一 种提升模型效率的强化学习新路径。研究人员写道,这种新方法旨在通过为更准确且易于理解的回答 提供奖励,帮助人工智能模型更好地遵循人类偏好。 强化学习在加速特定应用和领域内的 AI 任务方面已被证明有效,但将其扩展到更通用的场景一直充 满挑战——这正是 DeepSeek 团队试图通过其所谓的 " 自我原则批判调优 " 来解决的问题。 论文指出,该策略在多项基准测试中超越了现有方法和模型,结果显示能以更少的计算资源实现更优 性能。 DeepSeek 公司表示,将这些新模型命名为 DeepSeek-GRM (通用奖励建模的缩写),并将以开源形 式发布。 包括中国科技巨头阿里巴巴集团和美国旧金山的 OpenAI 在内的其他 AI 开发者,也正在开拓新领 域,致力于提升 AI 模型实时执行任务时的推理与自我优化能力。 Meta 于上周末发布了其最新 AI 模型系列 Llam ...
对话智元首席科学家:把具身智能过度类比大模型,是对它最大的误读
36氪· 2025-04-05 19:41
文章核心观点 - 具身智能赛道存在泡沫但也有发展前景,软硬件一体的全栈路线是未来趋势,当下是入局和突破的最佳时间点 [10][23][44] 行业现状 - 具身智能赛道一边有投资人逃离泡沫,一边被高额融资激活,腾讯首次押注具身智能领域的智元机器人,该公司成立仅1月完成3亿天使轮融资,几个月内估值达10亿美金,成为全球最快跻身独角兽的具身智能公司 [5] - 行业还未收敛到确定性技术方案,未出现引领型明星公司 [30] - 全球有500万台机器人被部署在真实世界,但都是盲的,靠绝对定位操作,做重复性编程和工作 [42] 泡沫看法 - 泡沫意味着关注度和资源,是提前下注,技术范式转移都会经历泡沫阶段,具身智能更复杂,需要更长时间技术积淀 [10] 大模型与具身智能关系 - 不能简单将具身智能与大模型范式划等号,大模型准确率在机器人身上不适用,用大模型周期类比具身智能低估了作业智能和行动智能的独特挑战 [12][13] 软硬件重要性及卡点 - 软件和硬件同等重要,目前软件和硬件都未收敛到点,行业对两者集成也无共识 [14] - 软件方面,大模型缺乏长时间memory,跨任务尝试、分层控制和实时反馈是难题,仿真、数据使用及RL应用都存在挑战 [15] - 硬件方面,高性能硬件平台成本高,传感器反馈不够精细,可靠性有提升空间,未来可能根据不同行业有相对标准化本体和方案 [16][17] 数据问题 - 数据问题像蛋生鸡、鸡生蛋难题,可先从封闭、半封闭空间部署机器人获取数据来改进系统 [18][20] - 自动驾驶早期也有数据匮乏争论,现在数据过多,具身智能公司掌握产品和生态、有能力部署机器人将有先发优势 [21] 全栈路线必要性 - 自动驾驶和无人机行业发展表明,软硬件一起迭代的全栈路线会笑到最后 [22][23] 智元公司情况 - 智元是中国头部具身智能公司中最高举高打的一家,发布首个通用具身基座大模型,与Pi达成合作,首席科学家是罗剑岚 [6] - 公司内部是扁平、高度协作团队,稚晖君、姚卯青和罗剑岚是平行互补关系,分别负责系统工程、战略方向和算法路线推动及外部技术生态融合 [25][26] - 选择与Pi合作是因理念契合,Pi是国际上做具身智能最好的公司之一 [27][28] - 公司采用生态打法,强调开放协同,帮助外部公司迭代并引入其能力到自身生态体系 [29] 自主决策与任务定义 - 机器人自主决策关键在于对不确定性的分析和建模,换成可执行动作链,其感知、预测、生成机制的泛化能力是关键技术 [31] - 长周期任务关注任务先后复杂依赖关系和泛化能力,复杂任务在manipulation上有未解决问题,如机器手接触外界的物理现象和多模态视觉输入下完成灵巧任务 [32] 机器人AGI相关 - 实现manipulation就是AGI,是比LLM更高级的智能 [34] - 最感兴趣的是让系统有更强自主学习和泛化能力,智元新成立的具身智能研究中心希望打通从基础科学到技术落地的链路 [36] 强化学习与入局优势 - 受大模型影响,强化学习在具身智能领域成潮流,不同背景的人入局视角不同 [37][38] - 大厂和消费电子公司入局是积极信号,它们在用户体验、产品化等方面有积累,创业公司优势在于对行业底层逻辑理解更垂直、精致,擅长智能,最终两个方向会聚合 [39][40] 行业周期与入局时机 - 具身智能已走过约十年探索期,现在进入机器人应用窗口期,特定场景有使用价值且有持续学习能力的机器人会提前到来,是入局和突破的最佳时间点 [41][42][44]
蚂蚁清华联手放大招!彻底开源RL框架AReaL-boba,人人可复现QwQ
AI科技大本营· 2025-04-03 10:16
开源强化学习框架AReaL boba发布 - 蚂蚁与清华大学联合推出开源强化学习框架AReaL boba里程碑版本 致力于普惠AI开发社区 开放模型、代码、数据及实现细节 提供详细教程实现"人人可手搓顶尖大模型"愿景 [1] - 框架全面拥抱xAI公司高性能推理框架SGLang 通过工程优化使7B模型训练速度提升1.5倍 端到端训练性能提升73% [4] - 团队开源训练数据AReaL-boba-106k 监督微调仅用200条精选数据成功复现QwQ-32B在AIME 2024上的推理性能(78.8分 vs 原版78.9分) [10][15] 技术性能表现 - AReaL-boba-RL-7B在数学推理能力达同尺寸模型SOTA水平:AIME 2024得分61.9 AIME 2025得分48.3 超越基础模型及同类开源模型 [15] - 不同配置下训练时间对比显示模型性能优势:R1-Distill-Qwen-7B在GPQA-Diamond测试中耗时47.1小时 而AReaL-boba-RL-7B仅需47.6小时 [9] 未来发展计划 - 研发重点包括系统与算法优化 将引入基于编码问题的强化学习训练、异步生成与RL训练 探索视觉-语言模型强化学习 [11] - 计划完善32B规模模型训练方案 研发多任务RL算法 提升MoE模型稳定训练能力 保持每周更新频率 [11] 行业活动与专家分享 - 清华大学吴翼教授将在2025机器学习技术大会解读AReaL系统应对强化学习挑战的技术方案 包括降低训练门槛、提升效率等突破 [13][18] - 360智脑算法专家邹昊晟将分享Light-R1系列开源经验 该系列在14B模型实现GRPO强化学习显著提升 评测超越DeepSeek-R1-Distill-32B [22][24]
智元机器人首席科学家罗剑岚:如果机器人实现“操控”,是比大语言模型更高级的智能
每日经济新闻· 2025-04-02 15:35
公司合作与技术发展 - 智元机器人与Physical Intelligence(Pi)达成合作伙伴关系,将在具身智能领域展开深度技术合作,重点关注动态环境下的长周期复杂任务 [1] - 罗剑岚加入智元机器人并全面领导具身智能研究中心,同时推进双方深度合作 [1] 机器人自主决策与智能等级 - 遥控与自主决策的核心差别在于机器人需具备感知、预测、行为生成的泛化能力,并建立Internal Model(世界模型)以预测未来和执行动作链 [1] - 机器人实现Manipulation(操控)的智能等级为7至8,远高于大语言模型(LLM)的3级 [1] 关键技术路径 - 强化学习和DeepSeek R1的推理能力是关键技术,但模仿学习不足,需结合世界模型预测环境变化 [1] - 核心挑战在于构建开放数据链的鲁棒策略,以及感知、预测、行为生成机制的泛化能力 [1] 数据收集与场景部署 - 人形机器人缺乏大规模应用场景数据,需通过部署产生数据循环(如1000台机器人在星巴克工作可快速积累数据) [1] - 机器人部署难度低于智能驾驶,可从封闭或半封闭空间开始,逐步生成数据 [1]