强化学习(RL)
搜索文档
业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术
量子位· 2025-03-30 10:37
多模态大模型技术突破 - OThink-MR1技术通过动态强化学习框架显著提升多模态语言模型的泛化推理能力,突破传统方法的局限性[1][7][29] - 传统监督微调(SFT)方法在特定任务表现良好但缺乏通用推理能力,而强化学习(RL)存在训练约束导致次优瓶颈的问题[4][5] 核心技术机制 - 动态KL散度策略(GRPO-D)动态调整探索与利用的平衡,避免模型陷入局部最优解[8][10][11][12] - 双奖励模型设计包含验证准确性奖励和格式奖励,通过多维度反馈提升模型学习效率[13][14][15] 实验验证结果 - 同任务评估中GRPO-D表现超越监督微调方法,在视觉计数和几何推理任务成绩提升显著[17][18][28] - 跨任务评估显示GRPO-D模型在完全不同的任务类型间展现强泛化能力,成绩较未训练模型大幅提高[21][22][23][24] - 格式奖励权重非零时模型表现更优,KL散度权重需适中调节以取得最佳效果[17][18] 行业影响 - 该技术为多模态语言模型发展开辟新路径,展现动态强化学习在提升推理与泛化能力方面的潜力[29] - 技术由OPPO研究院与香港科技大学(广州)联合研发,论文已公开发表于arXiv平台[30]
01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员
量子位· 2025-03-20 18:56
算法突破 - 一种名为DAPO的新型强化学习算法出现,在相同设置下,其性能超越了DeepSeek的GRPO算法 [1] - 使用DAPO算法后,Qwen2.5-32B模型仅经过RL训练,在AIME 2024基准上获得50分,优于使用GRPO的DeepSeek-R1-Zero-Qwen模型,且训练步数减少了50% [1] - 该算法由字节跳动与清华大学AIR联合实验室SIA Lab共同研发,目前已经开源 [2] 核心人物背景 - 算法论文通讯作者及开源项目负责人是禹棋赢(Qiying Yu)[3] - 禹棋赢出生于2001年,本科毕业于哈尔滨工业大学,后直博进入清华大学AIR,目前博士三年级在读 [4] - 他于2023年年中以研究实习生身份加入字节跳动的“Top Seed人才计划” [4] - 在字节大模型团队内部负责打造下一代语言模型的攻坚小组中,禹棋赢是唯一的实习生,并被委以重任,直接负责强化学习方向的研究 [6][7] 技术探索历程 - 2023年5月,禹棋赢通过“Top Seed人才计划”加入字节,经过2个月适应期后,锚定大语言模型推理为研究方向 [9] - 他观察到“采样更多,弱模型准确率也可以很高”的现象后,坚定选择使用强化学习技术路径 [9] - 基于对OpenAI o1模型的分析,禹棋赢团队判断其基于结果监督训练,从而确立了使用基于结果的奖励进行强化学习的技术路线,这与当时主流思路不同 [12][13] - 使用内部小模型和开源数据集进行迭代后,成功将小模型的数学能力提升几十分,超过了内部最大最强的模型,并观察到模型不断涌现新能力 [14][15] - 2023年10月中旬,团队观察到模型在遇到复杂数学问题时能进行反思并转换思路,这被认为是所追求能力的雏形,也是其内部的“Aha Moment” [20][21] 行业人才趋势 - 大模型行业经验不再是唯一筹码,好奇心与执行力成为通行证 [53] - 行业更看重实际解决问题的能力而非资历,这一逻辑正在重塑AI产业的人才坐标系 [50] - 年轻人虽然经验相对缺乏,但不受既有范式束缚,拥有对技术直觉的信任、极高的热情与好奇心,以及对试错成本的高耐受度,这些特质对探索AGI非常珍贵 [55] - 学界和工业界都认可这一趋势,工业界如字节跳动的“Top Seed”项目为年轻人提供充分算力资源、顶级待遇和探索空间 [58] 公司战略与项目 - 字节跳动的“Top Seed人才计划”旨在招募顶尖应届和在读博士组成AI研究团队,禹棋赢是首批成员之一 [9][31] - 与禹棋赢同期的Top Seed实习生包括两届国际数学奥林匹克竞赛满分选手、LLaDA一作、Buffer of Thoughts一作等顶尖人才 [32] - 字节跳动对禹棋赢的重用,体现了顶尖大模型团队对“解决前沿问题能力”的极致追求 [48] - 2024年,字节跳动将继续推进Top Seed项目,并由原谷歌DeepMind副总裁、现负责豆包大模型AI基础研究探索的吴永辉亲自带队 [61][62]
国产人形机器人破全球纪录!连续空翻一镜到底,量产3.99w起售
量子位· 2025-03-14 19:22
文章核心观点 国产人形机器人取得进展,NOETIX Robotics松延动力的N2机器人实现连续空翻且价格亲民,其背后是硬件、算法和工程化的创新,清华创业团队展现出强大的技术和产品化能力,推动行业发展 [1][7][33] 分组1:N2机器人亮点 - 全球首个在「室内外多场景」连续空翻一镜到底的机器人,动作稳定流畅,落地后能站稳 [1][2][3] - 身高1.2米,体重30公斤,小巧灵活,具备大步行走、奔跑、单双脚跳跃及舞蹈等多种运动能力,奔跑速度实测最快可达每秒3.5米 [3] - 全身有18个自由度,单腿各有5个自由度,单臂各有4个自由度,能完成高难度动作 [9] - 单脚跳跃稳健,抗干扰能力强,摔倒后能迅速恢复正常运行 [10][11][12] - 已将量产提上日程,3.99万起售,标配二次开发接口,有三种颜色可选 [13][14] - 机身集成多个外置硬件接口,方便开发者进行二次开发,可用于科研、安防巡检等领域 [15] 分组2:N2实现连续空翻的技术路径 - 硬件架构:采用自由度精简策略,主打轻量化和抗摔性能,减少非核心自由度,选用球轴承和高强铝合金 [19][21][23] - 算法融合:实现模型预测控制(MPC)与强化学习(RL)的协同,采用课程学习技术分阶段训练 [24] - 工程化实践:以抗摔设计驱动迭代效率,采用成本导向的可靠性设计,零部件高度国产化,结构易于生产装配 [25][26][28] 分组3:清华创业团队情况 - 准00后创业团队,核心成员来自清华、浙大、南加大等高校,创始人姜哲源本科清华电子系,研究方向为深度强化学习足式机器人运动控制 [30] - 成立一年多完成三大产品布局,包括运动员N2、通用型人形机器人E1、仿生机器人Hobbs,技术和应用场景各有侧重 [31] - 一年多收获5轮2亿融资,团队能力、技术水平和产品化能力获资本认可 [32] 分组4:行业发展情况 - 春节以来国产人形机器人持续有新动作,体现「硬件 - 算法 - 场景」三角闭环下的产业技术升级 [33] - 更多本土化年轻团队崭露头角,成为行业发展主力军 [34] - N2之后团队还将推出升级版新品E1系列 [36]
昨夜3件事,加强中国AI科技叙事?
华尔街见闻· 2025-03-06 19:11
阿里通义开源RL新模型 - 阿里通义开源了QwQ-32B RL新模型 性能比肩满血DeepSeek R1 在AIME24数学测试和LiveCodeBench代码评估中表现优异 [1] - 该模型采用创新训练方法 通过校验生成答案正确性提供反馈 相比传统奖励模型训练时间大幅缩短 [2] - 公司预告将在Qwen Chat平台发布QwQ-Max-Preview模型 并承诺持续开源更多RL模型 [3][4][5] 大模型本地化部署进展 - 高性能大模型本地部署门槛显著降低 仅需NVIDIA 4090显卡或24G内存以上Mac mini即可实现 成本控制在4位数人民币 [6] - 苹果Mac Studio搭载M3 Ultra芯片(32核CPU/80核GPU)可实现满血DeepSeek-R1本地化运行 速度达20token/s 价格从70万降至7万人民币 [8][9] - 512GB内存配置的Mac Studio可支持更强大本地AI运算能力 [11][12] AI行业发展趋势 - RL技术突破将显著提升智能硬件性能 推动应用需求爆发 利好Agent技术发展 [7] - Manus AI等Agent产品引发市场关注 提升应用端对AI能力的期待 将带动算力需求增长 [13][14] - 中国科技公司在RL大规模强化学习领域取得突破 行业估值逻辑面临重塑 [14]