Workflow
思维链(Chain-of-Thought
icon
搜索文档
谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙
机器之心· 2025-05-05 11:40
核心观点 - 研究系统分析了LLM在决策场景中的三种常见失败模式:贪婪性、频率偏差和知-行差距 [2][4] - 提出通过强化学习微调(RLFT)自动生成的思维链(CoT)推理过程,实验证明该方法能有效提升LLM决策能力 [2][8] - RLFT通过环境交互奖励优化CoT推理,使模型倾向于选择高奖励动作,显著改善探索行为和知-行差距 [8][22] 失败模式分析 - **贪婪性**:LLM过早锁定局部最优动作,在10臂老虎机实验中27B模型仅覆盖45%动作空间 [15][17] - **频率偏差**:2B模型机械复制高频动作(熵值降低50%),27B模型虽减弱此现象但仍保持贪婪 [5][18] - **知-行差距**:87%推理正确但58%情况仍选择贪婪动作,与最优动作选择率(21%)形成显著落差 [20] 模型规模差异 - 小模型(2B)受频率偏差影响严重,重复动作选择率随上下文出现次数线性增长 [5][18] - 大模型(27B)能减弱频率偏差但维持贪婪策略,在20臂老虎机中动作覆盖率停滞在55% [6][15] RLFT方法细节 - 采用裁剪目标函数和KL约束进行微调,数学表达式见公式(2) [11] - 输入包含指令文本和最近C步的状态-动作-奖励轨迹 [10] - 测试环境包括多臂老虎机(MAB)和井字棋游戏 [13] 实验结果 - RLFT使2B/9B模型遗憾值降低30%,优于随机基线 [22] - 微调后模型探索率提升,10步后动作覆盖率突破60% [17][22] - 知-行差距缩小,正确推理对应最优动作执行率从21%提升至40% [20][22]
昆仑万维发布全球首个音乐推理模型Mureka O1,董事长兼CEO方汉详解AI音乐商业化路径
21世纪经济报道· 2025-03-27 09:04
继去年4月发布了第一代音乐生成模型MurekaV1后,3月26日,昆仑万维发布全球首款音乐推理 大模型MurekaO1模型与全新基座模型MurekaV6。 《Mu r e k a》AI音乐人MV全网首发, 该作品由AI生成,其中音乐由Mu r e k a生成, 视频由S k yRe e ls技术支持生成。 据悉,Mu r e k aV6是当前Mu r e k a的基座模型,支持纯音乐生成,还支持1 0种语言的AI音乐创 作。在Mu r e k aV6中,昆仑万维团队引入自研ICL(i n - c o n t e x tl e a r n i n g)技术,使得声场更 加开阔,人声质感和混音设计进一步强化。 Mu r e k a V6进入界面(来源:Mu r e k a官网) 方汉: 用户群体包括C端喜欢音乐的普通人,降低了他们的创作门槛,让他们能自由作 曲作词;B端则主要是影视、游戏、音频等领域的从业者,可帮助他们降低成本、提高 效率。商业模式上,C端免费用户有一定使用权限,付费可获得更高速度和优先的AI生 成机会;B端提供专业功能,通过Sa aS或Pa sS服务收费。 Mu r e k aO1模型则是基于M ...