Workflow
CoT)
icon
搜索文档
谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙
机器之心· 2025-05-05 11:40
核心观点 - 研究系统分析了LLM在决策场景中的三种常见失败模式:贪婪性、频率偏差和知-行差距 [2][4] - 提出通过强化学习微调(RLFT)自动生成的思维链(CoT)推理过程,实验证明该方法能有效提升LLM决策能力 [2][8] - RLFT通过环境交互奖励优化CoT推理,使模型倾向于选择高奖励动作,显著改善探索行为和知-行差距 [8][22] 失败模式分析 - **贪婪性**:LLM过早锁定局部最优动作,在10臂老虎机实验中27B模型仅覆盖45%动作空间 [15][17] - **频率偏差**:2B模型机械复制高频动作(熵值降低50%),27B模型虽减弱此现象但仍保持贪婪 [5][18] - **知-行差距**:87%推理正确但58%情况仍选择贪婪动作,与最优动作选择率(21%)形成显著落差 [20] 模型规模差异 - 小模型(2B)受频率偏差影响严重,重复动作选择率随上下文出现次数线性增长 [5][18] - 大模型(27B)能减弱频率偏差但维持贪婪策略,在20臂老虎机中动作覆盖率停滞在55% [6][15] RLFT方法细节 - 采用裁剪目标函数和KL约束进行微调,数学表达式见公式(2) [11] - 输入包含指令文本和最近C步的状态-动作-奖励轨迹 [10] - 测试环境包括多臂老虎机(MAB)和井字棋游戏 [13] 实验结果 - RLFT使2B/9B模型遗憾值降低30%,优于随机基线 [22] - 微调后模型探索率提升,10步后动作覆盖率突破60% [17][22] - 知-行差距缩小,正确推理对应最优动作执行率从21%提升至40% [20][22]
大模型推理上限再突破:「自适应难易度蒸馏」超越R1蒸馏,长CoT语料质量飞升
机器之心· 2025-05-04 12:57
本文作者均来自中兴通讯无线研究院「大模型深潜」团队。团队重点攻关方向包括「推理模型构建:蒸馏与强化学习方法」、「无线通信故障定位与根因分析推 理模型」、「多模态推理模型」和「推理加速技术」。核心成员毕业于中国科学技术大学、中国科学院软件研究所等知名高校与科研院所。 近年来,「思维链(Chain of Thought,CoT)」成为大模型推理的显学,但要让小模型也拥有长链推理能力却非易事。 中兴通讯无线研究院「大模型深潜团队」从 「数据静态经验流」 的角度切入,首创 「LLM 自适应题目难度蒸馏」 方法,一举将高质量 CoT 语料的生产效率与效 果同步拉满。 论文标题:Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading 论文链接:https://arxiv.org/pdf/2504.11919 这促使业界对参数量低于 70 亿的小型模型开展持续研究,尤其聚焦在复杂数学解题和代码生成等长链推理场景。值得注意的是,借助 DeepSeek- ...
昆仑万维发布全球首个音乐推理模型Mureka O1,董事长兼CEO方汉详解AI音乐商业化路径
21世纪经济报道· 2025-03-27 09:04
继去年4月发布了第一代音乐生成模型MurekaV1后,3月26日,昆仑万维发布全球首款音乐推理 大模型MurekaO1模型与全新基座模型MurekaV6。 《Mu r e k a》AI音乐人MV全网首发, 该作品由AI生成,其中音乐由Mu r e k a生成, 视频由S k yRe e ls技术支持生成。 据悉,Mu r e k aV6是当前Mu r e k a的基座模型,支持纯音乐生成,还支持1 0种语言的AI音乐创 作。在Mu r e k aV6中,昆仑万维团队引入自研ICL(i n - c o n t e x tl e a r n i n g)技术,使得声场更 加开阔,人声质感和混音设计进一步强化。 Mu r e k a V6进入界面(来源:Mu r e k a官网) 方汉: 用户群体包括C端喜欢音乐的普通人,降低了他们的创作门槛,让他们能自由作 曲作词;B端则主要是影视、游戏、音频等领域的从业者,可帮助他们降低成本、提高 效率。商业模式上,C端免费用户有一定使用权限,付费可获得更高速度和优先的AI生 成机会;B端提供专业功能,通过Sa aS或Pa sS服务收费。 Mu r e k aO1模型则是基于M ...
一文看懂多模态思维链
量子位· 2025-03-25 08:59
多模态思维链(MCoT)系统综述 核心观点 - MCoT通过整合图像、视频、音频、3D模型等多模态数据,实现接近人类思维的跨模态推理能力,显著提升AI在复杂场景的应用潜力 [2][3][4] - 技术突破体现在六大方法论支柱:推理构建、结构化推理、信息增强、目标粒度、多模态思维、测试时扩展 [7][8][9][12][14][15][16] - 已在医疗诊断、自动驾驶、创意生成等领域实现商业化应用,但面临计算效率、错误传导、伦理风险等挑战 [17][18][20][22][24][25] 技术方法论 推理构建 - 基于提示:通过多模态指令模板实现零样本/少样本推理链生成 [8] - 基于规划:动态构建树状推理路径(如时序分析/因果推断分支)并筛选最优解 [8] - 基于学习:通过标注推理依据数据微调模型,增强内在逻辑能力 [8] 结构化推理 - 异步模态处理:分离感知模块(目标检测)与推理模块(逻辑生成)提升效率 [10] - 固定流程阶段化:采用预定义规则(如"辩论-反思-总结"模式)分阶段决策 [10] - 自主流程阶段化:动态生成子任务序列(如先定位物体再分析属性) [10] 信息增强 - 集成3D建模软件等专业工具提升特定模态任务精度 [12] - 通过检索增强生成(RAG)技术动态引入领域知识库 [12] - 分析上下文实体关系强化逻辑一致性 [12] 目标粒度 - 粗粒度:宏观场景理解(如危险物品识别) [15] - 中观:物体级语义对齐(如特定目标定位) [15] - 细粒度:像素级分析(如病灶边界分割) [15] 应用场景 - 医疗:结合CT影像与病史生成诊断报告并标注病灶 [3][25] - 自动驾驶:从路况识别到驾驶决策全链条推理 [25] - 创意生成:草图到3D模型的端到端转化 [25] - 教育:通过表情/语调分析实现情绪识别辅助教学 [25] 未来挑战 - 计算资源:慢思考策略需高算力支持,需算法优化与硬件协同 [18][19] - 错误传导:早期目标误判可能导致推理链崩溃,需实时检测与回溯修正 [20][21] - 伦理风险:多模态伪造内容需验证框架与鉴别技术 [22][23] - 场景扩展:当前局限于可验证领域,需开发开放任务推理模型 [24][25]
AI转向”推理模型和Agent时代“,对AI交易意味着什么?
硬AI· 2025-03-10 18:32
行业趋势转变 - AI行业正经历从传统大模型向推理模型和Agent的转变 强调"巧"而非"大" [2][4] - 模型进化方向从死记硬背转向链式思考(CoT) 实现多步验证和精准输出 [5] - 应用范式从聊天机器人升级为能执行任务的Agent 覆盖客户服务 金融分析等场景 [7] 技术路径分化 - 两种发展情景:Chinchilla缩放持续有效则2028年模型达65万亿参数 或预训练停滞转向推理优化 [10][11] - 推理模型代表如OpenAI的o1/o3和DeepSeek R1 已展现更高基准测试成绩及成本优势 [5] - 算力需求结构变化:推理计算占比将超50% 2028年推理算力缺口达2500亿exaFLOPS [13] 产业链影响 - 芯片需求从通用训练芯片转向定制推理芯片 网络设备商持续受益 [9][18] - 开源模型(Llama/DeepSeek)发展迅速 但微调成本仅为大模型训练的小部分 [15][16] - 科技巨头自由现金流可能改善 因推理成本下降减少资本支出压力 [19] 投资逻辑重构 - 缩放定律有效时优先布局芯片/设备供应商 警惕高资本支出科技企业 [1][18] - 预训练停滞则关注科技巨头现金流回升及用户基数大的应用类公司 [1][19] - ChatGPT两月新增1亿用户显示Agent应用爆发潜力 [7]