CoT） - 财报，业绩电话会，研报，新闻

CoT）

搜索文档

机器之心· 2025-05-05 11:40

核心观点 - 研究系统分析了LLM在决策场景中的三种常见失败模式：贪婪性、频率偏差和知-行差距 [2][4] - 提出通过强化学习微调(RLFT)自动生成的思维链(CoT)推理过程，实验证明该方法能有效提升LLM决策能力 [2][8] - RLFT通过环境交互奖励优化CoT推理，使模型倾向于选择高奖励动作，显著改善探索行为和知-行差距 [8][22] 失败模式分析 - **贪婪性**：LLM过早锁定局部最优动作，在10臂老虎机实验中27B模型仅覆盖45%动作空间 [15][17] - **频率偏差**：2B模型机械复制高频动作（熵值降低50%），27B模型虽减弱此现象但仍保持贪婪 [5][18] - **知-行差距**：87%推理正确但58%情况仍选择贪婪动作，与最优动作选择率(21%)形成显著落差 [20] 模型规模差异 - 小模型(2B)受频率偏差影响严重，重复动作选择率随上下文出现次数线性增长 [5][18] - 大模型(27B)能减弱频率偏差但维持贪婪策略，在20臂老虎机中动作覆盖率停滞在55% [6][15] RLFT方法细节 - 采用裁剪目标函数和KL约束进行微调，数学表达式见公式(2) [11] - 输入包含指令文本和最近C步的状态-动作-奖励轨迹 [10] - 测试环境包括多臂老虎机(MAB)和井字棋游戏 [13] 实验结果 - RLFT使2B/9B模型遗憾值降低30%，优于随机基线 [22] - 微调后模型探索率提升，10步后动作覆盖率突破60% [17][22] - 知-行差距缩小，正确推理对应最优动作执行率从21%提升至40% [20][22]

大模型推理上限再突破：「自适应难易度蒸馏」超越R1蒸馏，长CoT语料质量飞升

机器之心· 2025-05-04 12:57

本文作者均来自中兴通讯无线研究院「大模型深潜」团队。团队重点攻关方向包括「推理模型构建：蒸馏与强化学习方法」、「无线通信故障定位与根因分析推理模型」、「多模态推理模型」和「推理加速技术」。核心成员毕业于中国科学技术大学、中国科学院软件研究所等知名高校与科研院所。近年来，「思维链（Chain of Thought，CoT）」成为大模型推理的显学，但要让小模型也拥有长链推理能力却非易事。中兴通讯无线研究院「大模型深潜团队」从「数据静态经验流」的角度切入，首创「LLM 自适应题目难度蒸馏」方法，一举将高质量 CoT 语料的生产效率与效果同步拉满。论文标题：Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading 论文链接：https://arxiv.org/pdf/2504.11919 这促使业界对参数量低于 70 亿的小型模型开展持续研究，尤其聚焦在复杂数学解题和代码生成等长链推理场景。值得注意的是，借助 DeepSeek- ...

昆仑万维发布全球首个音乐推理模型Mureka O1，董事长兼CEO方汉详解AI音乐商业化路径

21世纪经济报道· 2025-03-27 09:04

继去年4月发布了第一代音乐生成模型MurekaV1后，3月26日，昆仑万维发布全球首款音乐推理大模型MurekaO1模型与全新基座模型MurekaV6。《Mu r e k a》AI音乐人MV全网首发，该作品由AI生成，其中音乐由Mu r e k a生成，视频由S k yRe e ls技术支持生成。据悉，Mu r e k aV6是当前Mu r e k a的基座模型，支持纯音乐生成，还支持1 0种语言的AI音乐创作。在Mu r e k aV6中，昆仑万维团队引入自研ICL（i n - c o n t e x tl e a r n i n g）技术，使得声场更加开阔，人声质感和混音设计进一步强化。 Mu r e k a V6进入界面（来源：Mu r e k a官网）方汉：用户群体包括C端喜欢音乐的普通人，降低了他们的创作门槛，让他们能自由作曲作词；B端则主要是影视、游戏、音频等领域的从业者，可帮助他们降低成本、提高效率。商业模式上，C端免费用户有一定使用权限，付费可获得更高速度和优先的AI生成机会；B端提供专业功能，通过Sa aS或Pa sS服务收费。 Mu r e k aO1模型则是基于M ...

昆仑万维(SZ:300418)

AI音乐

Software and Services

Software and Services

量子位· 2025-03-25 08:59

多模态思维链(MCoT)系统综述核心观点 - MCoT通过整合图像、视频、音频、3D模型等多模态数据，实现接近人类思维的跨模态推理能力，显著提升AI在复杂场景的应用潜力 [2][3][4] - 技术突破体现在六大方法论支柱：推理构建、结构化推理、信息增强、目标粒度、多模态思维、测试时扩展 [7][8][9][12][14][15][16] - 已在医疗诊断、自动驾驶、创意生成等领域实现商业化应用，但面临计算效率、错误传导、伦理风险等挑战 [17][18][20][22][24][25] 技术方法论推理构建 - 基于提示：通过多模态指令模板实现零样本/少样本推理链生成 [8] - 基于规划：动态构建树状推理路径（如时序分析/因果推断分支）并筛选最优解 [8] - 基于学习：通过标注推理依据数据微调模型，增强内在逻辑能力 [8] 结构化推理 - 异步模态处理：分离感知模块（目标检测）与推理模块（逻辑生成）提升效率 [10] - 固定流程阶段化：采用预定义规则（如"辩论-反思-总结"模式）分阶段决策 [10] - 自主流程阶段化：动态生成子任务序列（如先定位物体再分析属性） [10] 信息增强 - 集成3D建模软件等专业工具提升特定模态任务精度 [12] - 通过检索增强生成(RAG)技术动态引入领域知识库 [12] - 分析上下文实体关系强化逻辑一致性 [12] 目标粒度 - 粗粒度：宏观场景理解（如危险物品识别） [15] - 中观：物体级语义对齐（如特定目标定位） [15] - 细粒度：像素级分析（如病灶边界分割） [15] 应用场景 - 医疗：结合CT影像与病史生成诊断报告并标注病灶 [3][25] - 自动驾驶：从路况识别到驾驶决策全链条推理 [25] - 创意生成：草图到3D模型的端到端转化 [25] - 教育：通过表情/语调分析实现情绪识别辅助教学 [25] 未来挑战 - 计算资源：慢思考策略需高算力支持，需算法优化与硬件协同 [18][19] - 错误传导：早期目标误判可能导致推理链崩溃，需实时检测与回溯修正 [20][21] - 伦理风险：多模态伪造内容需验证框架与鉴别技术 [22][23] - 场景扩展：当前局限于可验证领域，需开发开放任务推理模型 [24][25]

AI转向”推理模型和Agent时代“，对AI交易意味着什么？

硬AI· 2025-03-10 18:32

行业趋势转变 - AI行业正经历从传统大模型向推理模型和Agent的转变强调"巧"而非"大" [2][4] - 模型进化方向从死记硬背转向链式思考(CoT) 实现多步验证和精准输出 [5] - 应用范式从聊天机器人升级为能执行任务的Agent 覆盖客户服务金融分析等场景 [7] 技术路径分化 - 两种发展情景：Chinchilla缩放持续有效则2028年模型达65万亿参数或预训练停滞转向推理优化 [10][11] - 推理模型代表如OpenAI的o1/o3和DeepSeek R1 已展现更高基准测试成绩及成本优势 [5] - 算力需求结构变化：推理计算占比将超50% 2028年推理算力缺口达2500亿exaFLOPS [13] 产业链影响 - 芯片需求从通用训练芯片转向定制推理芯片网络设备商持续受益 [9][18] - 开源模型(Llama/DeepSeek)发展迅速但微调成本仅为大模型训练的小部分 [15][16] - 科技巨头自由现金流可能改善因推理成本下降减少资本支出压力 [19] 投资逻辑重构 - 缩放定律有效时优先布局芯片/设备供应商警惕高资本支出科技企业 [1][18] - 预训练停滞则关注科技巨头现金流回升及用户基数大的应用类公司 [1][19] - ChatGPT两月新增1亿用户显示Agent应用爆发潜力 [7]

推理模型

Agent

Chinchilla缩放定律

Artificial Intelligence

Artificial Intelligence

ChatGPT

DeepSeek的R1模型

Previous Next