Chain-of-Thought (CoT)
搜索文档
训练成本29.4万美元,DeepSeek-R1登Nature封面,首个通过权威期刊同行评审的主流大模型获好评
36氪· 2025-09-18 15:55
学术认可与行业透明度 - DeepSeek-R1的相关研究成果于9月17日登上Nature封面,成为首个通过该权威期刊同行评审的主流大模型[1] - 与预印本相比,正式发表的论文补充披露了模型训练成本,为AI研究提供了更透明、更规范的实践范例[1][17] - 此次同行评审被行业专家视为良好趋势,有望推动更多前沿模型开发团队分享技术细节[16] 训练成本与效率 - DeepSeek-R1的总训练成本为29.4万美元,其中DeepSeek-R1-Zero训练成本20.2万美元,SFT数据创建成本1万美元,DeepSeek-R1训练成本8.2万美元[2] - 训练DeepSeek-R1-Zero使用648张H800 GPU,耗时约198小时;训练DeepSeek-R1同样使用648张H800 GPU,训练约80小时[2] - 尽管公司为模型所依托的基础LLM投入了约600万美元,但总成本远低于业内普遍认为的头部模型训练所需的数千万美元[1] 技术创新与方法论 - 公司基于DeepSeek-V3 Base8,采用Group Relative Policy Optimization作为RL框架,并在RL训练前跳过了传统的监督微调阶段[3] - 该方法允许模型不受限制地探索推理路径,避免了人为定义推理模式可能带来的限制,促进了LLM中新推理能力的涌现[3] - 研究团队设计了特定模板,要求模型先在"Think"标签中输出推理过程,再在"Answer"标签中给出最终答案,以便在强化学习中自主探索有效推理路径[6] 模型性能表现 - DeepSeek-R1-Zero在AIME 2024数学竞赛上的pass@1分数从初始的15.6%显著提升至77.9%,采用自洽解码策略后准确率进一步提升至86.7%,超过人类选手平均水平[6] - 在多项基准测试中,DeepSeek-R1表现优异:English MMLU得分90.8,MMLU-Pro得分84.0,IF-Eval Prompt Strict得分83.3,AlpacaEval2.0 LC-winrate得分87.6[13] - 在编程能力方面,Codeforces Percentile达到96.3,Rating达到2029;在数学能力方面,MATH-500 Pass@1达到97.3[13] 训练过程特征 - 在强化学习过程中,DeepSeek-R1-Zero展现出随训练逐步增强的推理能力,并伴有明显的自我进化特征[7] - 模型由内在适应驱动时,其平均推理长度在训练中持续增长并不断修正推理路径,能主动暂停、检视并修正已有推理步骤[7] - 对比DeepSeek-R1-Zero和DeepSeek-R1 Dev1,DeepSeek-R1在各个开发阶段的指令执行表现有显著提升[11]
DeepSeek们越来越聪明,却也越来越不听话了。
数字生命卡兹克· 2025-05-20 04:14
大模型推理能力与指令遵循的权衡 - 核心观点:AI模型在增强推理能力(如使用Chain-of-Thought)后,执行指令的准确率普遍下降,表现为过度解读或修改指令内容[1][2][3] - 实验验证:15个主流模型(包括GPT-4o-mini、Claude 3.5/3.7、DeepSeek系列等)在IFEval和ComplexBench测试中,使用CoT后14/15模型准确率降低,部分下降幅度达8个百分点(如LLaMA-3-70B从85.6%降至77.3%)[4][5][6] - 原因分析:模型因"约束注意力"分散而擅自优化指令,例如补充解释或修改格式(如法语任务中添加英文翻译)[7][8][9] 提升指令遵循效果的解决方案 - 少样本示例(Few-Shot):效果有限且易受样本偏差影响[11][12] - 自我反思(Self-Reflection):大模型效果显著(如Claude 3.7准确率提升至92.1%),小模型适得其反[13] - 自选择推理(Self-Selective Reasoning):召回率高但精确度低,易过度推理[14] - 分类器选择推理(Classifier-Selective):最优方案(如GPT-4o-mini准确率恢复至82.1%),但需单独训练成本高[15][16][17] 智能效率的行业启示 - 资源错配现象:模型过度关注非核心细节(如语言修饰)导致任务偏离[20][21] - 聚焦能力价值:高阶智能应具备判断"关键注意力点"的能力,类似人类决策中的优先级筛选[22][24][26] - 技术发展方向:需平衡推理深度与执行精准度,避免"过度思考"陷阱[27][29][30]
AI生成视频总不符合物理规律?匹兹堡大学团队新作PhyT2V:不重训练模型也能让物理真实度狂飙2.3倍!
机器之心· 2025-05-19 12:03
文本生成视频技术发展 - 当前T2V技术正从视觉质量与模型规模扩展阶段转向物理一致性与现实合理性推理驱动阶段 [2] - 物理规律作为建模现实世界的基本知识体系,是高质量视频生成的关键约束 [2] - 主流模型如Sora、Pika、CogVideoX已能生成复杂逼真场景,但在物理规则遵守方面存在显著不足 [5] PhyT2V框架核心机制 - 通过LLM引导的链式推理与迭代自我修正机制优化文本提示,增强现有T2V模型的物理一致性 [3] - 采用三步流程:1)识别物理规则与对象 2)检测提示与视频语义不匹配 3)生成修正提示 [12][13][14] - 无需模型重训练或额外数据,支持3-4轮迭代即可显著提升效果,改进在最初两轮最明显 [14][23] 技术优势与实验表现 - 在CogVideoX-5B模型上实现PC指标2.2倍提升、SA指标2.3倍提升 [23] - 跨模型测试显示对CogVideoX-2B/OpenSora/VideoCrafter均有显著增强效果 [17][21][22] - 在固体力学、流体交互、光学现象等物理场景中表现优异,尤其擅长分布外场景 [18][20] 行业应用价值 - 框架可即插即用适配不同架构T2V模型,落地门槛极低 [3][18] - 突破传统数据驱动方法的泛化瓶颈,通过知识嵌入实现物理规则遵守 [7][10] - 为构建理解物理世界的T2V模型提供新路径,推动技术商业化进程 [26]
超越 Suno,全球首个 CoT 音乐模型Mureka O1 来了!
AI科技大本营· 2025-03-26 18:20
AI音乐生成行业发展 - 2023年全球数字音频工作站市场规模达30亿美元 预计2026年70%企业将采用AI辅助创作[1] - AI音乐生成技术显著降低创作门槛 支持多语言歌曲生成和音色克隆功能[7][11] - 行业呈现"人人可创作"趋势 平台提供音轨分离下载功能便于二次创作[6] Mureka产品技术突破 - 2024年3月发布V6和O1两款大模型 V6采用ICL技术提升声场与人声质感 O1为首个应用CoT技术的音乐模型[19][21] - MusiCoT技术通过预生成音乐结构 使旋律连贯性提升35% 歌词契合度提高40%[32][34] - 在评测中O1整体听感得分6.93 超越Suno V4的6.85 乐器多样性达7.10分[22][23] 商业化应用生态 - 开放音乐生成与语音合成两类API 支持私有数据微调模型 覆盖游戏配乐等场景[36][38] - 已服务全球100+国家用户 提供品牌音乐定制等B端解决方案[21][40] - 模型微调功能严格保障数据隐私 不用于基座模型训练[38] 公司战略布局 - 昆仑万维2023年确立"All in AGI与AIGC"战略 2024年更新使命为"实现通用人工智能"[40] - 创始人提出未来30年是"自我表达爆发期" AI将把创作门槛降低1000倍[40] - 技术路线聚焦音乐生成领域创新 包括MusiCoT等前沿技术应用[32][40]