蒸馏
搜索文档
6666!NuerIPS满分论文来了
量子位· 2025-11-11 19:11
文章核心观点 - 一篇来自清华大学和上海交通大学的研究论文在NeurIPS 2025上获得四位审稿人一致给出的满分6分,成为该会议唯一的满分论文[1] - 论文的核心结论挑战了行业普遍认知,指出真正决定大语言模型推理能力上限的是基座模型本身,而非强化学习训练方法[1] - 研究结果表明,知识蒸馏方法比强化学习更有潜力实现大模型能力的自我进化,这对当前主流的RLVR技术路线提出了重要质疑[1][12] 研究方法与实验设计 - 研究团队采用pass@k作为关键评估指标,该指标通过多轮采样揭示模型的真实推理边界,能更精准判断模型是否"有能力"解决问题[14][15] - 实验覆盖大语言模型推理能力的三大典型应用领域:数学推理、代码生成和视觉推理,并搭配GSM8K、MATH500、LiveCodeBench、MathVista等权威基准数据集[17] - 模型选择以主流大语言模型家族为基础,包括Qwen2.5系列和LLaMA-3.1等,构建了"基础模型vs RLVR训练模型"的多组平行对照[18] - 针对每个测试样本,让基础模型和RLVR模型进行不同次数的采样,k值从1逐步提升至1024,记录每次采样中"至少出现一个正确结果"的概率[20] 关键研究发现 - RLVR主要是在"强化"底模已有的推理路径,而不是"发现"底模没有的新路径[10] - RL训练后的模型在低采样次数下表现更好,但随着采样次数增加,底模反而能超过RL模型,说明底模隐藏的推理能力被低估了[10] - 多种RL算法在提升采样效率方面差异不大,且与"理论上底模最大能力"相比仍有明显差距[10] - 蒸馏方法更有可能"扩展"模型的推理能力范围,因为其接收来自教师模型的新推理模式,而RLVR更受限于底模[10] 研究团队背景 - 研究团队由8位研究人员组成,其中7位来自清华大学LeapLab,1位来自上海交通大学[24] - 项目负责人Yang Yue是清华大学自动化系四年级博士生,研究方向为强化学习、世界模型和多模态大模型[25] - 通讯作者Gao Huang是清华大学自动化系副教授、博士生导师,LeapLab负责人,以提出经典卷积架构模型DenseNet而闻名[31][32]
DeepSeek 刷新全球 AI 格局;50 美元模型蒸馏术;美国公司们宣布 8000 亿美元算力投资丨AI 月报
晚点LatePost· 2025-02-10 17:50
格局变化 - DeepSeek推出R1模型,性能比肩OpenAI o1但API价格仅为1/30,迅速改变全球大模型竞争格局 [4][6] - R1发布后DeepSeek应用登顶美区App Store,两周下载量达ChatGPT同期两倍,中国DAU突破3000万 [8][12] - 英伟达股价因市场担忧GPU需求受冲击一度暴跌,但10天后反弹至3万亿美元市值 [7] 技术突破 - "蒸馏"技术成为焦点:伯克利团队用450美元、李飞飞团队用50美元即开发出接近o1性能的垂直领域模型 [15][16] - DeepSeek论文显示通过生成80万数据精调开源模型,可显著提升推理能力 [14] - 中国公司密集发布新模型,Chatbot Arena前20名中中国模型占比达5个,较上月增加2个 [17][18][22] 企业动态 - OpenAI年化收入超60亿美元,ChatGPT付费用户达1550万,企业API收入年化32亿美元 [5][29] - 微软考虑用DeepSeek模型替代OpenAI,Databricks超1000家客户半月内采用R1/V3 [12] - 英伟达发布Project Digits个人算力平台,可本地运行2000亿参数模型,售价3000美元 [31][32] 资本动向 - 1月26家AI公司获超5000万美元融资,中国占2家,医疗AI和算力优化领域最活跃 [39][45] - OpenAI启动400亿美元融资估值达3000亿,Anthropic获30亿美元估值600亿 [40] - 四大科技公司+OpenAI联盟计划超8000亿美元算力投资,但微软暂停33亿数据中心建设 [33][36][37] 行业趋势 - Agent应用成竞争焦点:OpenAI推出Task/Operator功能,Anthropic/智谱同步跟进 [27][28][30] - 数据争夺白热化:OpenAI爬虫导致网站崩溃,反爬虫"下毒"程序在开发者论坛流行 [52][54][56] - 开源模型冲击商业市场:Meta组建团队研究DeepSeek技术,计划用于Llama新版 [9]