Workflow
Scaling Law
icon
搜索文档
「紫荆智康」获近亿元天使轮融资,加速AI医院系统开发及落地 | 早起看早期
36氪· 2025-11-11 08:10
公司概况与融资信息 - 紫荆智康于2024年9月由清华大学智能产业研究院孵化成立,由清华大学计算机系教授刘洋发起 [2] - 公司近期完成近亿元天使轮融资,由星连资本领投,英诺天使和尚势资本跟投,资金将主要用于紫荆AI医院系统的研发、迭代与升级 [2] - 公司此前曾获得清智资本的种子轮投资 [2] 核心技术:AI医院系统 - 公司核心产品为紫荆AI医院系统,其核心逻辑是通过模拟真实医院的设施和流程,构建超拟人、广分布、多样化的AI患者,以解决训练数据需求 [2] - 系统旨在开发具备自我进化功能的AI医生,为用户提供便捷、低廉、优质的医疗服务,并构建诊前、诊中、诊后的全周期健康管理闭环 [2] - 公司通过“大模型+医学知识库+少量病例库样例”的方式,利用多步逆采样技术自动合成病例,并将合成病例转化为AI虚拟患者 [3] - 目前已构建超50万个AI患者,覆盖不同国家、年龄段与疾病类型,作为训练AI医生的重要补充路径 [3] - 公司设计了特定的记忆与反思算法机制,使AI医生能在问诊闭环中积累“经验”,实现“自进化”能力 [5] - 实验表明,AI医生的能力进化曲线符合规模定律,诊治的AI患者数量越多,能力越强 [5] - 公司研制的42位AI医生在国际权威MedQA数据集上的准确率超过96%,已超过人类医生平均水平 [5] 产品功能与进展 - 紫荆AI医院系统已于2025年6月30日发布,并于2025年8月在清华大学医院全科、呼吸内科等科室开展线下门诊功能内部测试 [6] - 系统设置了患者端APP、医生端工作站和医院系统三个端口,以实现全周期闭环管理 [5] - 诊前功能包括线上挂号和AI机器人智能预问诊、生成结构化病历 [5] - 诊中功能为医生提供结构化病历以节省时间,AI医生会给出检查、诊断等建议 [5] - 诊后功能包括健康档案管理、AI健康咨询、体检报告解读和基于时间线的健康建议 [5] - 公司计划于2025年底开展系统公开测试,测试范围将从北京扩展至全国更多城市,涵盖不同等级、体量的医院及更多科室和场景 [4][6] 行业背景与政策环境 - AI赋能医疗领域长期面临数据资产合规性、产品商业化落地等痛点 [2] - 2025年10月,国家卫健委等五部门印发促进“人工智能+医疗卫生”应用发展的实施意见,紫荆AI医院系统与该文件精神高度契合 [6]
史上规模最庞大、最多元的真实世界操作数据集!具身领域的Scaling Law来了~
具身智能之心· 2025-11-09 22:08
与此同时,这些能力正在实现规模化演进: 点击下方 卡片 ,关注" 具身智能 之心 "公众号 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 多年来,机器人基础模型始终以视觉语言预训练作为规模化发展的基石,这使得我们能够将现有大的多模 态模型的语义泛化优势迁移至机器人领域。 然而scaling law好像在具身机器人领域不存在? 如何在本体机器人领域有效扩展大模型训练,建立可验证的扩展定律,证明机器人智能会随算力数据增长 持续提升,还没有充分论证。这需要一套能拓展新感知运动能力、实现行为泛化的架构训练流程与数据引 擎,并使其随真实物理世界交互产生的海量经验持续进化。 GEN-0来啦~ GEN-0是新型具身基础模型,由Generalist AI Team推出,专为直接基于高保真原始物理交互进行多模态训 练构建。其架构继承视觉语言模型优势又实现突破:原生设计可捕捉人类级条件反射与物理常识,核心特 性"谐波推理"使模型接受同步思维与行动的无缝训练。 项目介绍主页:https://generalistai.com/blog/nov-04-2025-GEN-0 突破智能阈值 :在机器人领 ...
BigBang-Proton: 自回归基座模型统一语言、科学和物质世界
36氪· 2025-11-06 18:58
GPT-5,DeepSeek 这些大语言模型能不能直接执行 Alphafold 这样的专业科学任务?OpenAI 的 Sam Altman 在多个场合提到,ChatGPT 的主要目标是建造 基于语言的通用推理机器 (General Reasoning Machine), 再使用推理机器来调用专业科学模型如 Alphafold 解决特定科学问题,所以无法也没必要用 ChatGPT 直接执行 Alphafold 的任务。 近日,专注于研发物质世界基座模型的公司超越对称(上海)技术有限公司(超对称)发布了新版基座模型 BigBang-Proton,成功实现多个真实世界的专 业学科问题与 LLM 的统一预训练和推理,挑战了 Sam Altman 和主流的 AGI 技术路线。 BigBang-Proton 的结果展示,不仅 Alphafold,AlphaGenome 这样的专业生物问题,横跨所有物质尺度从微观粒子夸克、材料晶格到 DNA 蛋白质到宏观地 球系统的科学问题都可以整合在同一个自回归 LLM 上用 next-word-prediction 的范式来完成预训练和推理。 同时,BigBang-proton 实验结 ...
具身智能一步踏入Scaling Law!10B+基础模型,27万小时真实数据
机器之心· 2025-11-05 14:30
GEN-0模型核心特性 - 专为在高保真度原始物理交互数据上进行多模态训练而构建,参数量可达100亿以上[3] - 原生设计旨在捕捉人类水平的反应和物理常识[4] - 具备核心特性“和谐推理”,使模型能无缝地同时“思考”和“行动”[5] - 架构通过设计使其适用于不同的机器人,已在6自由度、7自由度和16+自由度的半人形机器人上成功测试[6] 超越智能阈值与相变现象 - 在70亿参数规模上观察到“相变”,较小模型出现“固化”现象,而较大模型持续改进[6] - 10亿参数模型在预训练期间难以吸收复杂数据,模型权重无法吸收新信息[11] - 60亿参数模型开始从预训练中受益,显示出强大的多任务能力[11] - 70亿以上参数模型能够内化大规模预训练数据,仅需几千步后训练就能迁移到下游任务[11] - 物理世界中的智能在算力方面可能有更高的激活阈值[14] 机器人模型的Scaling Law - 模型展现出强大的Scaling Law,更多预训练数据和算力可持续提高下游任务性能[6] - 预训练数据规模与下游后训练性能之间存在很强的幂律关系[16] - 在预训练数据集不同子集上训练的模型,在16个不同任务集上进行后训练,更多预训练提高了所有任务的下游模型性能[17] - Scaling Law可用于预测达到特定性能水平所需的预训练数据量[18] 数据规模与基础设施 - 预训练数据集包含超过27万小时的真实世界多样化操作数据[6] - 机器人数据运营每周能提供超过1万小时的新数据,并且仍在加速[23] - 构建了定制硬件、数据加载器和网络基础设施,以支持全球数据收集站点的上行带宽[31] - 使用前沿视频基础模型的数据加载技术,每训练一天就能吸收685年的真实世界操作经验[31] 预训练数据科学 - 数据质量和多样性比纯粹的数量更重要,精心构建的数据混合可带来不同特性的预训练模型[33] - 同时具有低预测误差和低逆KL散度的模型在后训练监督微调时表现更好[33] - 拥有多种规模化数据收集策略,可进行A/B测试以确定对预训练提升最大的数据[33] 行业影响与能力展示 - GEN-0标志着一个新时代的开始,具身基础模型能力可通过真实世界物理交互数据进行可预测扩展[8] - 模型成功完成长周期灵巧任务,如组装相机套件,涉及多个步骤且在单一“和谐推理”流程中完成[8] - 公司正在构建有史以来最大、最多样化的真实世界操作数据集,涵盖家庭、仓库、工厂等多种环境[28]
视觉生成的另一条路:Infinity 自回归架构的原理与实践
AI前线· 2025-10-31 13:42
视觉自回归模型的技术原理与优势 - 视觉自回归模型采用“由粗到细”的多尺度生成思路,从低分辨率开始逐级放大补全细节,更贴近图像物理属性和人类感知直觉 [12] - 模型通过金字塔式层级结构的改进版VQ-VAE将图像编码为一系列逐级放大的特征残差,残差设计使每级只需补全上级未刻画信息 [15] - 专用Transformer架构支持并行预测整片token,将迭代次数压缩至传统逐点方式的十分之一,显著提升效率 [15] Infinity框架的核心技术创新 - 放弃传统VQ码本改用符号量化技术,对特征激活按正负号压成±1形成1-bit表示,词表大小随通道数指数增长至2^32 [31] - 采用逐位预测机制将token拆分为逐通道二元分类,参数量从100B降至可接受范围,并对微小扰动具有天然鲁棒性 [33] - 引入位级自校正技术,在训练和推理阶段量化回传预测结果,使网络学会纠正前一步错误,显著抑制误差累积 [35] 性能表现与缩放定律验证 - 在ImageNet基准测试中VAR模型首次在生成质量上超越DiT,FID指标达到1.73(VAR-d30-re模型)[18][20] - 模型展现出清晰稳健的缩放曲线,性能随参数增加按幂律提升,2B参数Infinity在1024×1024分辨率下仅需0.8秒生成速度 [18][46] - 大模型在大词表配置下表现更优,当参数规模扩大时2^32词表性能反超2^16词表,验证缩放定律可靠性 [41] 与扩散模型的技术对比 - 扩散模型在单一分辨率上逐步去噪,训练推理步数开销大但误差可被后续步骤修正 [21][27] - 视觉自回归训练并行度高,所有尺度可一次输入网络,不像DiT需按时间步拆分多次前向计算 [27] - Infinity方案在1024×1024分辨率实现与DiT可比的FID指标,支持任意长宽比且推理速度比同量级DiT快3.7倍 [37][46] 行业应用前景 - 视觉自回归路线已从类别生成扩展至通用文本到图像生成,在高分辨率任务中具备与扩散模型正面竞争的能力 [49] - 后训练阶段采用DPO对齐技术可进一步提升画质和细节,表明对齐工作同样适用于VAR框架 [44] - 该技术路线在视频生成领域同样保持明显优势,为多模态AI应用提供新路径 [46]
SemiAnalysis 创始人解析万亿美元 AI 竞争:算力是 AI 世界的货币,Nvidia 是“中央银行”
海外独角兽· 2025-10-22 20:04
AI行业格局与资本流动 - AI基础设施竞赛驱动算力、资本与能源深度交织,形成产业迁徙[2] - 算力—资本—基础设施形成闭环,算力成为AI时代的货币[2] - OpenAI–Oracle–Nvidia形成3000亿美元三角交易,OpenAI五年内向甲骨文采购3000亿美元算力服务[4] - 英伟达向OpenAI投资最高1000亿美元,合作建设10吉瓦AI数据中心,耗电量相当于800万户美国家庭[5] - 1GW数据中心建设成本约100-150亿美元/年,5年总额500-750亿美元,10GW集群需数千亿美元[8] - 英伟达通过三角交易将约50%毛利转化为OpenAI股权,1GW集群350亿美元直接流向英伟达,毛利率达75%[8] 市场控制权与竞争态势 - 掌控数据、接口与切换成本的企业拥有AI市场话语权[2] - Cursor作为应用方掌握用户数据并可多模型切换,保有对Anthropic的议价空间[9] - 微软放弃独家算力供应后,OpenAI转向甲骨文,双方正就利润分配和知识产权重新谈判[9] - 英伟达通过需求担保、回购协议和算力前置分配巩固生态,实现GPU货币化[10] - Oracle、CoreWeave等提供"首年免付算力窗口",允许客户先训练模型后偿还成本[10] Neo Clouds商业模式 - Neo Clouds承担算力租赁与模型托管,形成产业链新分层[10] - 短期合同模式:Blackwell芯片每小时成本2美元,短期租赁价达3.5-4美元,利润率高但资产贬值风险大[11] - 长期绑定模式:Nebius与微软签190亿美元合同,CoreWeave转向服务Google和OpenAI但面临信用风险[11] - Inference Providers为Roblox、Shopify等企业提供模型托管服务,客户多为资金有限初创企业,承担较高信用风险[12][13] - 产业链利润最终集中在英伟达,其通过GPU销售获得稳定收益且几乎不受市场波动影响[13] 技术发展路径 - Scaling Law未出现边际效益递减,模型性能随算力投入持续提升[3][16] - 模型智能提升呈质变式跨越,下一阶段能力需投入10倍算力但经济回报可支撑[16] - 真正进步来自算法架构优化和推理时间延长,而非单纯扩大模型规模[3][18] - 需在inference latency与capacity间权衡,GPU降低延迟会急剧推升成本[17] - 过参数化陷阱:模型规模扩大而数据量未同步增长时,模型仅记忆而非理解内容[18] 硬件创新趋势 - 硬件创新重心在芯片互联、光电与电力设备等传统工业环节[3][24] - 英伟达Blackwell架构NVL72模块实现芯片间1.8TB/秒高速通信[25][26] - 光学互连为关键前沿,电光信号转换效率决定数据中心性能上限[25] - 固态变压器等传统电力设备创新提升能源利用效率,成为新利润源头[24] - 半导体制造复杂度达"太空时代级别",但软件体系滞后,数据共享文化缺失阻碍效率[24][26] AI工厂与经济模型 - AI工厂以token为产品单元,竞争关键是以最低token成本提供可规模化智能服务[3][28][30] - GPT-3级别推理成本比两年前下降约2000倍,但算力仍是稀缺资源[30] - OpenAI在GPT-5阶段保持与GPT-4相近规模,优先提升推理效率而非盲目扩大模型[30] - 未来可能出现AI执行抽成模式,平台从AI执行环节收取0.1%-1%费用[21] - Etsy超10%流量直接来自GPT,亚马逊若未屏蔽GPT则该比例可能更高[21] 人才与能源挑战 - 能高效使用GPU的人才比GPU更稀缺,研究者提升5%算力利用率可抵消数亿美元设备投资[31] - 美国数据中心用电占全国总电力3%-4%,其中约一半来自AI数据中心[31] - 美国2025年电力消耗预计41650亿千瓦时,AI数据中心将消耗624-833亿千瓦时[32] - OpenAI建设2吉瓦数据中心相当于费城全市耗电量,500兆瓦项目需约250亿美元资本支出[35] - 美国电网规定供电紧张时可要求大型企业削减50%用电量,迫使AI企业启用自备发电机[37] 软件行业变革 - AI降低软件开发成本,使SaaS行业"租比买划算"逻辑逐渐失效[38][39] - 中国软件工程师薪资为美国五分之一但能力可能更强一倍,导致本地化开发成本低于SaaS订阅[39] - AI抬高软件公司COGS,任何集成AI功能的服务成本显著上升[39] - Google凭借自研TPU和垂直一体化基础设施,在token边际服务成本上具显著优势[40] - 内容生成成本持续下降,YouTube等超级平台可能成为最大赢家[40] 主要玩家评估 - Anthropic收入增长快于OpenAI,因其专注2万亿美元软件市场,执行更稳健聚焦[41] - xAI建设可部署30-50万颗Blackwell GPU的Colossus 2数据中心,但商业化模式未突破[41] - Meta拥有硬件、模型能力、算力供应和推荐算法完整体系,具人机交互革命潜力[42] - Google从两年前悲观转向积极,对外销售TPU并推进AI商业化,在企业级应用具潜力[43] - AMD长期抗衡英特尔和英伟达,扮演友善挑战者角色[41]
《大模型的第一性思考》李建忠对话GPT5与Transformer发明者Lukasz Kaiser实录
36氪· 2025-10-13 18:46
对话一:语言对于智能到底意味着什么? - 语言模型在智能构建中扮演核心角色,其成功源于对语言在智能中核心作用的认知,ChatGPT和Transformer的成功均得益于此[6][9] - 语言具备时间维度,总是在生成下一个词,而序列模型(如Transformer)可处理包括语言、蛋白质、音频在内的各种序列,时间序列是表达智能的重要组成部分[7] - 语言训练具有实践优势,互联网上海量的语言数据使得训练非常方便且成本远低于视频训练[9] - 语言模型确实会形成独立于语言的抽象概念,例如在解决数学问题时,尽管用不同语言生成答案,但解题方式和错误类型相同,表明模型在抽象空间进行思考[10] - 然而,未经过大量多模态数据训练的模型,其概念(如"痛苦"或"爱")可能与人类植根于物理世界的真实感受有所不同[11] 对话二:多模态与世界模型的挑战 - 现代大语言模型(如GPT-4)已是多模态模型,能接收和生成图像、音频,并已取得巨大进展,例如ChatGPT的语音模式可以对话、唱歌[12] - 当前多模态处理方式(如通过VQ-VAE将图像/音频编码为特殊代码)有效但不令人满意,未来需要更深入地将多模态融合到模型中,使编码更具可训练性并与语言有更多交互[13] - 语言对于为视觉对象赋予语义含义至关重要,否定语言价值的视觉派研究可能重蹈ChatGPT发布前的错误路线[14] - 现代大语言模型在某种程度上已是世界模型,在文本和数学方面表现卓越,但作为物理模型的表现不如语言模型,部分原因是视频训练数据不足、质量不佳及当前架构限制[14] - 通过改进架构、损失函数并增加更好更多的数据,结合像Sora、Genie和Veo这类从视频学习的模型,正在弥合"世界模型"与"语言模型"之间的差距[15] 对话三:AI编程:自然语言是终极目标,还是新的"巴别塔"? - Transformer架构的创造者在早期就已预见其在自动化编程方面的应用潜力[17] - 未来语言模型将能覆盖大量编程工作,但数学符号和编程语言作为沟通工具,在解释复杂概念时比纯自然语言更高效,因此专业程序员仍需掌握这些概念以实现与模型的快速、高效沟通[18] - 编程的重点在于沟通和抽象,而非特定语言,AI有望帮助更好地使用现有编程语言来改进系统,而非必然需要创造新的为AI设计的编程语言[19] - 新的编程语言需求将来自新的计算硬件架构,而非AI编程本身[20] 对话四:Agent的泛化困境:是方法问题,还是根本限制? - 所谓的"智能体模型"通常指在其推理过程中能调用外部工具(如代码解释器、网络搜索)的推理模型,这些模型使用强化学习训练且效果良好[21] - Agent泛化问题的主要挑战在于缺乏学习信号,当模型使用未经训练的工具时,没有像强化学习训练那样的反馈机制来检查答案正确性[22] - 要实现出色的多智能体系统,需要能够模拟整个环境进行训练,而这在当前难以实现,但即使没有大量训练,聪明的模型也能零样本完成许多任务[23] 对话五:算力与算法:Scaling Law是信仰还是路径依赖? - 预训练的Scaling Law已带来巨大进展,但存在经济上的实践极限,因为用户不愿为每个token支付过高费用,且大模型可被蒸馏成更小模型[25] - 预训练的Scaling Law在解决某些问题(如GSM-8K数学数据集)时速度不可行,而强化学习推理能用小模型解决相同问题,显示出更高的数据效率[26] - 推理模型的Scaling Law(通过强化学习让模型运行更长时间以提升性能)受限于Transformer的上下文长度设计以及强化学习在长序列推理中的信用分配问题[27] - 推理的Scaling Law与预训练的Scaling Law有不同限制,这呼唤新的研究和可能的架构或强化学习算法改进[28] 对话六:具身智能的挑战:是数据问题?还是比特和原子的根本性差异? - 具身智能可能更接近于当前的大语言模型,数据效率正在提高,例如推理模型能用极少样本学会困难任务[29] - 实现具身智能需要一个在大量视频上预训练好的多模态模型作为基础,再结合强化学习进行推理训练,但需要调整架构以适应现实世界行动的速度要求[30] - 第一个版本的具身智能模型可能基于现有成果调整,但未来会出现数据和计算更高效的新一代模型[31] 对话七:强化学习:是超级优化器,还是科学发现的引擎? - 由强化学习驱动的推理模型可被视为一种数据效率更高的新架构或范式,能够从有限数据(如1000道数学题)中学习[32][33] - 强化学习只依赖一个奖励信号,若优化得当,模型有望从研究论文中学习并提出连专业人员都觉得新颖的想法,推动科学发现[33] - 该范式仍处于早期阶段(社区广泛关注约一年),需要更多尝试、发现和改进以提升效率和应用范围[34] 对话八:AI的组织跃迁:如何实现大规模Agent协作? - 实现大规模Agent组织(如成千上万个Agent协作)的最大挑战在于开发下一代推理模型,需要类似Transformer之于RNN的架构创新[35] - 当前推理模型顺序生成token的方式缺乏并行性,未来需要为并行过程提供更多信号,并结合新的架构来融入并行处理[36] 对话九:AI记忆的瓶颈:模型离真正的"原生记忆"还有多远? - 通过将记忆作为工具(如访问互联网或记忆库)并结合强化学习训练,模型可以有效地解决记忆问题,当前方案已相当可行[37][38] - 未来可能出现更优雅的记忆机制,如将记忆转化为连续的向量或通过类似LoRA的适配器微调模型权重,但这仍是待研究的问题[40] 对话十:大模型如何摆脱瞬时学习,而像人类一样持续学习? - 利用上下文学习作为持续学习的记忆是当前已实现的进展,模型将对话信息放入上下文进行处理,但效率并非最高[39] - 通过记忆工具和像LoRA这样的适配器微调技术,实质性修改权重已变得更加可行,为持续学习提供了基础,但如何优化算法仍是研究重点[40] - 下一代推理架构有望实现更并行的处理,推动模型在科学发现等领域的应用,未来并不遥远[41]
“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录
AI科技大本营· 2025-10-10 17:52
对话一:语言对于智能到底意味着什么 - 语言在时间维度上对智能至关重要,语言模型本质是序列模型,处理时间序列是表达智能的重要组成部分 [6][7] - 语言经过人类编码压缩,在智能表征上比视觉更高效,语言边界就是世界边界 [7] - 训练语言数据非常方便,互联网有海量语言数据,用语言训练比用视频便宜得多 [8] - 语言模型会形成抽象概念,当用多种语言训练时,模型在抽象空间解决问题然后表达出来 [9] - 模型概念与人类概念可能存在差异,特别是在与物理世界紧密相关的领域 [10] 对话二:多模态与世界模型的挑战 - 现代大语言模型如GPT-4已经是多模态模型,能接收和生成图像音频,但模态间迁移水平不尽如人意 [12] - 当前多模态处理通过VQ-VAE编码器,感觉不令人满意,需要更深入融合到模型中 [13] - 语言对多模态非常重要,离开语言视觉只是像素信号,语言赋予视觉对象语义含义 [14] - 现代大语言模型在某种程度上就是世界模型,文本数学方面表现优异,但作为物理模型表现不如语言模型 [14] - 通过架构改进、更好数据将弥合世界模型与语言模型差距,Sora等模型显示正在取得重大进展 [15] 对话三:AI编程:自然语言是终极目标,还是新的"巴别塔" - Transformer发明时已考虑自动化编程,认为比处理任意对话更容易 [17] - 语言模型将覆盖大量编程工作,但数学和编程语言是比纯自然语言更好的沟通工具 [19] - 未来复杂系统级软件需要专业程序员使用Copilot模式,应用软件可由大众用户自然语言编程完成 [20] - 编程重点在于沟通和抽象,不一定需要新编程语言,可以使用现有语言但要用得非常好 [20] - 新编程语言需求来自新计算架构,而非AI编程需求 [20] 对话四:Agent的泛化困境:是方法问题,还是根本限制 - Agentic Model缺乏坚实技术实体,指推理过程中调用外部工具的推理模型 [21] - 问题在于使用未经训练工具时缺乏学习信号,效果不好 [22] - 强化学习可泛化到更大系统,但需要训练期间接触所有工具,目前难以实现 [22] - 需要更多工作让系统可训练,即使没有太多训练也可能非常有用 [23] 对话五:算力与算法:Scaling Law是信仰还是路径依赖 - 预训练Scaling Law和强化学习Scaling Law不完全是一回事,有不同限制 [25] - 预训练Scaling Law存在经济限制,离经济极限不远,可将大模型蒸馏成更小模型 [25] - 推理模型不增加参数数量,让模型运行更长时间会变得更好,但有架构限制 [27] - 推理Scaling Law与预训练Scaling Law有非常不同限制,呼唤新研究和不同架构 [28] 对话六:具身智能的挑战:是数据问题?还是比特和原子的根本性差异 - 具身智能将更接近当前LLM,物理世界数据比互联网少,但数据效率在提高 [29] - 需要从多模态模型开始,加入RL训练,允许模型在行动前进行推理 [30] - 现实障碍是推理速度太慢,需要层级式架构输出动作 [30] - 第一个版本建立在现有成果上做调整,之后会有新一代更高效模型 [31] 对话七:强化学习:是超级优化器,还是科学发现的引擎 - 推理模型看作新架构,有思维链推理过程,用强化学习方式可行 [32] - RL数据效率高得多,可从有限数据中学习,如1000道数学题 [33] - RL只得到一个奖励,没有约束,能很好优化就可以学习 [33] - 处于范式早期阶段,需要尝试发现改进才能更高效 [34] 对话八:AI的组织跃迁:如何实现大规模Agent协作 - 最大挑战是开发下一代推理模型,需要Transformer创新级别的推理模型 [35] - 需要更多并行性,不能等模型思考一周才得到奖励 [36] - 需要为并行过程提供更多信号,结合架构融入并行过程 [36] 对话九:AI记忆的瓶颈:模型离真正的"原生记忆"还有多远 - 推理模型可使用工具访问记忆,通过RL训练会学得很好 [37] - 工具方式解决记忆问题对于大多数情况足够好,模型能区分互联网记忆和自己记忆 [37] - 未来架构可能做得更好,但目前有可行解决方案 [38] 对话十:大模型如何摆脱瞬时学习,而像人类一样持续学习 - 利用上下文作为持续学习记忆是进展,但效率不高 [39] - 记忆工具正在出现,模型在推理中访问记忆 [40] - LoRA模块等经济方式修改权重已更可行,每个人可微调自己模型 [40] - 需要更优雅方式实现持续学习,涉及实践和研究考量 [41]
OpenAI奥特曼认错:我天生不适合管理公司
量子位· 2025-10-09 15:03
公司核心战略 - OpenAI确立三大核心目标:成为个人AI订阅服务、构建大规模基础设施、最终实现对人类真正有用的AGI [4] - 公司战略已转变为垂直整合模式,认为为实现AGI使命必须比原先想象中做更多事情,并引用iPhone作为成功垂直整合案例 [8][9] - 在资源分配上,当存在资源限制时,GPU将优先分配给研究而非产品支持,基于构建AGI的终极目标研究享有最高优先权 [33][34] 技术发展路径与AGI展望 - Sora项目表面与AGI不直接相关,但公司认为构建真正出色的世界模型对AGI的重要性将超出人们想象 [11] - 推出Sora的理由包括:制作优秀产品获得用户喜爱、让社会提前适应视频模型、视频比文本有更多情感共鸣、帮助推进AGI研究以及增加乐趣和喜悦 [16] - 未来人机交互界面将包括实时渲染视频的世界模型和新型环境感知硬件设备 [19] - 个人认为图灵测试的等价物是AI能够进行科学研究,并预测两年内模型将承担更多科学工作并做出重要发现 [21][22] 基础设施与行业合作 - 公司决定进行非常激进的基础设施押注,因对研究路线图和经济价值从未如此自信,需要整个行业佼佼者的支持 [29] - 公司将与众多伙伴合作,涉及从电子级别到模型分发的所有环节,未来几个月预计有更多动作 [30] - 若对模型能力发展的预测正确,规模扩展的上限离当前位置还非常遥远,但若只有今天模型则不会如此激进 [31][32] 行业宏观观点 - 能源是AI最大的瓶颈之一,历史上更便宜充足的能源是提高人类生活质量最有影响力的事情 [44] - 批评西方长期排斥核能是令人难以置信的愚蠢决定,其推广速度取决于是否具有完全压倒性的经济优势 [44] - 认为AGI的到来是连续性的过程,而非奇点大爆炸 [44] - 深度学习是一个持续给予奇迹的技术,公司能够用当前技术制造出能够找出下一个突破的东西 [24][27]
听说,大家都在梭后训练?最佳指南来了
机器之心· 2025-10-09 10:24
文章核心观点 - 大模型扩展至百亿、千亿级后,Scaling Law的边际效益开始递减,行业焦点从预训练转向后训练阶段[2] - 后训练通过RLHF、RLAIF、DPO、RLVR等方法提升模型推理能力和对齐效果,成为LLM走向高阶智能的必经之路[3][12] - OpenAI o系列、DeepSeek R1、Google Gemini等以推理为核心的模型均通过强化学习后训练提升能力[3][16] 从预训练到指令微调的演进 - 基础模型通过大规模文本和图像数据预训练,目标为预测下一个token,但该目标限制模型在实际应用中的效用[7][8] - 后训练使用规模更小但质量更高的数据,核心目标是对模型行为进行对齐并强化预训练阶段积累的能力[11] - 主流后训练技术包括监督微调和基于人类反馈的强化学习等[11] 监督微调基本原理 - SFT通过指令-回答对数据集微调预训练模型,将其转化为能遵循用户指令的模型[21] - SFT数据集规模通常为1万到10万个样本,对缺陷极为敏感,少量低质量样本可能导致模型学习错误行为[25] - SFT数据质量常见问题包括标签噪声、分布不匹配和伪推理三类,需通过过滤、验证和数据增强方法减轻风险[26][27] - SFT损失函数是在给定输入x条件下生成正确序列y的负对数似然,通过交叉熵实现[33][35] 强化学习后训练技术 - 强化学习是后训练中最复杂且最有效的微调方式之一,通过最大化奖励信号进行优化[39][40] - RLHF借助人类偏好训练奖励模型,帮助模型在日常对话中表现更优并对齐安全性与语言风格[42] - RLAIF通过LLM与书面规则结合实现监督信号自主扩展,RLVR使用可验证信号提升数学推理与代码能力[42] - 常用RL算法包括PPO、GRPO、REINFORCE和DPO,其中GRPO因去掉单独价值网络降低计算成本而更受欢迎[53][55] 后训练模型评估方法 - 后训练评估需融合自动评估和人工评估等多种方法,以覆盖模型质量各个方面[57][58] - 自动评估快速廉价,人工评估是评估模型主观质量的黄金标准但成本高且易受主观因素影响[59] - 人工评估包括专家标注、用户自评和混合模式等多种设置,适用于不同场景[60]