量子位
搜索文档
SGLang原生支持昇腾,新模型一键拉起无需改代码
量子位· 2025-12-21 22:13
文章核心观点 - 随着智能体(Agent)在应用侧加速落地,大模型推理系统在真实负载下面临高并发、长上下文、多轮推理等严峻的工程挑战,行业焦点正转向如何构建能够承受这些负载的稳健推理系统 [1][4] - SGLang AI金融π对活动集中展示了从缓存内存体系、权重更新、强化学习效率到算力模型生态协同的清晰推理工程演进路径,昇腾算力平台已深度融入此开源生态,成为主流推理工作流的默认后端之一 [5][25][47] - 昇腾通过与SGLang开源社区的深度共建,实现了对DeepSeek、Qwen、GLM、Kimi等主流模型的快速适配与性能优化,其核心理念是尽量不动模型层,仅在底层完成硬件亲和与性能提升,相关能力已进入真实生产环境验证 [24][41][46] 面向Agent的推理系统工程挑战与解法 - **核心挑战**:Agent应用对高并发请求、长上下文窗口、多轮推理和内存管理的效率提出了更高要求,金融Agent场景对低延迟、响应稳定性、一致性及成本控制的要求更为严苛 [8][9] - **HiCache体系**:针对高并发、长上下文下KV cache重复计算和显存需求大的问题,通过将KV cache扩展到CPU和远端存储,由Cache Controller自动管理,并结合流水线化异步预取,显著降低显存占用,提升推理稳定性与吞吐 [11] - **混合模型支持**:针对Qwen3-Next、Kimi Linear等混合模型,通过Mamba Radix Tree实现前缀统一管理,并借助Elastic Memory Pool弹性调度KV Cache与Mamba State,提供高效推理和显存优化能力 [13] - **强化学习权重更新**:针对强化学习中策略权重频繁更新导致的GPU空转和冷启动耗时问题,Mooncake基于Transfer Engine,采用异步预读和pipeline并行设计,显著压缩权重加载和模型启动时间 [14][15] - 实测效果:Kimi K2万亿参数模型的权重更新准备时间被压缩至20秒以内,63B模型的冷启动时间从85秒降至9秒 [17] - **强化学习长尾请求**:针对强化学习rollout过程异步、多阶段、长度不可预测导致的长尾请求问题,通过Server化+全异步执行、oversample与partial rollout机制控制长尾请求,大幅缓解训练效率瓶颈 [18][19] - **MoE模型优化**:针对DeepSeek、GLM-4.5等MoE模型的fuse MoE、内存调度和负载均衡问题,持续重构执行路径与内存管理机制,Slime强化学习系统则针对大规模GRPO与多阶段RL训练定制,实现训练与推理的深度协同 [20][21] 昇腾平台与SGLang的协同进展 - **生态角色转变**:昇腾已作为主流推理工作流中的后端之一,被自然纳入系统设计与工程实现,HiCache、Mooncake等系统能力均能在昇腾平台上直接运行并进入实际推理流程 [24][25] - **DeepSeek V3.2性能**:实现了对DeepSeek V3.2的Day 0支持,在PD分离、64K输入、3K输出场景下,推理吞吐达15 TPS/卡,TTFT约4秒,PD传输(HCCS)< 8ms,TPOT ≈ 20毫秒 [29] - **系统层优化**:通过负载均衡重新分配计算任务、融合算子减少内存访问与Kernel开销、多流并行提升计算资源利用率、在Cube计算路径中引入权重预取机制实现数据搬运与计算重叠,最终实现高吞吐、低延迟、资源高效利用 [30][31][32][33] - **模型适配与优化**:针对DeepSeek、Qwen系列等开源模型进行适配与性能提升,支持稠密、稀疏、多模态架构,并支持Flux、Qwen-Image等多模态生成模型 [34] - 对Qwen的优化包括通用能力增强(图模式、W8A8量化、EAGLE3)以及昇腾亲和性专项优化,如利用多流并行,在大EP场景中通过Dispatch/Combine流程融合处理GMM计算 [36] - **广泛的模型覆盖**:除DeepSeek、Qwen外,在昇腾硬件上也已覆盖Kimi、LongChat等模型,新模型可在不改代码的前提下直接运行,所有代码均已合入SGLang主社区仓,开发者无需额外安装插件 [39][40] - **深度共建架构**:昇腾相关优化已下沉到SGL-kernel-NPU算子库集中维护,Engine层支持EPLB、Graph Runner与MTP以覆盖多硬件后端,缓存与通信依托HiCache,底层SGL-kernel-NPU承载加速算子、量化算子及传输接口,实现开源能力与昇腾性能的双向赋能 [44][45] 昇腾的开源战略与未来方向 - **全面拥抱开源**:昇腾于今年七月份正式启动与SGLang的适配工作,目标明确为全面拥抱开源、加速生态建设,在5个多月内补齐了多类主流模型的推理支持,覆盖强化学习训练、多模态等关键场景,并将SGLang on Ascend的整体性能推至“可打”水平 [46] - **进入生产验证**:昇腾已基于SGLang在真实业务场景中对DeepSeek V3.2完成了灰度测试,意味着相关能力已进入真实生产环境的验证周期 [46] - **未来演进方向**:明确围绕“推理系统”展开系统性工程投入,一方面通过Zero Buffer、昇腾亲和加速库等机制持续压榨单机与多机推理吞吐;另一方面在基础软件层构建昇腾版Triton生态,与SGLang、vllm等开源引擎保持接口与演进节奏对齐 [47] - **定位根本转变**:昇腾不再只是“能否支持某个模型”的硬件选项,而是开始以推理系统为核心,被纳入开源工程的主线讨论与默认方案评估之中,行业问题从“能不能跑”转向“系统能不能长期、规模化、稳定地跑” [47]
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026
量子位· 2025-12-21 13:45
文章核心观点 - 具身智能模型应被视为一个独立于、平行于语言模型和多模态模型的全新基础模型,是专门为物理世界构建的智能底座,而非仅仅是现有模型的一个应用 [1][6][7][61] 对具身智能模型独立性的论证 - 物理世界与虚拟世界存在本质差异:物理世界充满连续性、随机性、不完全可观测性,以及大量与力、接触和时序强相关的过程,而虚拟世界是高度可复现、低随机性的符号世界 [2][10][12] - 现有以语言和视觉为中心的建模范式存在结构性错位:语言和视觉并非描述动作和物理过程的理想工具,语言难以描述精细操作(如10秒以下的事件),图像则面临工具使用、遮挡等局限,无法处理涉及力和接触的过程 [17][19][20] - 将具身智能视为独立基础模型将彻底改变模型架构、数据范式、推理方式乃至硬件形态的研发视角 [3][9][12] 模型架构与学习范式的变革 - 感知与决策方式需革新:人类在物理世界通过主动感知和交互感知进行学习,这与虚拟世界中基于静态图片的统计学习范式有根本不同,是多模态模型未来的重要发展方向 [28][29][30] - 需构建完全端到端的统一基础模型:该模型应整合视觉-语言-动作能力,并同时具备世界模型、空间智能和语言能力,而非让这些能力相互替代 [12][33][40][41] - 需专门设计以适应端侧部署和快速推理:当前架构在推理速度上的权衡是暂时的,根本解决方案是设计一个专为物理世界、考虑端侧推理的新模型 [33][34] 数据与Scaling Law的演进 - 现实世界数据是主要来源:训练需分阶段,包括预训练和后训练数据 [49] - 发现第三个Scaling Law:在后训练之后,可通过推理时的思维链等拓展方式进一步提升模型表现 [49] - 持续学习范式更优:物理世界中的机器人应能实时利用新数据进行体验式学习,这优于集中式批次训练,但对体系架构和硬件提出了新要求 [52][53] 硬件与商业化路径 - 必须让AI定义硬件:应软硬一体同步发展,而非先制造完美硬件再适配AI模型 [54] - 公司已实现软硬一体产品化:自主研发并开始销售轮式底盘人形机器人及高自由度灵巧手 [55] - 模型具备领先的泛化与执行能力:公司模型在跨本体泛化(如从夹爪迁移到20个自由度的灵巧手)和复杂任务执行速度上表现优异,速度快于人类遥操作 [34][35][37][38] 行业影响与长期愿景 - 具身智能可能反向吞噬多模态模型的生存空间:以十年为周期,物理世界基础模型的影响力可能超越现有虚拟世界模型 [12][32] - 具身智能是实现通用人工智能的关键:其发展能突破“人手劳动”的瓶颈,实现“机器制造机器”的指数增长,从而为AGI/ASI提供更多算力、芯片、电力和数据资源 [55][56][58][60] - 公司已推出开源模型:自研的WALL-OSS是领先的开源物理世界基础模型,具备视觉-语言-动作控制能力 [42]
LeCun离职前的吐槽太猛了
量子位· 2025-12-21 13:45
文章核心观点 - 人工智能领域知名学者Yann LeCun在离职Meta前,公开批评当前以大语言模型为主导的AI发展路线,认为其无法通往通用人工智能,并宣布将创办一家专注于开源世界模型研究的新公司[1][2][4][8] LeCun对当前AI发展路径的批判 - 严厉批评仅通过扩展大语言模型和合成数据训练来实现超级智能的路径,认为这“完全是胡说八道”且“根本行不通”[2] - 认为大语言模型擅长处理离散的文本数据,但在处理高维、连续且嘈杂的现实世界数据如图像或视频时表现“完全糟糕”[29] - 断言仅靠训练文本数据,AI永远不可能达到人类智能水平[31] - 指出当前AI领域最难的问题是达到狗的智能水平,而非人类的智能水平[7][88] LeCun的创业计划与新公司AMI - 宣布将创办新公司Advanced Machine Intelligence,专注于世界模型的研究,并坚持开源路线[8][9][10] - 新公司AMI的终极目标是成为未来智能系统的主要供应商之一,不仅做研究,还会推出围绕世界模型和规划能力的实际产品[19] - 创业动机源于对Meta转向封闭和短期项目导向的不满,认为公开发表成果是做出有价值贡献的唯一途径[3][14][15][17] 世界模型的理论与优势 - 主张构建智能系统的正确方式是世界模型,其核心是预测和规划,让机器像婴儿一样通过观察世界来构建内在的可预测模型[20][35][37] - 世界模型的关键是在抽象的表示空间中进行预测,而非直接生成像素,这能消除不可预测的细节和噪声,实现更长期可靠的预测[38][41][42][43] - 提出通过联合嵌入预测架构在抽象表示空间中进行预测,并认为“LeJEPA+SIGReg”是训练抽象表示非常有前途的技术集合[44][77] - 通过数据对比强调现实世界数据的丰富性:LLM训练所需的约30万亿tokens文本数据,其信息量仅相当于约15000小时的视频,而这只是一个4岁孩子一生中接收的视觉信息总量,仅相当于YouTube半小时的上传量[32][33] 对Meta现状及FAIR未来的评价 - 指出Meta在领导层变更后正变得更加封闭,从开源先锋转向封闭,且FAIR更倾向于短期项目和为内部实验室提供支持[3][11][24] - 透露其离职后,FAIR将由Rob Fergus领导,内部减少了对论文发表的重视,标志着Meta长达十年的“学院派”研究黄金时代结束[24][26] - 澄清自己在Meta的继任者并非“亚历山大王”,后者职责更偏向整体运营管理[23] 对AGI及智能发展的看法 - 认为AGI的概念本身无意义,人类智能是高度专业化的,实现机器在人类擅长领域超越人类需要一个渐进的过程,而非突发事件[80][82][83] - 预测未来几年世界模型和规划能力可能取得概念性突破,为实现人类水平AI铺平道路,但仍需大量新的理论创新[84][85] - 强调实现狗的智能水平是比实现人类智能更难的挑战,因为那需要具备大量的基础理论,而在此基础上增加语言能力则相对容易[88][89] - 认为单靠LLM或单靠世界模型都无法实现真正的人类智能,需要多种研究的结合与长时间积累[90] LeCun的职业生涯与理念 - 其职业生涯的核心目标是提升人类智能,认为智能是世界上最稀缺的资源,因此拒绝退休并选择继续创业贡献[91][94][95] - 始终坚持开源的技术路径,认为科学的进步源于开放交流中思想的叠加延伸,如果不公开发表就算不上真正的研究[15][103] - 回顾职业生涯有遗憾,如曾想到反向传播算法的核心思路但未及发表,但认为好的想法是集体智慧的产物[99][102]
为什么这篇谷歌论文被称为「Attention is all you need」V2
量子位· 2025-12-21 13:45
文章核心观点 - 谷歌提出名为“嵌套学习”的新研究范式,指出当前大型语言模型存在“数字失忆症”的根本问题,并认为解决之道在于引入“频率”这一被忽略的维度,而非单纯增加模型深度和参数量[1][5] - 研究颠覆性地揭示了主流优化器本身就是一个持续进行“记忆”的关联记忆系统,这为重新审视整个学习架构提供了支点[5][6] - 基于新范式构建的HOPE架构,通过一个连续记忆光谱系统,模仿人脑多频率记忆机制,展现了解决持续学习问题的潜力,可能引领一场AI设计逻辑的范式转移[14][16][18] 当前AI模型的局限与问题 - 当前所有大型语言模型普遍存在“数字失忆症”,即无法记住对话中刚教授的新知识,快速遗忘[2][3] - 过去十年,行业主要遵循“规模即智能”的黄金定律,通过堆叠Transformer层和追逐万亿参数来试图解决记忆问题,但此方向存在明显问题[3] - 仅提高算法复杂度和模型规模,可能不会使快速适应新任务、持续学习及泛化等能力显著提升,且训练可能收敛到次优解[4] - 当前大模型的工作频率只有两种极端:快速响应但转瞬即逝的对话缓存,以及预训练完成后便冻结的长期知识,严重缺失中间频谱的记忆通道,导致新知识无处安放[11][12] “嵌套学习”新范式 - 该研究被誉为“Attention is All You Need”V2,其核心是认为真正有效的智能学习需要两个正交维度:深度(模型层数与容量)和频率(模型内部组件自我更新的节奏与速度)[1][5][9][10] - 研究指出,优化器不仅是指引参数更新的引擎,其本身就是一个在不同时间尺度上并行运行、持续压缩存储梯度变化模式的关联记忆系统[5][6] - 从优化器到注意力机制再到整个神经网络,可以被统一重新审视为在不同速度、不同抽象层级上嵌套运行的“学习-记忆”模块,而现有的深度学习体系只是这个更宏大范式的扁平化投影[6][7] HOPE架构与连续记忆系统 - 基于“嵌套学习”范式,研究团队构建了名为HOPE的新型架构,其核心创新是一个连续记忆系统[14] - 该系统由一系列像光谱一样排列、以不同预设频率更新的MLP模块组成,信息输入后会在不同节奏的记忆模块间自动流动与分配[14] - 高频模块类似“工作记忆”,快速捕捉即时细节与上下文;中频模块类似“近期记忆”,负责提炼归纳一段时间内的模式;低频模块类似“长期记忆”,缓慢稳定地将最重要知识沉淀为固有能力[14][15][16] - 此过程高度模仿了神经科学中信息从海马体向新皮层转移巩固的机制,在初步实验中已在标准语言建模和常识推理任务上展现强大竞争力,并显露出解决持续学习问题的巨大潜力[16][17] 研究的意义与影响 - “嵌套学习”的深远意义在于提供了一套全新的AI设计逻辑和思考框架,其突破不一定依赖于发明更复杂的“神经元积木”,而在于设计能激发潜能的框架[18] - 如同2017年“注意力”机制统一了序列建模的视野,“嵌套学习”正试图为学习过程本身构建一个统一、可解释的“白箱”模型[18] - 该研究启示,人工智能的未来不仅需要更深的网络,更需要一个能够持续学习和演化的系统,而非一个静止的、被凝固在训练完成一刻的“知识琥珀”[18]
让大模型不再过度思考!上海AI Lab后训练新范式重塑CoT,推理又快又好
量子位· 2025-12-21 10:00
文章核心观点 - 上海人工智能实验室的研究团队提出了一种名为RePro(Rectifying Process-level Reward)的全新后训练范式,旨在解决大语言模型在长思维链推理中出现的“过度思考”问题,通过将推理过程视为内部状态的优化过程,并引入过程级奖励机制,引导模型生成更高效、更简洁的推理路径,从而在提升准确率的同时减少计算开销和推理延迟 [2][3][4][30] 长思维链推理的挑战与RePro的核心理念 - 长思维链已成为提升大模型复杂推理能力的标配,但模型常陷入“过度思考”陷阱,生成数千个冗余Token或在错误路径上反复横跳,浪费算力并增加延迟 [1] - RePro基于“推理即优化”的核心思想,将模型的推理轨迹视为在损失曲面上寻找最优解的路径,每一步推理都相当于一次梯度更新,目标是最大化生成正确答案的概率 [3][7] - 正确的推理路径上,衡量模型对答案信心的代理目标函数J̃会平稳上升,而低效的“胡思乱想”路径则表现为震荡或停滞 [9] RePro的三大矫正机制 - **代理目标函数J**:设计了一个可计算的目标函数J̃,用于量化模型在当前推理步骤下生成正确答案的平均对数概率,该指标越高代表模型对答案越自信 [5][6] - **双重评分机制**:将推理质量拆解为两个维度进行量化 [10] - **强度评分**:衡量目标函数J̃的提升幅度,即一段思考让模型离答案近了多远,通过比较当前步骤后的J̃值与基线值(不思考直接回答的信心)来计算相对增益,并使用tanh函数归一化以防止梯度爆炸 [11][12] - **稳定性评分**:衡量J̃是否平滑上升,利用Kendall‘s Tau相关系数计算J̃值序列与时间步序列的秩相关性,高稳定性(接近1)表示每一步都在进步,低稳定性表示逻辑混乱或倒退 [13][14] - **流程级奖励整合**:将强度评分与稳定性评分加权构成最终过程评分S,用于判断思维路径的价值 [15] - 采用**熵值筛选策略**以降低计算开销:将推理链按逻辑段落分割,计算每个段落首Token的熵,只选择熵最高的前k个段落进行RePro奖励计算,从而在模型最迷茫的关键时刻给予指引 [18][19][20] - 通过计算过程评分的提升量ΔS作为“过程级奖励”,与最终结果奖励结合,输入到强化学习的优势函数中,高效精准地引导模型优化关键决策点的推理 [21][22] 实验效果与性能提升 - **准确率稳定提升**:在数学、科学、编程等多个任务上,RePro结合不同强化学习算法均带来稳定提升 [23] - 在DeepSeek-R1-Distill-1.5B模型上,使用PPO+RePro后,在AIME24、AIME25、MATH500基准上的Pass@1准确率分别达到36.3%(提升1.5个百分点)、27.7%(提升3.3个百分点)、87.7%(提升0.8个百分点) [24] - 在Qwen3-1.7B模型上,使用GRPO+RePro后,在相同基准上的准确率分别达到49.8%(提升2.5个百分点)、37.9%(提升3.1个百分点)、94.1%(提升0.7个百分点) [24] - **推理效率显著提高**: - **推理Token数量显著减少**:随着训练进行,RePro模型生成的平均Token数量稳步下降,表明模型学会了“少说废话”,在更短的路径内给出更准的答案 [25][27] - **回溯行为减少**:模型在推理过程中出现的“反复检查”或“思路绕圈子”的比例显著下降 [28] - **泛化能力良好**:效率改进不仅出现在数学任务,在科学和代码任务上也有类似表现 [25] - 科学推理任务GPQA-Diamond上,准确率从34.5%提升至37.0%(提升2.5个百分点) [25] - 代码推理任务MBPP和LiveCodeBench上,准确率分别从62.5%提升至65.4%(提升2.9个百分点)、从15.2%提升至18.4%(提升3.2个百分点) [25] 研究意义与行业启示 - RePro的成功证明,更好的推理不一定需要更长的思维链,而是需要更“有效”的优化路径,简明扼要的推理才是好推理 [30] - 该方法通过将优化视角引入后训练阶段,为解决长思维链推理的效率瓶颈提供了一个优雅且通用的解法,引导大模型不仅要算对,还要算得高效 [30]
库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山
量子位· 2025-12-21 10:00
苹果大模型团队人事变动 - 庞若鸣被Meta天价挖走后,其老搭档Zhifeng Chen迅速接手并直接领导苹果基础模型团队,管理二十多名下属 [1][2][8] - Zhifeng Chen于2025年4月离开工作近20年的谷歌加入苹果,其职业路径与庞若鸣高度相似 [7][14] - 为应对核心人员流失,苹果内部启动了留人方案,最直接的动作是涨薪 [4] Zhifeng Chen的背景与能力 - Zhifeng Chen拥有深厚的学术与工业背景,毕业于复旦大学与普林斯顿大学,在谷歌工作近20年 [7][10][14] - 他是TensorFlow早期核心系统论文及谷歌Gemini模型等项目的参与者,谷歌学术显示其论文被引数超过12.8万次,h-index为68 [17][18][19] - 他在谷歌时期积累的技术与人脉网络,有助于为苹果快速稳住团队并引入“即插即用型”人才 [22][23] 团队构成与人才流动 - 苹果基础模型团队有大量成员来自谷歌,其中Chen的直管层成员中超过一半来自谷歌,且不少是近2-4年内加入 [21][24] - 团队凝聚力被认为更多建立在个人关系与项目目标上,而非内化的组织认同感,存在人才持续流失的隐患 [25][26] - 继庞若鸣后,仍有团队成员离开苹果加入Meta、OpenAI、xAI等公司,例如Boyue Li于近期离职加入xAI [29][30][31] 苹果的AI战略与行业对比 - 与Meta、OpenAI、谷歌等公司追求“超级智能”的战略不同,苹果的AI目标更偏向产品导向,重点提升模型在日常任务中的可用性 [35][36] - 这种产品哲学导致部分追寻前沿探索的研究人员认为加入苹果的吸引力不足 [38] - 苹果正在调整管理结构,AI不再作为独立超级部门,而是被重新纳入具体产品体系中,由多位高管分别接管 [56][57] 2025年苹果AI高层动荡 - 2025年3月,因Apple Intelligence部分关键功能延期,苹果调整汇报关系,将Siri团队从AI负责人John Giannandrea的管理范围中移走 [41][43] - 2025年,John Giannandrea宣布将卸任ML与AI战略高级副总裁一职,其团队将被拆分,由Craig Federighi、Sabih Khan和Eddy Cue等高管分别接管 [50] - 从谷歌跳槽而来的Amar Subramanya将出任苹果AI业务副总裁,接手部分核心AI职责,直接向Craig Federighi汇报 [55] 硬件领域面临的新竞争 - OpenAI等AI公司开始从苹果的设计、制造和供应链体系中吸纳人才,为其AI硬件项目做准备,这触及了苹果的核心竞争领域 [58][59] - 苹果过去依赖其对硬件、工业设计和供应链的系统性掌控来保持优势,而AI公司的反向进入改变了竞争维度 [60][61]
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026
量子位· 2025-12-21 10:00
文章核心观点 - 生成式AI与大模型的发展已进入一个关键阶段,其核心魅力在于模型规模扩大时可能出现的非线性“能力涌现”,这带来了巨大的不确定性,但也可能带来超越想象的性能突破 [3][18][19] - 当前行业面临的核心挑战在于如何让机器从擅长“言”(语言)进步到真正的“知”(知识)与“行”(行动),实现“知行合一”,这关涉重大的理论与方法创新 [15][33][35][38] - 在Scaling Law(规模定律)边际成本高昂且前景不确定的背景下,行业发展路径应遵循“致广大而尽精微”的战略:极少数顶级团队可继续探索规模极限,而绝大多数公司应将重心放在垂直领域的“精微”应用上 [7][15][60][69][74] 大模型发展态势与现状 - 基于深度学习的AI在近8年内(约2017-2025年)快速进入预训练模型和大模型时代,发展呈现“苟日新、日日新、又日新”的常态 [11][14] - 关键模型发布的时间节点密集:GPT-3发布距今约5年,ChatGPT发布约3年,中国代表模型DeepSeek出现刚满1年 [16] - 文本、代码、多模态大模型的基础能力已达到相当高的水平,几乎“踏平”了所有基准测试(Benchmark) [20][26] - 在“人类最后的考试”(Humanity‘s Last Exam)这类无标准答案的难题测试中,顶尖人类高手可能只得5分,而大模型已能拿到三四十分 [23][24] - 可以预期,未来几年内,一切有标准答案的人类考试都将难不住机器 [15][25] - 在2025年的世界大学生程序竞赛中,人类第一名已不敌大模型 [25] Scaling Law的挑战与风险 - AI发展严重依赖Scaling Law,即大模型、大数据、大算力的持续投入,形成了“无止境的FOMO”(错失恐惧症),无人敢停 [2][6][38] - 任何信息系统发展到一定阶段都可能趋于性能饱和,Scaling Law存在失效风险,继续投入可能得不偿失 [15][40] - 支撑Scaling的代价极其昂贵,投入巨大到“让华尔街直冒冷汗” [42][43] - 以OpenAI为例,其当前计算能力约2GW,计划到2033年提升125倍至250GW,这相当于250个核反应堆的平均发电能力 [44][47] - 为实现该目标,对应的投资规模可能高达10万亿美元,且不包括电力成本 [47] - 这种激进的投入蕴含着很高的风险,但行业又“不能不跟”,因为担心错过可能出现的“能力涌现”而导致落后 [45] 具身智能与“知行合一”的挑战 - 大模型已具备较强的系统一(快思考)和系统二(慢思考)能力,为走向现实世界的具身智能奠定了基础 [27] - 然而,当前大模型强于“言”,弱于“知”与“行”。“知”不完整、不体系化,“行”则面临质的飞跃的困难 [33][35][36] - 实现“知行合一”是AI当前面临的最大挑战 [15][38] - 从文本到图像、视频,再到具身智能(四维:三维空间+时间),Next Token Prediction策略的有效性逐级下降,面临根本性理论挑战 [49][50][52] - 未来五年内,人形机器人进入通用开放环境(如家庭照顾老人)自主完成复杂任务“几乎是不可能的” [15][52] - 图灵奖得主Hinton建议,AI要具备水管工的能力“还差得很远” [53][54] - 具身智能更可能在有限的任务空间和特定场景中实现突破性应用 [55][56] 行业发展路径:“致广大”与“尽精微” - 行业发展应借鉴“致广大而尽精微”的理念 [60][63] - “致广大”指不计成本地追求模型规模极限,以美国为代表,投入巨大(如计划使用上亿张GPU),旨在通过可能出现的“能力涌现”形成断层领先优势 [64][65][66] - 国内仅有极少数实力雄厚的大厂可能具备条件在“致广大”路径上跟随国际前沿,但过程艰辛 [67][74] - 尽管当前中美大模型性能差距不大,但在“致广大”路径上,未来几年仍存在非常大的不确定性 [68] - “尽精微”指深耕垂直领域应用,将AI与具体行业深度融合,这是国内当前应重点采取的战略选择 [69][74] - 以DeepSeek、千问为代表的开源基座模型已具备扎实基础,为垂直应用提供了可能 [69] - 垂直领域应用挑战大,但风险相对较小,且中国在应用场景、工业基础及人才方面具备优势,有望在该领域取得领先 [74] - “尽精微”本身也可能孕育出新的人工智能算法,从而成为一种“致广大” [71] - 建议绝大多数AI公司将主要精力放在“尽精微”上,同时保持对“致广大”前沿的密切关注 [74]
对话文远知行韩旭:中国真正的L4只有3家,马斯克不上激光雷达干不过Waymo | MEET2026
量子位· 2025-12-20 19:19
公司发展历程与现状 - 公司已成为全球Robotaxi第一股,实现了美股和港股双重上市,从上市到港股二次上市用时约一年零十天[1][2][8] - 公司创业8年,已从被质疑为“骗子公司”发展到实现无人驾驶规模化落地,其纯无人Robotaxi已在广州、北京、阿布扎比等地运营[13][15] - 公司在2021年首次实现“Driver out”(移除安全员),至今已安全接驳超过50万名乘客,无重大责任事故[17] - 公司当前正专注于企业发展、人才招聘、Robotaxi海外扩张以及推动一段式端到端技术量产[5] 自动驾驶技术路线与行业壁垒 - L2与L4之间的技术壁垒远未被打破,真正的L4公司必须具备纯无人车队的长期运营能力[19] - 在中国,目前真正能对外进行纯无人运营的L4公司只有三家:文远知行、百度和小马智行[6][22] - 做好L2++虽不容易,但其难度与实现纯L4相比是天壤之别,这也是L4公司估值更高的原因[33] - 行业存在“伪L4公司”,即使用L2++车辆配备安全员进行运营,或仅使用他人技术进行包装[21][26][27] 公司技术战略与产品布局 - 公司坚持平台化战略,同时布局L4 Robotaxi和L2++ ADAS(高阶辅助驾驶)业务,并认为当前技术条件已允许“搏二兔”[5][41] - 公司通过与吉利远程、广汽等合作,推动自动驾驶车辆从前装量产,并利用固态激光雷达降低成本,目标是在单个城市部署上万辆车[18] - 公司认为,随着算力大幅提升(例如从Xavier的70TOPS到Thor单卡1000TOPS),使得在同一硬件平台上同时支持L4和ADAS成为可能[41] - 在L2++领域,公司与地平线、Momenta被并称为“文地魔”,处于一段式端到端技术的前沿[37] 对竞争对手与行业的预测 - 预测特斯拉若在三年内仍坚持使用现有量产车型且不搭载激光雷达,将无法在旧金山达到Waymo当前的Robotaxi运营水平[45][53] - 预测未来8年内,自动驾驶可能会出现“AlphaGo时刻”,即出现比99.99%人类司机都开得更好、更安全的“Superdriver”[53][55] - 指出Waymo的估值已达到1000亿美元,带动了L4公司数量增多,但重申了纯无人运营的高壁垒[6] - 以美国市场为例,指出纯L4公司Aurora(市值约90亿美元)与L2++公司Mobileye市值相当,反映了市场对不同技术路线的评判[34][35] 人才观与招聘策略 - 公司认为AI是人才的放大器,顶尖人才的价值被极大提升,因此以300万至500万年薪进行“英才”校招[46][49] - 强调上市后能以真金白银而非股票画饼的方式吸引人才,对于真正优秀的英才,500万年薪可能还不够[49][50] - 举例其同门师弟被Meta以约2亿至3亿美元聘请,说明AI顶尖人才可获得数千倍于普通打工人的待遇[48] 行业重要节点与创业者建议 - 2019年是行业重要节点,当时公司面临资本寒冬,账上资金仅够维持6至7个月,需要不断向投资人证明技术的可行性[10] - 对于创业者,建议在当下更好的资本环境下积极融资,储备足够粮草,同时务必善待自己的健康[56][57][58]
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026
量子位· 2025-12-20 16:02
文章核心观点 - 大模型的最大价值在于千行百业的落地应用,而不仅限于聊天机器人或编程助手,许多场景的价值尚未完全发挥 [8][9][32][33] - 判断企业是否需要私有或行业大模型有明确框架:三类企业需要,即传统大型企业、拥有海量数据的中小型企业以及颠覆行业的新兴公司 [1][8][34][35] - 企业大模型落地的具体方式取决于其数据特征和业务需求,拥有海量多模态数据或强隐私要求的企业构建私有模型是较好选择 [4][5][6][36][37][38] - 在ToB领域,仅调用通用大模型API无法建立竞争壁垒,关键在于对开源基模进行专业的后训练或Agent化,以打造差异化行业专才 [17][42] - 成功部署企业大模型需平衡两大关键:最大化算力效率以控制成本,以及提供高效的微调工具以加速模型定制 [17][43][44] 潞晨科技的技术实践与成绩 - 公司自2018年起专注于大模型基础设施软件研发,涵盖编译器、CUDA及优化器等底层技术 [13] - 其研发的LAMB优化器曾将Google千卡TPU Pod上的大模型训练时间从三天大幅缩减至76分钟 [14] - LAMB优化器被微软DeepSpeed、字节Megascale及英伟达Megatron-LM等主流万卡集群系统使用,英伟达专家使用后曾取得17倍的加速效果 [15][20] - 基于LAMB的后续工作成功应用于华为盘古大模型及字节推荐模型,并获得了ACL杰出论文 [16] - 公司将大模型训推性能优化技术集成为开源软件系统Colossal-AI,旨在帮助用户降本增效地构建私有模型 [21][22] - Colossal-AI在其GitHub细分赛道中指标最高,公司提供开源版本及进阶商业支持 [23] - 公司已服务全球付费客户,包括八个世界五百强、十个世界两千强、六十个一流大学和三千家企业,覆盖汽车、互联网、手机、制药、制造业等多个行业 [25] 大模型在千行百业的落地价值与案例 - 行业案例显示大模型能解决通用文本模型无法处理的特定行业问题,如中石油的三千亿参数昆仑大模型、Bloomberg的金融大模型、华为盘古气象大模型、宝马的汽车制造优化模型等 [29] - 以石油勘探为例,打一口井成本达1000万美金,通过大模型优化即使只提升10%成功率,收益前景也非常可观 [32] - 处理PB级别地质数据时,传统算法稳定性差、速度慢,大模型能以解方程组的方式提供更好的近似解 [32][33] - 其他落地案例包括:助力世界五百强车企打造多模态自动化决策支持系统与智能座舱模型、提升世界五百强电商的自动驾驶3D点云技术、帮助制造业世界500强企业打造基于AI Agent的供应链系统 [53] 企业构建私有/行业大模型的决策框架 - **需要构建私有/行业模型的三类企业**: - 第一类:传统大型企业(如世界五百强/两千强),拥有其行业珍贵的大量信息或数据 [34] - 第二类:拥有海量数据的中小型企业,数据是其细分领域的核心竞争力 [35] - 第三类:旨在用AI技术颠覆行业的新型公司,覆盖金融、制药、社交、游戏、电商等领域 [35] - **具体落地方式选择**: - 业务仅涉及日常办公或主要处理文本数据:直接调用现成大模型API(如ChatGPT、通义千问)或采用RAG+API即可满足需求 [4][5][37] - 拥有足量文本数据:通常无需自建模型,构建RAG/Agent结合大模型API即可 [38] - 拥有海量多模态数据或对数据隐私有强要求(如石油勘探、高铁、汽车、制药、金融):构建私有模型是较好的选择 [6][38] 大模型市场趋势与ToB成功关键 - 据Grand View Research预测,大语言模型市场分为领域大模型、通用大模型和私有大模型三部分 [39][41] - 预测至2033年,领域大模型将占据最大市场份额,约40%;通用大模型和私有大模型各占约30% [47] - 在ToB赛道,企业不应追求打造通用大模型,而应专注于后训练或Agent化,利用行业数据将开源基模优化为行业专才,以建立差异性和竞争壁垒 [42] - 成功关键两点:一是最大化算力效率以控制高昂的算力成本;二是提供高效的微调模板或SDK,让用户能快速定制行业或私有模型 [43][44] - 当前市场产品存在两个极端:过度强调零代码微调导致用户控制力不足;或要求全手写裸机开发导致精力浪费。理想方案是实现工程与灵活度的最优平衡 [49][51] 潞晨云的解决方案:微调SDK与Training As A Service - 公司对标OpenAI前CTO创立的Thinking Machines Lab(估值120亿美金)及其Tinker模型微调平台 [27][28] - 公司推出潞晨云微调SDK,旨在提供标准化模板服务,实现Training As A Service的效果 [45][46] - 该方案让开发者仅需专注模型与算法创新,而将训练调度、分布式框架适配、底层云基础设施及运维交由平台完成 [17] - 方案通过函数级管理简化复杂流程,用户只需调用少数函数指令即可快速构建行业或私有模型,背后集成Colossal-AI以优化算力性能、降低成本 [49][51] - 方案支持一键式在云上训练部署,兼容Tinker等开源SDK,支持监督微调、强化学习,同时允许用户自定义框架、编程工具和任务调度方式 [51][52]
ChatGPT文风,原产地肯尼亚
量子位· 2025-12-20 16:02
文章核心观点 - 文章核心观点是探讨ChatGPT等大语言模型产生特定“AI文风”的根源 指出其正式、结构严谨、逻辑流畅的写作风格并非机器独创 而是源于其训练数据中大量历史沉淀的经典正式书面语 以及RLHF等训练过程中外包劳动力(特别是非洲英语区)的语言习惯影响 这导致部分非英语母语者(尤其是接受过类似严格写作训练的人)的文本容易被误判为AI生成[1][9][12][14][29] ChatGPT文风与肯尼亚教育体系的关联 - 肯尼亚作家Marcus Olang'指出 其写作风格与ChatGPT输出高度相似 都倾向于使用结构严谨平衡的句子、过渡词以及连字符、分号或破折号来连接想法[7][8] - 这种相似性源于肯尼亚严苛的教育体系 学生从小被教导文章必须像一座完美的大厦 需使用“首先、其次、最后”构建逻辑 用“此外、然而、因此”精确转折 并使用丰富的词汇[10][11] - 由于AI大模型从海量的书籍、论文、报告等经典正式书面语中学习 其为了显得“权威”和“可信”而输出的文风 与肯尼亚等地的教育产物产生了诡异的“孪生”效应[12][13] AI检测器误判与非英语母语者困境 - 现有的AI检测器更倾向于将流畅、逻辑严密、句式规整的文本标记为AI生成 而这恰恰是许多接受过严格正式写作训练的非英语母语者的写作特点 导致他们更容易被误判[14] - 肯尼亚作家的亲身经历表明 由于历史原因 一些非英语母语者的写作本就是现有AI模型的“教材” 但他们现在却成了AI普及后的“受害者”[15] - 该观点获得了其他非洲地区网友的认同 例如加纳人表示感同身受 而肯尼亚作家这篇感情饱满的文章仍被Pangram网站判定为100%由AI生成[15][18] RLHF外包与特定词汇偏好 - 为了将大语言模型“驯化”成安全、有用、可控的聊天机器人 企业会雇佣大量人类测试员进行RLHF 出于人力成本考量 这项劳动密集型工作被大量外包给了肯尼亚、尼日利亚等英语区的非洲国家[27][28][29] - 这些地区测试员日常生活中自然、规范的商务或学术英语用词习惯 被模型学习并反映在输出中 例如“delve”一词在ChatGPT生成的文本中出现频率异常地高[19][30][31] - 数据显示 在PubMed这类专业学术网站上 “delve”的出现频率在近几年激增了10到100倍 暗示大量研究人员可能用ChatGPT辅助写作并将其词汇偏好带入正式文本[20][22] - 除“delve”外 像“explore”、“tapestry”、“testament”和“leverage”等词汇在ChatGPT文本中的出现频率也异常地高[26]