Workflow
大语言模型
icon
搜索文档
LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开
机器之心· 2025-12-07 12:33
强化学习在大语言模型中的新公式化方法与稳定训练实践 - 阿里千问团队提出了一种针对大语言模型(LLM)的全新强化学习(RL)公式化方法,核心洞察是:为了优化序列级奖励的期望值,可以使用一个替代(surrogate)token级目标作为其一阶近似 [2] - 该方法从原理上解释了多种RL稳定训练技巧的有效性,包括重要性采样权重、剪切(Clipping)机制以及针对混合专家(MoE)模型的路由重放(Routing Replay)方法 [2] - 团队使用一个30B参数的MoE模型进行大量实验,总计耗费数十万GPU小时以验证理论并探索稳定训练实践 [4] 研究背景与核心问题 - 强化学习已成为提升大语言模型复杂推理与解题能力的关键技术范式,而稳定的训练过程对于成功扩展RL至关重要 [2] - 主流RL算法普遍存在“奖励在序列级、优化在token级”的不匹配问题,引发了对其理论健全性与训练稳定性的担忧 [2] - 在MoE模型的RL训练中,动态专家路由机制可能破坏token级重要性采样比的有效性,带来了新的挑战 [2] 核心理论框架 - 团队专注于序列级优化,即对整个模型生成的响应赋予一个标量奖励,而不采用基于价值函数的方法,因为构建通用、可扩展且可靠的价值模型极为困难 [6][7] - 直接优化期望序列级奖励非常困难,主要挑战在于训练与推理之间的数值差异,以及用于采样响应的rollout策略与需要优化的目标策略之间的偏差 [8][9] - 团队从序列级奖励期望出发,通过重要性采样进行等价变换,并引入一个替代的token级优化目标,其梯度形式即为带token级重要性采样权重的基本策略梯度算法(REINFORCE) [11][12] - 该token级目标被视为序列级目标的一阶近似,其成立的关键条件是目标策略与rollout策略必须足够接近 [13] 针对MoE模型的挑战与解决方案 - 对于MoE模型,专家路由与训练-推理差异、策略陈旧的紧密耦合,更容易导致基于一阶近似的token级替代优化目标失效 [15][16] - 团队提出Routing Replay方法以稳定MoE模型的RL训练,核心思想是在策略优化过程中固定路由到的专家,使其在优化行为上更接近稠密模型 [17] - Routing Replay有两种具体实现方式:Vanilla Routing Replay(R2)旨在减轻专家路由对策略陈旧的影响;Rollout Routing Replay(R3)旨在减轻专家路由对训练-推理差异的影响 [18][19] 实验结果与主要结论 - 团队在数学推理任务上进行了实验,构建了包含4096道题目的RL训练提示集,并在HMMT25、AIME25和AIME24基准上评测 [21] - 在on-policy训练中,带重要性采样校正的基本策略梯度算法(MiniRL)取得了最佳性能和最高训练稳定性 [10][22] - 在on-policy训练中,引入长度归一化会导致性能下降,因为其破坏了对真实序列级奖励的一阶近似;移除重要性采样校正则会导致训练迅速崩溃 [22] - 在引入off-policy更新以加速收敛时,必须同时使用Routing Replay与Clipping才能实现稳定训练,缺失任一项都会导致训练提前崩溃和峰值性能下降 [10][23] - 不同冷启动初始化方式的模型最终性能趋于一致,表明研究重点应更多放在RL方法本身,而非冷启动细节 [10][27] - 无论是on-policy还是off-policy,只要训练过程稳定,其峰值性能都高度一致,说明稳定的训练过程在成功扩展RL中起决定性作用 [27]
OpenAI会是第一个倒闭的AI独角兽吗?
新浪财经· 2025-12-07 11:39
核心观点 - 当前AI大模型竞争的本质已从单纯的技术参数比拼,演变为围绕“生态整合力”的深度博弈,谷歌凭借其庞大且闭环的数字生态构建了难以复制的竞争壁垒 [11][26] - OpenAI在面临谷歌Gemini 3的激烈竞争后,用户流量显著下滑,公司内部拉响“红色预警”,暂停多项非核心业务,将全部资源重新聚焦于核心产品ChatGPT的性能提升 [6][21] - 未来竞争的胜负关键,在于AI能否无缝融入用户的日常生活场景,成为“基础设施式”的存在,而不仅仅是功能强大的独立工具 [14][29] 竞争态势与市场反应 - Gemini 3上线十五天后,ChatGPT的日均访问量出现约6%的断崖式下滑,从2.03亿骤降至1.91亿,相当于损失了约1200万日均访问量 [5][20] - 在Gemini 3推出两天后,OpenAI在硅谷投资人活动中被选为“第二大可能倒闭的AI独角兽”,反映出投资界对其竞争地位的担忧 [2][17] - 用户反馈显示,Gemini在中文语境理解、多模态生成(如图像处理)、以及“氛围编程”等具体场景中体验更流畅、更“顺手”,而ChatGPT有时显得“翻译腔”重或响应过于谨慎 [9][10][24][25] OpenAI的战略调整与应对 - OpenAI CEO Sam Altman在Gemini 3发布后接连发布内部信,先是承认公司在预训练方面落后于谷歌,随后在12月1日发布措辞严厉的全员信,宣布进入“红色预警”状态 [2][3][6][17][18][21] - 公司已暂停或推迟多项非核心业务探索,包括早期广告商业化、AI智能体项目以及个性化晨间简报产品“Pulse”,以将所有注意力调回ChatGPT的核心体验优化 [6][7][21][22] - 为发起反击,OpenAI正试图通过一款内部评估表现优异、代号为“Garlic”的新型大语言模型来追赶,该模型整合了此前为修复预训练bug而开发的“Shallotpeat”模型的错误修复方案,并可能预示着GPT-5.2或GPT-5.5将在明年初发布 [3][5][18][20] 技术层面的竞争焦点 - 预训练是开发大语言模型的基础阶段,谷歌在该领域的成功让AI研究人员感到惊讶,而OpenAI在预训练中遇到挑战,其调整方法在模型规模变大时失效,这成为其需要解决以追赶谷歌的关键问题 [4][19] - OpenAI此前因预训练挑战,曾将更多注意力转向“推理”模型,但如今必须回头解决预训练瓶颈 [4][19] - 根据内部评估,OpenAI的新模型“Garlic”在涉及编程和推理的任务上,相比Gemini 3和Anthropic的Opus 4.5具有优势 [3][18] 生态优势的具体体现 - 谷歌的生态优势根植于其数十年来积累的YouTube、Google Search、Gmail、Workspace、Android、Google Photos、Maps等产品构成的闭环体验,为Gemini提供了丰富、真实、具上下文关联的训练与交互素材 [11][26] - 这种生态整合让AI能“无感融入”用户数字生活的各个环节,例如在YouTube看教程时直接调取视频内容回答、在搜索结果页一键获得AI摘要、在Gmail中让AI起草回信,形成了极高的使用便利性和粘性 [10][11][25][26] - 相比之下,OpenAI的产品形态长期依赖独立入口或第三方集成,用户需要主动“召唤”AI,导致“功能强大但使用割裂”的体验,尤其在中文市场因缺乏深度本地化训练而处于劣势 [12][27] 未来竞争格局展望 - OpenAI并非没有生态路径,其与微软的深度绑定(Copilot集成Windows、Office、Azure)构成了偏重生产力与企业端的生态,但在普通消费者的日常数字生活渗透上不及谷歌全面 [13][28] - 用户的时间和注意力有限,使用成本(如需要单独打开网页、反复输入上下文)更高的工具,即使能力相当也可能被边缘化,流量下滑背后更值得警惕的是用户心智份额的转移 [13][28] - ChatGPT更可能的走向是从“唯一首选”转变为“特定场景优选”,在编程、英文写作、企业自动化等领域保持优势,而在日常多模态交互与中文用户体验上,可能逐渐让位于生态更完整的对手 [14][29] - 竞争的最终方向在于能否把AI“藏进生活褶皱里”,未来的赢家属于能实现深度生活化场景整合的公司 [14][29]
两个LLM互相对线,推理能力起飞:康奈尔团队发布大模型版类GAN训练法
机器之心· 2025-12-07 10:52
研究背景与核心观点 - 当前大型语言模型在数学推理等任务上仍高度依赖外部监督数据,如人工标注[2] - 研究提出一种类似生成对抗网络的训练范式,通过两个模型(Proposer和Solver)的对抗与共同进化,旨在解决单一模型难以胜任的任务[2] - 该框架名为PasoDoble,由康奈尔大学团队提出,其核心特点是在整个训练过程中完全不依赖任何监督信号[3] 方法论与框架设计 - PasoDoble框架包含四个核心组件:问题生成模型、问题求解模型、知识库以及用于离线训练的题目缓冲区[9] - 训练过程分为在线与离线两种范式,在线训练中两个模型同步更新,离线训练中则交替冻结进行更新[9][10] - 问题生成模型的奖励机制由难度奖励和多样性奖励构成,旨在鼓励其生成既困难又新颖的问题[13][21] - 难度奖励与求解模型的通过率成反比,即使问题非常简单也能获得基础奖励,以确保问题生成的持续性[15][16] - 多样性奖励通过计算与历史问题的Jaccard相似度来鼓励生成独特问题,避免模式退化[17][20] - 问题求解模型的奖励设计相对简单,仅依赖于其答案与问题生成模型提供的标准答案是否一致的正确性奖励[22][23] 实验结果与性能提升 - 在Qwen3-1.7B-Base模型上,应用PasoDoble后,其在AIME 2024的准确率从2.22%提升至7.22%,在AIME 2025从1.67%提升至7.22%[6] - 在Qwen3-4B-Base模型上,应用PasoDoble后,其在AIME 2024的准确率从6.11%提升至18.89%,在AIME 2025从2.78%提升至18.89%[6] - 在完全无监督条件下,PasoDoble使Qwen3-1.7B-Base在数学任务上的平均性能提升约13个百分点,使Qwen3-4B-Base提升约16个百分点[7] - 在MATH-500基准上,使用Qwen3-1.7B的求解模型准确率从45%提升至67%,并在第20步训练后即超过基线模型[11] - 性能提升具有规模效应,在Qwen2.5-1.5B/3B和Qwen3-1.7B/4B等更大规模模型上提升更为显著[28] - 消融实验表明,使用完全随机奖励进行训练会使求解模型在所有数学基准上的平均准确率几乎降至零,证明了从问题生成模型答案中学习的重要性[36][37] 模型行为分析 - 对问题生成模型的分析显示,即使提示问题前缀重叠达到80%,其生成问题与提示的精确匹配率也仅为12%(使用知识库)和31%(不使用知识库),表明绝大多数生成的问题源于推理而非对训练数据的简单记忆[38][39] 研究意义与未来方向 - 该研究为大语言模型提供了一种通过对抗式训练提升数学推理能力的新路径,并在多个竞赛级数学基准上取得了可量化的显著提升[41] - 该方法通过利用预训练知识库,在模型的预训练阶段与后训练阶段之间建立了有效连接[41] - 当前框架在如GPQA等特定领域外任务中尚未表现出性能提升,未来研究将探索将该框架拓展至代码生成、事实问答等其他领域[41] - 研究指出,探索更广泛的多模型训练范式,包括协作式、竞争式以及角色专门化等设置,对于解决更复杂的任务至关重要[41]
以理想汽车为例,探寻自动驾驶的「大脑」进化史 - VLA 架构解析
自动驾驶之心· 2025-12-07 10:05
自动驾驶技术范式演进 - 行业技术范式快速迭代,从前年的BEV(鸟瞰图视角)到去年的“端到端”(End-to-End),再到2025年的技术焦点VLA(视觉-语言-行动)模型 [1][6] - 传统的端到端(VA)模型存在“黑箱”问题,系统能做出正确操作但缺乏可解释性,引发了信任危机 [1] - 视觉语言模型(VLM)能理解和解释场景,但存在“行动鸿沟”,其输出停留在语言层面,无法直接控制车辆 [3] - VLA模型是一场彻底的范式革命,旨在融合计算机视觉、自然语言处理和强化学习,打造一个既能感知、理解又能执行动作的“可解释的大脑” [6][45] “真”端到端架构辨析 - 一个“真”的端到端驾驶系统必须是一个统一的、完整的神经网络,接收原始传感器输入并直接输出可执行的控制信号,且具备“全程可求导”特性 [8][9] - VLM的引入从架构上“打断”了端到端的闭环,因为其输出是文本而非可执行的轨迹,导致学习信号无法从车辆动作反向传播到VLM,无法受益于自动化的数据闭环驱动 [11][12][13][15][16] - 行业早期的“快慢双核”系统(如理想汽车IM智驾系统)是“半”端到端的过渡形态,它将VLM(慢系统)与传统的VA模型(快系统)拼凑,存在异步冲突、架构臃肿和信息损失、优化困难等致命缺陷 [17][18][20][21][22][26] - VLA是“真”端到端,它回归了从传感输入到轨迹输出的统一神经网络形式,实现了“全程可求导”,驾驶错误信号可以无阻碍地反向传播至整个模型,从而支持高效的数据驱动迭代 [23][25][27] VLA解决的核心痛点 - VLA旨在解决“快慢双核”架构暴露的四大核心痛点:长尾场景挑战、语义鸿沟、空间精度不高、时序建模瓶颈 [31] - 自动驾驶的最大挑战是高度语义化、非标准化的“长尾场景”,如复杂的龙门架、可变车道、临时指示等,传统VA模型无法处理 [32][33][34][35][37] - VLM虽然能理解长尾场景,但其输出的文本与车辆控制器所需的精确数值向量之间存在“语义鸿沟”,导致“行动鸿沟” [36][38][39] - 强行让VLM输出轨迹会导致空间精度不高,其基于语言生成的轨迹点易产生偏差,无法满足高精度控制要求 [40] - VLM在处理时序任务时采用叠加多帧图像的方法,会受到Token长度限制(如8K上下文窗口仅能处理约16帧,约2秒历史)和巨大计算开销的制约,无法进行长时程规划 [41][42][43][44] VLA的通用技术栈 - VLA模型通常由三个核心技术组件构成:视觉编码器(V)、语言编码器(L)和动作解码器(A) [46] - 视觉编码器是VLA的“眼睛”,负责将原始图像转换为LLM能理解的视觉令牌,主流方案包括CLIP/SigLIP和DINOv2 [48] - CLIP/SigLIP提供强大的视觉-文本对齐能力,擅长识别和描述图像内容(“是什么”) [49][51][52] - DINOv2通过自监督学习提供强大的空间理解和高级视觉语义能力(“在哪里/怎么样”) [52] - 顶尖方案(如OpenVLA)采用SigLIP + DINOv2双编码器并联,融合两者特征后通过MLP投影器对齐到LLM的令牌嵌入空间,提供全面的视觉信息 [53][55][56] - 理想汽车MindVLA采用了另一条技术路线,其V模块基于3D高斯建模进行自监督3D编码器预训练,旨在生成高保真的3D场景表示 [57][59][60] - 语言编码器是VLA的“大脑”和决策中枢,负责融合视觉与文本令牌并进行跨模态推理 [62] - 主流选择包括LLaMA家族(如LLaMA-2、Vicuna)和Qwen系列(如Qwen-2.5) [63][64][66][70] - 其工作流程是接收来自V模块的视觉令牌和用户文本指令,通过自注意力计算进行高级推理(如场景分析、动作推理),最终输出高度浓缩的“动作令牌”或“规划令牌”作为意图指令 [67][69][71][72] - 部署优化策略包括LoRA(低秩适应)轻量化微调和MoE(混合专家)架构,理想汽车MindVLA则自研了名为MindGPT的LLM,专为3D驾驶场景和车端实时推理设计 [73][74][75][79] - 动作解码器是VLA的“手脚”,负责将“大脑”输出的意图令牌解码为真实、物理、可执行的控制信号 [76][77][80] - 基于扩散的Transformer是目前最受青睐的“黄金标准”方案,因其擅长建模复杂多模态动作分布,能生成细粒度、平滑、“拟人化”的轨迹 [81][82] - 其他主流方案包括自回归Transformer头、MLP预测器头和嵌入式MPC/规划头 [86] - Diffusion模型通过“迭代去噪”工作,为满足实时性要求,MindVLA等架构采用了ODE采样器等技术将去噪步骤压缩到2到3步内完成 [82] VLA的四个进化阶段 - VLA架构的演进经历了四个清晰的阶段,语言在系统中的角色从被动“解释器”逐步演变为主动“决策核心” [84][85] - 阶段一:语言模型作为“解释器”(Pre-VLA),如DriveGPT-4,其核心目标是增强系统可解释性,输出场景描述或高阶操纵标签,但存在“语义鸿沟”,对实际驾驶帮助有限 [88][89][90] - 阶段二:模块化VLA模型,语言演变为模块化架构中主动的规划组件,如OpenDriveVLA、DriveMoE、RAG-Driver,通过生成可解释的中间表示来指导动作执行,但存在多阶段处理带来的延迟和级联错误风险 [91][92][93][94][97] - 阶段三:统一的端到端VLA模型,在一个单一、可微分的网络中无缝整合感知、语言理解和动作生成,代表作包括EMMA、LMDrive、CarLLaVA和SimLingo,它们通过“行动构想”等技术在语言理解和轨迹输出间建立紧密耦合,反应灵敏但长时程规划和细粒度决策解释能力仍存局限 [95][96][98][99][100][101] - 阶段四:推理增强的VLA模型,这是最新前沿阶段,将VLM/LLM提升为系统的“决策核心”,赋予其“思考”能力,代表作如ORION、Impromptu VLA和AutoVLA,它们将“思维链”与“行动”进行端到端对齐,在输出动作前先进行解释、预测和长时程推理,预示了“可对话的自动驾驶汽车”的未来,但也带来了实时性、记忆索引和安全验证等新挑战 [102][103][104][106]
中国第一,阿里146篇论文入选AI顶会NeurIPS 2025
财经网· 2025-12-05 17:02
公司学术成就与行业地位 - 公司在NeurIPS 2025会议上共有146篇论文入选,是论文收录数量最多的中国公司 [1] - 在本次会议全球顶尖科技公司和机构共2万多篇投稿中,仅有约25%的论文被接收,公司论文收录数量位列全球科技公司前四,仅次于谷歌、微软和Meta [1] - 公司的千问团队在门控注意力机制上的研究成果被评为会议最佳论文,是唯一获奖的中国公司 [1] 全栈AI创新成果覆盖领域 - 公司入选的146篇论文全面覆盖了模型训练框架、数据集和模型基础研究和模型推理优化等领域 [1] - 在模型基础研究方面,千问团队的最佳论文首次清晰揭秘了门控注意力的作用原理,并展示了最佳使用方案,为突破大模型训练瓶颈提供了新理论基础 [2] - 在训练框架层,公司提出了全新的Data-Juicer 2.0数据处理系统,内置100多种数据处理算子,覆盖文本、图像、视频和音频等多种模态,已应用于阿里云人工智能平台PAI [2] - 在推理效率方面,公司与浙江大学合作的论文提出通过动态调节大模型思维速度来优化推理,实验在GSM8K等评测集上取得平均1.3%的准确率提升,同时减少8.6%的Token使用 [3] 开源生态与市场认可 - 目前公司千问已开源300多款模型,涵盖全模态、全尺寸,全球下载量突破7亿次,衍生模型超过18万个,位居全球第一 [3] - 在Gartner发布的GenAI云基础设施、工程、模型及AI知识管理应用四大维度的新兴市场象限报告中,公司均位于新兴领导者象限,是入选全部四项新兴领导者象限的唯一亚太厂商 [3]
豆包发布语音识别模型2.0 支持多模态视觉识别和13种海外语种识别
每日经济新闻· 2025-12-05 16:10
公司产品发布 - 火山引擎于12月5日正式发布豆包语音识别模型2.0(Doubao-Seed-ASR-2.0)[1] - 该模型依托Seed混合专家大语言模型架构构建[1] 模型性能提升 - 2.0版本模型推理能力得到提升[1] - 模型可以通过深度理解上下文完成精准识别,上下文整体关键词召回率提升20%[1] - 模型重点针对专有名词、人名、地名、品牌名称及易混淆多音字等复杂场景进行了升级[1] 功能与特性扩展 - 模型支持多模态视觉识别,在听得懂的同时看得懂[1] - 模型可以通过单图和多图等视觉信息输入提升文字识别精准度[1] - 模型支持日语、韩语、德语、法语等13种海外语种的识别[1]
知行科技宋阳:依托庞大工业基础和众多场景,中国能率先在AI领域取得更多突破
新浪财经· 2025-12-05 16:07
行业现状与规模对比 - 中国汽车年产量达3000万辆 而具身智能机器人去年产量仅为50万辆 仅为汽车产量的六十分之一 [3][6] - 自动驾驶汽车本质是轮式机器人 是机器人产业的一个分支 长期看其数量将非常庞大 [3][6] 行业融合与技术挑战 - 汽车与机器人行业在现阶段和长期的融合发展 是一个需要同时考虑长期与短期的问题 [3][6] - 大语言模型作为基座模型 在应用于自动驾驶或机器人时存在“中间跳跃”问题 即场景泛化能力不足 [3][6] - 以多模态VLA和机器人为例 在一个房间学习的动作难以泛化到其他场景 需要高成本采集数据 [3][6] - 为世界模型增加新维度(如重力)会导致模型所需算力和成本急剧上升 并伴随电力与散热等挑战 [3][6] 发展前景与路径 - 行业对发展前景持乐观态度 认为可依托中国庞大的工业基础和丰富的应用场景来推动人工智能发展 [3][6] - 通过利用实际产业场景和数据 以产业带动AI的发展模式 中国有望在人工智能领域率先取得更多突破 [3][6]
AI不是随机鹦鹉,如何应对“有主见”的AI?
观察者网· 2025-12-05 10:12
AI技术的发展历程与突破 - 大语言模型技术经历了三代人60年的研究积累,其近期突飞猛进的根本转变源于神经网络和机器学习领域的革命[4][5] - 技术突破的关键转折点出现在约10年前,通过解决复杂的视觉图像识别问题,证明了神经网络惊人的扩展性[10] - 当前AI革命的基础是40年的研究,例如ChatGPT的成功看似一夜成名,实则背后是长期积累的结果[10] 大语言模型的技术本质与局限 - 大语言模型受人类大脑皮层启发,但仅模拟了编码功能的一小部分,其本质是“云端的大脑”,缺乏身体、感官和长期记忆[10][11][14] - 模型在整合知识的广度上已远超人类专家,但其能力仅限于文本训练,目前正扩展至图像和视频[10][11] - 模型缺乏人类的关键能力,包括情绪体验、终身学习以及现实世界中的自主性[14][15] 对AI潜在风险的看法与类比 - AI技术本身是工具,其风险在于使用方式,与核能、生物技术等所有新技术一样,既可用于造福人类,也可能被滥用[16] - 监管是必要的,但关键在于防止技术被坏人利用,历史上人类已成功管理了核能与生物技术的双重用途[16] - 目前处于AI技术的开端,如同早期会爆炸的蒸汽机,需要通过大规模使用和试错来发现问题并完善解决方案[17][18] AI对就业的影响与技能变革 - AI不会直接导致大规模失业,但会改变工作性质,要求人们学习新技能以利用工具提升生产力[31][32] - 历史表明技术革命会创造新岗位,例如工业革命后农业人口从99%降至2%,互联网催生了网页设计师、内容创作者等新职业[18][32][33] - 未来最重要的技能是学会有效使用AI工具,将人类从重复性工作中解放,从事更具创造性的活动[11][32] AI的“幻觉”与偏见问题 - AI“编造事实”的现象被称为“幻觉”或“虚构”,这反映了人类自身的认知缺陷,该特性在需要创造性的场景下可能有益[21][22] - 模型中的偏见源于其训练数据——人类文本本身带有偏见,纠正AI的偏见比改变人类的偏见更容易[34] - 解决偏见是当前研发重点,未来模型将通过类似人类“强化学习”的持续反馈机制来学习是非判断[22][25] 依赖AI与人类认知能力的关系 - 依赖AI工具不会必然削弱人类基础认知能力,正如计算器普及后,学生仍需学习算术以建立对数字的根本理解[26][29] - 掌握任何技能都需要在现实世界中持续练习,使用AI(如改进语法)可以成为提升自身技能水平的有效工具[29][30] - 关键在于主动使用而非被动依赖,通过实践保持并提升核心能力[29] AI的理解能力与语言科学前沿 - 关于AI是否真正“理解”语言存在学术争论,这反过来促使人类需要发展更精确的语言科学理论[38][39] - 大语言模型运作于数十亿甚至数万亿维的高维空间,这正在催生新的数学理论和理解方式[41][42] - 研究表明,语言的关键在于“语义”而非“句法”,大语言模型擅长通过上下文理解词义,这种能力使其能够回答新问题[44][45] 对年轻一代与科学探索的建议 - 科学进步常由年轻一代推动,当专家断言某事不可能时,不应盲从,历史上有许多突破因此实现[46][47] - 技术进步伴随着世代更迭,固步自封会阻碍发展,开放探索的环境至关重要[47][49] - 鼓励年轻人勇于挑战权威,创造未来[46][49] 对AI监管的看法 - 当前AI大语言模型技术仍处初级阶段,过早、过细的政府监管会限制探索和试错,不利于解决技术本身存在的问题[2][50][51] - 倡导基于行业的自我监管,认为科学家社群有能力在探索中识别并防止技术滥用[50][51] - 以欧盟长达100页的《人工智能法案》为例,认为其中对具体应用场景的微观管理方式“荒谬”且难以执行[51] - 不同国家监管方式各异,中国出台的规则被认为比欧盟的提案更为合理[52]
世界太小,不够世界模型们用了
36氪· 2025-12-04 17:29
文章核心观点 - AI行业对“世界模型”的定义和技术路径存在显著分歧,但普遍认为其是超越大语言模型、通往通用人工智能的必经之路 [1][2] - “世界模型”概念正经历严重的通货膨胀,其外延被无限扩大,成为一个涵盖环境理解与模拟上下游技术的宽泛“筐” [2][3][18][19] - 世界模型的兴起背后交织着资本焦虑、技术瓶颈和对AGI的渴望,并被视为一场“反LLM中心主义”的运动 [20][22] 概念起源与演变 - “世界模型”的思想最早可追溯至1943年认知科学家Kenneth Craik提出的“心智模型”,即大脑通过构建外部世界的微缩模型来进行预测 [4] - 2018年Jürgen Schmidhuber等人的论文《Recurrent World Models Facilitate Policy Evolution》首次系统定义了神经网络世界模型的框架 [4] - 近两年,随着大语言模型的爆发和对AGI的渴望,该概念迅速繁殖,衍生出众多抽象定义,如“自主智能”、“空间智能”、“压缩即智能”等 [5] 主要技术流派:表征派 - 以杨立昆为代表,主张世界模型是一个在潜在空间运作、预测“抽象状态”的“大脑”,而非生成具体画面 [7] - 其定义的世界模型需同时输入四个变量来预测下一时刻的世界状态,追求逻辑上的因果推演,而非视觉逼真 [12] - 提出的I-JEPA和V-JEPA模型摒弃了生成式AI“预测每一个像素”的做法,以避免浪费算力在不可预测的噪音细节上 [12] 主要技术流派:生成派 - 与表征派的核心区别在于旨在重建和模拟视觉世界,认为“我若无法创造,便不能理解” [13] - OpenAI的Sora被视为世界模拟器,其通过在海量视频数据上预测下一帧像素,试图涌现出对物理规律的理解 [13] - 生成派进一步衍生出互动式生成视频,如谷歌DeepMind的Genie 3,支持生成720p分辨率、24fps帧率的实时互动画面,理解动作与环境的因果关系 [14] 主要技术流派:3D空间智能 - 以李飞飞为代表,主张通过构建持久、高精度的3D环境来实现“空间智能” [16] - World Labs发布的Marble采用类似“3D高斯泼溅”的技术,将世界表征为成千上万个高斯体,以生成符合物理规律的3D世界 [16] - 该路线旨在生成可下载、高精度且物理准确的3D空间,区别于Sora的视频流和Genie 3的实时生成 [16] 行业现状与驱动因素 - 当前各技术路线的成果均未达到理想的世界模型状态,但概念已广泛挂钩于具身智能、自动驾驶、游戏视频、多模态模型、3D模型乃至视觉信息压缩等领域 [18] - 热潮背后存在巨大泡沫,部分源于创投圈需要新叙事来突破大语言模型竞争已定的格局,将“视频生成”等工具概念提升至AGI高度以吸引投资 [20] - 科研人员大规模下场创业,使得学术上的“定义之争”蔓延至商业世界,不同定义直接关联数十亿级别的算力投入和产业链方向 [21] - 行业对大语言模型产生集体性技术焦虑,认为其存在“离身”的先天缺陷,且性能提升的边际效益递减,因此转向对物理现实的模拟与交互被视为关键 [23]
南网能源院 | 业务动态(总第53期)
新浪财经· 2025-12-03 21:25
国际合作与技术交流 - 战略所参与中德能源工作组会议,围绕碳捕集利用封存和电力系统灵活性两大专题开展交流,并探讨后续全球能源战略研究合作 [1] - 主网部受邀参加第十三届电力系统控制、运行及管理发展国际会议,主持新型电力系统规划先进技术与实践专家研讨会,并发表适应新能源高渗透率系统的主旨演讲 [10] - 战略所研究员在IEEE能源工程与电力系统国际学术会议向国际学术界阐述大语言模型驱动电碳核算方法论的前沿研究 [9] 新型电力系统技术前沿 - 主网部参与柔性直流电网关键装备技术专题调研,围绕基础稳定理论、规划设计技术、关键装备研发等主题与高校及企业交流 [3][28] - 主网部研究员在全国电网技术交流会介绍南方电网保底电网规划建设历程、保底网架构建思路及防灾减灾差异化设计原则 [2][27] - 战略所研究员在新型电力系统国际论坛展示基于大语言模型的电碳核算认证关键技术,强调AI工具提升核算精准度与效率的潜力 [5][31] 电网规划与建设成果 - 广州电力设计院在全国优秀工程勘察设计奖评选中斩获3个奖项,包括220千伏漱玉变电站二等奖、500千伏楚庭送电线路三等奖等 [7][35] - 2025年标准设计与典型造价体系文件通过评审,为电网十四五末至十五五初期的规划建设提供统一技术依据与成本参考 [13][38] - 主网部研究员在《中国电力》年会介绍南方区域新型电力系统示范区建设的规划布局、示范成效及柔性构网技术展望 [5][32] 智能化与数字化转型 - 配网部调研电鸿物联操作系统实验室,就统一物联网数字化架构、智能终端等交流,支撑配电网十五五规划 [12][37] - 玉林供电局与南网能源院围绕新型配电系统转型,讨论四力提升、三大协同和六大推广技术在十五五规划中的应用 [16][41] - 战略所研究员在多个论坛探讨大语言模型在电碳核算、可持续交通燃料等领域的应用,展示智能化工具在能源行业的潜力 [5][9][21] 新能源与跨领域研究 - 咨询评审中心研究员在氢电协同技术论坛发表氢能在新型电力系统中作用的主旨演讲,探讨多种应用场景和发展趋势 [19][44] - 新能源部调研成都勘探设计研究院,围绕西南水电基地开发建设等议题深入交流 [23][48] - 投资所与北京大学探讨超充技术对电网风险影响、课题合作等,战略所参与可持续交通燃料专委会预备会讨论绿色转型等议题 [19][21][44][46]