量子位 - 财报，业绩电话会，研报，新闻

量子位

搜索文档

量子位· 2025-10-14 12:08

产品定位与核心优势 - 阿里心流研究团队推出的终端AI智能体iFlow CLI，定位为Claude Code的国产平替，专为国内开发者设计 [1][2] - 产品面向个人用户永久免费且无限流，支持零成本调用Qwen3 MAX、Kimi K2、DeepSeek V3.2、GLM4.6等最新尖端模型 [2][7] - 团队更新迭代迅速，例如在DeepSeekV3.2和GLM4.6发布后立即适配，国庆前后就发布了3个版本 [9] 性能表现与技术特点 - 在四项基准测试（GAIA、SWE-bench、Terminal-Bench、BrowseComp-ZH）中，使用Qwen3-Coder模型时，iFlow CLI相较于Claude Code和Codex表现出更优的综合性能 [2] - 针对国内开发者优化模型集成和自动化能力，在使用DeepSeek-V3.1-Terminus、Kimi-K2-0905和GLM-4.5等国内Top开源模型的评测中优势明显 [4][6] - 产品通过Context Engineering和Pipeline等方面的优化，使基于国产模型的问题解决能力趋近于海外闭源模型水平 [49] 功能特性对比 - 相比Claude Code和Gemini CLI，iFlow CLI具备更全面的功能支持，包括ToDo规划、SubAgent、自定义Command、Plan模式、Task工具等 [10] - 支持搜索海内外最新资讯，内置多模态理解能力可识别图片，并为国内用户量身打造本土化体验，如中文显示切换、中文社区等 [10][11] - 提供VS Code插件和JetBrain插件，支持对话恢复、内置开放市场、Memory自动压缩等功能 [10] 实际应用场景 - 在数据整理和分析场景中，能够自动安装数据分析和可视化库，完成多维度专业销售分析并以图表形式展现 [16][17][18][21] - 作为项目开发助手，可结合LangChain、streamlit等工具创建基于RAG的大模型问答系统，具备智能搜索、文档获取、制定计划、自主测试、持续优化等完整工作流程 [23][24][26][27] - 支持CodeReview场景，通过代码审查专家subagent自动生成详细的代码审查报告，涵盖变更摘要、良好实践、需要关注的问题等 [29][30][32] 平台生态与扩展能力 - 心流开放平台上线工作流管理系统，支持将不同AI能力组合成完整workflow，实现从代码分析、开发、测试到部署的全流程自动化 [32][33] - 平台预置常用工作流，如小红书发文、深度研究、PPT制作、画流程图等，以及GitHub spec、BMAD等开发者工作流 [33] - 开放Agent SDK，支持安卓SDK、Node.js、Java、Python，让业务快速集成CLI并具备AI能力 [11] 行业影响与发展趋势 - 产品标志着国产AI生态的崛起，在Claude等海外工具调整对国内用户使用策略的背景下具有重要意义 [55][56] - 通过自然语言对话降低命令行使用门槛，改变原有工作流，使AI能力从专业编程人员扩展到数据科学、项目管理、产品设计等领域 [51][52][53] - 配套的开放平台和开发者交流论坛为国内开发者和AI应用普及提供了良好生态基础 [58]

Command Line Interface

Software and Internet

iFlow CLI

Claude Code

Codex

Command Line Interface

Software and Internet

iFlow CLI

Claude Code

Codex

将科研脏活累活真·丢给AI！上海AI Lab推出深度科研智能体FlowSearch

量子位· 2025-10-14 12:08

产品核心特点 - FlowSearch是一个由动态结构化知识流驱动的深度科研智能体，通过构建科研任务的多层依赖图实现任务的并行探索和自适应优化[6][7] - 系统采用有向无环图将科研任务和知识关系可视化，每个节点携带任务类型和知识上下文，节点间的边定义信息流向，实现非线性的多路径探索[12][13] - 具备自组织、自纠错、自优化能力，能够根据新信息动态调整节点和依赖关系，确保知识流持续进化[19][24] 技术架构 - 由三大核心模块组成：Knowledge Flow Planner负责规划研究路线并拆解问题，Knowledge Collector执行任务并收集信息，Knowledge Flow Refiner反思和优化整个研究流程[8][9] - Planner模块采用递归扩展策略，从总问题出发逐层细化子任务，InternPlanner模型经过结构化科研任务数据微调，能够学习专家的拆解方式[16] - 多智能体框架下实现任务并行执行，Collector填充节点内容的同时Refiner动态调整流程，形成类似科研团队的协作机制[10] 性能表现 - 在GAIA基准测试中，FlowSearch(o4-mini)在Level 1达到90.56%，Level 2达到76.74%，Level 3达到50.00%，平均分为76.96%，显著优于其他方法[23] - 在GPQA-diamond基准上，生物领域84.21%，化学领域79.57%，物理领域96.51%，平均达到87.37%[23] - 在HLE基准的text only模式下达到31.60%，All模式下达到30.80%[23] - 专业基准TRQA测试中，FlowSearch依托通用工具链超越了多个领域专用模型[23] 技术验证 - 模块有效性验证显示，完整系统在GAIA基准平均分达76.96%，而去除动态知识流建模或反思模块会导致性能显著下降[26][27] - InternPlanner-32B相比基础模型Qwen-3-32B在GAIA基准上提升约6个百分点，从64.81%提升至70.91%，验证了结构化训练的有效性[28][29] - 与OWL对比案例显示，FlowSearch通过显式依赖建模与中间结果整合，有效避免证据丢失与逻辑链断裂[30] 应用价值 - 标志着科研智能体从"任务执行"向"知识驱动推理"的关键转变，为可解释科研智能体与自演化科学发现系统奠定基础[41][42] - 能够适配科学调研与报告生成任务，产出完整、全面且逻辑清晰的科学调研成果[32] - 对科研新人可构建完整知识探索路径，对跨学科研究者提供知识流整合能力，对资深学者可作为智能研究助手提升效率[43]

混元3D开源端到端全景深度估计器，代码+精选全景数据已上线，在线可玩

量子位· 2025-10-14 12:08

文章核心观点 - 腾讯混元3D团队提出了一种名为DA的全景深度估计器，该模型具备高精度、强大的零样本泛化能力以及完全端到端的特性 [2] - 该技术旨在解决全景深度估计领域因数据稀缺和球面畸变导致的泛化能力差和效率低下的核心挑战 [1][10] - 通过创新的数据扩充引擎和SphereViT模型架构，DA在多个基准测试中实现了最先进的性能，其关键指标AbsRel比最强的零样本方法平均提升38% [23][24] 背景与挑战 - 全景图提供360°×180°的沉浸式视角，是AR/VR和沉浸式图像生成等应用的关键视觉表示 [5][6] - 高质量的全景深度信息对于3D场景重建、物理模拟和世界模型等高级应用至关重要 [6] - 行业面临的主要挑战包括全景深度数据稀缺导致模型零样本泛化能力有限，以及全景图固有的球面畸变使得许多现有方法效率不理想 [1][10] 核心贡献：数据扩充 - 公司开发了一个数据管理引擎，将透视样本转换为高质量的全景数据，以扩展数据规模 [11] - 该引擎通过透视到等距矩形投影和全景外推技术，生成“完整”的全景图，解决了模型因缺乏全局背景和球面畸变差异而性能不佳的问题 [12] - 此引擎创造了约543,000个全景样本，将总样本数从约63,000扩展到约607,000，实现了约10倍的数据扩充，显著提升了模型的零样本性能 [14] 核心贡献：模型架构与训练 - 公司提出了SphereViT模型架构，通过计算球面角并生成球面嵌入，使图像特征能明确关注全景图的球面几何形状，从而有效减轻球面畸变影响 [16][17] - 与标准ViT不同，SphereViT采用交叉注意力机制，将图像特征作为查询，球面嵌入作为键和值，产生可感知畸变的表示 [17] - 模型的训练结合了距离损失和法线损失，前者约束全局精确的距离值，后者促进局部平滑且锐利的几何表面 [18] 实验结果 - 在斯坦福2D3D、Matterport3D和PanoSUNCG等多个数据集上的基准测试表明，DA实现了最先进的性能 [19][23] - 具体而言，DA在关键评估指标上表现优异，例如在斯坦福2D3D数据集上，其AbsRel为7.23，RMSE为14.00，δ1为95.45 [21] - 定性比较显示，由于训练数据量是UniK3D的约21倍，DA展现出更精确的几何预测，并且优于受多视角不一致性限制的MoGev2等方法 [27] 应用场景 - 该技术能有效支持广泛的3D重建相关应用，例如全景多视图重建 [28] - 模型能够根据房屋不同房间的全景图像，重建出全局对齐的3D点云，确保多个全景视图之间的空间一致性 [29]

4399元起，vivo 2亿像素影像旗舰“大小王”亮相！旅行演唱会不用带相机

量子位· 2025-10-14 10:19

产品定价与市场定位 - 新一代影像旗舰机X300系列起售价为4399元 [1] - X300 Pro版起售价为5299元，与上一代产品价格持平 [10] - 标准版起售价4399元，配置对标上一代Pro mini版，实现配置升级但价格更便宜 [8] - 两款机型计划于本周五正式开售 [10] 影像系统核心配置 - X300 Pro搭载85mm蔡司APO 2亿超级长焦系统，包含蓝图×三星HPBlue图像传感器，拥有2亿像素与1/1.4英寸大底 [28] - X300标准版搭载蔡司2亿超级主摄镜头，联合三星定制HPB 1/1.4大底传感器，支持CIPA 4.5专业级防抖 [12] - 主摄采用vivo与索尼联合研发的蓝图×LYT-828传感器，拥有1/1.28英寸大底并搭载vivo自研VCS仿生光谱3.0技术 [29] - 前置镜头为X系列首颗蔡司认证前置镜头，支持蔡司5000万超清AF前摄，超广角视野达到92° [17] 影像功能技术创新 - 支持全焦段运动人像抓拍，实现从24mm到135mm全焦段高清画质 [19][31] - 具备赛事级追焦能力，毫秒级运动追焦与快门响应，追焦稳定性提升超200% [34] - 行业内首次上线Live Photo的AI消除功能，支持动图一键消除路人 [6] - 支持4K高清视频转Live格式，Live Photo同时支持AI路人消除和重选封面帧 [21] - 采用全面升级的夜景人像算法，专门针对逆光场景优化，实现人物与背景光源精准分离 [24] 操作系统与AI能力 - 搭载对安卓底层重构的OriginOS 6 AI操作系统，多模态交互全面升级 [5][38] - 新版小V圈搜新增屏幕自动感知功能，可识别屏幕重要内容并理解用户意图 [39] - AI可自动为文档和邮件生成一句话摘要，帮助用户快速抓取重点信息 [42] - AI能智能生成贴合主题的文件命名，功能覆盖小V帮记、扫描、vivo文档等系统应用 [44] - 新增AI通话功能，可主动拨打客服热线，自动完成语音导航和排队等待 [47][48][49] 硬件设计与光学技术 - 采用全面定制化镜头模组，包括X200 Ultra同款深吸收蓝玻璃、蔡司T*镀膜、vivo精度跃迁技术 [13] - 长焦模组配备行业先进水平的CIPA 5.5专业级防抖，主摄同样支持CIPA 5.5专业级防抖，防抖角度升级至1.5° [29] - 搭载X200 Ultra同级的变焦闪光灯，搭配全新烟花人像算法，支持拍Live [26] - 照片裁切90%或裁成长焦、微距后，画面仍保持壁纸级清晰度 [15] 行业竞争动态 - 苹果公司同期宣布国行版iPhone Air将于本周五开始预订 [54] - 两款不同品牌的超薄机身机型均选择在周五开售，形成直接市场竞争态势 [56]

卡帕西8000行代码手搓ChatGPT，成本仅100美元，训练12小时CORE表现超越GPT-2，手把手教程来了

量子位· 2025-10-14 10:19

项目概述 - Andrej Karpathy发布名为nanochat的极简全栈项目，旨在从零开始构建简易版ChatGPT [1] - 项目核心目标是以约100美元成本在8×H100 GPU上训练4小时，复刻基础对话功能的模型 [4] - 整个代码库约8000行，基于Rust语言实现，包含训练分词器、预训练、中期训练、指令微调等完整流程 [4][5] 技术架构与流程 - 采用Transformer架构，在FineWeb-EDU数据集上预训练，使用自定义分词器（词汇量65,536）实现约4.8的文本压缩比 [5][25][26] - 训练流程分为预训练（BASE）、中期训练（MID）、监督微调（SFT）和强化学习（RL）四个阶段 [5][45][48][51] - 推理引擎支持KV缓存、预填充/解码流程及工具使用（如Python解释器），提供CLI和类ChatGPT的WebUI交互界面 [5][43] 性能表现 - 预训练模型CORE指标达0.2219，超越GPT-2 large（0.21）但略低于GPT-2 xl（0.26） [7][41] - 经过中期训练和监督微调后，模型在多项基准测试中提升：ARC-Easy从0.3561升至0.3876，GSM8K从0.0250升至0.0455 [7][56] - 强化学习阶段针对GSM8K数学题优化，性能进一步提升至0.0758，总训练耗时3小时51分钟，成本约92.4美元 [7][53][56][57] 可扩展性与社区影响 - 项目设计为可调优框架，用户可通过修改深度参数（如depth=30）探索更大模型，预期在MMLU和ARC-Easy分别达40多分和70多分 [10][61] - 代码库强调易读性和可修改性，已获GitHub 4.8k星关注，被社区评价为“可被理解的智慧” [11][13][14] - nanochat将作为Karpathy教育项目LLM101n课程的压轴内容，推动AI教育普及 [12][75]

大语言模型

强化学习

监督微调

Artificial Intelligence

Artificial Intelligence

nanochat

ChatGPT

人类遗忘的难题解法，被GPT-5重新找出来了

量子位· 2025-10-13 18:00

文章核心观点 - GPT-5 Pro通过图片识别功能，成功定位并发现埃尔德什问题339实际上在2003年已被解决，展示了其在学术文献检索和验证方面的强大能力[1][3][4][13] - GPT-5 Pro在识别已发表论文中的严重缺陷方面表现出色，例如在18分钟内发现了一篇论文中作者后来确认的漏洞，而研究人员此前花费了数天时间[25][26] - 该技术被视为验证科学文献的强大工具，能够极大加快研究人员核实学术论断和发现逻辑矛盾的过程[29] 埃尔德什问题339的发现过程 - 埃尔德什问题339是数论中加法基方向的一个经典问题，探讨能表示为集合A中恰好r个不同元素之和的整数集合是否一定具有正的下密度[6] - 在GPT-5 Pro发现前，该问题在网站上被标记为"未解决"状态，网友们曾围绕华林问题等展开讨论，尝试构建反例但未成功否定命题[2][7][8][9][10] - GPT-5 Pro仅凭问题截图，就准确定位到Hegyvari、Hennecart、Plagne于2003年发表在《J. reine angew. Math.》第560卷的论文，其中定理4直接构成了该问题的解答[11][12][13] GPT-5 Pro的技术应用场景 - 使用特定提示词如"请深度阅读——不要跳读，不要扫描——每次处理1000行"，被认为是研读科学论文的有效技巧[30] - 进行循环性核查是另一个建议的应用方法[30] - OpenAI研究员Sebastien Bubeck和总裁Greg Brockman均转发了相关案例，引发大量关注[5][28] 保罗·埃尔德什的背景 - 保罗·埃尔德什是20世纪最杰出、最多产的数学家之一，在数论、组合数学、图论、概率论等领域有重大贡献[14] - 他一生发表了近1500篇论文，与超过500位合作者共同研究，产生了"埃尔德什数"的概念[16] - 其著名成果包括与Atle Selberg用初等方法证明素数定理，以及作为拉姆齐数研究的奠基人之一[18][19] - 他提出的"埃尔德什差异问题"是20世纪最著名的未解决猜想之一，直到2015年才由数学家陶哲轩取得部分突破[20][21][22]

前端危！Gemini 3内测结果获网友一致好评，“有史以来最强前端开发模型”

量子位· 2025-10-13 18:00

核心观点 - 谷歌下一代旗舰模型Gemini 3未发布已引发广泛关注，内测结果显示其在编程、多模态生成、物理原理理解等方面表现卓越，性能超越GPT-5和Grok 4等竞争对手[1][3][16][38] 技术规格与架构 - Gemini 3预计推出Pro和Flash两个版本，Pro版采用MoE架构，拥有数万亿参数（每次查询仅激活150-200亿参数），上下文窗口从100万扩展至数百万，并内置深度思考模式和多模态支持（视频、图片、音频）[11][13] - 在超高难度通用智力测试ARC-AGI-2中，开启思考模式的Gemini 3.0准确率接近35%，其他模型均低于20%[15] - 在最难的“人类最后考试HLE基准”上，Gemini 3.0以32.4%的最高分碾压GPT-5（high）和Grok 4[16] 多模态能力表现 - 模型擅长前端开发与SVG矢量图生成，能根据提示词直接生成可运行的网页和黑洞可视化效果[3][4] - 可生成带动画效果的SVG图形，并能原创钢琴曲[6][8] - 在图像生成方面进步显著，例如对“骑自行车的鹈鹕”SVG测试输出惊艳，手柄渲染图接近真实产品图，游戏背景图（如《我的世界》）细节精致[25][27][31][32] 编程与逻辑能力 - 尤其擅长前端和界面设计，例如生成古代艺术博物馆网站，并能处理复杂概念（如卡尔达舍夫等级3文明内容的演示网站）[20][21][23][24] - 编程能力不输GPT-5专门的编程模型Codex[35] 物理原理与细节处理 - 更懂物理原理，能正确处理动态缩放六边形内小球的生成任务[38][39] - 成功绕过“数手指”陷阱，正确识别图中6根手指（而非模型知识中的5根）[41] 发布时间传闻 - 疑似谷歌内部文件显示Gemini 3.0发布日期为10月22日，此前10月9日上线的传闻已被证伪[42][44][45]

2025人工智能年度评选启动！3大维度5类奖项，正在寻找AI+时代领航者

量子位· 2025-10-13 16:47

为了让更多从业者感受智能浪潮的跃迁，也为了给予更多同行同路人掌声与鼓舞，我们将正式启动「2025人工智能年度榜单」评选报名。这是量子位人工智能年度榜单的第8年。八年来，我们见证了技术的突破与落地，产业的融合与重塑，也见证了一批又一批推动时代前行的企业、人物与产品。在人工智能重新定义一切的时代里，智能技术已不再是单一工具，而是产业与社会协同进化的驱动力。我们期待通过这场年度评选，去发现并致敬那些真正引领变革、开拓边界的探索者与实践者。本次评选将从企业、产品、人物三大维度，设立五类奖项。欢迎企业踊跃报名！组委会发自凹非寺量子位｜公众号 QbitAI 让我们共同见证年度之星，点亮未来的方向。企业榜产品榜人物榜 2025 人工智能年度焦点人物详细评选标准及报名方式如下。 2025 人工智能年度领航企业 2025 人工智能年度领航企业 2025 人工智能年度潜力创业公司 1、业务能力｜市场占有率与营收规模，商业模式与盈利能力，客户数量及行业覆盖面，增长潜力与持续性等； 2、技术能力｜科研实力与技术成果，研发投入比例，技术核心竞争力，创新案例与技术落地情况等； ...

真正的AI竞争力，藏在大模型“后训练”这一步

量子位· 2025-10-13 16:47

后训练技术演进与产业共识 - 后训练被视为AI落地产业的必经之路，旨在将通用基座模型转化为深度理解企业业务、具备领域知识并能执行复杂策略的专属智能引擎[1] - 技术路径从监督微调（SFT）进化至以目标为导向的强化学习（RL）范式，并从依赖人力的RLHF发展到追求自动化的RLVR和前沿的自然语言奖励[2][3][4] - 后训练的核心价值在于通过对模型的特定能力增强，解决商业世界的复杂任务，构建通用模型无法达到的竞争壁垒[4] 企业后训练四步落地路径 - 企业后训练落地遵循一条清晰链路：准备高质量数据（Data）、选择合适的基座模型（Model）、设计有效的奖励机制（Reward）、构建可量化的模型评测（Evaluation）并与业务指标挂钩[8] 第一步：准备高质量数据 - 数据质量是后训练效果的上限，企业超过一半甚至60%-70%的时间都花费在数据准备上[10] - 知乎通过大模型预打标和主动学习提升数据质量，汽车之家利用20年积累的结构化私域数据进行增量预训练，百融云创则建立工业化数据生产线，通过模型自动过滤、校正文本并合成数据来提纯话术[10][11][13] 第二步：选择合适的基座模型 - 选对基座模型是后训练成功的一半，多家企业选择通义千问系列模型，因其模型效果领先、尺寸覆盖广泛且开源生态对后训练深度支持[15] - 通义千问衍生模型数量已突破17万，全球下载量超过6亿，在HuggingFace社区2024年全球模型下载量中占比超30%[16] - 为平衡效果与成本，微博和网易伏羲采用模型蒸馏方案，将大模型能力迁移至更轻量的模型上，微博蒸馏至7B模型，实现了接近大模型的效果但成本更低[19][21] 第三步：设计奖励机制 - 奖励机制的核心是将复杂的商业目标和人类偏好转化为模型可学习的数值信号，技术从RLHF经RLVR演进至利用大模型本身作为评判者的自然语言奖励[24][25] - 盈米基金与阿里云合作，将人类投顾专家的解题框架和风控逻辑内置到模型中探索奖励函数，汽车之家则通过A/B测试关注用户最终转化率等核心业务指标[26] 第四步：构建评估体系 - 模型评估需用客观、可量化的结果证明技术投入的商业价值，盈米基金构建了覆盖600个典型场景的基金投顾领域评测基准[27][28] - 通过精心设计的奖励机制，盈米基金的4B参数垂直模型在准确性指标上超过通用32B参数模型，百融云创使模型回答质量分提升10%，业务违规率从1%降至千分之三[28] 企业后训练实践与商业价值 - 夸克通过后训练复刻专家思维，2025年为高考志愿填报场景生成超1200万份报告，服务4000万用户，实现专家级服务的规模化普惠[30] - 在游戏智能NPC领域，后训练使NPC具备多维度决策能力，如《新倩女幽魂》中的家臣系统能基于薪资、关系亲疏等动态调整行为[32] - 后训练创造的商业价值在金融、内容社区、汽车、AI搜索等领域集中爆发，成为企业真正的护城河[32]

大模型后训练

强化学习

模型蒸馏

Artificial Intelligence

Artificial Intelligence

通义千问

拒绝“熵崩塌”和“熵爆炸”！这项研究让大模型学会“精确探索”，推理成绩飙升

量子位· 2025-10-13 16:47

RLVR方法的重要性与当前瓶颈 - 2024年以来以OpenAI o1、DeepSeek-R1、Kimi K1、Qwen3等为代表的大模型在数学、代码和科学推理任务上取得显著突破主要得益于RLVR方法[1] - RLVR通过数学验证、单元测试等可自动判断对错的方式提供训练信号替代了传统依赖人类评判的流程使模型能够进行大规模高效率的自我改进[1] - RLVR在实践中面临探索机制极易失衡的关键瓶颈要么探索受限陷入熵崩塌要么探索失控引发熵爆炸[2] 传统熵正则化方法的困境 - 传统熵正则化方法在RLVR训练中面临两难陷阱探索强度系数β过小会导致探索受限发生熵崩塌模型迅速退化为近似确定性策略所有回答高度相似[9] - 当β稍大时模型易在庞大的动作空间与超长的推理轨迹中失控概率分布被摊平导致熵爆炸生成内容充斥无意义符号逻辑断裂[10] - 传统方法失效的根本原因是熵正则化的激励是无差别的而大语言模型的生成过程具有鲜明的结构性忽略了探索价值的非均匀分布[10] SIREN方法的创新机制 - 选择性熵正则化方法通过三重机制实现对探索行为的精准调控包括划定探索范围识别关键决策点稳定训练过程[14] - Top-p掩码机制将熵的计算范围严格限定于概率最高的核心token集合确保探索仅在语义合理的候选词中进行避免无效探索[14][15] - 峰值熵掩码机制自动识别生成序列中熵值显著高于平均水平的逻辑关键词并将探索激励集中作用于这些关键位置[16] - 自锚定正则化将熵值目标从最大化调整为维持合理区间通过动态锚定机制使探索强度始终处于可控范围避免训练失稳[17] SIREN方法的实验效果 - 在Qwen2.5-Math-7B上SIREN平均maj@k达到54.6%超越最强基线4.8%[22][24] - 在最具挑战的AIME24/25数据集上性能提升均达到6.6%[34] - 该方法在1.5B到8B不同规模不同基座的模型上均稳定有效展现出良好的泛化能力[34] - 与传统的熵正则方法相比SIREN展现出更合理有效的探索模式能够避免困惑度坍缩保持答案多样性训练过程平稳可控[25][28][30] 行业影响与未来展望 - 随着强化学习成为大模型后训练的主流方法如何实现稳定可控高效的探索将成为释放大模型潜力突破性能瓶颈的核心议题[35] - 该研究提出的选择性探索调控机制为探索的精细化提供了一种可行的解决方案有望为下一代推理模型的训练范式提供启发[35] - 该方法有望推动大模型在数学代码科学推理等复杂任务以及其他更广阔的应用领域取得进一步突破[35]

Artificial Intelligence

Artificial Intelligence

Previous Next