量子位
搜索文档
陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o
量子位· 2025-09-28 12:56
文章核心观点 - 提出一种名为RLMT(基于模型奖励思维的强化学习)的新方法,该方法结合了RLHF和RLVR的优点 [4] - RLMT方法能使参数量仅8B的小模型性能超越GPT-4o,并媲美Claude-3.7-Sonnet [1] - 该方法支持在基础模型上直接使用,无需经过监督微调(SFT),可大幅降低后训练成本 [6] 技术方法与原理 - RLMT要求模型在回答前先生成思维链(CoT),然后使用经人类偏好训练的奖励模型对输出进行评价 [5] - 训练流程为:给定用户提示x,模型生成推理轨迹z,基于推理生成最终回答y,奖励模型r(x, y)对结果打分 [14] - 数学优化目标是最大化期望奖励 [15][16] - 使用人类偏好奖励模型(如Skywork-v2)在流畅性、相关性、逻辑性、创意等维度进行评分 [17] - 在优化算法上,实验了DPO、PPO、GRPO,其中GRPO效果最佳 [17] 性能表现与基准测试 - 在Wildbench等基准测试上,经过RLMT优化的Qwen2.5-7B模型大幅领先其他模型 [13] - 具体数据显示,L3.1-8B-I-RLMT模型在综合评测(Avg)中得分为54.1,超越了GPT-4o的53.2和L3.1-70B-Instruct的32.1 [7] - 在CWv3评测项上,L3.1-8B-I-RLMT得分为22.9,虽低于Claude3.7-Sonnet的39.3和GPT-4o的32.1,但显著高于其他大模型 [7] - 消融实验表明,使用不同提示混合(Prompt mixture)和奖励模型(Reward Model)对最终效果有显著影响 [18] 训练方式与成本优势 - 提供两种训练方式:带SFT预热的Warm-start方式和无SFT直接训练的Zero方式 [21] - Zero方式可在基础模型上直接加入固定前缀提示,通过学习"思考+回答"结构,最终表现也能超过指令微调模型 [21] - 结果显示小模型经RLMT训练后可超越大模型,大幅简化后训练流程并降低成本 [22] - 训练数据来源于真实用户对话,避免了过度偏向数学/代码领域,提升了在开放任务上的泛化能力 [18] 对行业的影响与意义 - 该方法证明了RLVR范式在数学、代码等可验证领域之外的开放任务上同样有效 [11] - 对于非数学代码问题,模型能自然学会分步骤拆解,如回顾、综合、关键主题、核心准则、举例、结构化回答等人类思考方式 [12][19] - 网友认为该方法为通用强化学习设定了新基线,在后训练时代,谁定义了偏好,谁就掌握了新的评分标准 [8]
奥特曼和量子计算奠基人讨论GPT-8
量子位· 2025-09-28 11:39
核心观点 - 萨姆·奥特曼与戴维·多伊奇就“AI能否发展为具备意识的超级智能”展开对话,奥特曼以未来GPT-8可能解决量子引力问题并解释其思考过程为例,论证AI具备超级智能的可能性 [1][8][22] - 戴维·多伊奇最初认为AI无法发展为具备意识的超级智能,但被奥特曼的GPT-8假设说服,认为如果AI能提供解决复杂问题(如量子引力)的“过程故事”,则可被视为具备解释性创造力 [1][11][12][22] 奥特曼的观点 - 奥特曼极度乐观地认为,即使在AI世界里,人类依然永远不会缺少可以做的事、可以发挥价值的方式、可以解决的问题和可以探索的未知 [6] - 奥特曼认为AI有可能发展成具备意识的超级智能,并以GPT-8为例,假设其能搞懂量子引力并讲述如何做到,以此论证AI的超级智能潜力 [1][8][22] 戴维·多伊奇的观点 - 戴维·多伊奇最初认为AI不会发展成为具备意识的超级智能,并指出现有系统(如ChatGPT)的能力是知识的副产物,而非真正的AGI [11][12][13] - 多伊奇强调“解释性创造力”和“过程故事”是判断智能的关键,认为真正通用的智能需具备主动选择动机的能力,而非机械输出 [18][19][21] - 多伊奇被奥特曼的GPT-8假设说服,认为如果AI能提供类似爱因斯坦发现相对论那样的“过程故事”,则可被视为具备超级智能 [22] 对话背景与影响 - 对话围绕AGI定义标准模糊、目标不断变化展开,引发网友讨论,有人认为AGI无法衡量,目标已转向ASI(超级人工智能) [3] - 多伊奇是量子计算奠基人,曾提出量子图灵机理论框架和Deutsch-Jozsa算法,为量子计算机发展奠定数学基础 [23][24][26]
DeepMind率先提出CoF:视频模型有自己的思维链
量子位· 2025-09-28 11:39
核心观点 - DeepMind首次提出帧链(CoF)概念 类比语言模型中的思维链(CoT) 使视频模型具备跨时空视觉推理能力 [1][2][3] - Veo 3视频模型展现通用视觉理解潜力 零样本解决全链条视觉任务 被视为视觉推理领域的"GPT-3时刻" [4][5][6] - 视频模型正发展通用基础模型能力 未来可能取代专用模型 遵循"通用价值+成本下降"的发展路径 [25][26][27] 技术原理 - CoF框架使视频模型像语言模型用符号推理一样 实现时间和空间维度的视觉推理 [2][6] - 采用与LLM相同的提示词驱动方法 仅通过"初始图像+文字指令"生成8秒720p视频 无需特殊训练 [7][8] - 通过18384个视频测试验证 覆盖62项定性任务和7项定量任务 [23] 模型能力 - 感知能力:零样本处理基础任务(图像去模糊)和复杂任务(多目标中定位特定物体) [10][11] - 建模能力:理解物理规则(物体沉浮)和抽象关系(物体容纳关系) [13][14] - 操作能力:实现图像编辑(添加属性/背景)和3D模拟(姿态变换) [16] - 推理能力:在5×5迷宫任务中成功率78%(Veo 2仅14%)展现跨时空推理潜力 [19][21] 性能表现 - 相比前代Veo 2实现显著提升 迷宫任务成功率从14%升至78% [21][24] - 多尝试策略(pass@10)显著提升性能 且随尝试次数增加仍有上升空间 [25] - 特定任务仍落后专用模型(如边缘检测精度)但差距正快速缩小 [25] 发展前景 - 视频模型遵循LLM发展轨迹 类似GPT-3从专用模型转向通用基础模型的演进路径 [25] - 推理成本每年下降9-900倍(基于Epoch AI数据)成本问题将逐步解决 [25][26] - 结合推理时缩放和RLHF指令微调等技术 性能有望进一步提升 [25]
AI原生产品不等于全部功能AI化,保留传统功能让用户体验更完整 | 对话小卡健康
量子位· 2025-09-27 17:58
文章核心观点 - AI健康管理赛道是一个大众化程度高且分散的市场,产品差异化程度相对不强,功能多围绕“记录+个性化方案定制”展开[3] - 小卡健康作为AI原生产品,其核心定位是“每个人的专属AI营养师”,通过AI技术提升健康数据记录效率并提供个性化陪伴,以此构建差异化竞争策略[3][11] - 公司竞争策略聚焦于核心功能的深度打磨与组合创新,并探索无感化记录等AI原生交互新范式,以应对市场同质化竞争并构建护城河[51][35][36] AI如何为用户记录健康数据提质增效 - 公司利用AI拍照测热量功能,用户上传饮食图片即可快速获取卡路里、营养物质含量及饮水量数据,革新传统手动输入记录方式[12] - 公司推出语义记录“AI搭子”功能,用户通过一句话描述即可一次性同步饮食、饮水、运动、体重等健康数据,将全套记录时间从传统方式的约5分钟缩短至30秒[12] - 公司在图片记录领域进行深度迭代,重点攻克输出稳定性、底层模型适配、内容准确性和个性化建议等维度,并拓展外卖小票截图识别等实用场景以构建核心竞争力[13][14] - 公司选择底座模型的三大标准为稳定性、准确性与数据适配性,并通过搭建专属中国特色食物数据库来提升识别精度[15][17] - 选定底座模型后,公司会进行工程化优化,例如设计AR参考系解决食物与餐盘比例失衡问题,并针对包装食品识别制定专门方案[18] AI产品功能增设与业务边界判断 - 公司有明确的业务边界判断逻辑,首要考虑传统记录功能与AI是否能发生化学反应以大幅提升用户记录效率,而非单纯叠加AI外壳,不会盲目添加无关功能[19] - 公司功能扩展的底层逻辑围绕两个核心:一是利用AI提效,二是加入个性化营养师身份通过情感陪伴助力用户达成健康目标,功能扩展路径主要依据用户反馈逐步完善健康闭环[20] - 公司认为用户个性化数据更为重要,核心思想是优先采用AI方案解决传统记录痛点,同时对AI能力未及的领域纳入传统方式以保障用户体验完整性[24] - 公司设计两种AI智能助手版本,既提供情感鼓励,也提供记录后的专业建议,以满足用户的不同需求[25] - AI搭子支持长上下文,并能随时读取用户个性化数据,确保对用户偏好了解准确,交互越多则用户画像越清晰,形成数据飞轮效应[26][33] 以用户为核心的产品数据指标与粘性提升 - 公司需求挖掘主要来自三方面:用户反馈、用户行为数据(核心关注连续30天记录行为)以及模型最新能力[27] - 公司最关注的核心北极星指标是用户持续记录行为,其次考虑付费率,而次日留存等指标参考意义有限[29][31] - 公司通过提供个性化、及时的反馈和鼓励来提升用户粘性,用户可自定义AI搭子人设,互动越多则个性化倾向越明显[32] - 在产品迭代中,保障用户核心体验是最高优先级,对于用户评分普遍低于及格线的功能会立即优化,对于中等评分的功能会尽可能兼容用户的合理建议[60][61] 智能终端数据联动与交互新范式 - 公司在智能手表端聚焦极简记录与轻养生提醒功能,保留核心功能以避免分散用户注意力,并设计个性化提醒表盘[34] - 公司认为未来方向是无感化记录,例如通过AI眼镜自动记录饮食,通过体重秤自动记录体重,旨在对传统手动记录实现突破性颠覆[35] - 除无感化记录外,公司也在探索更便捷的AI原生交互方式,追求直线式、点到点的连接理想形态[36] AI原生产品开发的特有挑战与应对 - AI原生产品开发需要对输出结果进行校验与框架约束,这与传统互联网产品输出结果明确可预测的特点存在差异[37][38] - 公司通过日志文件、自建食物库与多模型对抗进行校验,将识别结果与用户输入内容匹配,并利用不同模型间的对抗校验来提升结果准确性[40] 社交媒体运营与用户增长策略 - 公司用户规模已超过100万,初期依靠小红书内容运营与口碑传播完成冷启动,通过发布AI测热量相关内容及用户自发分享获取初始用户[41][42] - 当前市场仍处培育期,公司暂未尝试付费获取、搜索引擎优化、KOL/KOC投放等手段,主要依靠自然传播触达用户[42][43] - 公司在小红书推广上注重及时响应用户反馈,并在宣传上突出“计算之美”的技术精进与审美创新设计[44][46] - 公司曾踩过“将非核心需求作为主要功能”的坑,部分与AI能力结合不佳的功能对用户而言只是附加选项而非必需[49] - 公司收费模式以订阅制为主,价格制定主要参考竞品价格以及模型成本[50] 市场竞争策略与护城河构建 - 公司竞争策略包括在核心功能上持续深入打磨,以及探索整体组合创新挖掘AI技术更多可能,例如在图片拍照记录时加入饮水量记录等小巧思[51] - 公司认为AI+健康管理产品能形成护城河,除时间优势外,对产品的持续打磨及对AI发展下整体交互范式的探索将形成难复制的壁垒优势[52] - 面对大厂可能进入的竞争,公司认为大厂参与会提升市场认知,但公司在垂直领域响应更灵活,能迅速迭代满足用户需求[53] - 公司的长期愿景是成为“每个人全生命周期的私人AI营养师”,以无时不在、深度了解用户的智能管家形态存在,目前产品仍更偏向AI记录工具[54][56] 市场认知误区与早期开发经验 - 公司指出市场的一个错误认知是用户通过通用AI平台即可实现高质量、定制化的健康管理服务,而公司通过专项优化使功能达到及格甚至优良状态[62] - 回顾立项初期,公司认为当时忽略了如稳定性、准确性等确定需求,应尽早做好以获得更早的用户反馈,避免用户陪伴走弯路[65][67] - 公司认为产品大轮廓已基本确定,未来方向将持续在提效以及私人陪伴两个点上精进,并深入分析个性化AI搭子的人文因素[67][68]
暴走东京电玩展,Game Show也AI上了
量子位· 2025-09-27 15:00
中国厂商在东京电玩展的展示 - 中国游戏厂商如网易、腾讯、叠纸、鹰角等在东京电玩展设立大型展台吸引大量玩家关注 [8] - AI厂商也在展会上展示技术实力 包括大模型和3D生成等应用 [8][10] - 中国游戏厂商在海外市场的影响力日益显著 游戏工业链条从3D建模到云计算展现出全面实力 [36] 阿里巴巴的大模型展示 - 阿里巴巴展台以通义千问和通义万相两个开源模型为核心展示 [11][12] - 本地化团队面向日本市场提供从IaaS到SaaS的大模型商用化方案 包括Model Studio和AI开发平台PAI [12][13] - 开展2天内已有不少B端客户到展台交流 显示开源影响力超出线上下载量 [15][16] MiniMax的创意展示 - MiniMax在展会现场推出日式算命活动 展示语言模型和音频模型能力 [17] - 通过互动形式展示大模型与游戏结合的潜力 [18] 腾讯云的3D生成技术 - 腾讯云展台强调云计算能力支持游戏安全和运营 但重点提及混元3D技术 [21] - 混元3D已被国内多家游戏厂商应用 不仅用于物品如桌椅板凳 还用于人物3D建模并展现良好效果 [22][24] VAST的3D生成项目 - VAST的Tripo作为开源3D生成项目在日本等海外市场吸引游戏厂商关注 [26] - 参展重要目的是与海外客户增强线下交流 [27] - Meshy AI也参与线上展 展示3D生成技术 [29] AI陪玩应用展示 - 逗逗AI游戏伙伴海外版HakkoAI基于实时VLM技术 能理解游戏画面并提供深度陪伴 支持多款游戏如黑猴、老头环和星露谷物语 [32][33] - 其视觉语言模型LynkSoul VLM v1在游戏场景中表现超越GPT-4o、Claude-4-Sonnet和Gemini-2.5-Flash等顶尖通用模型 [34] 游戏与AI融合趋势 - AI技术在游戏展中展现出越来越多潜力 与游戏融合趋势不断升温 [36] - 中国技术力量在海外输出过程中 为游戏玩家创造更多可能性并带来未来惊喜 [36][37]
让RAG真正读懂“言外之意”!新框架引入词汇多样性,刷新多项基准SOTA
量子位· 2025-09-27 15:00
文章核心观点 - ACL 2025最新研究提出Lexical Diversity-aware RAG (DRAG)框架,首次系统性地将词汇多样性引入RAG的检索与生成过程 [1] - 该框架提供了一个轻量、通用且易扩展的解决方案,在多项基准任务中带来显著性能提升,尤其在HotpotQA上刷新了当前最优结果 [1][2] - 该方法对信息检索、问答系统、专业领域大模型应用具有重要价值,未来计划进一步拓展到更多专业场景 [5] 技术背景与痛点分析 - 现有RAG方法普遍忽视词汇多样性问题,导致检索模型因同一问题的不同表达方式而产生错误答案 [4][5] - 词汇多样性表现为不变词(如人名)、可变词(如职业同义词)和补充信息(如扩展语境)三种成分,常导致模型错误判断文档相关性 [6][8] 核心技术创新 - 提出Diversity-sensitive Relevance Analyzer (DRA)模块,通过拆解查询语义并对不同成分采用差异化策略,实现更细粒度的相关性评分 [9][12] - 提出Risk-guided Sparse Calibration (RSC)模块,通过实时监控生成token的"被误导风险"并进行稀疏校准,防止生成阶段被无关信息干扰 [11][13][14] - DRA负责精准检索,RSC负责防止生成偏差,形成检索与生成环节的双保险 [15] 实验性能结果 - 在PopQA短文本问答任务上准确率达到68.3%,较基线提升4.9个百分点 [16] - 在TriviaQA短文本问答任务上准确率达到77.4%,较基线提升4.4个百分点 [16] - 在HotpotQA多跳问答任务上准确率达到46.4%,较基线大幅提升10.6个百分点 [16] - 在2WikiMultiHopQA多跳问答任务上准确率达到54.6%,同样提升10.6个百分点 [16] - 在ASQA长答案生成任务的str-em、QA-F1等指标上刷新SOTA [16] - 该方法在Llama2-7B、Llama2-13B、Qwen2-7B等多种类型和尺寸的模型上均表现出显著性能增益 [18] 应用价值与前景 - 该方法解决了RAG系统因词汇多样性导致的准确性问题,让大模型不仅能"读懂"更能"理解"复杂的人类语言表达 [5] - 框架具有轻量、通用且易扩展的特点,适用于信息检索、问答系统及专业领域大模型应用 [1][5]
翁荔陈丹琦加盟的840亿AI公司,公开第二篇论文
量子位· 2025-09-27 12:46
公司研究论文 - Thinking Machines发布第二篇研究论文"Modular Manifolds" 由OpenAI前CTO Mira Murati站台支持 翁荔等业界人士转发[1] - 论文唯一作者Jeremy Bernstein提出模块化流形优化方法 通过约束整个网络层/模块在统一流形框架提升训练稳定性和效率[2][10] - 研究针对神经网络训练中权重/激活/梯度数值过大过小引发的梯度爆炸/消失及效率低下问题[2][8] 技术方法创新 - 采用Stiefel流形约束权重矩阵 使矩阵列向量正交且条件数为1 显著提升数值稳定性和抗干扰能力[10][18][20] - 设计流形Muon优化算法 包含梯度投影至切空间、参数更新、Retraction投影回流形三步流程[14][23][24] - 将单矩阵约束推广至模块化流形概念 通过笛卡尔积拼接各层流形 以最大范数统一分配学习率实现全局协调[26][28][29] 实验验证结果 - 在CIFAR-10数据集训练小规模MLP 流形Muon算法训练/测试准确率略优于AdamW 权重奇异值更集中稳定[23] - 算法每步运行时间稍慢于AdamW 主要因dual ascent计算和投影环节额外开销 后续可通过优化步数和引入动量改进[23][26] 作者背景与影响 - 作者Jeremy Bernstein拥有剑桥大学物理学位 加州理工计算与神经系统博士 现任Thinking Machines研究员及MIT博士后[33][34] - 其谷歌学术h-index为13 代表作signSGD论文被引1368次 研究方向聚焦非凸优化、贝叶斯推断及神经网络[35][36] - 论文虽单人署名 但实际融合数学、计算机科学及工程学多学科合作 作者本人从物理转向机器学习体现跨界研究能力[37][40] 公司发展动态 - Thinking Machines首篇论文于2024年9月10日发布 主题为克服LLM推理中的非确定性 由Horace He主导[42][43][44] - 清华姚班校友陈丹琦已加入公司 其团队最新提出可验证奖励强化学习(RLVR)方法 相关论文同步发布[47][49] - 公司当前估值达120亿美元(约840亿元人民币) 研究成果持续输出预示产品即将面世[52]
业界首个高质量原生3D组件生成模型来了!来自腾讯混元团队
量子位· 2025-09-27 12:46
行业背景与应用场景 - 现有3D生成算法通常生成一体化模型,但下游应用需要语义可分解的3D形状,即每个组件需单独生成 [1] - 组件式3D生成主要应用于视频游戏制作管线:资产需绑定不同游戏逻辑(如汽车主体与可滚动轮子),组件拆分可降低下游算法(低模拓扑、UV展开等)处理难度 [1] - 3D打印行业受益:用户可逐组件打印并组装,提升制造灵活性 [2] 技术瓶颈与创新需求 - 现有组件式3D生成方法存在可控性不足、部件几何质量不佳及语义连贯性有限等问题 [3] - 腾讯混元3D团队提出Hunyuan3D-Part新范式,旨在实现可投入生产的高质量、可编辑且结构合理的组件生成 [4] 技术流程核心架构 - 整体流程分三步:基模型获取整体形状(Hunyuan3D V2.5/V3.0)→ 部件检测模块(P3-SAM)提取语义特征与边界框 → X-Part模块分解为独立部件 [6][7][8] - 技术亮点包括:业界首个原生3D分割模型P3-SAM(摆脱2D数据依赖)及工业级组件生成模型X-Part(重构生成质量与可控性标准) [10][11] P3-SAM模型技术细节 - 基于Point- Promptable Part Segmentation架构,简化SAM体系结构,仅采用单一正点提示实现全自动分割 [13] - 特征提取器采用PointTransformerV3,融合多层级特征,结合FPS点提示与NMS算法优化掩码合并 [14][16] - 完全依赖原生3D部件监督训练,构建含370万个高质量部件级掩码的数据集,显著提升模型鲁棒性与精确性 [18][19] X-Part模型技术优势 - 利用P3-SAM输出的包围盒作为部件级提示,提供粗粒度引导,避免过拟合并增强部分可见部件的体积信息 [21][22][23] - 引入高维点级语义特征扰动机制,确保语义连贯性与结构一致性 [24] - 生成结果在PartObj-Tiny、PartObj-Tiny-WT和PartNetE数据集上超越竞品:Fscore-0.1达0.80(竞品最高0.68),Fscore-0.5达0.71(竞品最高0.57) [26][28][29] 性能评估与可视化效果 - 在8类物体(人类、动物、日用品等)分割任务中,P3-SAM全自动分割平均精度达59.88%,交互模式下达51.23%,显著优于Point-SAM的13.00% [29] - 生成效果可视化显示,X-Part在结构细节保真度、语义一致性及组件分离精度方面均优于开源与闭源竞品模型 [34][36][38] 资源开放与访问途径 - 代码与权重已开源:Git仓库(https://github.com/Tencent-Hunyuan/Hunyuan3D-Part)及Hugging Face平台(https://huggingface.co/tencent/Hunyuan3D-Part) [41] - 提供轻量版(Hugging Face Demo)与满血版(混元3D Studio)体验入口,技术论文同步发布于arXiv [42]
首款推理具身模型,谷歌DeepMind造!自主理解/规划/执行复杂任务,打破一机一训,还能互相0样本迁移技能
量子位· 2025-09-27 12:46
产品核心概述 - 谷歌DeepMind正式发布新一代通用机器人基座模型Gemini Robotics 1.5系列,该系列是全球首个具备模拟推理能力的具身模型 [1][3] - 模型结合了视觉、语言与动作,并通过具身推理实现“先思考,再行动”的运作模式 [1] - 该技术被视为将通用AI推向现实世界的重要里程碑 [9] 模型架构与分工 - 系列由两大模型组成:GR 1.5负责动作执行,GR-ER 1.5强化推理能力,提供规划与理解支持 [2][8] - GR 1.5作为执行层的多模态大模型,能够直接把自然语言和视觉输入转化为低层级的机器人动作 [5][39] - GR-ER 1.5作为推理模型,负责高层规划、工具使用与进度监控 [40] - 两款模型协同工作,形成一个Agentic Framework,实现“规划+执行”的完整闭环 [41] 核心能力展示 - 能够执行包含多步子任务的长流程复杂任务,例如分拣衣物、打包行李、准备烹饪配料等 [10][11][12] - 在执行任务过程中具备自我检测与自动修正能力,例如抓取失败后能立刻转换方案 [15][35] - 在230项任务的基准测试中,GR 1.5在指令泛化、动作泛化、视觉泛化和任务泛化四个维度上都表现出色 [61] - 结合GR-ER 1.5的系统在长时序任务上,完成进度分数最高接近80%,几乎是单一VLA模型的两倍 [62] 跨平台与迁移技术 - 具备零样本跨平台迁移能力,同一模型可驱动低成本双臂机器人ALOHA、工业级Franka及人形机器人Apollo等多种硬件 [7][16][18] - 在ALOHA上学会的技能可直接迁移到Franka,在Franka上训练的操作能零样本转移到Apollo [20] - 核心技术为全新的Motion Transfer机制,将不同机器人平台的运动轨迹映射到统一的动作语义空间,实现操作经验的跨机器人迁移 [21][47][48] 推理与安全性 - 模型在行动前会用自然语言把复杂任务拆解为小步骤,这种显性思考提升了可解释性和信任感 [25][26][27][55] - 具备风险识别能力,能理解动作背后的物理风险并触发保护机制,在ASIMOV-2.0安全基准中表现出更高的风险识别与干预能力 [36][64] - 在训练过程中,约九成以上的迭代在MuJoCo仿真环境中完成,保证了在现实硬件上执行时的稳定性与安全性 [51][52] 技术突破与行业意义 - 核心创新在于同时实现了思考推理能力、跨平台技能迁移以及将“理解物理世界”的能力推向新高度 [53][56][58] - 在学术基准测试中,GR-ER 1.5在空间推理、复杂指点、进度检测等任务上全面超越了GPT-5和Gemini 2.5 Flash [59] - 该系列标志着机器人技术正从执行单一指令转向对物理任务进行真正的理解和解决问题 [69]
大模型“精细化”对齐,真实性提升25.8%刷新SOTA!token级精准编辑,无需训练即插即用
量子位· 2025-09-27 12:46
核心观点 - 提出Token-Aware Editing (TAE)方法 一种无需训练的推理时表征编辑技术 通过token级精细化干预显著提升大模型对齐能力 在TruthfulQA任务上真实性指标比基线提升25.8个百分点[1][3][13][15] 方法创新 - 突破传统句子级编辑局限 首次系统性解决token间错位差异问题 包含互信息引导图聚合(MIG)和错位感知自适应干预(MAI)两大核心模块[6][8][10][11] - MIG模块通过构建token关系图和多层次信息聚合 增强激活值表征能力 使对齐方向探测准确率提升[10][11] - MAI模块实现动态强度调整 根据token错位风险自适应计算干预强度 高风险token强干预(如毒性概率从0.41降至0.05) 低风险token弱干预[11][12][16] 性能表现 - 在TruthfulQA数据集上True*Info得分达87.8% 较最优编辑方法SEA(73.2%)提升14.6个百分点 较基线(62.0%)提升25.8个百分点[14][15] - 去毒任务中毒性概率(TP)从基线0.41降至0.05 降幅近90% 显著优于专用去毒方法DESTIN(0.13)[16] - 公平性任务中刻板印象分数从64.8%降至50.3% 接近理想无偏见状态(50%)[16] - 在Llama2系列、Alpaca-7B、Mistral-7B等不同规模模型上均保持性能增益[17] 应用前景 - 可广泛应用于对话系统、内容审核、偏见消除等场景 支持多维度对齐(如真实性与无害性同步优化)[1][5] - 具备即插即用特性 未来可与SFT、RLHF等训练方法结合推动模型安全发展[3][5]