Workflow
Large Language Model
icon
搜索文档
Neusoft and Cerence AI Sign Strategic Cooperation Agreement to Deliver an AI-Powered Automotive Cockpit Platform
Prnewswire· 2026-01-22 16:30
合作概述 - 东软集团与全球领先的对话式人工智能公司Cerence AI签署了谅解备忘录 将在基于大语言模型的语音AI领域开展合作 [1] - 双方将共同为全球汽车合作伙伴提供预集成、场景驱动的智能交互解决方案 [1] - 合作旨在通过联合创新和生态系统整合 满足日益增长的车内智能交互需求 [1][2] 合作背景与目标 - 汽车技术正朝着更智能、更自然交互的方向演进 用户对座舱交互的期望不断提升 [2] - 驾驶者和乘客不再满足于基础的语音响应 而是寻求能够理解自然语言、流畅沟通并产生情感共鸣的智能伙伴 [2] - 此次合作旨在将类人的智能交互确立为智能汽车的新标准 [2] 合作内容与技术整合 - 东软将以其先进的智能座舱软件平台NAGIC为核心基础 [3] - 东软将深度整合Cerence AI在对话式AI、生成式AI和大语言模型方面的专业技术 [3] - 双方将共同探索智能语音交互的创新应用 [3] 市场与业务协同 - 双方将结合东软广泛的全球产品开发与交付网络 以及Cerence AI在汽车领域的技术优势和领导地位 [4] - 合作将共同拓展全球目标市场 [4] - 东软秉持“开放协作、生态共赢”的理念 将在汽车智能化和AI加速的趋势下 与更多领先技术伙伴紧密合作 [5] - 双方旨在帮助汽车制造商突破市场挑战 为全球用户提供更安全、更自然、更智能的出行体验 [5] 东软集团业务介绍 - 东软集团是全球市场领先的信息技术、产品与解决方案公司 成立于1991年 是中国第一家上市的软件公司 [6] - 在智能汽车互联领域 东软拥有超过30年的汽车软件研发经验 [6] - 东软参与制定了超过60项国家/国际行业标准 [6] - 东软建立了以中国、德国、美国、日本和马来西亚为中心的全球产品研发与交付网络 [6] - 东软的汽车产品已应用于超过1800个车型 覆盖超过130个国家和地区 服务于超过50家主机厂 [6] Cerence AI业务介绍 - Cerence Inc 是汽车与交通领域AI体验的全球行业领导者 [7] - 公司利用在语音、生成式AI和大语言模型方面数十年的创新与专业知识 [7] - 搭载Cerence技术的汽车已超过5.25亿辆 [7] - 公司与领先的汽车制造商、交通设备原始制造商和技术公司合作 共同推进下一代用户体验 [7]
DeepSeek新模型曝光
财联社· 2026-01-21 14:34
DeepSeek新模型“MODEL1”架构曝光 - 2025年1月,DeepSeek官方GitHub仓库更新FlashMLA代码,其中发现一个此前未公开的模型架构标识“MODEL1”,在114个总代码文件中被提及31次[4] - FlashMLA是公司独创的、针对英伟达Hopper架构GPU深度优化的软件工具,专门加速大模型推理生成环节,其实现基础MLA是公司模型实现低成本、高性能的关键技术之一[4] - MODEL1是DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是DeepSeek-V3.2[5] MODEL1的技术特性与市场定位推测 - 推测MODEL1很可能是一个高效推理模型,相比V3.2内存占用更低,适合边缘设备或成本敏感场景[5] - 推测MODEL1也可能是一个长序列专家,针对16K+序列优化,适合文档理解、代码分析等长上下文任务[5] - MODEL1的硬件实现跨越多个GPU架构,在英伟达H100/H200上有64头和128头两个版本,在最新的B200上有专门的Head64内核实现,且SM100的Head128实现仅支持MODEL1,不支持V3.2[5] - 有人猜测公司为适配英伟达新一代GPU,专门优化了MODEL1的架构[5] DeepSeek现有产品线梳理 - 公司已发布的主要模型是两条技术路线的代表:追求极致综合性能的V系列“全能助手”和专注于复杂推理的R系列“解题专家”[6] - 2024年12月推出的V3是公司的重要里程碑,其高效的MoE架构确立了强大的综合性能基础[6] - 公司在V3基础上快速迭代,发布了强化推理与Agent能力的V3.1,并于2025年12月推出了最新正式版V3.2,同时推出了专注于攻克高难度数学和学术问题的特殊版本V3.2-Speciale[6] - 2025年1月发布的R1通过强化学习在解决数学问题、代码编程等复杂推理任务上表现卓越,并首创了“深度思考”模式[7] 公司未来产品与技术动向 - 科技媒体The Information月初爆料称,公司将在2025年2月中旬农历新年期间推出新一代旗舰AI模型——DeepSeek V4,将具备更强的写代码能力[7] - 公司研究团队陆续发布了两篇技术论文,分别介绍了名为“优化残差连接”的新训练方法,以及一种受生物学启发的“AI记忆模块”[7] - 这一举动引起用户猜测,公司正在开发中的新模型有可能会整合这些最新的研究成果[7]
I Predicted Alphabet Would Be the Best-Performing "Magnificent 7" Stock in 2025. Here Are the Main Reasons Why It Actually Happened.
Yahoo Finance· 2026-01-21 03:50
2025年Alphabet公司表现与驱动因素 - 2025年,Alphabet在“美股七巨头”中表现最佳,股价上涨超过65%,远超排名第二的英伟达(上涨近39%)[1] 人工智能业务进展 - 公司通过其Gemini模型改变了投资者对人工智能影响其业务的看法,该模型获得了广泛赞誉,被认为是顶级大语言模型[2] - 投资者开始认识到其自研张量处理单元的重要性,这些定制芯片用于训练模型和运行AI推理[2] - AI概览和AI驱动的功能(如Lens和圈选搜索)帮助其谷歌搜索收入加速增长[3] - 自研TPU芯片已开发超过十年,并与系统深度集成,使公司在定制AI芯片领域拥有巨大先发优势[4] - 拥有顶尖的定制AI芯片使公司无需支付所谓的“英伟达税”,在大语言模型训练和推理方面具有巨大的结构性成本优势[4] 监管环境与市场地位 - 反垄断审判的法官裁定,公司不仅可以保留其Chrome浏览器和Android智能手机操作系统,还可以继续达成协议,成为苹果设备的默认搜索引擎[3] - 这一裁决消除了不确定性,使公司保持了巨大的分销优势,确保谷歌仍然是大多数人访问互联网的门户[3] 云计算与TPU业务发展 - 客户已开始通过其云计算服务使用TPU来运行自己的AI工作负载[6] - 谷歌云是公司2025年重要的收入驱动力,客户通过谷歌云部署TPU可能成为未来的增长催化剂[6] - Anthropic最近通过Alphabet的合作伙伴博通下达了价值210亿美元的TPU订单[6] - 摩根士丹利分析师预测,客户可能在2027年部署约50亿个TPU,并估计每部署50万个TPU,就能为Alphabet增加约130亿美元的收入[6] 未来展望 - 公司在2025年成功改变了投资者对AI影响其业务的看法[7] - 公司看起来已为在2026年继续推动增长做好了充分准备[7]
大模型长脑子了?研究发现LLM中层会自发模拟人脑进化
36氪· 2026-01-15 09:26
研究核心发现 - 大型语言模型在学习过程中会自发演化出一种类似于生物大脑的“协同核心”结构 [1] - 该协同核心结构是模型获得能力的标志性产物,而非其初始架构所固有 [19] - 这种组织模式与人脑的生理结构形成了精确的映射,表明智能演化存在趋同性 [18][27] 实验方法与模型 - 研究团队利用部分信息分解框架,对Gemma、Llama、Qwen和DeepSeek等具有代表性的模型系列进行了深度剖析 [5][7] - 实验向模型输入了涵盖语法纠错、逻辑推理、常识问答等6个类别的认知任务提示词,并记录每一层的激活值 [8][9] - 通过计算输出向量的L2范数作为激活强度,并应用整合信息分解框架,将注意力头对间的交互分解为“持续性协同”和“持续性冗余” [10][11][12] - 通过计算协同值与冗余值的排名差,得到了关键指标“协同-冗余秩”,用以量化模型组件处理信息的倾向 [12] 模型内部架构规律 - 模型内部信息处理存在明确的空间分布规律:中层表现出极强的协同处理能力,而底层和顶层则更偏向于冗余处理 [6][13] - 协同分布呈现出显著的“倒U型”曲线:模型的早期层和末期层构成“冗余外周”,信息处理以冗余模式为主;模型的中层则构成“协同核心”,进行高级语义集成和抽象推理 [13][15] - 这种“协同核心”的涌现具有跨架构的一致性,在基于注意力头的模型和基于专家模块的模型(如DeepSeek V2 Lite)中均被观察到,表明其可能是实现高级智能的一种计算必然 [16][17] 协同核心的功能与影响 - 消融实验表明,消融高协同性节点会导致模型出现灾难性的性能下降和行为背离,远超消融冗余节点的影响,证明协同核心是模型智能的核心驱动力 [22] - 微调实验发现,在强化学习微调场景下,仅针对协同核心进行训练获得的性能提升显著优于针对冗余核心或随机子集的训练;而在监督微调中这种差异不明显 [23] - 识别协同核心有助于设计更高效的模型压缩算法,或通过更有针对性的参数更新来加速训练 [27]
幻方量化去年收益率56.6% 为DeepSeek提供超级弹药
21世纪经济报道· 2026-01-14 10:15
幻方量化业绩表现 - 2025年收益均值达56.55%,在中国管理规模超百亿的量化私募中位列第二[1] - 近三年收益均值为85.15%,近五年收益均值为114.35%[2] - 2025年管理规模已超700亿元人民币,稳居国内私募量化投资领域第一梯队[1][2] 公司收入与资金实力 - 据业内人士估算,基于1%管理费和20%业绩提成,幻方量化去年的强劲表现可能为其带来超过7亿美元的收入[4] - 公司创始团队从2008年开始使用机器学习等技术探索全自动量化交易,2017年全面应用深度学习技术进行交易[2] - 梁文锋持有公司多数股权,并已停止为基金引入外部资金,进一步积累了充裕的资金弹药[4] 对DeepSeek的资金支持 - 幻方量化的丰厚收益能反哺DeepSeek,为其大模型研发提供坚强的资金支持[1][2] - DeepSeek的研究经费来源于幻方量化的研发预算[3] - DeepSeek V3模型的总训练成本预算在557万美元[5] 公司技术背景与基础设施 - 策略和开发团队由奥林匹克数学、物理、信息学金银牌得主,ACM金牌得主,AI领域大牛和领军人物,各学科博士等组成[2] - 2019年投资建成“萤火一号”AI训练平台,2021年投资建成“萤火二号”AI训练平台[3] - 2016年10月21日,公司第一份由深度学习生成的交易仓位上线执行[2] DeepSeek发展与大模型进展 - 2023年7月,幻方量化孵化出杭州深度求索人工智能基础技术研究有限公司(DeepSeek),正式进军通用人工智能[3] - 计划在2月春节前后发布新一代AI模型DeepSeek V4,V4模型是V3模型的迭代版,具备强大的编程能力[5] - 内部初步测试显示,V4在编程能力上超过了目前市场上的其他顶级模型,如Anthropic的Claude和OpenAI的GPT系列[5] 行业研发投入对比 - 智谱截至2025年上半年累计研发投入约44亿元人民币[5] - MiniMax截至2025年第三季度累计研发开支约4.5亿美元(约31.6亿元人民币)[5]
2 No-Brainer AI Stocks to Buy Hand Over Fist in 2026
Yahoo Finance· 2026-01-14 06:20
文章核心观点 - 生成式人工智能行业炒作周期已长,投资者应转向更具价值导向、能利用新技术且不过度暴露于潜在下行风险的公司,如亚马逊和美光科技 [1] 亚马逊 (AMZN) - 公司业务模式多元化,避免了像英伟达和CoreWeave等纯AI基础设施公司过度依赖单一AI数据中心收入来源的风险 [2] - 通过内部应用AI技术提升效率,例如,新技术可能推动公司今年考虑裁员高达30,000人;AI和机器人技术可能帮助公司避免填补60万个仓库职位,从而潜在节省数十亿美元 [3] - 公司通过持有Anthropic公司14%的股权,涉足大型语言模型领域;Anthropic的旗舰模型Claude在企业级LLM市场迅速崛起,在编码任务中占据42%的市场份额,而ChatGPT为21%;Anthropic近期估值约为3.5亿美元 [4] 美光科技 (MU) - 过去12个月股价大幅上涨247%,市场开始认可其在生成式AI硬件领域的卓越前景 [5] - AI硬件需求不仅限于GPU,内存是关键组成部分,因为LLM的训练需要存储海量数据,且模型推理过程需要强大的工作内存来快速处理查询 [6] - 公司有望从全球内存硬件短缺中极大受益,数据中心争相购买其高带宽内存设备,预计将显著提升其营收增长和利润率 [5][7]
Forget LLMs: Buy these 3 AI "Pick and Shovel" Plays Instead
ZACKS· 2026-01-13 07:51
大科技公司竞争与AI基础设施投资逻辑 - 大科技公司如微软、Alphabet等正激烈角逐大型语言模型主导权 但最终赢家难以预测 类比互联网时代雅虎和网景的兴衰 [1] - 投资AI革命不必押注LLM最终赢家 可转而关注提供底层基础设施的“镐和铲”公司 其商业模式可能更稳健且盈利更持续 [2] CoreWeave (CRWV) 分析 - 公司是专注于AI计算的云服务提供商 通过高端GPU为客户提供强大算力 是纯粹的AI基础设施公司 服务于IBM、微软等资金雄厚的大客户 [3] - 与英伟达关系紧密 能获得最紧俏的GPU [3] - 2023年IPO后股价从约40美元飙升至180美元 但随后因债务担忧和锁定期解禁跌至约90美元 [4][5] - 债务担忧已缓解 公司在第三季度获得了26亿美元的有担保债务融资 并有来自摩根士丹利等机构的250亿美元资本承诺支持其应对“前所未有的需求” [6][7] - IPO锁定期已过数月 内部人士抛售可能减少 大股东Magnetar Financial虽部分减持 但仍持有大量股份并将CoreWeave誉为AI基础设施的“黄金标准” [8] Nebius Group (NBIS) 分析 - 公司是领先的AI基础设施企业 核心业务是面向高强度AI工作负载的云平台Nebius 提供包括大规模GPU集群在内的全栈基础设施 [9] - 业务分为两部分:为Meta、微软、谷歌等投资数千亿美元建设数据中心的大公司提供AI基础设施;以及提供AI基础设施即服务 [9][10] - 竞争优势在于垂直整合 提供自有的AI软硬件包括服务器和机架 [11] - 与英伟达是合作伙伴且英伟达是其投资者 拥有约7亿美元NBIS股份 这使Nebius能优先获得英伟达最新最强的GPU [13] - 2024年9月9日与微软达成巨额多年期协议 合同价值高达174亿美元(可能达194亿美元) Nebius将为微软提供其新泽西州数据中心及内部GPU的访问权限 [14] - 该合同价值超过了签约前一日公司152.9亿美元的市值 扎克斯共识预估显示未来营收将实现数倍增长 例如2026年营收预估达15.5亿美元 较2025年预估增长172.41% [15][16] - 技术分析显示 股价在消化微软交易消息三个月后 已突破50日移动平均线 有望延续上涨趋势 [17] Astera Labs (ALAB) 分析 - 公司为数据中心和AI应用制造高性能半导体及软件 专门解决AI数据中心内大量GPU数据传输的瓶颈问题 被称为AI的“神经系统” [20] - 与行业巨头如英伟达、英特尔、AMD建立了可信赖的合作关系 [21] - 扎克斯共识预估显示公司营收和盈利将保持强劲双位数增长 预计2025年营收8.3169亿美元(同比增长109.87%) 2026年营收11.6亿美元(同比增长39.84%) 2025年每股收益1.78美元(同比增长111.90%) 2026年每股收益2.29美元(同比增长28.59%) [22][23][24] - 自2024年上市以来 每个季度盈利都超出扎克斯共识预期 过去四个季度平均超出预期幅度达29.79% [25][26] 行业总结 - AI基础设施股票比LLM股票更容易预测 且多数优质AI基础设施公司与行业领导者英伟达有合作关系 [6] - 在AI竞赛加速的背景下 投资于AI基础设施领域有望获得丰厚回报 [6][27]
MiniMax 融资故事:4 年 7 轮,谁在推动中国 AI 第一场资本盛宴
晚点LatePost· 2026-01-09 12:54
文章核心观点 - 大模型领域的IPO并非行业竞争结束的标志,而是新一轮更激烈竞赛的开始,其实质意义在于为公司获取更多资源以支持持续高强度的研发投入[2][3] - 公司的发展路径体现了在商业化前景不确定、技术快速迭代的行业中,通过平衡技术探索、产品应用与财务策略,力求“留在浪潮里”的生存与发展哲学[32][34] 公司发展历程与融资轨迹 - 公司成立于2022年初ChatGPT热潮前夕,天使轮融资3100万美元,投后估值2亿美元,由高瓴领投,米哈游、IDG、云启跟投[6][7][16] - 上市前共完成7轮融资,累计融资额达15亿美元,投后估值从2亿美元增长至上市前的42.4亿美元[3][6] - 主要投资方包括:阿里(持股超13%,为最大外部股东)、高瓴(持股7.14%,为第二大外部股东及第一大财务投资人)、明势(投资轮次最多的机构之一)、红杉(持股3.81%,为第三大财务投资人)等[3][13][20][24][26] 创始团队背景与特质 - 创始人闫俊杰拥有深厚技术背景(中科院自动化所博士)与丰富的产业经验(曾任商汤副总裁,管理过千余人团队),被评价为兼具技术前瞻性、工程落地能力和商业思维的创业者[8][11][31] - 创始团队在创业初期即确立了“Intelligence with everyone”的愿景,并选择同时研发文本、语音、图像模型及多模态技术的技术路径[11] - 创始人经历过上一轮AI(计算机视觉)行业的起伏,其韧性被投资人视为比单纯的“Super smart”更珍贵的品质[14][15] 关键融资节点与投资方视角 - **高瓴资本**:作为最早的投资人,看重创始人将多种前沿技术系统性整合的视野以及从算法、工程到商业化的综合能力,投资决策迅速[8][11] - **米哈游**:基于打造虚拟世界的长期愿景与公司方向契合而投资,作为“创始人友好型”投资人,不过多干预运营,给予团队高度信任[14] - **明势资本**:在ChatGPT发布前成为公司第二轮融资的唯一新股东,认可创始人关于大模型“One Model for all”将改变AI商业化逻辑的判断,并欣赏其技术驱动的创业决心[17][18][20] - **阿里巴巴**:在2024年3月的Pre-B轮中投资4亿美元,该轮总融资额6.54亿美元,投后估值达25.5亿美元,阿里最初希望获得更高股比,最终成为公司最大外部股东[26] - **非传统VC投资人**:如中国人寿(看重团队可靠性与战略执行力)、柏睿资本(宁德时代背景,欣赏创始人在成本和算力受限条件下寻求发展的务实商业思维)等机构的加入,提供了多元的投资视角[27][29][30] 产品、技术与商业化策略 - 公司采取“模型+应用+平台”的均衡策略:星野/Talkie等陪伴型AI应用、海螺AI/语音生成内容工具、以及开放平台API业务各贡献约30%的收入,形成1:1:1的收入结构[32] - 技术研发上敢于集中资源押注前瞻方向,如2023年下半年全力投入MoE模型,2024年将80%研发资源投入线性注意力架构,最终推出M1模型[33] - 公司坚持探索面向普通消费者(to C)的AI应用路径,避免陷入上一代AI公司定制化to B项目的老路[19] - 在算力获取上展现出成本意识和运营能力,曾在大模型热潮前以半价租用到自动驾驶公司退租的GPU算力[19] 行业竞争格局演变 - ChatGPT的发布(2022年11月)是行业分水岭,之前公司是市场少数选择,之后进入“百模大战”,智谱、百川智能、零一万物、月之暗面等竞争对手快速涌现并获得融资[21][22] - 科技巨头态度影响格局:字节跳动曾考虑投资公司,但最终决定全部自研;阿里巴巴则采取“自研+投资”双线策略,广泛投资多家大模型公司[23][25] - 2024年后,随着字节、阿里等巨头全面投入,以及像DeepSeek这样不考虑商业化压力的开源模型出现,基础模型领域的融资频率降低,创业公司面临的竞争环境更加复杂[27] IPO表现与未来定位 - 公司于港股IPO,发行价165港元,上市首日午盘股价上涨超78%至294港元,市值达到898亿港元[5] - IPO被视为新一轮竞赛的“鼓点”,其核心目的是更高效地获取资源,以应对确定性的持续高研发投入和不确定性的商业化前景[2][3] - 公司的长期目标是持续参与并推动AI浪潮,在极大的不确定性中,用有限资源寻找成功概率,确保自身能“留在浪潮里”[32][34]
Garmin introduces Unified Cabin 2026, headlined by an AI/LLM-based conversational, multi-intent, multi-lingual virtual assistant
Prnewswire· 2026-01-06 19:59
公司新产品发布 - 佳明在2026年国际消费电子展上发布了新一代汽车座舱平台“Unified Cabin 2026” [1] - 该平台的核心是一个基于人工智能/大语言模型的虚拟助手,具备对话式、多意图和多语言能力 [1] - 该助手运行在单一系统芯片和单一安卓汽车操作系统实例上,支持无需重复上下文的自然对话跟进 [1] 平台核心技术特点 - 虚拟助手能通过大语言模型驱动的行动模型,从一个请求执行多个协调动作 [1] - 系统具备座位感知的音频和显示路由功能,确保信息准确传达给特定座位的乘员 [1] - 平台将显示屏、传感器、照明、音频和射频设备作为一个单一系统进行设计和集成 [3] 平台架构与优势 - Unified Cabin 2026是一个为规模化构建的连贯平台,旨在满足特定汽车制造商的定制化需求 [5] - 该平台是一个系统而非功能堆砌,通过同步所有组件来降低集成风险并缩短上市时间 [6] - 公司为汽车制造商提供了从原型到生产的共同开发路径,以在其硬件基础上开发创新软件功能 [5][6] 具体新功能与演示 - 数字钥匙:支持通过超宽带手机安全解锁和启动车辆 [6] - 设备自动连接:结合蓝牙信道探测与超宽带技术,定位车内设备并自动连接到对应座位 [6] - 个性化解决方案:可通过语音命令创建个人主题,包括360度天空盒和每份配置文件的系统衍生UI颜色及区域LED调色板 [6] - 座舱聊天与个人音频空间:乘客可通过每座视频、音频和头枕扬声器进行私密对话,无需转身或提高音量 [6] - 座舱灯光秀:所有显示屏和LED灯可根据电影内容进行协调,提供沉浸式同步体验 [6] - 元神经腕带集成:概念验证演示允许驾驶员和乘客通过腕部微手势控制特定车载信息娱乐功能 [6] 公司业务背景与客户 - 佳明汽车事业部利用其在汽车、航空和航海领域的用户界面及硬件设计经验,开发综合信息娱乐和域控制器解决方案 [8] - 公司多样化的制造能力支持广泛的汽车电子战略,包括智能视频行车记录仪、计算模块以及高级驾驶辅助系统功能 [8] - 公司在美洲、欧洲和亚洲设有办事处和生产设施,为宝马集团、福特、本田、梅赛德斯-奔驰、日产、丰田、吉利、川崎和雅马哈发动机等领先汽车制造商提供软硬件解决方案 [8]
清华挖出“幻觉”的罪魁祸首:预训练产生的0.1%神经元
36氪· 2026-01-06 16:31
文章核心观点 - 清华大学孙茂松团队从神经元微观机制角度研究大语言模型幻觉问题,发现一个极稀疏的神经元子集(H-神经元)能可靠预测幻觉,其与模型的过度顺从行为存在因果关系,且根源在于预训练阶段,这为开发更可靠的大模型提供了新思路 [1][2][3] 幻觉问题的普遍性与影响 - 幻觉是指模型生成看似合理但事实上不准确或缺乏证据支持的输出,是影响大模型可靠性的主要瓶颈 [1] - 例如,GPT-3.5在基于引用的事实性评估中约有**40%**的幻觉率,GPT-4将其降低到**28.6%**,但仍处于较高水平 [1] - 无论模型架构如何(如以推理为中心的DeepSeek-R1),幻觉现象始终存在 [1] 幻觉产生的宏观机制 - 训练数据分布不平衡和固有偏差使模型难以准确回忆长尾事实 [1] - 预训练和后训练目标(如next-token预测)更注重输出流畅性和表面有用性,而非事实准确性,促使模型对不熟悉信息进行错误猜测 [1] - 解码算法中的随机性和误差累积会引入不稳定性,使微小偏差逐渐累积成幻觉 [2] H-神经元的识别与特性 - 研究人员采用稀疏线性探测方法,将幻觉检测视为二元分类问题,使用L1正则化的逻辑回归从庞大参数空间中自动识别H-神经元 [9] - H-神经元是模型总神经元中一个极为稀疏的子集,通常仅占所有神经元的**不到千分之一(<0.1%)** [3][10] - 实验表明,仅凭这一小部分神经元构建的分类器,在幻觉检测上显著优于随机神经元分类器,准确率提升超过**10个百分点** [10] - H-神经元在不同场景下均展现出优越的泛化能力:在领域内数据集(TriviaQA、NQ)、跨领域生物医学问题(BioASQ)以及完全虚构问题(NonExist)上均保持有效性 [10] H-神经元的行为影响:过度顺从 - 通过系统性地扰动(缩放因子α从0到3)H-神经元的激活值,研究发现其与模型的“过度顺从”行为存在因果关系 [11][12] - 增强H-神经元激活(α>1)会显著削弱模型对错误前提、误导性上下文或有害指令的抵抗力 [13][15] - 抑制H-神经元激活(α<1)则能有效减少过度顺从行为,恢复模型的稳健性和完整性 [15] - 模型对神经元扰动的易感性与参数规模呈反比,较小的模型行为变化更剧烈 [15] H-神经元的起源 - 研究证实H-神经元起源于预训练阶段,在基础模型中就已建立并具备预测幻觉的能力,而非来自后训练对齐过程 [16][18] - 从基础模型到指令微调模型的转变中,H神经元的参数更新非常少,表明指令微调并不能重构底层的幻觉机制 [18] 研究结论与意义 - 该研究系统回答了三个问题:1)存在不到**0.1%**的神经元可准确预测幻觉;2)这些神经元与过度顺从行为(如对错误前提过度承诺、对有害指令增加遵循)密切相关;3)其根源在预训练阶段 [19] - H-神经元不仅编码事实性错误,更代表了一种优先考虑对话顺从性而非事实完整性的普遍倾向 [19] - 该工作加深了对幻觉计算层面产生的理解,为通过干预特定神经元子集来修改模型输出、开发更可靠的大模型提供了可操作的研究方向 [2][19]