大型语言模型(LLMs)
搜索文档
速递|Yann LeCun联合创立的AMI Labs完成10.3亿美元融资,"六个月后,每家公司都会自称是世界模型来筹集资金"
Z Potentials· 2026-03-11 10:10
AMI Labs 融资与战略定位 - 公司以35亿美元的投前估值成功筹集了10.3亿美元资金 [1] - 公司由图灵奖得主Yann LeCun离开Meta后联合创立,正在研发旨在理解现实世界的“世界模型” [1] - 公司首席执行官预测“世界模型”将成为下一个热门词汇,并认为其公司有本质不同 [1] 技术方向与行业背景 - 世界模型是一种从现实而非仅从语言中学习的人工智能,该领域的参与者目前比生成式AI少 [1] - 公司认为大型语言模型存在局限性,其产生的幻觉可能带来危及生命的后果,因此需要基于Yann LeCun于2022年提出的JEPA架构提供替代方案 [2] - 开发世界模型从理论走向商业应用可能需要数年时间,公司是一个始于基础研究的非常雄心勃勃的项目 [2][3] 融资详情与投资者构成 - 公司最终筹集了约8.9亿欧元,远超最初寻求的5亿欧元目标 [3] - 本轮融资由凯辉创新基金、Greycroft、Hiro Capital、HV Capital和贝索斯探险基金共同领投 [4] - 投资者还包括NVIDIA、三星、Sea、淡马锡、丰田风投以及多位知名个人投资者,如蒂姆·伯纳斯-李夫妇、马克·库班、埃里克·施密特等 [4][5] 团队实力与运营规划 - 公司团队实力雄厚,除Yann LeCun担任主席外,还包括Meta欧洲区副总裁Laurent Solly担任首席运营官,并汇聚了谢赛宁、冯雁、Michael Rabbat等知名研究员 [3] - 资金将主要用于支撑算力与人才两大核心成本中心 [4] - 公司计划在巴黎、纽约、蒙特利尔和新加坡四个关键地点优先考虑质量而非数量来组建团队 [4] 商业模式与合作伙伴 - 公司目前暂无营收计划,但打算尽早与潜在客户接触,将模型置于真实场景中用真实数据验证 [4] - 数字健康初创公司Nabla是公司首个公开披露的合作伙伴,预计将获得早期模型访问权 [1][5] - 公司计划通过合作伙伴探索部署方案,并认为本轮投资中工业巨头和潜在合作伙伴的参与与此有关 [5] 研发理念与开源策略 - 公司将在研发过程中持续发表论文 [5] - 公司承诺将开源大量代码,认为开放能加速进程,构建社区和研究生态系统符合其根本利益 [6] - 公司创始人认为开放式研究正变得“日益罕见”,但仍坚信其价值 [6] 行业动态与竞争格局 - 开发世界模型的公司正获得巨额投资,例如SpAItial筹集了1300万美元种子轮融资,李飞飞的世界实验室上个月获得了高达10亿美元的融资 [3]
种子轮10.3亿美元!谢赛宁加入,LeCun的世界模型公司太吸金了
机器之心· 2026-03-10 15:23
AMI Labs公司概况 - 公司全称为先进机器智能实验室,由图灵奖得主Yann LeCun牵头创办,于2026年1月在巴黎正式启动[1][6] - 公司完成了10.3亿美元的种子轮融资,估值达到35亿美元,融资额超过最初寻求的5亿欧元,最终筹集约8.9亿欧元[1][4][19] - 公司初始团队约12人,全球分布四个地点:巴黎、纽约、蒙特利尔和新加坡,有意发掘硅谷以外的人才[13] 公司核心技术与愿景 - 核心目标是构建一种新型AI系统,该系统能理解世界、拥有持久记忆、能够推理和规划,并且是可控和安全的[4][14] - 技术路线是开发“世界模型”系统,让模型学会将现实世界数据压缩成抽象表示,忽略随机细节,在“表示空间”进行预测和规划[11] - 判断当前AI从语言开始存在局限,真正的智能应从“世界”开始,以处理来自摄像头和传感器的高维、连续、充满噪声的真实世界数据[11] - 技术基础基于Yann LeCun在2022年提出的联合嵌入预测架构[17] 团队核心成员 - 执行董事长为图灵奖得主、前Meta AI负责人Yann LeCun[1][6] - 首席执行官Alexandre LeBrun同时也是医疗AI独角兽Nabla的CEO,并强调公司从基础研究开始,产品化需要时间[17] - 首席科学官为顶尖青年华人科学家谢赛宁,其Google Scholar文献被引用次数达9.8万,h-index为50,其关于Diffusion Transformers的工作是OpenAI Sora的基石[20][21][24][25] - 其他高管包括Meta欧洲副总裁Laurent Solly任首席运营官,Pascale Fung任首席研究与创新官,Michael Rabbat任世界模型副总裁[19] 市场定位与竞争格局 - 公司定位为前沿AI研究实验室,并非传统的实验室或典型的AI应用初创公司[2][3][17] - 2026年AI圈迎来世界模型的“终极对决”,此前李飞飞的World Labs获得了10亿美元融资,欧洲初创公司SpAItial也筹集了1300万美元天使轮融资[6][18] - 公司高管预测世界模型将成为下一个热门词汇,并认为六个月后每家公司都会自称世界模型以筹集资金[17] 应用场景与发展规划 - 目标应用领域包括对可靠性、安全性和可控性要求很高的场景,如工业过程控制、自动化系统、可穿戴设备、机器人以及医疗[12] - 首个合作伙伴将是医疗AI独角兽Nabla[17] - 公司预计在推出首个实际应用前,至少需要一年的研究时间,从理论到商业应用可能需要数年[17]
CSET:《物理AI:面向政策制定者的AI-机器人技术融合入门指南》
欧米伽未来研究所2025· 2026-03-02 20:59
文章核心观点 - 人工智能发展的下一个核心阶段是物理AI(Physical AI),即AI与机器人技术的融合,旨在赋予自主系统在真实物理世界中感知、理解和执行复杂动作的能力 [2][3] - 物理AI的发展面临软件突破与硬件桎梏的鲜明对比,软件算法进展迅速,但硬件供应链在标准化、关键组件量产等方面存在巨大瓶颈 [4][5] - 全球竞争格局呈现中美在软件与规模上领先,而欧日企业控制核心硬件供应链的复杂局面,没有国家拥有完全垂直整合的供应链 [6][7][8][9] - 当前市场存在炒作与现实的背离,人形机器人虽受关注但实际部署和收入占比极低,而特定任务的仓储和工业机器人已吸引大量资金并实现规模应用 [10] - 实现通用人形机器人仍需在关键硬件、数据、供应链标准化等方面取得跨越式突破,物理AI的黎明已现但发展之路漫长 [11][12] 软件突破与硬件桎梏:实体AI的技术基本面 - 实体AI的兴起源于AI算法突破与机器人硬件供应链改善的偶然交汇,可能形成类似“摩尔定律”的积极反馈循环 [4] - 软件供应链的核心在于突破性AI算法:大型语言模型(LLMs)作为高层推理引擎;多模态基础模型整合视觉、语言和推理;强化学习提升技能获取效率;“从模拟到现实”技术降低真实数据收集成本 [4] - 机器人硬件供应链面临长期存在的技术与经济壁垒,五大核心硬件系统包括结构组件、执行器、动力系统、计算系统和传感器 [5] - 关键硬件如电池、电机、传感器和执行器的演进速度远慢于软件,且供应链严重缺乏标准化,各公司采用独特技术路线和物料清单,阻碍规模经济并推高成本 [5] - 人形机器人的关键硬件,如六维力矩传感器、触觉传感器及行星滚柱丝杠,缺乏大规模量产能力,成为产能爬坡的严重瓶颈 [5] 全球竞争格局:中美的资本角逐与欧日的隐形巨头 - 全球没有国家拥有完全垂直整合的机器人供应链,相互依赖度极高 [6] - 美国在AI基础模型和软件生态系统占据绝对先发优势:Alphabet(谷歌母公司)的PaLM-E、RT系列及Gemini Robotics-ER模型;英伟达的GROOT基础模型、Isaac平台及Cosmos世界模型;微软、Meta通过合作或开源模型切入该领域 [7] - 美国初创公司吸金能力强,例如Skild AI和Physical Intelligence在2024年分别筹集了数亿美元 [7] - 中国的竞争力体现在庞大的研究产出、快速增长的专利及无与伦比的硬件制造与部署规模:2018至2023年间,中国占全球机器人相关学术文章发表量的28%,远超美国的16%和日本的7%;中国每年安装近29万台工业机器人,超过日本、美国、韩国和德国的总和 [8] - 中国企业积极研发机器人优化的国产大模型,并涌现出宇树科技、优必选、智元机器人等众多人形机器人研发厂商 [8] - 日本和欧洲的“隐形冠军”企业扼守硬件供应链核心:日本企业如哈默纳科、纳博特斯克、尼得科在精密机械齿轮、电机和执行器领域保持高市场份额,其中哈默纳科控制其精密齿轮80%的市场份额;德国企业如博世力士乐、雄克在末端执行器等灵巧操作核心组件上极具竞争力 [9] 剥离炒作:万亿市场的商业现实与政策启示 - 金融界对市场前景预测乐观,如摩根士丹利断言人形机器人市场将从目前的数千万美元增长到2050年的5万亿美元,但此类预测被指出具有高度投机性且缺乏清晰定义 [10] - 市场存在显著认知反差:人形机器人虽受媒体热捧,但在真实世界中独立导航和处理灵巧任务仍困难,其在总机器人市场收入中的占比可能不足1% [10] - 资本实际大量流向实用型机器人:过去五年中,致力于仓储机器人的公司筹集了约205亿美元,而同期人形机器人市场仅筹集了约46亿美元 [10] - 目前表现最好的机器人是针对特定任务(如分拣包裹或移动托盘)在软硬件上高度优化的机器人,通用AI驱动的、可灵活切换任务的机器人仍是遥不可及的愿景 [11] - 政策制定者缺乏成熟的机器人政策议程和严谨分析框架,应集中资源解决高质量触觉传感器、运动学硬件及真实世界数据严重匮乏等痼疾,以推动机器人在航空航天、国防等关键战略领域的实质性应用 [11]
MIT最新VirtualEnv:新一代具身AI仿真平台,高保真环境交互
具身智能之心· 2026-01-15 08:32
核心定位与解决的问题 - 现有具身AI仿真平台存在局限,如场景僵化、缺乏泛化性或可编程性不足,无法满足对大型语言模型在真实、交互性强的环境中进行严谨评估的需求 [2] - 麻省理工学院等多所大学的研究团队提出基于Unreal Engine 5的下一代仿真平台VirtualEnv,旨在构建一个支持语言驱动、多模态交互的具身AI研究环境 [2] - 该平台的核心目标是实现细粒度的LLM基准测试,覆盖物体操作、导航、多智能体协作等复杂场景,并为AI与游戏交叉领域提供标准化测试床 [2] 平台优势与功能设计 - VirtualEnv是唯一支持3D多房间加室内-户外(3D-MIO)环境的平台,突破了单一场景限制 [5] - 平台包含140,000个独特任务,覆盖约束无关、空间、时间、异质性四大类别 [5] - 平台同时支持多智能体协作、语言交互和高层动作空间,适配LLM驱动的具身研究 [5] - 基于Unreal Engine 5实现高保真渲染,搭配超过20,000个交互式资产,支持细粒度物体操作和物理真实的交互反馈 [5][9] - 提供多模态感知数据,包括RGB、深度传感器数据、语义分割和全景俯视图,为智能体提供全面的环境感知维度 [9] 语言驱动的交互与场景生成 - 平台原生支持LLM和视觉语言模型集成,通过轻量Python API实现语言与环境的深度联动 [6] - 用户可通过输入自然语言指令(如“设计一个两名侦探合作破解谜案的密室”)来生成任务与场景,系统能自动分解指令、识别所需物体并渲染环境,无需手动编写脚本 [6] - 支持通过自然语言指令动态修改环境(如“把钥匙放进盒子里”),系统将其转换为编辑指令并更新场景图,实现无手动干预的精准环境调整 [8] 实验验证与关键发现 - 在视觉真实度盲测实验中,VirtualEnv获得4.46±1.02分(满分5分),显著高于OmniGibson、AI2-THOR等竞争对手 [12] - 对比实验显示,具备思维链能力的推理型大型语言模型平均任务完成率比非推理型模型高出11%,在复杂多步任务中优势更明显 [15][16] - 任务难度差异显著,例如“Watch TV”任务顶尖模型成功率超过85%,而“Find Object”任务因需开放式搜索,成功率下降25个百分点,方差近乎翻倍 [16] - 多智能体协作能提升任务效率,例如在“Prepare Food”任务中,Claude 3 Opus的成功率从0.88提升至0.92 [16] 失败模式与优化潜力 - 分析归纳出六类主要失败模式,包括探索死胡同(30.4%)、虚幻目标追求(18.5%)、状态幻觉(15.2%)、协作故障(14.1%)、物理规则违反(12.0%)和感知混淆(9.8%) [16][21] - 前三大失败模式占比近三分之二,针对性优化有望将顶尖模型的任务成功率提升7.4%,使其接近人类在常规任务中的表现 [19] 总结与行业价值 - VirtualEnv构建了一个高保真、强交互、多模态的具身AI仿真平台,突破了现有仿真器的场景和功能局限 [20][21] - 该平台提供了标准化的测试床,可实现大型语言模型在具身场景中推理、规划、协作能力的可重复对比评估 [21] - 平台的开源将释放社区潜力,推动AI与游戏、仿真领域的交叉研究,为语言引导智能体、程序化任务生成等方向提供基础架构 [21] - 该平台未来有望成为具身AI研究的核心工具,加速大型语言模型在真实交互场景中的落地,并为交互式娱乐、机器人导航等应用提供技术支撑 [20]
Meta据称再现人事震荡,首席AI科学家杨立昆计划离职
凤凰网· 2025-11-11 21:42
公司核心管理层变动 - Meta首席人工智能科学家杨立昆计划在未来几个月内离职,受此消息影响公司美股盘前跌超1% [1] - 杨立昆离职后,其汇报关系由直接向首席产品官汇报改为向新成立的AI部门负责人汪滔汇报 [2] - 此次离职是Meta人工智能领域一系列高层变动的延续,包括今年5月人工智能研究副总裁Joelle Pineau离职以及上月AI研究部门约600人被裁员 [3] 公司AI战略调整与资源投入 - 公司首席执行官扎克伯格正重新调整AI战略,将重点从长期基础研究转向快速推出AI模型与产品以抗衡OpenAI和谷歌等竞争对手 [1] - 作为战略调整的一部分,公司今年夏天向AI初创公司Scale AI投资了143亿美元,并聘请其首席执行官与GitHub前首席执行官共同领导新成立的“超级智能实验室” [1] - 扎克伯格亲自组建名为“TBD Lab”的精英小组专注于下一代大型语言模型研发,并以最高可达1亿美元的薪酬从竞争对手处挖角顶级人才 [2] - 公司对AI领域的巨额投入引发资本市场担忧,财报显示明年AI支出可能超过1000亿美元,导致股价自公布以来大跌近15% [3] AI技术路线分歧与高管动向 - 杨立昆与扎克伯格在AI发展方向上存在明显分歧,杨立昆认为大型语言模型虽实用但无法实现人类式推理,他专注于开发通过视频和空间数据学习理解物理世界的“世界模型” [2] - 杨立昆的“世界模型”架构成熟可能需要十年时间,其离职后的创业项目将继续围绕此研究方向展开 [2] - 战略转向的部分原因是公司此前推出的Llama 4模型性能逊于竞争对手,且其AI聊天机器人未能获得用户青睐 [2] 公司内部影响 - 公司以超高薪水引入外部AI人才的做法引发了内部老员工的不满情绪 [3]
2nm,印度也要搞?
半导体行业观察· 2025-10-19 10:27
印度半导体设计能力 - 印度联邦信息技术部长展示印度产晶圆模型,其性能已可媲美国际顶级厂商产品[1] - 印度已能够设计2纳米芯片,从早期的5纳米、7纳米进一步迈进,这些是目前最复杂、最微小的芯片[1] - 芯片可以小到显微镜难以看见,比人类头发细1万倍,生产中因停电五分钟曾造成2亿美元损失,化学品和气体纯度需达到十亿分之五百级别[1] - 全球约20%的芯片设计工程师来自印度,为印度在先进芯片设计领域提供了独一无二的实力[1] 印度政府政策与激励措施 - 2022年印度调整战略,现承担所有制造单位、芯片测试和封装单位项目成本的50%,无论芯片尺寸大小[2] - 2021年印度内阁批准印度半导体计划,拨款7600亿卢比用于促进制造、设计和生产[2] - 2023-2025年印度国内外企业将投入巨资快速建设大型设施,印度半导体计划项目已获批项目总数将达到10个,累计投资额约16亿卢比,覆盖6个邦[2] - 印度政府为生产有源和无源电子元件的公司提供财政支持,为芯片制造商创造潜在的国内买家-供应商基础[2] 印度半导体产业里程碑与投资进展 - 在2025年全球投资者峰会上,印度宣布首款本土半导体芯片将于今年投入生产,目前有五个生产单元正在建设中[3] - 2025年印度在诺伊达和班加罗尔开设首个先进3纳米芯片设计中心,这是印度首个此类中心[2] - 印度中央邦在IT和电子领域取得重大进展,开设第一个IT园区,并计划在未来六年内投资15亿卢比[3] - 2025年7月,受印度政府芯片设计计划支持的初创公司Netrasemi获得10.7亿印度卢比的风险投资,致力于制造用于智能视觉、闭路电视摄像机和物联网应用的芯片[3] 印度半导体技术发展方向 - 印度正在从传统的硅基半导体转向最新的碳化硅基半导体[3] - 在设计方面,印度的路线图是引入更先进的3D玻璃封装技术,该技术对于国防系统、导弹、雷达和太空火箭等领域至关重要[3] - 来自中国台湾和英国的晶圆厂以及来自美国和韩国的半导体封装公司都表现出帮助印度实现半导体目标的兴趣[2]
速递|获1.34亿美元巨额种子轮,General Intuition利用电子游戏,训练智能体空间推理能力
Z Potentials· 2025-10-17 11:04
公司概况与融资 - 公司General Intuition是从视频游戏片段平台Medal分拆出的前沿人工智能研究实验室 [2] - 公司成功获得由Khosla Ventures和General Catalyst领投、Raine跟投的1.337亿美元巨额种子轮融资 [3] - 公司计划利用融资扩大其专注于训练通用智能体的研究工程师团队 [5] 核心技术与数据优势 - 公司利用Medal庞大的游戏视频库进行训练,该数据集包含每年来自数万款游戏中1000万月活用户产生的20亿条视频 [2] - 公司押注该数据集在训练智能体方面优于Twitch或YouTube等替代平台,因玩家上传片段包含训练所需的宝贵边界案例 [2] - 公司的模型能理解未经训练的环境并准确预测行为,仅通过视觉输入实现,智能体只能看到人类玩家可见的画面 [5] - 公司的核心技术是时空推理能力,即理解物体和实体如何在时空中移动的概念 [2][8] 应用场景与商业化路径 - 公司技术初期将应用于游戏和搜救无人机领域 [5] - 在游戏应用方面,公司专注于开发能适应任何难度级别、使玩家胜率保持在50%左右的非玩家角色,以最大化玩家参与度和留存率 [8] - 公司方法可自然迁移到机械臂、无人机和自动驾驶车辆等物理系统 [5] - 公司专注于开发搜救无人机,使其能在没有GPS的情况下导航陌生环境 [8] 战略定位与差异化 - 公司的目标不是生产与游戏开发商竞争的模型,以避免版权问题 [7] - 与构建世界模型的竞争对手不同,公司的世界模型并非最终产品,而是专注于其他应用场景 [6] - 公司下一个里程碑是生成新的模拟世界以训练其他智能体,以及自主导航完全陌生的物理环境 [6] - 公司认为时空推理能力是通往人工通用智能的关键拼图,弥补了大型语言模型所缺乏的能力 [8]
港科&理想最新!OmniReason: 时序引导的VLA决策新框架
自动驾驶之心· 2025-09-11 07:33
核心观点 - 香港科技大学(广州)与理想汽车团队提出OmniReason框架 一种新型视觉-语言-动作(VLA)框架 通过联合建模动态3D环境及决策过程构建时空推理能力 解决现有自动驾驶视觉语言模型忽略时间维度的问题 [2][6][7] - 框架包含大规模数据集OmniReason-Data(含OmniReason-nuScenes和OmniReason-Bench2Drive)和OmniReason-Agent架构 通过幻觉抑制自动标注流程提供密集时空标注和自然语言解释 确保物理合理性和时间连贯性 [2][6][8] - 在开环规划和视觉问答基准实验中达到最先进性能 平均L2误差0.34米 碰撞率0.40% 违规率3.18% 在CIDEr指标实现37.6%提升 BLEU-1提升100.1% 显著缩小自动驾驶系统与人类驾驶员差距 [3][25][26] 数据集构建 - OmniReason-Data基于nuScenes和Bench2Drive框架 包含高质量视觉问答对 涵盖静态与动态描述及四维域内因果推理和动作信息 通过多模态大语言模型理解时空信息和因果推理 [6][13] - 采用统一场景感知标注流程 结合人类先验知识、任务分解和大语言模型推理 从多视角视频流和目标级空间标注生成语言-动作对 通过Qwen2.5VL 72B模型生成多步因果链 阐释代理行为、环境上下文和交通规则相互作用 [14][15] - 标注框架基于结构化场景分析 自动生成高质量可解释语言-动作对 减少幻觉现象 提供丰富多模态推理信息 确保数据集捕捉时间动态和因果关系 严格对齐现实驾驶场景 [8][15] 架构设计 - OmniReason-Agent为端到端VLA架构 集成稀疏时间记忆模块和解释生成器 通过知识蒸馏将专家决策模式和自然语言推理注入模型 实现上下文感知且高度可解释的自动驾驶行为 [2][7][8] - 稀疏时间记忆模块通过运动补偿、记忆感知特征传播和多模态融合实现时序一致感知 几何对齐补偿自车运动 记忆条件归一化传播对象状态 查询传播保持跨帧身份一致 在复杂场景下保持目标轨迹稳定 [18][20] - 采用复合损失函数对3D目标检测与结构化场景理解联合优化 包含目标类别识别、空间定位、车道及道路结构分析 通过加权损失平衡不同任务 [21][22] 性能表现 - 开环轨迹规划任务中平均L2误差0.34米 与ORION持平 优于BEV-Planner的0.55米和DriveVLM的0.40米 碰撞率0.40% 违规率3.18% 创最优纪录 优于BEV-Planner的4.26%和VAD-Base的3.82% [25] - 驾驶视觉问答任务在OmniReason-nuScenes基准上CIDEr指标提升37.6% BLEU-1提升100.1% BLEU-4提升224.0% 在OmniReason-Bench2Drive基准上CIDEr提升9.0% BLEU-1提升53.6% BLEU-4提升210.8% ROUGE-L指标持续领先 [26] - 消融研究显示环境描述使BLEU-1得分提升7.6% 动态对象描述将碰撞率降至0.37% 时序记忆模块使L2距离从0.38降至0.34 碰撞率从0.44降至0.40 交互率从3.65降至3.18 [27][28][29] 技术优势 - 框架独特支持零样本端到端规划能力 突破刺激-响应映射局限 实现对因果-时间推理原则显式落地 填补现有系统在建模动态环境刺激与车辆响应间因果关系的空白 [12] - 通过多模态监督和自然语言推理提升自动驾驶基准真实性、可解释性和覆盖度 为场景理解和动作生成研究奠定坚实基础 树立可解释性与真实性新标杆 [6][8] - 在安全性、舒适性和可解释性指标达到最先进水平 决策质量和解释能力显著提升 增强真实场景下自动驾驶可靠性和理解能力 [7][8]
Z Tech|9月9日线上对话Meta FAIR研究科学家:利用Confidence动态过滤,告别低效推理
Z Potentials· 2025-09-06 12:40
DeepConf方法技术特点 - 通过利用大型语言模型内部置信度信号动态过滤低质量推理轨迹 实现推理效率和性能双重提升 [1] - 无需额外模型训练或超参数调优 可无缝集成现有服务框架 [8] - 分为离线和在线两种操作模式 在线模式相比全并行推理最多减少84.7%生成Token [8][10] 性能表现数据 - 离线模式下DeepConf@512在GPT-OSS-120B模型上实现99.9%准确率 远超传统多数投票的97.0% [10] - 在线模式下在保持准确率提升的同时显著降低计算开销 [10] - 在包括AIME2025在内的多个推理基准测试中均表现优异 [10] 相关技术研究背景 - 研究覆盖低秩梯度/权重结构、张量分解、Quantized GaLore等内存优化方法 [6] - GaLore利用梯度低秩结构显著节省内存和计算资源 相关成果发表于ICML 2024 [12] - Mini-Sequence Transformers针对长序列训练进行中间内存优化 成果发表于NeurIPS 2024 [12] 研究人员背景 - Jiawei Zhao是Meta FAIR研究科学家 拥有加州理工学院博士学位 专注于LLM和深度学习优化方法 [5] - Yichao Fu是加州大学圣地亚哥分校博士生 聚焦LLM推理优化与系统优化 [8] - 研究人员曾开发"Efficient LLM Scheduling by Learning to Rank"发表于NeurIPS 2024 [8]
ACL 2025|驱动LLM强大的过程级奖励模型(PRMs)正遭遇「信任危机」?
机器之心· 2025-07-27 16:45
大型语言模型与过程级奖励模型 - 大型语言模型(LLMs)在复杂推理任务中的能力提升很大程度上依赖过程级奖励模型(PRMs)的赋能 [1] - 最新研究发现现有PRMs在识别推理过程细微错误方面表现不佳,甚至可能不如随机猜测 [2] - 当前评估方法过度关注最终结果正确性,忽视对推理过程中错误类型的细粒度识别 [3] PRMBench基准的核心价值 - PRMBench是首个专为评估PRMs精细化错误检测能力设计的挑战性基准 [4] - 包含6216个问题和83456个步骤级细粒度标签,覆盖各种复杂推理场景 [11] - 从简洁性、合理性和敏感性三大维度细分九个评估子类别 [11] - 相比其他基准,PRMBench在错误类型检测、步骤评估等方面具有全面优势 [18] PRMBench的关键发现 - 表现最佳模型Gemini-2-Thinking的PRMScore仅68.8,远低于人类水平的83.8 [11] - 开源PRMs普遍落后于将主流LLMs提示为Critic模型的性能 [11] - 简洁性维度成为最大挑战,最佳模型ReasonEval-34B得分骤降至51.5 [17] - 部分模型存在显著"阳性偏好",正确步骤识别准确率超95%,但错误步骤识别仅17% [17] PRMs的潜在问题与局限性 - PRMs性能随错误步骤在推理链中位置后移而渐进式提升 [33] - 少样本ICL对闭源模型性能影响有限,提示需要更深层次的改进 [36] - PRMs易受"假阳性"影响,存在被模型"钻空子"的风险 [37] - 现有PRMs在多步过程评估中能力有限,提升空间巨大 [27] 研究意义与行业影响 - PRMBench将推动过程级奖励模型评估研究的范式转变 [42] - 为未来PRM开发提供关键指导,助力构建更可靠的AI系统 [42] - 促进开发更具鲁棒性和泛化能力的模型 [42] - 成为推动过程级奖励模型发展的坚实基石 [41]