Workflow
机器之心
icon
搜索文档
ICLR 2026北京论文分享会启动,直击「AI龙虾」、世界模型新范式
机器之心· 2026-03-17 19:31
人工智能行业技术趋势 - 2026年人工智能领域出现具备高主动性和强活人感的私人Agent助理OpenClaw,成为新一代人机交互的标杆[2] - 世界模型获得前所未有的关注,英伟达创始人黄仁勋在CES 2026推出世界模型平台Cosmos[2] - 图灵奖得主Yann LeCun的世界模型创业公司AMI Labs完成10.3亿美元种子轮融资[2] - 行业正经历从“交互范式”到“物理AI”的全方位技术狂飙[2] 顶级学术会议动态 - ICLR 2026将于4月23日至27日在巴西里约热内卢举行[2] - 会议官方收到有效投稿约19000篇,总录取率约为28%[2] - ICLR是机器学习领域的顶级会议,具有极高含金量,每年吸引大量研究机构和高校参会[2] 行业交流活动安排 - 机器之心计划于4月18日在北京举办“ICLR 2026论文分享会”[4] - 分享会设置Keynote、论文分享、圆桌对话、Poster展示环节,聚焦Agent、世界模型等热门主题[7] - 活动时间为北京时间4月18日09:00-17:30,地点为北京中关村皇冠假日酒店3F,线下名额200名[7] - 活动旨在为AI从业者搭建自由轻松的学术交流平台,并邀请论文作者分享或展示Poster[4][7] 行业合作伙伴与生态建设 - 博世集团作为全球领先的技术和服务供应商,是本次活动的合作伙伴[10] - 博世在智能出行、工业技术、能源与建筑技术、消费品等领域深耕,致力于全球社会的可持续发展[10] - 2025年,机器之心联合多个合作伙伴发起了ICLR、CVPR、ACL等多场论文分享会及海外AI Talent Meetup,以助力合作伙伴吸纳人才并提升品牌影响力[13] - 企业可联系机器之心参与“2026学术顶会活动”的合作及共建[14]
在「想象」中练就真机能力:RISE,让VLA强化学习告别真机试错
机器之心· 2026-03-17 19:31
文章核心观点 - 香港大学OpenDriveLab团队提出的RISE框架,通过构建组合式、多视角世界模型,使机器人在虚拟想象空间中进行强化学习,有效解决了VLA模型在长程复杂任务中面临的两大根本挑战:模仿学习的误差累积和真机强化学习的高成本[2] - RISE框架在三大极具挑战性的真机长程任务中,性能相比SOTA基线实现跨越式提升,部分任务成功率涨幅超45%,展现了从物理试错到思维进化的具身智能范式跃迁潜力[2][23][35] 传统VLA模型的落地难题 - VLA模型落地面临三重枷锁:模仿学习的暴露偏差、真机强化学习的现实难题、以及现有世界模型的能力短板[7][8] - 模仿学习依赖专家演示数据,模型在真实执行中一旦偏离轨迹便无法自我修正,导致长程任务中误差逐步放大[9][10][13] - 真机强化学习存在样本效率低、安全风险高、重置成本高三重现实约束,需要海量交互数据(动辄数百万次尝试)且易造成硬件损坏[11][13] - 现有生成式世界模型难以同时兼顾动作可控性和长程一致性,导致无法精准跟随动作指令、长序列视频预测失真或违背物理规律,无法作为强化学习的有效训练环境[11][13] RISE框架的核心创新与架构 - RISE的核心创新在于将物理交互完全迁移到由组合式世界模型构建的想象空间中,通过虚实解耦的设计,解决了高保真模拟问题并构建了高效的策略自进化闭环[16][17] - 组合式世界模型采用解耦设计,分为可控动力学模型和进度价值模型两个独立优化模块[18] - 可控动力学模型(模拟器)采用Task-Centric Batching策略,专注于动作指令的跟随,实现虚拟动作与真实操作的高度对齐[18] - 进度价值模型(裁判员)融合进度估计和时序差分学习,为长程任务提供密集奖励信号,并增强对细微失败的敏感性[18] - RISE构建了完全在想象空间运行的在线强化学习闭环,包含Rollout、评估、训练三个阶段,无需任何真机交互即可实现策略高效迭代[19][20] - 该架构通过解耦和对齐,让虚拟想象空间无限贴近真实物理世界,其核心逻辑是“模型解耦建沙盒,轨迹迭代优策略”[21][22] RISE的性能验证结果 - 在动态积木分拣、背包装袋、纸盒闭合三大真机长程任务中,RISE相比SOTA基线实现成功率跨越式提升[24][25] - 动态积木分拣:成功率从RECAP的50%提升至85%,涨幅35个百分点[26][29] - 背包装袋:成功率从30%提升至85%,涨幅45个百分点[26][29] - 纸盒闭合:成功率高达95%[26][29] - 消融实验证明RISE各模块设计均为性能关键,任何组件缺失都会导致性能显著下降[27] - 去除Task-Centric Batching,任务完成率直接下跌[27][30] - 去除TD Learning,价值模型无法敏锐捕捉细微失败状态[27][30] - 脱离在线动作与在线状态,模型泛化能力大幅降低[27][30] - RISE训练出的策略具备从失败中恢复的真实智能,展现出抗干扰和位置泛化能力[28][31] - 在模型生成质量评估中,RISE的动力学模型在FVD和EPE等定量指标上均实现最优,视频生成精度和动作跟随能力更优,且能生成清晰、符合物理规律的多视角未来帧[32][34] 行业启示与未来展望 - RISE框架的价值在于对学习本质的重估,它将昂贵、高风险的物理交互成本转化为可扩展的计算成本,使机器人在思维沙盒中完成自我博弈与迭代[35] - 该框架标志着从隐向量世界模型到组合式多视角、像素级世界模型的底层范式跃迁,想象训练正在成为具身智能发展的核心方向[35] - 未来,当世界模型精度逼近物理现实,机器人有望在虚拟想象空间中预演和打磨技能,实现“满级出厂”,从而大幅降低物理世界对智能体成长的代价[35][36][37]
老黄呼吁所有企业「养虾」当天,阿里正规军入场,「悟空」把路铺平了
机器之心· 2026-03-17 18:03
文章核心观点 - AI智能体(Agent)的发展正从面向个人开发者的“聊天”和极客玩具阶段,迈向面向企业的“做事”和生产力工具阶段,但企业因安全、管理、集成等“信任问题”而集体观望 [5][6][13][18] - 阿里巴巴推出的企业级AI原生工作平台“悟空”,旨在解决企业级部署的信任与集成难题,其核心价值在于将钉钉十年积累的治理框架与连接能力转化为AI可用的基础设施,使Agent成为可管理、可审计、可规模化的企业生产系统 [7][9][10][24][32] - 行业竞争焦点已从Agent能否完成任务,转向谁能率先将其转化为“企业可大规模部署的生产力基础设施”,解决“敢用”问题是赢得企业市场的关键 [22][41] 企业采用AI智能体的现状与挑战 - **企业面临“集体性迟疑”**:历史教训(如好时巧克力1999年、骑士资本2012年)导致大公司在引入新工具时极为谨慎,OpenClaw的流行并未消除企业的根本顾虑 [1][11][13] - **OpenClaw的局限性**:主要面向开发者,存在环境依赖复杂、权限管理困难(如3000人公司相当于开3000个后门)、任务崩溃、数据安全与责任追溯等问题,被多数企业视为极客玩具,不敢用于正式生产环境 [6][13][20] - **核心挑战是信任与集成**:企业无法接受“先跑通,再修补”的极客模式,要求提供包含权限管理、数据安全、全生命周期追踪的完整“保险”;同时,现有Agent设计为个人操作系统,难以融入企业横跨多个系统(钉钉、飞书、ERP、CRM)的复杂工作流 [18][20] 阿里巴巴“悟空”平台的解决方案 - **定位与目标**:作为企业级AI原生工作平台,主打“企业可用级安全、商业可交付的企业智能体”,解决如何让企业安全、放心地部署并有效运行Agent的核心问题 [7][9] - **继承并强化治理框架**:底层继承钉钉十年积累、经过极限压力测试的治理体系,包括权限分级、数据隔离、操作留痕、问题追责和成本核算,并新增安全沙箱运行和token消耗透明化,从第一天起就具备企业级安全边界 [24][25][26] - **重构连接能力**:将钉钉已有的业务连通能力进行CLI(命令行界面)化重构,使悟空内的Agent能原生调用钉钉上千项能力,实现“沟通即执行”,而非低效模拟人类点击界面,扫清了在企业干活的障碍 [28][29][30] - **实现工作流耦合与规模化**:悟空天然集成于企业组织,自动继承权限规则,并可连接Slack、微信、飞书等主流工具,将模型、工具、沟通入口和工作流串联;个人跑通的流程可封装为模板一键推广全公司,实现了从“个人效率工具”到“组织级生产力平台”的跨越 [32] 行业竞争格局与发展趋势 - **竞争焦点转移**:行业竞争已从“Agent能否完成任务”转向“谁能率先将其转化为企业可大规模部署的生产力基础设施”,要求Agent完成从“单打独斗”到“正规军作战”的蜕变 [22] - **技术路线分化**:OpenAI早期走to C大众化路线,而Anthropic的Claude系列深耕真实生产场景;趋势表明,能对话的模型很多,但能嵌入产线干活的需另一套技术路线,悟空与OpenAI近期重视的战场一致 [34] - **企业级壁垒在于积累**:企业级Agent的壁垒并非单纯技术,而是需要数年积累的权限体系、组织数据、合规能力和商业基础设施;悟空依托钉钉的11年企业服务底座、8亿用户、2700万家组织,形成了难以复制的优势 [37][38] - **战略资源倾斜**:阿里为“悟空”单独成立事业部,并将其置于C位,集团内淘宝、天猫、支付宝、阿里云等业务的商业服务能力正以Skill形式向悟空集中,显示了全力发力企业端AI应用市场的决心 [38][39] - **市场时间窗口**:“龙虾热”完成了全民对Agent的认知教育,让企业看到了巨大可能性,但企业买单的前提是“敢用”,谁先解决“敢”字,谁就能最先获取最大的生产力红利 [40][41]
一家00后创办的世界模型公司,凭什么让华为哈勃重金押注?
机器之心· 2026-03-17 18:03
公司融资与战略定位 - 魔芯科技近期完成了Pre-A+轮近亿元融资,由华为哈勃领投,老股东跟投 [1] - 公司成立于2021年,从3D AI物体建模与制造起步,目标发展为让AI具备对三维物理世界的生成、理解与交互能力 [1] - 公司定位为面向产业提供世界模型与空间智能底座能力,而非单点模型或应用,致力于构建通用3D数据基座并已沉淀PB级实景三维数据资产 [8] - 本轮融资将主要用于3D/4D空间大模型研发迭代、数据与算力基础设施建设、核心团队扩充以及重点场景的商业落地 [11] 核心技术路线与科研突破 - 公司采取独特技术路线,研究大规模扩展的纯隐式空间建模,以替代传统的逐场景优化或基于三维高斯泼溅等中间表示的方法 [3] - 团队发现了空间智能模型的“Scaling Law”,即当训练数据在视角覆盖、时序跨度和场景多样性等维度扩展,且模型容量与训练算力同步增长时,模型在几何一致性、细节完备度及空间关系理解能力上呈现可预测提升 [3] - 基于此规律,公司正推动3D/4D空间建模和理解从“单场景优化”迈向“实时在线使用大模型推理”的时代 [4] - 公司开发的空间智能大模型能够实时开展场景漫游和深度点云生成 [6] 产品化与产业化应用进展 - 公司在3D AI物体建模的商业化应用中已积累数十万名用户 [8] - 2025年11月,公司与合作伙伴的研究表明,其4D空间智能模型能突破现有具身视觉-语言-动作模型的能力上限,相关论文已被CVPR2026接收 [8] - 2025年12月,公司在华为(杭州)培训中心发布了交互式视频世界模型“KOKONI-World”原型,支持数分钟级、全高清(1080p)的实时交互,多项关键指标达行业领先水平 [8] - 公司已形成从数据处理、模型训练、推理部署到API服务、私有化交付的全链路能力 [8] 行业合作与商业落地 - 公司已在影视娱乐、数字孪生、自动驾驶、具身智能等多个方向与各领域头部企业展开合作与验证,标志着其技术正从验证走向真实产业场景的规模化落地 [9] - 公司寻求与更多前沿领域探索者共享与共建其经过实战验证的规模化3D数据集,以共同定义下一代空间智能的标准 [9] 团队与未来规划 - 公司创始人兼CEO陈天润为浙江大学在读博士,师从潘云鹤院士 [11] - 公司计划继续围绕底层模型能力、工程化能力与产业落地能力进行投入,目标是将实时重建、空间理解与长时一致生成能力打造为面向产业的通用底座 [11] - 公司正在扩充核心团队,重点引进空间智能大模型技术与核心算法领域的资深研究员 [11]
TPAMI 2026 | 仅用两个变量破解混杂因素:CIC实现动力学因果推断与混杂变量重构
机器之心· 2026-03-17 18:03
研究背景与核心问题 - 从观测时间序列数据中准确识别因果关系是生命科学、地球科学、经济学及人工智能等领域的核心科学问题 [2] - 复杂生物系统中,基因、蛋白质和代谢物之间高度耦合,常受大量不可观测的“隐形混杂”因素干扰,这些因素无法被直接测量,会严重误导因果推断结果,产生虚假的因果关联 [2] - 关键挑战在于如何在存在未观测混杂因素的情况下,仅依赖部分观测数据重构真实的因果调控网络 [2] 研究成果发布 - 2026年1月28日,上海交通大学陈洛南团队与西北工业大学张绍武团队等合作,在国际期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》(TPAMI)上在线发表研究成果 [2] - 研究提出了一种全新的动力学因果判别框架——未观测混杂因素下的因果推断(CIC) [2] 技术挑战与问题定义 - 复杂系统中,有相当一部分变量是不可观测的,却会显著影响变量之间的因果推断,这类因素被称为潜在/未观测的混杂变量 [4] - 传统因果推断面临的挑战包括:1) 大多数真实系统是非线性、复杂且具有时间依赖性的,传统因果假设限制了该领域进展;2) 非线性动力系统中变量间的耦合作用使得区分潜在混杂因素变得困难;3) 如何区分真实因果关系与混杂效应造成的虚假因果,以及如何重建未观测的混杂因素,是重要且有趣的问题 [4] CIC方法核心框架 - 该方法提出了一种基于延迟嵌入空间中正交分解定理的新框架,能够在存在未观测混杂变量的情况下实现因果推断,并进一步对混杂因素进行重构 [10] - 方法第一步是延迟嵌入变换,理论基础源于Takens延迟嵌入定理,将原始时间序列x与y分别映射到延迟嵌入空间,构造嵌入数据X和Y [11] - 方法第二步是延迟嵌入空间中的正交分解,提出了正交分解定理,并设计了基于变分自编码器(VAE)的正交分解计算方法,将嵌入向量分解为刻画共享信息的公共子空间和刻画独立动态信息的私有子空间 [12][13] - 方法第三步是因果推断与混杂因素重构,基于正交分解结果构建因果推断指标,混杂因素可通过公共子空间进行量化与重构 [14] 方法应用与验证 - CIC成功应用于一系列非线性动力学系统和复杂生物学系统,包括基因调控网络、生态网络、恒河猴的神经元网络以及大鼠昼夜节律基因表达网络 [16] - 在具有不同耦合形式的3节点Logistic系统中展示了性能 [16] - 在DREAM4 in silico Network Challenge基因调控网络中展示了因果推断和混杂因素重构结果 [18] - 在大鼠昼夜节律基因表达数据集中展示了基因调控网络重构和未观测混杂因素(基因)的重构结果 [20] 方法总结与优势 - CIC的核心在于提出了变量在延迟嵌入空间的正交分解定理,将原始变量的时序数据转换为延迟嵌入形式,并分解为公共子空间和私有子空间 [23] - 该方法主要适用于非线性动力学系统、变量具有不可分离性(耦合性)、存在未观测的混杂因素的场景 [23] - 即便在存在大量未观测混杂因素的高维复杂系统中,CIC仅需两个观测变量即可实现有效的因果推断,并重构未观测的混杂变量 [24] - 理论上,CIC基于Takens的延迟嵌入提出了嵌入空间的正交分解定理,避免了对因果充分性假设的依赖;计算上,利用深度神经网络完成非线性变量表示与正交分解 [24] - 在应用中,CIC在多种基准系统和真实生物学数据上均表现出优于现有方法的性能 [24] - 该研究为非线性动力学系统的因果推断提供了新的思路,也为生物网络重构、疾病机制解析以及复杂系统建模等领域带来了重要方法学突破 [25]
挺搞笑,MiniMax模型就是不认识「马嘉祺」
机器之心· 2026-03-17 11:58
MiniMax模型特定词汇生成异常事件分析 - 网友发现并测试证实,MiniMax的模型在多个接口和平台均无法正确生成“马嘉祺”这一名字,表现为稳定复现的异常现象[1][3][5] - 模型能够正确搜索并输出马嘉祺的履历信息,但在生成名字环节出现错误,有时会输出两个不同名字,表明其信息检索与名字生成环节存在脱节[6][9][10] - 有观点调侃,此现象可作为识别匿名模型是否源自MiniMax的潜在特征[4] 异常现象的技术归因分析 - 一种推测认为,异常可能与训练数据的清洗和分布有关,对于马嘉祺这类讨论度极高的公众人物,其互联网内容存在大量重复和模板化,在数据去重、过滤或重加权过程中,相关词汇可能被“误伤”,导致模型生成不稳定[13] - 从生成机制看,大模型并非先完全确认人物再输出名字,而是在理解问题、调取知识和组织语言过程中同步生成,因此特定名字在生成阶段若受额外扰动,就会出现信息正确但名字错误的现象[13] - 一篇相关论文指出,某些看似知识或推理层的异常,可能源于更底层的分词器机制缺陷,例如非唯一映射问题[14] 分词器机制缺陷的深层影响 - 论文《Say Anything but This: When Tokenizer Betrays Reasoning in LLMs》揭示,现代子词分词器常存在“一对多编码、多对一解码”的情况,导致多个不同分词序列可能解码为同一文本字符串[15] - 论文通过设计简单的词语替换任务进行测试,在超过11000次实验中,许多模型出现了“幽灵编辑”现象:模型输出的分词ID已改变,但解码后的文本却与原始词完全相同[16] - 研究进一步表明,此类由分词器非唯一映射引发的错误具有普遍性,并不会随着模型参数规模的扩大而自然消失,且可能将部分“推理能力不行”的问题错误归因于模型,实则是底层机制干扰了输出[18][20]
ICLR 2026 | 从「聚合」到「引导」:FedDRM开启客户端智能路由新范式
机器之心· 2026-03-17 11:58
核心观点 - 传统联邦学习将数据异质性视为障碍,而FedDRM提出数据异质性是信息,关键在于利用而非消除[2] - FedDRM将联邦学习从“聚合范式”拓展到“路由范式”,使服务器首次具备将外部请求路由至最合适客户端处理的能力[2][5] - 该方法使联邦学习系统首次能以整体的身份对外提供服务,为医疗、金融、物联网等真实场景提供了新的可能性[26][27] 技术原理与方法创新 - **核心问题识别**:现有主流个性化联邦学习方法训练了多个本地模型,但缺乏系统层面选择最合适模型处理外部请求的能力[10] - **问题重构**:将客户端路由问题转化为一个跨客户端的样本边际分布估计与判别问题,即判断新样本更可能来自哪个客户端[14] - **核心建模方法**:首次将联邦学习中的客户端路由问题建模为密度比估计问题,采用密度比模型结合经验似然方法[11][12] - **模型结构**:无需额外生成模型,只需在现有网络上增加一个轻量分支即可实现系统级智能[12] - **理论统一性**:最大化经验似然函数等价于最小化两个交叉熵风险之和,这并非人为多任务技巧,而是统计建模的必然结果[16][17] - **双能力学习**:模型在训练中同时获得对任务的判别能力和对数据来源的识别能力,自然统一了个性化建模与系统路由[17] 性能评估与实验结果 - **新评估指标**:引入“系统准确率”以评估联邦系统在收到外部全新查询时,能否做出正确分发决策的能力[20] - **评估流程**:服务器先根据样本特征预测最匹配的客户端,再由该客户端的本地模型完成预测[20] - **实验结果**:在CIFAR-10/100与专业医疗影像数据集RETINA上,系统准确率相比现有个性化联邦学习方法取得一致提升[12][22] - **具体提升**:在真实医疗数据集RETINA上的系统准确率提升约为**1.41%–7.67%**[24] - **训练优势**:训练过程稳定,无需复杂的生成模型[24] 应用前景与行业影响 - **改变服务模式**:改变联邦学习系统作为整体的服务方式,服务器角色从参数共享与模型聚合,升级为具备分布推断与路由决策能力的智能调度中心[26] - **医疗协作**:可实现将病例自动匹配到最合适的医院模型进行处理[27] - **金融风控**:可根据用户分布差异调用专属的风险模型[27] - **物联网**:可使边缘节点成为可调度的“专家网络”[27] - **范式转变**:联邦学习不再仅是保护隐私的训练框架,而开始成为一个具备结构化决策能力的智能系统[26]
破解「有身无脑」困局,首届具身智脑技术生态大会即将启幕
机器之心· 2026-03-17 11:58
行业趋势与核心观点 - 人工智能正向物理世界延伸,具身智能正以前所未有的速度重塑机器人产业的未来,产业呈现高歌猛进之势 [1] - 当前具身智能正处在从“动起来”走向“用起来”的关键节点,其核心能力取决于端侧智能的真实水平,而非躯体的自由度 [1] - 行业面临“有身无脑”的困局,国产机器人本体制造能力已位居全球前列,但智能系统大多沿用为其他场景设计的通用方案,导致在动态环境中反应迟缓、无法实时协同 [1][4] - 解决之道在于发展面向机器人等设备的专用计算架构与智能系统,即“具身智脑”,其借鉴生物体“大脑”与“小脑”的协同机制,通过异构计算和软硬协同设计,实现自主感知、实时决策与精准运动控制 [1] 重要活动与发布 - 首届具身智脑技术生态大会将于2026年3月27日13:30-17:00在上海大零号湾科创大厦举行,由上海人工智能研究院主办,灵境智源承办,机器之心组织 [2][5][8] - 大会主题为“定义・引领・共生”,旨在直面“有身无脑”困局,共探技术趋势、攻坚核心难题、明确落地路径 [4] - 会上,灵境智源将集中发布四项具有行业首创意义的技术成果,系统展示我国在端侧计算与具身智脑领域的最新探索 [4] 活动议程与核心内容 - 活动议程包括领导致辞、主题演讲、仪式环节、生态发布与签约、技术解析、前沿对谈、巅峰对话及圆桌论坛 [7][8][9] - 核心演讲包括:《具身智脑:物理Al时代的进化引擎》由灵境智源创始人兼CEO孙博主讲;《T系列具身智脑4大核心技术深度解析》由灵境智源联合创始人须海江主讲 [7][8] - 前沿对谈主题为《从感知到进化:具身智脑的学术突破与未来图景》 [8] - 巅峰对话主题为《机器人如何从"有身无脑"迈向"脑体并强"》,对话企业包括宇树、傅利叶、零次方、卓益得、灵境智源 [9] - 圆桌论坛主题为《具身智脑"链"接,驱动技术链与供应链生态融合》,对话企业包括科大讯飞、奥比中光、灵巧智能、天脉、SGS [9]
黄仁勋抢吃龙虾:英伟达新核弹10倍算力提升,OpenClaw自由了
机器之心· 2026-03-17 06:59
行业趋势与市场前景 - 公司正引领一个全新平台变革的开端,其重要性堪比个人电脑和互联网革命 [4] - 全球公司在Blackwell和Rubin系统上的支出预期大幅上调,预计2025年至2027年间市场将达到1万亿美元,其中60%的业务将来自超大规模云计算 [4] - 行业正经历“推理拐点”,AI应用从训练全面进入推理和生成阶段,算力需求刚刚爆发 [6] - 数据中心正从存储文件的地方转变为生成token的工厂,推理是工作负载,token是新的商品 [15] 新一代AI算力平台:Vera Rubin - 公司推出基于全新Vera Rubin架构的NVL72系统,这是一个为智能体AI时代注入强大动力的引擎,包含七款全新芯片 [9][17] - Vera Rubin NVL72集成了72个Rubin GPU和36个Vera CPU,通过NVLink 6连接,并配备ConnectX-9 SuperNIC和BlueField-4 DPU [18] - 与Blackwell平台相比,Vera Rubin NVL72使用四分之一数量的GPU即可训练大型混合专家模型,每瓦推理吞吐量提高10倍,每token成本仅为十分之一 [18] - 公司推出更强大的NVIDIA Vera Rubin Ultra NVL576,通过新型双层全互连NVLink拓扑,可将系统纵向扩展至最多576块GPU [21][24] - Vera Rubin平台已在微软Azure上开始部署,落地速度相比上代架构显著加快 [29] - 公司正在研发用于轨道数据中心的Nvidia Vera Rubin Space-1芯片/计算机 [27] 全新AI推理芯片:LPU - 公司通过约200亿美元的战略交易获得了Groq推理技术授权,并推出了NVIDIA Groq 3 LPX推理芯片 [31][33] - Groq LPU与Vera Rubin GPU协同工作,专门针对智能体系统所需的低延迟与超长上下文推理进行优化 [33] - 在该协同架构下,每兆瓦推理吞吐量最高可提升35倍,并为万亿参数模型带来最高10倍的营收潜力 [34] - LPX机架采用全液冷设计,包含256个LPU处理器,提供128GB片上SRAM和640 TB/s的纵向互联带宽 [36][37] - Nvidia Groq 3 LPX预计将在2024年下半年正式推出 [44] 智能体平台与软件生态 - 公司推出企业级安全解决方案NemoClaw,在OpenClaw基础架构上添加多层安全防护,定位为企业级安全解决方案 [47] - 公司认为OpenClaw/Claw系统未来的重要性将与Linux、Kubernetes、HTML等基础软件设施相提并论 [47] - NemoClaw通过NVIDIA Agent Toolkit简化部署,提供隔离的沙箱环境,并支持本地开源模型与云端前沿模型的结合 [49][50][52] - 与NemoClaw搭配部署的最佳模型之一是公司发布的Nemotron 3 Super,这是一款1200亿参数、面向智能体场景并优化了长上下文任务的开源大语言模型 [54][56] AI在物理世界的应用 - 公司展示了110台机器人,并与比亚迪、现代、日产和吉利等车企合作,将采用NVIDIA DRIVE Hyperion技术打造L4级自动驾驶汽车 [60] - 公司与Uber计划在2028年于四大洲的28个城市推出完全由NVIDIA DRIVE AV全栈软件驱动的自动驾驶车队,预计2027年上半年在洛杉矶和旧金山湾区率先推出 [62] - 公司发布了全新的NVIDIA Isaac仿真框架、Cosmos、Isaac GR00T开放模型以及Blueprint开放式物理AI数据工厂,用于推动生产规模的物理AI发展 [62]
80万条数据揭示隐患:AI正在「污染」病历,你的诊疗数据可能越来越不靠谱
机器之心· 2026-03-17 06:59
研究背景与核心问题 - 生成式人工智能在医疗领域的加速渗透,越来越多的病历、影像报告及临床文本正纳入AI生成范畴,旨在提升医疗效率[7] - 技术革新背后潜藏着威胁诊断安全性的深层隐患,即医疗数据库正被大量AI生成内容取代并成为下一代AI训练的数据来源,形成“生成-训练-再生成”的自循环结构[7] - 在医学领域,自我训练循环造成的“模型退化”危害更严重,因为医学诊断严重依赖罕见病、非典型表现等尾部信息,轻微的信息流失就会造成系统性诊断盲区,增加漏诊风险,加重医疗不公[7] - 当前医疗AI评价标准大多只看表面语言质量,未考虑诊断准确性,导致模型和临床应用的退化难以被常规监测到[7] 核心研究发现 - 研究团队对临床文本生成、视觉-语言报告、医学图像合成三个任务下的80多万条合成数据进行分析,首次证明在没有强制性人工验证的情况下,多代自我训练循环会使病理多样性迅速消失,诊断可靠度急剧降低,并且医师评估也表明临床效用的退化[2] - 研究对216307份放射学报告、790份临床笔记、1000份眼科病历和9781张胸部X线片进行了多任务实验,表明AI生成的数据污染造成模型性能退化甚至失效,是贯穿三个不同真实临床任务的普遍现象[9] - 各个任务都存在类似的退化逻辑:自我训练循环造成病理多样性丧失、诊断可靠度降低,同时又被虚假的预测信心所掩盖[9] 临床文本生成的具体退化表现 - 经过四代自我训练后,模型出现灾难性退化[13] - 放射学报告中“印象”部分的词汇量由原来的12078个减少到200个左右,减少了98.9%[13] - 独特医学术语减少66%,报告公式化趋势明显[13] - 在更广泛的临床文书(如790份i2b2临床数据库)上也观察到类似结论[13] - 随着AI模型对自身合成数据的信心增大,其真实医疗语言能力降低到原来的四分之一,虚假信心会掩盖患者文书记录中的重大失误[13] 视觉-语言报告生成的具体退化表现 - 即使有真实的胸部X线片作为输入,仅使用合成报告训练,模型仍会出现严重退化[16] - 报告的唯一性从原来的96.2%下降到0.9%[16] - 词汇量从原来的8186个减少到94个,减少了98.9%[16] - 更危险的是虚假安心率急剧上升,当存在危及生命的病理情况时,“无急性发现”的错误比例从原来的13.3%上升到40.3%,但模型自身置信度很高,导致具有临床危险性的结果[16] 医学图像合成的具体退化表现 - 当AI生成的合成医学影像被用于训练后续AI模型时,生成影像难以体现真实患者人群的多样性[19] - 在多轮自我训练循环中,用胸部X光片训练AI影像生成模型,实验结果显示,由于AI合成数据污染而产生的视觉退化、病理表征扭曲以及人口统计学偏倚都会被加重[20] 提出的缓解策略与结论 - 研究团队提出了三种应对AI数据污染导致模型退化的策略并进行了系统验证[22] - 策略一:真实数据混合训练为基本方案,当真实数据占比达到75%时,可以较好地保持病理多样性和语言保真度,有效减少人口统计学偏差[22] - 策略二:质量感知过滤是在有限真实数据基础上提高利用效率的一种方式,可作为增效补充,但不能代替高比例真实数据的作用[22] - 策略三:单纯扩增合成数据不仅无效,还会加快模型退化、加重性别偏见,数据数量不能弥补质量缺陷[22] - 研究团队认为应将数据溯源作为医疗AI部署的政策强制要求,实行强制的人工检验制度,仅靠自愿监督不够[24] - 随着临床AI应用规模扩大,严格的机械验证经济可行性会越来越低,若无制度性限制,医疗系统将存在污染未来患者数字生理数据的风险[24]