Workflow
机器之心
icon
搜索文档
一个模型统一4D世界生成与重建,港科大One4D框架来了
机器之心· 2026-01-13 08:12
技术框架与核心创新 - 香港科技大学研究团队提出One4D,一个统一的4D生成与重建框架,旨在解决现有视频扩散模型缺乏三维几何显式建模的问题,以支持世界模型导向的应用如空间推理和具身智能[4] - 该框架的核心是构建一个能同步输出多模态结果的视频扩散模型,可同时生成RGB视频和Pointmap(XYZ)几何视频,并支持从单张图像生成4D、从稀疏帧生成与重建4D、以及从完整视频重建4D等多种任务形态[4][9] - 其核心算法设计包含两大亮点:一是解耦LoRA控制(DLC),通过为RGB和Pointmap分别挂载模态专属LoRA并辅以少量控制连接,在低资源微调下减少模态干扰并确保像素级对齐[8][11][13][14];二是统一掩码条件(UMC),通过将不同条件统一打包,使同一模型无需改变结构即可在不同生成与重建任务间平滑切换[8][17] 技术实现与数据策略 - 模型将动态4D场景表示为两种同步的输出模态:RGB帧(外观)和Pointmaps(XYZ几何视频),后者可进一步导出深度并估计相机轨迹,最终可视化为4D点云和相机[8] - 训练数据采用合成数据与真实数据混合策略,合成数据通过游戏引擎渲染提供精确几何真值,真实数据则使用现有方法生成几何标注以引入真实世界分布,共计使用34K条视频在8张NVIDIA H800 GPU上训练5500步[19][20] 性能表现与评估结果 - 在用户偏好研究中,One4D在一致性、动态性、美学、深度质量和整体4D连贯性五个维度上全面领先对比方法4DNeX,例如在4D连贯性上获得90.0%的偏好,远超后者的10.0%[21][22] - 在VBench评估中,One4D的动态性得分达到55.7%,显著高于4DNeX的25.6%,同时图像到视频一致性(97.8%)与美学得分(63.8%)保持可比或略优水平[22][23] - 在完整视频4D重建任务上,One4D在Sintel和Bonn深度重建数据集上表现优于多个专用重建方法,例如在Sintel数据集上的Abs Rel指标为0.273,优于MonST3R的0.335和CUT3R的0.311,接近专用方法Geo4D-ref的0.205[25][26] - 在相机轨迹估计能力上,One4D在Sintel和TUM-dynamics数据集上保持了可用精度,例如在Sintel数据集上的ATE为0.213,RPE-T为0.057,证明了其统一重建与生成的能力[28][29] - 在稀疏视频帧到4D生成任务中,即使输入帧极度稀疏,One4D仍能生成合理的4D结构,例如当稀疏度为0.10时,在Bonn数据集上的Abs Rel为0.099,δ<1.25为92.9%,展示了其强大的动态场景生成能力[30][31] 行业意义与应用前景 - One4D推动视频生成技术从纯RGB输出走向同步生成外观与几何信息,为构建可用于理解与交互的4D世界提供了基础能力[33] - 该技术为下一代世界模型、多模态内容创作以及需要完整模拟4D世界的应用(如具身智能、机器人、自动驾驶仿真)提供了更实用的技术支撑[4][33]
引入几何约束后,VLM跨越了「空间推理」的认知鸿沟
机器之心· 2026-01-12 14:35
核心观点 - 视觉语言模型在空间推理任务中存在“语义-几何鸿沟”,导致其无法处理精确的空间量化问题[2] - 北京航空航天大学与上海人工智能实验室的研究团队提出了几何约束智能体,通过“先形式化约束,后确定性计算”的新范式,显著提升了视觉语言模型的空间推理能力[4] - GCA方法无需海量数据微调,通过构建形式化任务约束并调用视觉工具进行计算,在多个基准测试中确立了新的性能标杆[4][14] 行业痛点与问题根源 - 视觉语言模型在图像描述与通用语义理解上表现卓越,但在需要高精度几何计算的空间推理任务上表现显著下滑[6] - “语义-几何鸿沟”的根源在于视觉语言模型将丰富的像素信息压缩为抽象语义特征,导致物体精确位置、朝向、尺度等高保真几何细节大量丢失[7] - 视觉语言模型缺乏几何想象力,无法在脑海中精确构建三维场景,使其在面对复杂空间推理时力不从心[7] 技术创新与方法论 - GCA创新性地引入了形式化任务约束,将空间推理精准拆解为“任务形式化”和“几何计算”两个阶段[9] - 在任务形式化阶段,视觉语言模型将模糊的自然语言指令转化为明确的数学约束,包括目标约束和参考系约束[9][11][12] - 在几何计算阶段,视觉语言模型转变为任务求解器,严格遵循划定的边界,调用3D重建、目标检测、OCR等感知与计算工具执行确定性的几何计算[13] - GCA归纳了三种人类常用的核心参考系:基于物体的参考系、基于相机的参考系和基于方向的参考系[12] - 该方法依赖三个核心设计:智能工具调度与绑定、感知与计算的无缝衔接、以及检索增强的可靠计算[20] 性能表现与实验结果 - 在MMSI-Bench、MindCube-tiny、OmniSpatial等多个主流空间推理基准上,GCA构建了全新的空间智能性能标杆[14] - GCA取得了65.1%的平均准确率,显著超越了现有基于训练的方法与工具集成的方法[15] - 在极具挑战性的多图空间推理基准MMSI-Bench中,基于Qwen3-VL-Thinking构建的GCA准确率从32.6%跃升至47.6%,性能提升近50%[4][15] - 基于Gemini-2.5-Pro构建的GCA表现尤为惊艳,其在MMSI-Bench上的准确率从36.9%飞跃至55.0%[16] - GCA是一种无需训练的通用推理范式,实验显示,在搭载GCA架构后,受测模型在MMSI-Bench上的性能平均实现了约37%的相对提升[16] 方法有效性与前瞻性 - 对比实验表明,若仅为视觉语言模型提供工具而不施加形式化约束,其性能提升微乎其微,证明了“先约束”范式的重要性[24] - 得益于GCA架构的模块化设计,研究团队能够对推理链路进行精确的错误归因,分析显示视觉语言模型在“任务形式化”阶段的准确率已高达约70%[24] - 当前主要错误来源于下游感知工具,这表明GCA的推理逻辑是稳健的,其性能将随着感知模型的进步而持续提升[24]
真香!刚骂完AI,Linux之父的首个Vibe Coding项目上线
机器之心· 2026-01-12 14:35
文章核心观点 - Linux创始人Linus Torvalds在其个人兴趣项目AudioNoise中,公开使用了“氛围编程”方式,即借助谷歌的AI编程工具Antigravity进行开发,这标志着这位曾对AI编程持批评态度的顶尖开发者开始拥抱并实践AI辅助编程[1][3][9][16][18] Linus Torvalds的新项目AudioNoise - 项目名为AudioNoise,是一个与吉他效果器相关的数字音频处理代码库,旨在探索数字音频处理基础知识,而非打造成品设备[4][6][12][14] - 该项目于5天前上传至GitHub,已获得1.4k个Stars和49个Forks[10][11] - 项目源自其更早的“GuitarPedal”兴趣项目,该项目旨在学习模拟电路设计,已获得1.5k个Stars和47个Forks[12][13] - 项目技术核心是基础的IIR滤波器和延迟循环,进行单采样输入输出的处理,并未使用复杂的FFT或实时处理技术[15][16] - 项目中的Python可视化工具基本是使用“氛围编程”方式编写的,即借助AI工具生成代码[6][16] 对AI编程工具的使用与评价 - Torvalds在开发中使用了谷歌的AI编程平台Antigravity,该平台于去年11月发布,基于Gemini大模型,旨在驱动智能体完成端到端的软件任务[20] - 他起初采用典型的“搜索并照猫画虎”式编程,后来省去自己作为中间环节,直接让Antigravity生成音频采样可视化工具[8][16] - Torvalds对使用AI工具的过程评价积极,认为“过程基本顺利”,并肯定最终效果比自己动手写要好[17][18] - 此次实践与其此前对AI编程的公开批评态度形成鲜明对比[27][28] 行业反响与意义 - Torvalds使用AI编程工具在开发者社区引发了现象级讨论,被视为一个标志性事件[22] - 行业领袖如谷歌DeepMind工程师Varun Mohan(Antigravity创建者)和Vercel CEO Guillermo Rauch均对此事表示关注,后者将其与陶哲轩使用AI解决数学问题等事件并列,视为2026年初的重要行业动态[23][24] - 社区观察指出,一些曾强烈批评AI代码质量的顶尖程序员,其想法正在迅速改变,并对AI的能力感到震惊[22] Linus Torvalds此前对AI编程的态度 - 直到去年底,Torvalds对AI编程仍持相对保守态度,认为“氛围编程”对于生产环境和内核开发是“一个非常,非常糟糕的主意”[28][30] - 他认为当时的AI辅助编程是“90%的营销加10%的现实”,并极其反感向内核提交AI生成的“垃圾代码”的行为[30] - 在2025年1月7日的一次内核开发讨论中,他强烈反对在文档中规范AI生成内容,称讨论AI生成的垃圾“毫无意义,简直愚蠢至极”[31][32]
2026年,大模型训练的下半场属于「强化学习云」
机器之心· 2026-01-12 13:01
大模型技术范式的转移 - 2024年底,行业出现担忧,认为单纯增加参数和训练数据的Scaling Law正在撞墙,新一代旗舰模型未展现出预期的边际效益提升,有研究预测预训练数据可能在2028年耗尽[1] - OpenAI联合创始人Ilya Sutskever的言论被解读为预警,意味着单纯堆砌算力和数据的预训练路线可能已触及天花板[3] - 2025年初,OpenAI的o1模型通过引入强化推理,证明了test-time scaling(测试时间扩展)是通往更高智能的可行路径[4] - DeepSeek R1在2025年1月成功复现并开源了o1的技术路线,以极低的成本向全行业证明Scaling Law并未撞墙,而是换了引擎[4] - 行业认识到,深度的推理能力比单纯的参数规模更关键,模型通过强化学习驱动的思维链展现出类似人类“慢思考”的推理能力[4] - 算力的重心正从pre-training scaling(预训练扩展)转向post-train scaling(后训练扩展)和test-time scaling(测试时间扩展)[8] - 到2026年,可以确信大模型训练的下半场属于强化学习,模型能通过与环境的交互、试错和自我博弈进行深度逻辑推演[10][11] - 新的算力消耗重心从静态的“训练”转向动态的“探索与推理”,这导致现有的云计算架构开始显得力不从心,行业呼唤全新的算力形态[11] 九章云极的战略定位与核心产品 - 九章云极是独立智算云赛道的领军企业,率先提出了“强化学习云”概念,并定义了后训练时代的算力标准[12] - 公司认为,当智能可以并行进化,强化学习云将成为群体智能的放大器[12] - 在OpenAI o1验证路径、DeepSeek R1引爆热潮后,九章云极在最短时间内率先给出了基础设施答案[14] - 2025年6月,九章云极正式发布了业界首个工业级强化学习云平台Agentic RL[15] - 当时全球市场尚未有企业像九章云极这样,将“强化学习”独立定义为一种全新的工业级云服务形态[15] - 公司能够迅速捕捉前沿算法趋势,并率先将其转化为标准化、工业级云产品,这确立了其在独立智算云赛道的首发优势与领军地位[16] - Agentic RL的核心内涵是AI能力从单纯的“内容生成”转向复杂的“决策控制”,旨在通过RL赋予大模型在动态环境中精准感知、规划并执行的能力[20] - Agentic RL的使命是将通用模型进化为具备长时程规划、长/短期记忆、复杂工具调用、检索增强生成优化、角色一致性等多种能力的专家模型[22] - 公司提出了一个终局构想:未来的通用人工智能(AGI)可能不是单一的巨型模型,而是由成千上万个垂类专家智能体组成的“群体智能”[25] Agentic RL平台的技术优势与性能 - 传统的云计算架构是为静态负载设计的,而强化学习是高频交互、动态探索的过程,算力需求呈现剧烈的波峰波谷特征,对异构资源调度要求极高[17] - 用传统静态算力跑RL训练,会导致资源利用率极低或在探索高峰期卡死[18] - 九章云极的强化学习云Agentic RL基于混合专家(MoE)架构与Serverless理念,实现了算力的“按需即取、即用即还”[19] - 数据显示,相比于传统方案,Agentic RL可将端到端训练效率提升500%,综合成本下降60%[19] - 该平台是全球首个支持万卡级异构算力调度的强化学习基础设施平台[19] - 公司构建了极致效能的异步系统,通过全异步训练架构和rollout、n+1模型更新机制,成功将GPU利用率长期保持在95%以上[25] - 公司采用了“基于回放的离线强化学习算法”,通过对时间跨度的压缩与样本的高效回放,实现了5倍于传统方法的训练速度提升[28] - 在自动驾驶或医疗等“不能失败”的领域,公司与高校合作构建了可控的“世界模型”作为高保真虚拟沙盒,让智能体在其中安全试错[30] Alaya NeW Cloud全栈智能基础设施 - 九章云极的强化学习云能力离不开其精心构建的Alaya NeW Cloud智能基础设施[33] - 公司从一开始就围绕智能体的运行逻辑,完成了从底层基础设施到上层应用的四层全栈重构,而非在通用云上“打补丁”[34] - 基础设施层包含高性能存储网、大容量全闪AI加速存储、高性能计算网和跨网融合网关[35] - 九章智算操作系统层包含跨集群算力弹性调度、Serverless弹性和一体化算力网[35] - 智算软件平台层包含弹性容器平台VKS、专享容器平台DKS、云容器实例CCI、大模型开发套件和大模型推理平台[35] - 应用场景及生态层覆盖自动与半自动驾驶、计算机视觉、科学计算、工业机器人、消费电子等众多领域[35] - 在工程化落地层面,平台实现了云容器实例(CCI)的一键式部署,全流程覆盖,即开即用[37] - 以2025年终上线的满血版DeepSeek-3.2为例,在高端算力卡加持下,其部署速度更快,运行更高效,展现了平台对最新SOTA模型的快速支持能力[37] - 在智能体时代,九章云极扮演的角色不仅是互联网数据中心提供商,更是进化环境提供商[38] 黄山城市级智算样板与商业落地 - 九章云极在安徽黄山跑通了“智算+产业”的2.0闭环,打造了一个正在运行的、基于强化学习云的城市级实验样本[40] - 公司在黄山创造了一个行业纪录:仅用48天,一座规模达500 PFLOPS的“大位”智算中心便拔地而起并投入运营[41][42] - 这种交付速度验证了其智算操作系统在异构算力调度上的极致效率[43] - “大位”智算中心是国内首个“文旅+AI”城市级产业应用基础设施[44] - 对于开发者,只需极少代码即可启动完整的“训练-推理-回传”闭环;对于产业,各垂直领域的智能体都能在平台上找到专属的进化路径[45] - 黄山实现了国内首个“全程AI伴游”景区,成千上万个智能体在此学习理解游客意图、规划最优路线、处理突发状况,这是一场大规模的Agentic RL社会实验[47] - 根据易观分析预测,随着“大位”智算中心的全面达产,每年将直接带动黄山市营利性服务业增加值增长不少于2亿元[48] - 通过“智算基建+文旅赋能+场景落地+商业闭环”,九章云极证明了强化学习云不仅能消耗电力,更能生产GDP[50] - “黄山样板”产生了强大的磁吸效应,在大会上,中科动力、百鹏互联、歌歌AI等6家AI企业集中签约落地[50] - 九章云极用黄山的实践证明,下一代智算云必须是能直接驱动产业增长的云[51] 独立智算云的生态与行业领导力 - 九章云极选择成为独立智算云赛道的领军者,这条道路艰难但辽阔[53] - “独立智算云”的根本逻辑在于中立性,公司明确不与客户争利,不绑定特定模型[54][55] - 针对行业内只有不到10家巨头公司掌握10万卡以上资源的现状,公司明确倡导“开源1000专家模型”[57] - 公司期望通过动态组合来放大群体智能,为10万家中小企业提供高效的智能化解决方案[58] - “独立智算云+开源专家模型”的组合拳,区别于试图绑定自家闭源大模型的巨头云厂商,更有可能构建起真正的开放生态[60] - 公司发起的AI-STAR企业生态联盟连接了上游芯片厂商与下游应用厂商,共同组成了一个自主可控的产业链闭环[61] - 在算力计费混乱的草莽时代,公司率先推出了“1度算力”的普惠化标准,试图让算力像水电一样可度量、可流通[63] - 在后训练时代,公司通过强化学习云定义了下一代基础设施的标准架构:一套包含Agentic RL技术架构、Serverless弹性调度和异构资源管理在内的完整操作系统[64] - 2026年,云计算进入“进化时代”,竞争的焦点是谁能让智能体进化得更快、更强,九章云极通过首创的强化学习云Agentic RL,率先拿到了通往这个新时代的钥匙[68]
AAAI 2026 Oral|快手提出全新「检索数据引擎」CroPS,打破搜索信息茧房
机器之心· 2026-01-12 13:01
文章核心观点 - 快手搜索团队提出并部署了名为CroPS的全新检索数据引擎,旨在解决短视频搜索中因依赖历史点击数据而导致的“信息茧房”问题 [2] - CroPS通过引入用户换Query数据、推荐流数据及大语言模型生成的世界知识,多视角丰富正样本信号,并结合层次化标签分配与H-InfoNCE损失函数,实现了对相关性的精细化建模 [2] - 该方案已在快手搜索业务中全量部署,服务亿级用户,并显著提升了点击率、长播率,同时有效降低了用户换Query率 [2] 背景与问题 - 当前工业界主流的向量检索模型采用对比学习范式,但训练数据的正样本高度依赖历史曝光日志中的用户交互行为(如点击),导致“自强化”循环 [5][6] - “自强化”循环使模型倾向于检索与历史高频点击内容相似的视频,导致大量潜在相关的优质长尾内容被系统性地排除在正样本之外,搜索结果变得保守且单一 [6] - 以往的学术研究多致力于改进模型结构或优化负采样策略,但无法从根本上缓解正样本来源单一所带来的“信息茧房”效应 [9] CroPS解决方案:多视角正样本增强引擎 - **查询级增强**:利用用户换Query行为,当用户在改写后的查询词B下产生深度交互,该交互视频可被“回流”作为原始查询词A的正样本,以纠正模型的语义偏差 [11][12] - **系统级增强**:打破搜索与推荐系统壁垒,将用户在推荐信息流中深度消费且与近期搜索词语义高度相关的视频,引入作为搜索模型的正样本 [11][13][15] - **知识级增强**:引入大语言模型作为“虚拟检索器”和“内容生成器”,针对特定查询生成包含标题、描述和标签的虚拟视频元数据作为合成正样本,以突破平台存量数据的限制 [11][16][17] CroPS解决方案:精细化训练策略 - **层次化标签分配**:为解决多源正样本的“可靠性差异”问题,HLA为不同来源的样本分配分层标签,让模型能够识别样本的重要程度,学习更细粒度的相关性 [19][20][21] - **H-InfoNCE损失函数**:在训练时,将当前样本与标签严格低于它的所有样本进行对比,突显高优先级样本的重要性,使学习目标与HLA的层级逻辑对齐,实现细粒度的语义区分 [23][28] 实验结果 - **离线实验**:CroPS相较于最强基线FS-LR,在用户点击测试数据集上召回率提升9.5%(从59.6%提升至69.1%),在用户换Query测试数据集上召回率提升7.1%(从33.0%提升至40.1%)[30] - **在线A/B测试**:在稠密模型上,点击率显著提升0.869%,长播放率提升0.483%,用户换Query率下降0.646% [31][36] - **在线A/B测试**:在稀疏模型上,点击率提升0.783%,长播放率提升0.423%,用户换Query率下降0.614% [31][36] 总结与行业影响 - CroPS证明了在工业检索系统中,通过跨视角引入多样化正样本信号是缓解“信息茧房”问题、提升系统上限的有效方法 [33] - 该工作已被人工智能顶级会议AAAI 2026接收为Oral报告,体现了其学术与工业价值 [3] - 未来,公司将进一步探索CroPS与生成式检索方法的融合,持续挖掘大规模语言模型在搜索全链路中的潜力 [34]
顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤
机器之心· 2026-01-12 13:01
文章核心观点 - 当前顶尖多模态大模型在纯视觉理解能力上存在严重缺陷,其能力仅相当于三岁幼儿水平,与人类存在系统性差距[3][4][15] - 视觉理解中的许多核心任务是“无法言说”的,无法在不丢失信息的情况下转化为语言描述,导致依赖文本推理的大模型在基础视觉任务上频繁出错[25][26][31] - 构建像BabyVision这样的评测集,将“看懂世界”的能力拆解为可量化的原子任务,对于诊断模型短板、引导多模态与具身智能发展至关重要[14][49] 评测集设计与方法 - 研究团队发布了名为BabyVision的多模态理解评测集,旨在评估模型不依赖语言的纯视觉能力[3] - 评测集最终包含388道高质量视觉题目,涵盖4大类共22种基础视觉子任务[13][18] - 数据构建过程严谨:参考儿童认知教材,从互联网爬取约4000张候选图片,经人工筛选标注,并实行双盲质检以确保题目质量[18] 核心视觉能力分类 - **精细辨别**:分辨细微的视觉差异,包含8个子任务[16] - **视觉追踪**:跟随路径、线条与运动轨迹,包含5个子任务[16] - **空间感知**:理解三维结构及其关系,包含5个子任务[16] - **视觉模式识别**:识别逻辑与几何规律,包含4个子任务[16] 模型与人类表现对比 - 在BabyVision-Mini的20道题测试中,顶尖多模态模型的表现落后于各年龄段儿童,甚至在三岁幼儿的基础视觉任务上失败[7][9] - 在完整的BabyVision评测中,人类基线(16位本科背景测试者)准确率高达94.1%[20][21] - 闭源模型中表现最佳的Gemini3-Pro-Preview准确率为49.7%,距离6岁儿童水平仍差约20个百分点[15][22] - 开源模型中表现最佳的Qwen3VL-235B-Thinking准确率仅为22.2%,多数模型集中在12%至19%区间[21] - 模型能力的落后是系统性的,在四大类视觉能力上均全面下滑,并非单一缺陷[23] 模型面临的核心挑战 - **挑战1:看不见“非语言细节”**:模型将视觉信息压缩成语言描述时,像素级错位等细微差异被抹平,导致无法区分相似选项[27][29][32] - **挑战2:追线追丢了**:对于连线追踪任务,模型将其转化为离散的方位步骤描述,在路径交叉点时容易“换轨”追错线,而人类本能是连续追踪[30][34][41] - **挑战3:缺少真正的空间想象**:在三维方块计数等任务中,模型缺乏稳定的3D内部表征与变换能力,容易漏掉隐藏块或搞错投影关系[36] - **挑战4:图形规律归纳难**:模型容易关注表面属性(如颜色、形状),误将“结构规则”理解为“外观统计”,导致在规则迁移时产生幻觉[37][40] 生成式视觉推理的探索 - 研究团队推出了BabyVision-Gen,从原数据集中标注出280道适合生成式作答的题目,要求模型输出图像或视频来展示解题过程[42][48] - 初步评测显示,生成式模型在视觉追踪、精细辨别等任务上出现了“更像人类”的行为(如画轨迹、做标注),但整体仍缺乏稳定获得完全正确解的能力[42][48] - 这表明,将视觉推理“落地到视觉操作”可能是补齐模型视觉短板的一条潜在路径[42] 对行业发展的意义 - 该评测揭示了多模态大模型在迈向通用智能与具身智能道路上的关键瓶颈:基础视觉能力严重不足[44][46] - BabyVision的价值在于为行业提供了可测量、可诊断、可迭代的评估工具,明确了差距所在与发展方向[49] - 现实世界的交互不依赖语言提示,因此补全“看得准、追得住、想得出、归纳得了”的视觉地基是实现可信赖的真实世界AI部署的前提[46][47][51]
被Jim Fan点赞!全球第一的千寻智能Spirit v1.5正式开源!
机器之心· 2026-01-12 09:20
具身智能行业格局与关键事件 - 2025年是具身智能大爆发的一年,硬件表现活跃,但具身智能与机器人基础模型(即“大脑”)是定义智力天花板和行业“通用性”解释权的关键赛道[3] - 过去两年,该赛道叙事主线由Pi、Google、Figure等海外团队主导,但格局在2026年初发生变化[4] - 2026年1月12日,中国公司千寻智能(Spirit AI)开源了自研的视觉语言动作(VLA)基础模型Spirit v1.5[4] - Spirit v1.5在第三方机器人真机评测平台RoboChallenge的Table30榜单上位列第一,得分66.09,成功率为50.33%,超过了此前最强的模型Pi0.5(得分61.84,成功率42.67%)[11] - 此举意味着在具身智能核心战场上,中国团队结束了“跟随模式”,正式进入“全球第一梯队”[14] Spirit v1.5的技术突破与核心优势 - 模型胜出的核心在于对机器人预训练数据范式的根本性重构,从依赖“干净数据”转向学习“物理常识”[18][19] - 传统模型基于Open X-Embodiment (OXE)、Agibot和RoboCOIN等高度精选的“干净”数据集训练,场景被精心设计,限制了模型的泛化能力[20] - Spirit v1.5采用“开放式、目标驱动”的数据采集策略,只给操作员模糊的高层目标(如“清理厨房”),允许其即兴发挥,从而获得多样化、非结构化的数据[20] - 新策略带来的优势包括:构建了连续的技能流形,使模型能学习动作间的过渡与衔接[21];内化了纠错与恢复能力,使模型在面对干扰时能动态调整,展现出类似人类的“物理常识”[22] - 技术报告中的消融实验证实,其优势源于更高效的数据利用策略,而非算力扩张[24]:使用多样化数据训练的模型,在针对新任务微调时,达到相同性能基线所需的迭代次数比基线模型少了40%[25];随着多样化数据规模扩大,模型在新任务上的验证误差持续下降[27] Spirit v1.5的工程与产业价值 - 模型解决了行业在可扩展性上的难题,其非结构化采集方式带来了显著的工程效益[31]:人均有效采集时长增加了200%[38];对算法专家干预的需求削减了60%[38] - 千寻智能将模型的基模权重、推理代码及使用样例全部开源,接受公众检验并方便社区创新[6][33] - 开源举措具有重要产业意义:为科研界提供了可复现的强基线[39];为产业界,特别是中小型厂商,提供了经过验证、可商用的技术底座,避免了重复造轮子[39] - 此举标志着中国团队正将大语言模型(LLM)领域的开源繁荣延续到具身智能领域,从全球AI生态的“参与者”转变为关键基础设施的“建设者”[35][37][40] 行业影响与未来意义 - Spirit v1.5的出现具有明确的界碑意义,它通过实验证明了“非结构化的多样性是比精选数据更好的老师”[42] - 中国团队在具身智能领域已具备在核心技术路径(数据范式)与生态建设上与全球顶尖团队“对等对话”甚至“定义规则”的能力[42] - 高性能机器人基础模型(如Google RT系列或Pi)大多处于闭源或半闭源状态,制约了产业落地速度,Spirit v1.5的开源填补了“基座缺失”[36] - 真正的考验在于模型能否在真实世界的千万种场景中,经受住全球开发者的验证与打磨[42]
Sakana让AI互相「猎杀」,而它们开始了趋同进化
机器之心· 2026-01-11 18:03
研究项目概述 - Sakana AI与MIT合作,提出名为“数字红皇后”的研究方法,利用大模型在经典编程游戏《Core War》中驱动一场自演化的“军备竞赛” [2][3] - 该方法通过在游戏中不断战斗来迭代代码演化,训练新“战士”对抗不断变化的对手,旨在生成既健壮又通用的程序 [3] - 研究将《Core War》定位为一个用于研究人工系统中红皇后动力学的实验沙盒,为分析AI智能体在现实世界对抗性环境中的演化提供了安全可控的环境 [7] 研究方法与机制 - 研究构建了一个动态的对抗演化环境,程序在其中不断适应、进化,以击败逐渐累积的对手历史,而非一组固定敌人 [7] - 具体算法从一个初始战士开始,进化出第二个战士击败第一个,再进化第三个战士对抗前两个,以此类推,产生一个战士世系,每个后代都适应于由其所有前代定义的不断变化的环境 [23] - 该算法是先前多智能体和自博弈方法的最小化实现,旨在隔离并研究持续协同进化的动态 [25] 核心发现与现象 - 研究发现,随着算法运行轮次增加,战士们逐渐变得更具通用稳健性,这通过与未见过的、由人类设计的战士对抗来衡量 [26] - 实验中观察到独立运行的多个实验会随时间推移,趋向于演化出具有相似行为的战士,这种趋同发生在“功能”而非“实现”层面 [27] - 这种“表型趋同”类似于生物学中的趋同进化,即相似的功能特征通过不同的机制独立进化了多次 [30][31] 研究意义与潜在应用 - 该研究揭示的“红皇后”动态及其引发的趋同进化现象,可能为研究对抗性军备竞赛的其他特性提供了一个极具潜力的实验环境 [34] - 像“数字红皇后”这样的算法,甚至有助于在系统部署到现实世界之前,实现自动化的红队测试 [34] - 该沙盒环境完全自成体系,所有程序都在一台使用人造语言的虚拟机器上运行,生成的任何内容都无法在沙盒外执行,提供了一个安全的环境来探索可能具有风险的对抗性动态 [34] - 研究表明,即便是最简单的自对弈循环,也能揭示出复杂且鲁棒的策略,这使得该方法成为探索其他竞争性多智能体仿真的有力候选方案 [35]
挑战GRPO,英伟达提出GDPO,专攻多奖励优化
机器之心· 2026-01-11 12:00
文章核心观点 - 英伟达的研究团队提出了一种名为GDPO(组奖励解耦归一化策略优化)的新强化学习算法,旨在解决当前广泛采用的GRPO(组相对策略优化)算法在多奖励优化场景中的固有缺陷 [1][2] - 核心论点是,在多奖励优化中,GRPO会将不同奖励组合归一化为相同的优势值,从而削弱训练信号并可能导致训练不稳定,而GDPO通过对各个奖励信号分别进行归一化,保留了奖励间的相对差异,实现了更精确的优势估计和更稳定的训练 [2][9][11] 技术背景与问题 - GRPO及其变体因其高效性和简洁性,已成为业内广泛采用的强化学习算法,是促使DeepSeek-R1成功的基础技术之一 [3] - 随着语言模型能力提升,行业趋势是同时优化多个奖励(如准确率、响应长度、格式质量),以更好地与人类偏好保持一致 [1][9] - GRPO在多奖励优化中的根本性局限在于其群组级奖励归一化会过度压缩丰富的奖励信号,导致信息损失 [9][10][11] - 例如,在一个简单的双奖励二值场景中,尽管存在六种不同的奖励组合,GRPO归一化后只产生两个唯一的优势组,使得(0,1)和(0,2)产生相同的优势值,而直觉上(0,2)应产生更强的学习信号 [10][11] - 这种局限性可能引入训练不稳定的风险,在数学推理任务中,使用GRPO训练时,正确率奖励分数在约400个训练步后开始下降,表明出现了部分训练坍塌 [11] GDPO解决方案 - GDPO的核心改进在于,与GRPO直接对聚合奖励和进行群组级归一化不同,它通过在聚合之前对每个奖励分别进行群组级归一化来解耦这一过程 [16] - 具体而言,GDPO为每个奖励单独计算归一化优势,然后将所有目标的归一化优势相加,最后对多奖励优势之和应用批次级优势归一化,以确保数值范围稳定 [16] - 这种方法避免了不同奖励被混合“抹平”,更真实地保留了它们的相对差异 [2][17] - 理论验证显示,在两个奖励、rollout数量变化的场景中,GDPO始终产生显著更多的不同优势组,且随着rollout数量增加,差距不断扩大 [17] - 当固定rollout数量为4并增加奖励数量时,GDPO也随着目标数量增长表现出逐步增大的优势粒度 [17] 实验结果:工具调用任务 - 在工具调用任务上,GDPO在所有运行中都能在格式奖励和正确率奖励上收敛到更高的值 [22] - 对于正确率奖励,GDPO在早期阶段表现出更快的改善,并在后期达到比GRPO基线更高的奖励分数 [22] - 在BFCL-v3评估中,对于Qwen2.5-Instruct-1.5B模型,GDPO在Live任务上整体准确率从GRPO的50.63%提升至55.36%,在Non-Live任务上从37.87%提升至40.58%,整体平均准确率从30.18%提升至32.81%,正确格式比例从76.33%提升至80.66% [24][25] - 对于Qwen2.5-Instruct-3B模型,GDPO在Live任务上整体准确率从GRPO的69.23%提升至71.22%,整体平均准确率从39.20%提升至40.87% [25] - 移除标准差归一化项的“无标准差GRPO”变体在格式奖励上完全失败,在BFCL-v3上的正确格式比例为0%,表明简单地增加优势多样性可能会给训练引入不稳定性 [25][26] 实验结果:数学推理任务 - 在数学推理任务中,GDPO比GRPO更有效地恢复了正确率奖励,并消除了GRPO在约400步后观察到的训练坍塌问题 [11][28] - 对于DeepSeek-R1-1.5B模型,GDPO在所有基准测试上都优于GRPO:在MATH准确率从83.6%提升至86.2%,在AIME准确率从23.1%提升至29.4%,在Olympiad准确率从44.3%提升至46.6% [29][33] - 同时,GDPO显著降低了响应超长比例:在AIME任务上,DeepSeek-R1-1.5B的超长比例从GRPO的10.8%降至6.5%;DeepSeek-R1-7B从2.1%降至0.2%;Qwen3-4B-Instruct从2.5%降至0.1% [29][33] - 对于DeepSeek-R1-7B模型,GDPO在更具挑战性的AIME基准测试上将准确率从50.2%提高了近3%至53.1% [29] 实验结果:代码推理任务 - 在代码推理任务的双奖励设置下,GDPO在所有任务上都提升了通过率,同时保持相似的超长比例 [34] - 例如,在Codecontests上,通过率从GRPO的63.2%提升至65.8%,超长比例仅从14.2%微增至14.3%;在Taco上,通过率从45.1%提升至48.4%,同时超长比例从11.8%降低至10.8% [34][35] - 在三奖励设置下,GDPO在所有目标上都实现了更有利的平衡,在保持与GRPO相似通过率的同时,显著降低了超长比例和bug比例 [35] - 例如,对于DeepSeek-R1-7B模型,在Codeforces任务的三奖励设置下,GDPO将超长比例从GRPO的16.9%降至13.6%,bug比例从2.5%降至1.8% [35] - 总体结果表明GDPO在奖励信号数量增加时仍然有效,在双奖励和三奖励配置中都始终比GRPO实现更优的跨目标权衡 [36] 行业影响与意义 - 该研究指出了当前主流强化学习算法GRPO在应对多目标对齐这一行业重要趋势时的局限性 [1][9] - GDPO的提出为训练更符合多样化人类偏好、在多场景下表现更稳定的大型语言模型提供了新的技术路径 [2][18] - 实验证明GDPO在工具调用、数学推理和代码推理等多类任务上,在正确性指标和约束条件遵守方面都稳定地优于GRPO,展示了其有效性和良好泛化能力 [6] - 该技术有望被行业采纳,用于提升下一代语言模型的综合性能与对齐能力 [3][18]
联邦学习不再安全?港大TPAMI新作:深挖梯度反转攻击的内幕
机器之心· 2026-01-11 12:00
文章核心观点 - 联邦学习作为隐私保护的协同训练范式,其安全性因梯度反转攻击而面临严峻挑战,攻击者可能仅凭共享的梯度信息重建客户端的私有训练数据[3][5] - 一项由多所大学合作发表在IEEE TPAMI上的研究,首次对梯度反转攻击进行了系统性分类、理论分析和实验评测,并提出了实用的三阶段防御指南[3][6][24] 梯度反转攻击的方法分类 - 基于优化的攻击:通过迭代优化虚拟数据,使其梯度与真实梯度距离最小化,代表方法有DLG、Inverting Gradients等[10][12] - 基于生成的攻击:利用预训练的生成模型作为先验来生成近似输入数据,可细分为优化隐向量、优化生成器参数或训练逆向生成模型[10][12] - 基于分析的攻击:利用模型层的线性特性,通过解析解直接恢复输入数据,通常需要恶意服务器修改模型架构或参数[10][12] 理论突破 - 定理1:首次从理论上证明了基于优化的攻击的重建误差与批量大小和图像分辨率的平方根呈线性关系,即批量越大、分辨率越高,攻击难度越大[11] - 命题1:揭示了模型训练状态对攻击的影响,当不同数据的梯度越相似时,攻击恢复数据的难度就越大[13] 实验发现与关键结论 - 实验在CIFAR-10/100、ImageNet、CelebA等数据集上进行,覆盖了ResNet、ViT及LoRA微调场景[15] - 基于优化的攻击最实用且无额外依赖,但其效果受批量大小和分辨率限制,且在实用的多步本地训练场景下威胁被大幅削弱[25] - 基于生成的攻击能生成高质量图像,但严重依赖预训练生成器、辅助数据集或特定的Sigmoid激活函数,条件不符时易失效[25] - 基于分析的攻击可实现精准数据恢复,但因需修改模型而容易被客户端检测,实践中难以得逞[25] - 在LoRA微调大模型的场景中,攻击者可恢复低分辨率图像,但在高分辨率上常失败,且预训练模型越小,隐私泄露风险越低[25] 防御指南 - 网络设计阶段:避免使用Sigmoid激活函数,采用更复杂的网络架构以增加优化难度[22][26] - 训练协议阶段:增大批量大小以混淆梯度,并采用多步本地训练来破坏梯度的直接对应关系[22][26] - 客户端校验阶段:客户端在接收服务器下发的模型时,应校验模型架构和参数,防止被植入恶意模块[22]