Workflow
机器之心
icon
搜索文档
「视频世界模型」新突破:AI连续生成5分钟,画面也不崩
机器之心· 2025-12-31 17:31
视频世界模型的技术挑战与现状 - 当前AI生成视频的核心挑战在于如何让生成的视频不仅视觉逼真,更能长时间遵循物理世界的规律,实现结构、行为与物理规律的一致性[2] - 随着生成时长从几秒扩展到几分钟,现有模型普遍面临误差累积与语义漂移问题,导致长视频出现画面退化与逻辑崩坏[2] - 一个理想的视频世界模型应具备三项核心能力:全面可控性、长期视觉保真度以及长程上下文一致性[12] LongVie 2模型框架与核心创新 - 该模型由上海人工智能实验室联合多所高校提出,是一个能够生成长达5分钟高保真、可控视频的世界模型框架[2] - 其核心创新在于设计了一套三阶段递进式训练策略,系统性解决长视频生成的退化问题[8] - 三阶段训练包括:1) 稠密与稀疏多模态控制;2) 退化感知训练;3) 历史上下文建模,旨在从控制、稳定性到时间一致性层层强化模型能力[9][13][14] 三阶段训练策略详解 - **阶段一:多模态控制**:通过引入稠密信号(如深度图)与稀疏信号(如关键点轨迹),为模型提供稳定且可解释的世界约束,从源头提升长程可控性[9] - **阶段二:退化感知训练**:在训练阶段主动“制造困难”,通过VAE多次编解码模拟重建误差,以及加噪与去噪构造退化图像,使模型学会在不完美输入下保持稳定生成,显著增强长期视觉保真度[13][17] - **阶段三:历史上下文建模**:在生成过程中显式引入历史片段信息,并通过针对性损失函数约束相邻片段衔接,使跨片段过渡自然顺畅,有效缓解语义断裂与逻辑跳变[14] 模型效果与性能评估 - 与Go-With-The-Flow和Diffusion As Shader等方法对比,LongVie 2在可控性方面表现显著优于现有方法[21] - 消融实验验证了三阶段训练的有效性,完整模型(Base Model + Control Learning + Degradation Adaptation + History Context)在各项指标上达到最佳,例如美学质量(A.Q.)从49.72%提升至58.47%,结构控制(S.C.)从83.56%提升至91.05%,时间一致性指标(D.D.)从15.15%大幅提升至82.59%[26] - 在提出的LongVGenBench基准上,LongVie 2在多项定量指标上达到SOTA水平,并获得最高用户偏好度,其用户主观测评得分(如视觉质量VO为4.40)显著高于其他对比方法[29] 行业评测基准的建立 - 研究提出了LongVGenBench,这是首个专为可控超长视频生成设计的基准数据集,旨在推动该方向的系统研究与公平评测[27] - 该基准包含100个时长超过1分钟的高分辨率视频,覆盖真实世界与合成环境的多样场景[28]
超DeepEP两倍!无问芯穹FUSCO以「空中变阵」突破MoE通信瓶颈,专为Agent爆发设计
机器之心· 2025-12-31 17:31
行业技术趋势:MoE架构成为主流及其带来的挑战 - 以ChatGPT、Gemini、DeepSeek-V3、Kimi-K2为代表的主流大模型已普遍采用混合专家架构及专家并行策略,MoE技术已在产业应用中逐渐成为主流 [1] - 以代码智能体、Cursor类对话式IDE为代表的新型应用,显著推高了用户请求规模并大幅拉长了单次推理的上下文长度,两者均呈现出一个数量级以上的增长 [1] - 在MoE架构下,上述变化不仅线性放大了计算开销,还显著增加了跨专家的通信与调度成本,使得整体系统压力接近一个数量级提升,并在规模化服务场景中被进一步放大 [1] MoE专家并行架构的性能瓶颈 - 在专家并行策略下,token需要在不同专家所在的GPU之间进行跨设备的数据重排与通信,形成分布式数据重排过程,其典型执行流程包括通信前后的本地重排和跨GPU的All-to-All通信 [7][13] - 随着专家并行规模的扩大,分布式数据重排的开销呈上升趋势,在端到端总延迟中所占比例总体上不断增加,已成为重要性能瓶颈 [11] - 量化分析显示,以32 MB数据为例,在机内通信场景下,数据重排操作在总shuffle时间中的占比高达68.8%;在跨机通信场景下,占比为25% [12][14] - 传统的All-to-All通信对token冗余和网络层次缺乏感知,同一token可能被重复发送多次,造成带宽浪费 [14] - 当前主流通信解决方案基于“通信与数据布局解耦”的传统设计假设,难以高效应对实际生产中的复杂数据访问模式,性能已逐渐趋近瓶颈 [2][8] 创新解决方案:FUSCO通信库的核心设计 - 无问芯穹联合多所高校推出高效通信库“FUSCO”,旨在解决MoE模型在专家并行策略下的通信瓶颈 [3] - FUSCO采用全新的融合式通信优化路径,核心思路是将通信过程与数据底层布局主动协同,在数据搬运的同时完成布局转换,从而彻底消除冗余的数据重排操作 [4][16] - 其设计打破了将重排视为独立步骤的传统思路,通过协同设计通信接口和底层算子,使数据重排被自然地融合进通信过程本身 [18][19] - 通信接口上,FUSCO将通信数据抽象为一组逻辑段,并使用段描述符数据结构记录其起始地址,通过`gather-send`和`scatter-recv`两个互补的原语实现端到端的精确数据放置 [21][23] - 在执行层面,FUSCO通过一套流水线化的执行方式,将布局整理与数据传输紧密绑定,在引入灵活重排能力的同时,维持与高性能通信库相当的带宽效率 [24][27] FUSCO的通信调度与优化策略 - FUSCO的通信调度核心目标是在消除重排的基础上,减少跨机传输量并平衡各设备通信负载 [28] - 系统会生成详细的执行计划,将MoE的token路由信息转化为可直接执行的低层指令 [28] - 为提升跨节点通信效率,FUSCO为每个发送GPU在每个目标节点指定一个“转发GPU”,通过节点内高速链路分发数据,减少了跨节点重复传输 [30] - 通过将转发GPU组织成通信组,确保高负载GPU分散在不同组中,实现在线负载均衡,避免网络热点 [30] - 与DeepEP不同,FUSCO能在多种网络环境下高效运行,无需针对网络做额外调优,具有更好的可移植性 [32] FUSCO的性能表现与优势 - 在通信性能测试中,使用64张GPU,在真实推理流量、单节点路由流量、负载不均衡流量三种典型配置下进行评测,总文本长度最大可达2048K tokens [36][38][40] - 实验结果表明,相较于NCCL和DeepSeek的DeepEP通信库,FUSCO的通信性能最高可分别提升3.84倍和2.01倍,且文本长度越长加速越明显 [4][44] - 在端到端性能测试中,在64张GPU上对Qwen3-235B-A22B和DeepSeek-V3两种MoE模型进行评测 [45] - 在训练任务中,FUSCO相较于NCCL性能最高提升1.39倍,相较于DeepEP性能最高提升1.19倍 [47] - 在推理任务中,FUSCO相较于NCCL性能最高提升1.25倍,相较于DeepEP性能最高提升1.16倍,且模型规模越大,性能提升越显著 [47] - 总结来看,在多节点64 GPU测试中,FUSCO的通信性能分别提升了3.84倍和2.01倍,同时端到端性能增幅最高达40% [48]
刚刚,稚晖君发布的人形机器人Q1,小到能塞进书包
机器之心· 2025-12-31 16:11
产品发布与核心定位 - 智元机器人于12月31日正式发布全球首款全身力控的小尺寸人形机器人Q1 [1] - Q1的设计理念并非单纯缩小体积,而是在保持全尺寸人形机器人能力的前提下,极大降低科研成本与物理交互门槛 [6] - 该产品试图将全尺寸机器人的动力性能与智能化压缩至背包大小,定义未来个人机器人的基本范式 [4] - Q1面向高校、创业公司的科研团队,开发工具包和接口完全开放,同时也面向硬核潮玩市场,支持用户通过3D打印自定义外观 [8] 技术突破与工程挑战 - Q1的核心关键词是“全身力控”,这是一种协调机器人全身多个自由度与环境交互时力与运动的高级控制技术 [15] - 实现小尺寸全身力控面临巨大挑战,主流方案依赖QDD关节,而将其微型化是技术难点 [16] - QDD关节微型化面临三大挑战:高扭矩密度电机难以缩小体积、小体积下的热管理难题突出、以及极高的制造和材料工艺要求 [18][19][20] - 智元机器人成功将结构复杂的QDD关节压缩至鸡蛋大小,刷新了工程极限,展现了卓越的技术创新能力 [22] - QDD技术方案结合高扭矩密度电机和低传动比,在力量感知、外力互动和动态响应方面相比传统方案有明显优势 [25] 公司发展与行业影响 - 智元机器人成立于2023年2月,在不到三年时间里估值已飙升至150亿元人民币 [24] - 公司已完成对A股科创板上市公司上纬新材的控股,推动其业务向具身智能机器人转型,团队成员已于今年11月进入董事会 [24] - 公司技术发展迅速,已完成机器人本体、三大智能技术的快速迭代,并构建了核心零部件、传感器等供应链 [24] - 公司产品线包括远征、灵犀、精灵三大系列,分别面向工业、服务与消费端,实现了全场景覆盖 [26] - 截至今年12月初,公司已达到5000台机器人量产下线的里程碑 [26] - Q1的发布预示着人形机器人可能成为更多普通用户的伙伴,并可能成为未来重要的AI交互终端形态 [27][28] 产品特性与设计理念 - Q1采用了模块化的硬件设计,支持头部等位置的整体更换,并配合零门槛的动作编排 [12] - 机器人可以像等待提示词的AI一样,在物理世界完成多种任务,并且支持多机器人协同工作 [10][12] - 产品设计体现了“极客精神”的回归,其出现被类比为乔布斯将笔记本电脑塞进信封的革命性意义 [3]
7B扩散语言模型单样例1000+ tokens/s!上交大联合华为推出LoPA
机器之心· 2025-12-31 16:11
核心观点 - 上海交通大学DENG Lab与华为联合提出一种名为LoPA的无训练解码算法,通过前瞻并行解码机制,显著提升了扩散大语言模型的推理并行度和吞吐量,突破了现有解码策略的效率瓶颈 [2][7][18] 技术原理与创新 - **核心问题**:现有扩散大语言模型普遍采用置信度驱动采样,其贪婪的填词顺序限制了模型的并行潜力,导致单步生成通常局限于1-3个Token [13][14] - **算法创新**:LoPA引入前瞻并行解码机制,通过并行探索多个填词顺序分支并验证其未来置信度,主动选择最优路径,从而提升单步生成Token数 [9][16][18] - **关键特性**:该算法具有极高的并行度、无需训练、即插即用,并能通过分支并行最大化硬件利用率 [7][8][10] 性能提升数据 - **并行度提升**:在GSM8K基准上,LoPA将D2F-Dream模型的单步生成Token数从3.1提升至10.1,并行度提升超过3倍 [3][28][29] - **吞吐量表现**:配合自研的LoPA-Dist分布式推理系统,在华为Ascend 910C平台上实现了1073.9 tokens/s的单样本峰值吞吐量,在MBPP和GSM8K基准上的平均吞吐量分别达到1073.86和856.46 tokens/s [3][6][33][34] - **质量保持**:在MBPP、HumanEval等多个基准测试中,LoPA在显著提升TPF的同时,保持了与基线模型相当的精度得分 [29][30][31] 系统实现与优化 - **分布式系统**:为承载LoPA的多分支计算,团队设计了LoPA-Dist分布式推理系统,引入了分支并行策略,可与张量并行等现有机制混合使用 [24][25] - **硬件平台优化**:系统针对NVIDIA CUDA和华为Ascend平台进行了定制优化,分别面向低延迟和高吞吐场景,采用了不同的键值缓存管理协议和并行策略 [23][26][34] 应用与影响 - **模型适用性**:该研究在SOTA扩散语言模型D2F上进行了成功验证,未来计划进一步探索在SDAR等更多dLLM架构上的应用 [28][36] - **行业意义**:该工作通过算法与系统的协同设计,证明了非自回归模型在保持高性能的同时,能够实现远超传统自回归模型的推理速度,推动了高效生成模型的落地 [36]
重塑语音安全!上海交大联合宇生月伴,研发高性能高泛化语音鉴伪大模型
机器之心· 2025-12-31 12:09
文章核心观点 - 针对语音鉴伪模型面临的“泛化性挑战”,研究提出了一种以数据为中心的解决方案,通过优化训练数据的多样性和混合策略,而非单纯扩大模型规模或数据量,成功构建了高性能、高泛化的语音鉴伪大模型 [2][4][21] 研究背景与挑战 - 生成式AI技术使合成语音逼真度极高,导致语音欺诈与信息伪造风险加剧,语音鉴伪技术成为信息安全研究重心 [2] - 当前语音鉴伪模型面临严峻的“泛化性挑战”:在实验室数据集表现优秀的模型,面对现实世界中未见过的生成算法时,检测性能会剧烈下滑,限制了其在真实场景中的应用价值 [2] 核心研究方法:数据为中心 - 研究从数据中心视角切入,将数据版图重构为两个核心视角:构建单一数据集与聚合多源数据集 [4][5] - 研究旨在通过系统性实证分析探索两个核心问题:训练数据的规模定律,以及聚合多源数据集时的高效混合与采样策略 [7][9] 核心发现:规模定律与多样性价值 - **多样性远胜数据总量**:在资源有限情况下,提升信源与生成器的多样性所带来的性能增益,远比单纯增加数据总量更具效率 [10] - **信源与生成器属性互补**:信源多样性有助于模型构建稳健的真实语音分布,而生成器多样性则显著强化模型对各类伪造特征的识别 [10] - **泛化表现具备可预测性**:泛化误差随数据多样性的增加呈现出稳定的幂律缩放特性 [10] 核心策略:多样性优化采样 - 提出了**多样性优化采样策略**,其核心在于将异构数据按信源或生成器划分为细粒度域,并相对公平地对待每一种已知的生成模式 [12] - **DOSS-Select(多样性筛选)**:一种数据剪枝策略,旨在构建更平衡高效的训练子集,剔除冗余样本以提升训练效率 [14] - **DOSS-Weight(分布加权)**:一种数据重加权策略,调整各数据域在训练时的采样概率,让模型更均衡地学习不同规模域的特征 [14] - **极高的数据效率**:采用DOSS-Select策略,仅需使用约**3%**的总数据量,其泛化性能即可超越朴素聚合全部数据的基线水平 [14] - **显著的性能提升**:采用DOSS-Weight策略,实现了相对朴素聚合基线约**30%**的大幅度误差削减 [14] 实战评估:学术基准表现 - 研究构建了一个包含**1.2万小时**音频、涵盖**300+**个伪造领域的大规模异构数据池,并应用DOSS策略进行训练 [16] - 在多个公开测试集的评估中,模型平均等错误率降至**1.65%**,在多个主流基准测试中刷新了记录 [16] - 与之前最好的系统(日本NII,在**7.4万小时**数据上训练的**2B**参数模型,平均EER **3.94%**)相比,新方案仅用约**1/6**的训练数据与更精简的参数规模,便实现了检测误差的倍数级削减 [16] - 具体数据:采用DOSS-Weight训练的XLS-R-1B模型(**965M**参数,**12k**小时数据)平均EER为**1.65%**,显著优于朴素聚合训练的XLS-R-2B模型(**2.2B**参数,**74k**小时数据)的**3.94%** [17] 实战评估:商业接口表现 - 针对从Google、Microsoft到ElevenLabs、MiniMax等**9类**最新商业接口进行评估,模型平均检测准确率达到**96.01%** [18] - 在面对高保真合成引擎Qwen3时,模型仍能保持**87.32%**的高准度识别 [18][19] - 具体数据:采用DOSS-Weight训练的XLS-R-1B模型平均准确率为**96.01%**,显著优于朴素聚合训练的XLS-R-2B模型的**86.31%** [19] 研究总结与意义 - 该研究标志着向“数据中心”范式的深刻转变,通过量化多样性的规模效应并引入优化采样机制,实现了对异构数据资源的高效调度与深度挖掘 [21] - 为构建高性能、高泛化的语音安全大模型提供了全新的探索思路 [21]
视远 · 正心明智——「AI 中国」机器之心2025年度评选正式揭晓
机器之心· 2025-12-31 12:09
2025年人工智能行业技术发展态势 - 大模型技术演进速度被不断推高,新的模型架构、训练范式与推理策略轮番登场,技术边界持续向前推移 [3] - 海外新一代模型如GPT-5、Gemini 3相继亮相,在理解、生成与推理等核心能力上持续抬升上限,通用智能轮廓愈发清晰 [4] - 国内AI场面同样热闹,国产大模型在核心能力上不断拉近与国际头部模型的差距,并在个别方向上实现反超 [4] - 国内大模型在开源、工程化和应用适配方面明显提速 [4] - 决定行业长远价值的关键在于能力是否能在真实世界中持续发挥作用,并重塑生产方式、沉淀为基础能力,而非短期参数或榜单表现 [4] 2025年度“AI中国”评选榜单概览 - 机器之心策划了2025年度“AI中国”榜单,旨在记录中国人工智能进展并勾勒技术创新未来 [6] - 榜单评选于2025年正式揭晓 [7] 最强技术实力企业/机构TOP 10 - 该榜单评选出在技术实力方面领先的十家企业或机构 [7] 人工智能领军企业TOP 20 - 该榜单评选出二十家在人工智能领域处于领军地位的企业 [11][13] - 上榜企业包括DataCanvas、格灵深瞳、爱诗科技、昆仑万维、阶跃星辰、Meshy.ai、MiniMax、商汤科技、潞晨科技、生数科技、稀宇科技、无问芯穹、思谋科技、小红书、星辰天合、月之暗面Kimi、智谱、中兴通讯、中关村科金、中移九天、智象未来、HiDream.ai等 [14] 最佳大模型TOP 20 - 该榜单评选出二十个最佳大模型 [16] - 上榜模型包括阶跃星辰、讯飞星火、KAT-Coder-Pro V1、可灵AI、快手Mureka V7.6、Ling-1T、昆仑万维LongCat、蚂蚁集团LongCat-Flash-Chat、Intern-S1、上海人工智能实验室M LongCat、美团、商汤日日新SenseNova V6.5、生数科技Vidu、深度求索Deepseek 3.2、腾讯混元3.0、月之暗面Kimi K2 Thinking、智谱GLM-4.6等 [18] 最佳大模型产品TOP 20 - 该榜单评选出二十个最佳大模型产品 [20] - 上榜产品包括百度文心一言、阿里巴巴通义千问、百度慧播星、百度秒哒、钉钉AI、讯飞智文、京东言犀AI助手、昆仑万维Skywork Super、快手可灵AI Agents、蚂蚁集团灵光APP、蚂蚁阿福、腾讯云智能体开发平台、腾讯Argus、如视LARGUS等 [21] 具身智能领军企业TOP 20 - 该榜单评选出二十家在具身智能领域处于领军地位的企业 [23] - 上榜企业包括HUMANDOID、Dexmal、光轮智能、北京人形机器人创新中心、原力灵机、跨维智能、加速进化、魔法原子、弯彻智能、鹿明机器人、RoboScience、千寻智能、星尘智能、松延动力、星动纪元、星海图、银河通用、优必选、宇树科技、智元机器人、逐际动力、自变量机器人等 [24]
NUS尤洋教授深度探讨智能增长的瓶颈:或许我们将这样实现AGI?
机器之心· 2025-12-31 12:09
文章核心观点 - 当前人工智能的发展已取得惊人成就,但正面临进一步增长的瓶颈[1] - 智能增长的核心矛盾在于如何将算力更有效地转化为智能,而非单纯的架构变革[6] - 现有以Transformer架构和超大算力为核心的范式,在进一步增长时难以充分消化持续增长的算力资源,导致“预训练红利递减”[6][33] - 未来突破的关键不在于工程优化,而在于底层范式的突破,以找到更高效的算力利用方式[8][42] - 尽管存在瓶颈,但通过更好的算力利用方式,人工智能的智能水平仍有巨大的发展空间,前景依然乐观[9][44] 智能的本质与现状 - 目前对于智能(AGI)尚无明确定义,其标准会随时代变化[15][16] - 智能的核心能力是预测和创作,预测未来的难度远高于解释过去[17][30] - 当前模型的智能主要来源于预训练(尤其是自监督方法),仅有少量来自微调或强化学习[20] - 预训练、微调、强化学习在计算本质上都是通过计算梯度(或其类似物)来更新模型参数[21] 当前智能增长瓶颈的根源 - 瓶颈的根源在于现有范式无法充分消化持续增长的算力[33] - 当前AI大模型的技术本质是将电力能源通过计算过程转化为可复用的智能,转化效率是关键[19] - 即使算力指数级增长,如果现有算法无法有效利用这些资源,智能提升仍将受限[7] - 衡量智能提升的根本指标是:使用同样的浮点数计算次数,能否获得一个更好的模型[34] 现有成功范式的分析 - Transformer架构能够胜出的核心原因在于其本质是一台并行计算机,完美匹配了GPU的并行计算单元[24][27] - OpenAI坚持的Next-Token Prediction损失函数,因其最小化人为干预且本质是预测未来,在实践中效果显著优于BERT的完形填空等损失函数[28][29][30] - 英伟达GPU设计的核心路线是在同样的物理空间里堆叠更多高带宽内存(HBM),这要求算法必须提供足够大的批处理量或并行度[22][23] 未来潜在的发展方向 - **硬件与基础设施层**:需要持续产生更大的绝对算力,可通过集群方式构建,核心目标是维持或提升“计算开销/通信开销”的比值[36][41] - **计算精度**:探索更高精度(如FP32、FP64)的计算能力,理论上应能带来更可靠的计算结果和智能提升[45] - **优化器**:采用更高阶的优化器,理论上能在学习过程中为模型提供更好的指导,计算出更优的梯度[45] - **模型架构与损失函数**:需要扩展性更好的架构或损失函数,以更高效地整合和利用算力[45] - **训练策略**:在参数与数据匹配的前提下,探索更多的训练轮次和更优的超参数,以“吃下”更多能源并转化为智能[45] - **并行计算**:通过增加模型每层的参数量(Tensor Parallelism)和序列长度(Sequence Parallelism)来提高并行度,从而利用更多算力[37] 对未来的展望 - 智能增长归根结底是算力利用问题,随着问题规模的不断扩大,行业终将找到更高效的算力使用方式[42][44] - 预训练可能才刚刚开始,大模型智能仍有巨大的发展空间[9] - 人工智能发展的历史经验表明,依托计算能力的通用方法最终将占据压倒性优势[44]
摩尔线程天使投资人:对近期AI的四十个观察
机器之心· 2025-12-30 20:10
AI行业当前发展态势与核心特征 - AI行业正以非线性、非均匀的特征加速发展,Scaling Law尚未收敛,AI相关经济活动规模达到前所未有的量级[3] - 行业发生众多大事,包括OpenAI牵头的千亿美金“循环交易”、模型公司估值达数千亿美金级别,以及Gemini 3、GPT5.2等新模型发布[3] - 与AI相关的经济活动正以强大动能迅猛发展,与传统工业经济的节奏形成鲜明对比[3] - 行业领袖如马斯克、黄仁勋表达了积极观点,认为AI将推动社会进入“全民高收入”时代,并将全球GDP推高5倍至500万亿美元[4] AI技术发展的核心规律与未来架构 - Transformer架构的Scaling Law是当前AI大模型发展的基石,其收敛条件与时间将决定AI能力上限及后续发展方向[7] - 大语言模型的推理成本每12个月下降90%、能力密度约每100天翻一番、完成复杂任务的能力每七个月翻倍[7] - 行业在探索Transformer之后能大幅推进AI智能的下一个架构,其诞生地将影响未来技术格局[5] - 需要发现更多关于AI大语言模型的基础规律,并探索其是否存在类似“摩尔定律”的规律[5][7] AI经济的扩散阶段与时间预测 - 技术扩散过程分为核心原理成熟、工程化成熟、跨行业和规模化部署、成为基础设施四个阶段[7] - 当前AI处在核心原理成熟(Scaling Law未收敛)、工程化有巨大发展空间、跨行业部署处在早期的阶段[7] - 参考蒸汽机用120–150年、电力用80–100年完成扩散,初步预计AI完成整个过程可能用40–60年[7] - 若以2012年神经网络AlexNet作为核心原理成熟起点,AI可能在2035到2050年完成上述过程[7] AI工作能力的评估与“经济图灵测试” - 需要构建一套针对AI Agent工作能力的量化评测体系,其评测任务应来源于真实经济活动[7] - 该体系可用于评估不同推理能力AI大语言模型的投资回报率与创造价值能力[7] - 提出了“经济图灵测试”概念,用于评价AI是否独立完成经济任务及社会是否完全接受其工作结果[10] - 定义了“产出增强倍数”,即用AI和机器人系统执行任务的总产出与单个劳动力一年产出的比值,用以衡量AI带来的效率提升[10] “数字层”的概念、机制与影响 - “数字层”是AI经济阶段可能出现的重要基础设施,由个人AI助理和垂类AI Agent组成,全面了解经济主体与物理世界[11] - 其工作机制是以LLM为决策核心、以Agent为执行单元,在状态-目标-行动闭环中持续运行的代理化操作层[10] - “数字层”具有目标导向、自主搜索/获取信息、自主决策、自主行动、全天候工作的特点[10] - 它最终将连接全球几乎所有的消费者和生产者,并对他们形成深度、完整的了解,从而可能构建近似“全知全能”的能力[10][11] - “数字层”能降低经济活动的交易成本,包括组织内成本和组织间成本[17] - 在AI扩散完成后,大部分经济活动可能通过“数字层”完成,使其成为经济和社会的重要基础设施[18] AI对就业、工作体系与组织形态的冲击 - AI已开始替代初级工作,如代码、数学、设计、线上销售及重复性脑力工作,可能形成初级工作的“真空地带”[23][25] - 需要预估AI具备不同职业工作能力的时间顺序,其具备能力的工作通常具有任务清晰可形式化、输入输出标准化等特点[25] - 工作体系可能从“以职业为中心”向“以任务为中心”转变,任务成为更小的执行单元,提高经济活动效率[25] - 具备工作能力的AI成为“AI员工”,将改变组织管理,包括招聘、培训、考核及与人类员工的分工协作[30] - 中小企业可能因AI员工获得远超当前人类员工人数的工作能力,从而增强竞争力并提高创业成功率[30] AI经济的宏观影响与统计变化 - AI可能提高经济体的全要素生产率,进而提高全球长期经济增长率,黄仁勋推测AI可能将全球GDP推高至目前的5倍[10] - 提出了“产出/需求比”概念,当该比值足够大时,社会可能进入“非稀缺经济”[10] - “数字层”的细颗粒度、高频、跨主体特点可能提供更丰富的经济统计工具,提高统计颗粒度和频次[30] - “数字层”可能通过降低信息不完全、减少价格数量调整摩擦、实现全局协调等方式,部分平抑经济周期[30] AI产业的价值分配与战略资源 - 在AI大模型商业形态的稳态下,需要理解能源、算力、基座模型、应用层之间的价值分配[20] - 目前行业在基座模型研发和算力消耗上投入大量花销,应用层价值占比尚小[25] - 算力、模型层预计有显著的价值分配占比,且全球相关公司数量不多,意味着全球GDP的一定比例将流入这些公司,带来巨额收入和利润[25] - 电力、算力、模型将成为国家的战略资源[37] 全球AI经济发展格局与评价体系 - 世界各国将或先或后进入AI经济阶段,AI大模型服务、应用服务、算力基础设施将按顺序抵达全球各国[32] - 需要构建评价经济体“经济社会被AI赋能”程度的体系,初步指标包括企业AI使用率、Agent部署密度、人均AI交互频次等[34] - 提出了“AI充裕经济体/社会”概念,指AI被充分、适当使用并带来可欲结果的经济体,这可能成为评价国家竞争力的新指标[34] - AI欠充裕或匮乏经济体需在能源、算力、数据、算法层面评估现状,制订合理有效的发展与追赶策略[37] - AI经济可能改变基于传统要素禀赋的国际分工,转向“按任务划分的全球最优分配”,并改变各国全球GDP占比[37] AI的算力能源需求与能力边界 - 需要预估全球算力需求的增长速度及是否会遇到算力供给瓶颈[37] - 需要评估激增的算力需求给能源供应带来的变化及是否会遇到能源/电力供给瓶颈[37] - 需探讨基于神经网络的大语言模型思维能力的边界,以及是否存在AI永远无法追上人脑的领域[37] - 提出了是否应设定AI能力界限的问题,建议人类保有价值设定、目标设定、判断力、创造力、情感交流、审美及对AI的最终控制权[37] “非稀缺经济”下的社会展望 - 凯恩斯曾预见,当经济问题解决后,人类将面临如何利用闲暇的永恒问题,并建议3小时工作制[41] - 若“非稀缺经济”到来,需要思考能使人们在闲暇中获得满足感的新活动、重新定义群体人生意义,并设计新的工作时长机制[41]
三维空间太难懂?RoboTracer让机器人理解复杂空间指令,推理3D空间轨迹,开放世界也能精确行动
机器之心· 2025-12-30 20:10
文章核心观点 - 研究团队推出名为RoboTracer的多模态大模型,旨在解决具身机器人在复杂开放世界(如家庭环境)中理解和执行包含多步、带真实尺度约束的空间指令的难题[2][4][5] - 该模型通过创新的两阶段训练(SFT和RFT)及专用数据集TraceSpatial,在3D空间理解、度量和指代任务上达到先进水平,并能生成精确的3D空间轨迹以指导机器人动作,实现“开箱即用”[6][10][17] RoboTracer模型概述 - RoboTracer是一个具备三维空间理解与推理能力的多模态大模型,拥有独立的图片编码器和支持任意多几何输入(如绝对深度图、相机内参)的空间编码器[13] - 模型不仅能回答定性与定量的空间感知问题,还能进行复杂的组合式推理,最终生成精确的3D空间轨迹[13] - 模型可直接灵活集成到不同类型的机器人(如UR5机械臂、G1仿人机器人)上,在真实环境中完成复杂、动态、多步骤任务[10] 技术核心与创新 - **解耦(u, v, d)表达**:采用图像像素(u, v)和深度d结合相机内参来换算真实3D坐标,降低了模型学习复杂相机几何的门槛,并增强了数据复用能力[15] - **通用空间编码器与尺度解码器**:尺度解码器通过回归损失监督,将特征与真实世界绝对长度对应;通用空间编码器借助强几何先验,能按需融合不同几何信息,提升绝对尺度感知能力[16] - **两阶段训练策略**:SFT阶段针对性提升单步3D空间理解、度量与指代能力;RFT阶段创新性地使用度量敏感过程奖励,显式监督轨迹生成中的关键中间步骤,从而增强多步、带真实尺度约束的推理能力[17] 性能表现与评测 - **空间理解/度量/指代任务**:经过SFT训练的RoboTracer在相关任务中达到79.1%的平均成功率,比Gemini-2.5-Pro高出11%的平均准确率[10][21] - **空间轨迹生成任务**:在TraceSpatial-Bench评测基准上,经过RFT训练的RoboTracer领先所有其他模型,比Gemini-2.5-Pro高出36%的平均准确率[10][24] - **仿真与真机实验**:在机械臂仿真评测中,RoboTracer的总平均成功率达到64.0%,远超其他视觉-语言-动作系统;在真实世界机器人空间追踪任务中,其成功率(如60%和30%)也显著高于对比模型(如Open VLA和RoboRefer的0%)[27][28] TraceSpatial数据集 - 为支持SFT和RFT训练,研究团队构建了大规模、高质量、带真实尺度的TraceSpatial数据集[20] - 数据集核心特点包括:场景多样(覆盖室内外和桌面环境)、维度丰富(48.2%的数据与尺度相关,推理步骤最高达9步)、规模庞大(包含450万个样本和3000万个问答对,是目前最大的3D空间数据集)、精细标注(包含层级式物体描述和绝对尺度几何信息)以及易于扩展[22]
自回归因果注意力也能并行解码?上交联合UCSD突破LLM推理瓶颈,模型代码全开源
机器之心· 2025-12-30 14:57
文章核心观点 - 由UCSD Hao AI Lab和上海交大Deng Lab团队提出的Jacobi Forcing技术,是一种突破性的解决方案,能够将标准自回归(AR)模型转化为原生因果并行解码器,在保持接近AR模型生成质量的同时,显著提升推理速度,为LLM高效推理开辟了新路径 [5] 技术方案核心优势 - Jacobi Forcing的核心创新在于打破了“低代价、高速度、高质量”的不可能三角,其优势体现在三大维度 [7] - 优势一:原生因果架构,部署与训练成本低。该技术保留了AR模型的因果注意力结构,完美适配现有KV缓存复用机制和AR优化内核,可作为现有AR模型的“即插即用”替代方案,极大降低部署与训练成本 [7] - 优势二:高效并行解码,速度提升显著。通过渐进蒸馏训练,模型能在每轮前向传播中并行更新多个token,结合多块并行解码和拒绝回收策略,在编码任务中实现181.8 TPS的生成速度,远超AR基线的39.8 TPS [10] - 优势三:质量损失极小,任务表现优异。通过渐进式一致性蒸馏损失和AR损失的联合优化,模型在噪声环境下仍能生成贴近AR分布的高质量结果。在HumanEval编码基准中,以83.5%的准确率实现4倍提速;在GSM8K数学任务中,91.4%的解题率接近AR基线,速度提升3.7倍 [11] 技术路线详解 - Jacobi Forcing以因果并行解码为核心目标,基于Jacobi解码框架进行深度优化,通过训练机制创新与推理策略升级的全链路设计,在保留AR模型因果骨干与KV缓存兼容性的同时,实现高效并行解码 [14] - 技术基础:基于Jacobi解码的因果并行框架。Jacobi解码是一种因果并行解码过程,对一个块内的所有token进行并行迭代更新,直到所有token与贪心AR输出完全匹配,形成“并行精炼轨迹” [15] - 训练阶段优化:采用噪声感知的渐进式学习。利用AR模型执行Jacobi解码采集轨迹,设计渐进式噪声调度策略,按“低噪声→高噪声”顺序打包训练序列,并设计噪声感知注意力掩码和加权双项联合损失函数(渐进式一致性蒸馏损失与AR损失)进行高效训练 [16][17] - 推理阶段优化:采用高效并行解码策略,核心包括“高质量草稿利用+多块调度”两大模块。推理时会缓存并复用轨迹中的高质量n-gram片段作为候选草稿,减少迭代次数。同时维护多个解码块(真实活跃块与伪活跃块)进行并行调度,最大化解码效率 [19][21] 实测性能表现 - 在A100 GPU上的7B模型基准测试中,Jacobi Forcing超越dLLMs、投机解码等主流方案,展现出更优的速度-质量权衡 [25] - 在HumanEval编码任务中,Jacobi Forcing模型实现了3.9倍的速度提升(Speedup),4.0的TPF(tokens-per-forward),以及159.5的TPS(tokens-per-second),准确率为83.5% [25] - 在GSM8K数学任务中,Jacobi Forcing模型实现了3.5倍的速度提升,3.7的TPF,以及146.1的TPS,解题率为91.4% [25] - 无论是编码、数学等专业任务,还是通用文本生成场景,Jacobi Forcing都能在保证结果可靠性的前提下,将推理速度提升一个量级,尤其适合对延迟敏感的工业级LLM应用 [27] 行业影响与前景 - Jacobi Forcing的出现,不仅解决了LLM推理的效率瓶颈,更重新定义了因果模型的并行化可能 [27] - 随着大模型应用向低延迟、高并发场景渗透,这种兼顾兼容性、高性能和高质量的解码方案,有望成为工业级LLM部署的首选技术,推动AI应用效率迈入新阶段 [27]