Workflow
机器之心
icon
搜索文档
RXD大会首发北京:当硅谷还在谈论物理AI,西门子已重写工业规则
机器之心· 2026-03-24 17:17
文章核心观点 - 人工智能正从数字世界加速进入物理世界,引发工业人工智能革命,其意义堪比电力,将重塑生产与消费[7] - 西门子公司凭借贯通硬件、软件与数据的技术栈、逾170年沉淀的行业知识(Know-how)以及开放的生态系统,正在构建将AI规模化应用于现实工业世界的基础设施,推动生产力跃迁[6][25][38] - 中国作为全球最大的制造业经济体,被认为是工业人工智能最佳的试验场,首届Siemens RXD大会落地北京体现了在复杂现实环境中验证和迭代技术的重要性[41] 根据相关目录分别进行总结 物理AI的趋势与重要性 - 物理AI成为行业焦点,从CES 2026到GTC大会被反复强调,企业界如Jeff Bezos也在洽谈筹集千亿美金加码制造转型[3] - 人工智能进入物理系统被视为一种通用型技术,其影响可与电力之于工业时代相提并论,将改变工作生活方式并重塑生产消费[7] - 工业人工智能革命已经开启,但将强大AI模型应用于现实世界并规模化是巨大挑战[7] 西门子的全栈技术能力 - **硬件基础**:硬件对于AI进入物理世界比以往更重要,公司发布26款新品,绝大多数指向硬件,以确保AI能从云端落地为现实生产力[7][9][11] - **软件与数字孪生**:AI加速后的数字孪生达到新高度,例如Digital Twin Composer与NVIDIA Omniverse结合,能以接近物理级精度重建生产系统[12] - **数据驱动与工业AI模型**:公司的全栈能力核心在于长期沉淀的工业数据资产,用专有数据对模型进行再训练后,问题解决命中率从60%-70%提升至接近95%[18][19] - **行业知识护城河**:公司拥有逾170年的行业实践,包括1500名AI专家、数以万计工程师覆盖40多个行业的积累,构成理解复杂工业场景的认知体系[25][27] 应用案例与成效 - 在奥迪工厂,AI用于高速检测焊接质量;在成都工厂,机器人借助三维视觉完成无序抓取[7] - 百事可乐案例中,在虚拟环境中AI能识别出高达90%的潜在问题,初步部署将吞吐量提升约20%,设计周期缩短,资本支出可降低约10%至15%[13][14] - 新应用SiePA Pro 3.0通过预测性维护,将设备管理转向数据驱动的主动决策[26] - 基于AI的程序转换Agent能将其他厂商数控机床的“语言”自动转译为西门子可识别的代码[26] 生态系统的构建与合作 - 展区中超过六成合作伙伴已带来AI相关产品,覆盖数据中心、钢铁、生物医药等关键行业,表明工业AI正从概念验证走向规模应用[31] - 通过西门子Xcelerator平台,将底层模型能力、工程工具与行业Know-how模块化开放,供企业构建自身解决方案[32] - 与英伟达的战略合作是“战略加速器”,在仿真能力、芯片设计效率及AI工厂控制方面带来数量级提升,例如仿真软件性能可达百倍甚至千倍[35][36] - 与阿里云的协作侧重解决AI在中国复杂环境中的规模化部署问题,借助其生态连接能力将工业方案嵌入企业既有生产体系[36] 市场地位与行业影响 - 全球每三条制造产线中,就有一条运行在西门子的控制系统之上;全球约70%的电力流经由西门子软件规划或优化的电网[29] - 几乎所有汽车都会与西门子的技术产生关联,要么由其技术设计,要么由其技术制造[29] - 公司持续进入变化最剧烈的区域并进行自我重构,当前以工业AI为核心的转型被视为其170年历史中最迅速、最深刻的一次[44]
世界模型最新综述!中科院联合MBZ、NTU、Oxford系统梳理前沿进展
机器之心· 2026-03-24 17:17
世界模型综述的核心观点 - 世界模型是AI迈向“会想、会推演、会规划”通用智能的关键路线,其核心目标是通过学习环境演化规律,构建能够进行未来预测、内部仿真、规划搜索和行动决策的模型框架 [2] - 该综述系统梳理了世界模型的建模范式、方法、关键功能及应用,提供了一个全面的基准数据集、评估指标、模拟平台和跨模型性能对比,调研进展截止至2026年1月 [2][3] - 综述将现有方法归纳为四大分支:观测层生成式世界模型、潜空间世界模型、强化学习驱动的世界模型以及对象中心世界模型,并从统一建模视角进行系统分析 [2][10] 研究动机与综述特色 - 研究动机源于世界模型相关研究分散在视频生成、机器人学习、自动驾驶等不同社区,技术路线和评测协议不统一,而世界模型是连接感知、推理、控制与行动,走向更高层次智能系统的重要范式 [6][7] - 该综述的特色在于对世界模型进行了更系统的分析,从建模范式、数学形式、关键功能出发,进行了清晰的技术分类和数学化建模 [10] - 内容覆盖全面,不仅涵盖四类基础世界模型,还系统回顾了其在机器人、自动驾驶、科学发现等多个应用场景的进展,并总结了基准数据集、评测指标等 [10] 基础世界模型的分类与特点 - **观测层生成式世界模型**:直接在观测层面建模未来世界,与图像、视频生成紧密联系,能直接生成未来观测结果,在仿真表现和结果呈现上具有优势 [16] - **潜空间世界模型**:先将观测压缩到高维潜表示,再在潜空间中建模环境动态,更强调内部表征、动态推演与高效预测,体现了从表层生成走向内部机制建模的趋势 [16] - **强化学习驱动的世界模型**:通过引入动态建模与奖励建模,使世界模型能在想象推演的基础上参与策略优化与行动选择,体现了其与智能体决策闭环之间的联系 [16] - **对象中心的世界模型**:以对象为基本单位来组织和理解环境,把复杂场景表示为一组可交互、可组合的对象结构,在可解释性、组合泛化与结构建模方面价值鲜明 [16] - **预期的世界模型**:未来方向是从当前依赖观测数据的“黑盒式”预测,转向基于符号化方程、具备因果可验证性且能持续更新的科学理论架构,目标是解释“为什么”而不仅仅是预测“什么” [16][17] 世界模型的主要应用场景 - **机器人**:世界模型被视为连接感知、预测、推理与行动的核心中枢,在操作、导航、策略学习和运动控制中发挥关键作用,特别是在部分可观测、强物理交互环境中 [20] - **自动驾驶**:世界模型是连接交通场景建模、行为推演与行动选择的关键模块,主要方向包括预测建模、动作条件想象和决策中心集成,以支持对未来场景的预判和规划决策 [22] - **科学发现**:世界模型的应用从“面向交互的环境模拟”走向“面向复杂系统的数据驱动科学建模”,在社会科学、社会经济系统及物理与自然科学中支持长期预测、模拟推演和不确定性分析 [26] - **虚拟游戏模拟**:作为经典应用场景,从2D像素级观测预测走向3D网格级观测预测,研究重点转向具备几何结构、交互能力与语义一致性的虚拟世界构建 [27] - **GUI智能体**:世界模型能增强GUI智能体的多步决策能力,使其在执行前对界面变化进行内部模拟,从而完成前瞻规划、方案比较与错误修正,主要应用于Web agents与操作系统/桌面agents [28] - **可解释与可信的世界模型**:关注点从性能与功能推进到内部机制与可靠性,强调世界模型需具备支撑长期泛化的结构化内部表征,以及在分布偏移、对抗扰动等条件下保持稳定可靠的安全保证 [29] 基准、评测与未来挑战 - 该综述梳理了预训练视频基准、下游任务benchmark、一般性评测指标、物理引擎与仿真平台,以及不同世界模型之间的性能比较,并强调未来评测应纳入泛化能力、因果推理能力和长期一致性等更本质的指标 [31] - 在WorldScore数据集上的性能比较显示,不同观测级生成世界模型在多项指标上存在差异,例如TeleWorld在部分指标上得分达**78.23**、**66.73**、**76.58**,而Gen-3在相应指标上为**60.71**、**57.58**、**29.47** [32] - 未来面临的关键挑战包括:**长时程一致性与因果推理**,需解决长时间滚动预测时的误差累积、视觉漂移等问题 [34];**物理与语义约束的融合**,需引入物理先验、可微仿真器等使模型符合规律 [35];**泛化与可扩展性**,需关注多模态大规模预训练、数据高效学习等方向以突破狭窄任务限制并降低训练成本 [35]
世界模型开始做减法?LeCun团队和清华团队给出两种思路
机器之心· 2026-03-24 17:17
世界模型技术演进方向 - 近期有两项关于“世界模型”的研究工作受到关注,分别从“学习”和“推理”两个维度对主流思路进行了补充与修正 [1][2][4] - 一项来自Yann LeCun团队,名为LeWorldModel,旨在以更简洁的联合嵌入预测架构实现端到端训练 [1] - 另一项来自清华大学团队,名为Fast-WAM,重新审视了世界动作模型在推理阶段是否需要显式生成未来的问题 [2] - 两项工作为理解该方向的技术演进提供了不同切入点,建议结合阅读 [4][5] LeWorldModel (LeWM) 研究核心 - 研究团队提出了首个能够从原始像素端到端稳定训练的JEPA模型,仅使用一个下一步嵌入预测损失和一个分布正则项,将可调损失超参数数量从六个减少到一个 [11] - 模型约1500万参数,可在单张GPU上数小时内完成训练;在规划速度上,相比基于基础模型的世界模型最高可提升约48倍 [13] - 该方法在多样的2D与3D控制任务中保持竞争力,其潜在空间能够编码有意义的物理结构,并能可靠检测物理上不合理的事件 [13] - 方法框架由视觉编码器和动力学预测器组成,在潜在空间中完成建模与决策,形成从像素输入到动作输出的闭环 [15][17] Fast-WAM 研究核心 - 研究探讨世界动作模型在测试阶段是否必须进行显式的未来想象,结论是关键性能提升主要来源于训练阶段的视频建模能力 [19] - 团队提出了Fast-WAM,一种在训练中保留视频协同训练,但在测试时跳过未来预测的新型架构 [19] - 实验表明,Fast-WAM在性能上可与“先想象再执行”的模型竞争,而一旦移除视频协同训练,性能则会显著下降 [19] - Fast-WAM推理延迟仅为190毫秒,可实现实时运行,相比现有“先想象再执行”的WAM设计提速超过4倍 [22]
ICLR 2026 | ESC — 解构一步生成,厘清细节,探寻本质
机器之心· 2026-03-24 11:59
一步扩散生成模型的设计框架与核心思想 - 西湖大学的研究提出了一个统一的设计框架,指出无论是离散时间还是连续时间的一步生成方法,其背后都遵循着同一个基本原则:用单步参数化预测去逼近一个两步扩散构建的目标[5] - 这一框架将原本耦合的生成方法模块拆解开来,使研究人员能更清晰地理解各个组件如何协同工作,以及设计中保留了多少可调整的自由度[5] 现有方法的组件级分析与关键发现 - 通过对路径选择、时间采样器等关键模块进行细粒度分析,定位了影响训练-推理稳定性及逼近误差的一个关键来源:损失函数设计中,学习目标里的速度场监督带来的方差[7] - 在实际训练中,用于构建监督目标的状态会偏离理想的轨迹状态,从而引入偏差和方差,这解释了为何遵循相同高层原理的不同捷径设计会产生明显不同的性能[12] 关键设计组件的选择与影响 - 在路径选择上,线性路径与余弦路径的对比实验表明,在线性路径与余弦路径的对比中,线性路径在一步生成的设定下通常更有竞争力,因为其对应的边缘速度场具有更低的凸运输代价,使得监督目标更接近理想情形[16] - 在损失类型上,连续时间一步扩散模型整体上明显优于离散时间变体,因为连续时间方法的误差上界相比离散时间方法少了一项与局部Lipschitz常数、时间步长以及监督方差耦合的额外误差项[17] - 在时间采样上,固定终点时间(r=0)能带来更快的早期收敛,而随机化时间r能让模型接触到更丰富的中间路径信号,从而更好地学习整体的捷径模式,这更像是在“早期易学性”与“最终生成与表达能力”之间的阶段性取舍[18] 提出的改进方法:ESC - 第一个改进方向是使用“即插即用的理想速度”,通过在一个mini-batch内组合多个样本的条件速度,在仅引入较小偏差的代价下,将监督方差从依赖单样本的水平降到与批次大小相关的更低水平,从而带来更稳定的训练监督和更低的一步推理误差[20][21] - 第二个改进方向是设计“渐进式时间采样器”,在训练初期以较高概率采样r=0,随着训练推进再逐步衰减这一概率,最终完全过渡到随机时间采样,从而同时兼顾前期收敛速度和后期全局建模能力[22] - 第三个改进方向是整合已有的有效训练技巧,如variational adaptive loss weighting,并在classifier-free guidance训练场景下引入类别一致的批次处理技术,以提升训练稳定性[23] ESC的实验性能与评估 - 在ImageNet 256×256数据集上,基于SiT-XL/2架构,ESC在1-NFE设置下达到FID50k 2.85,ESC+(训练480个epoch)达到FID50k 2.53,超越了此前所有从头训练的捷径扩散模型[7][27] - ESC的性能大幅超越了基线方法MeanFlow(1-NFE FID50k 3.43),甚至超过了MeanFlow的两步生成结果(2-NFE,FID50k 2.93)[27][30] - 消融实验表明,结合了即插即用速度、渐进时间采样器等技巧的ESC(SiT-B/2架构)将FID50k从基线6.09提升至5.77[25] - 即插即用的理想速度几乎不增加计算开销(仅千分之九),同时提高稳定性[29] - 性能提升在更大的骨干网络上更明显,表明降低方差对于模型稳定性的提升,随着模型容量增长,效果越来越明显[30]
Sand.ai重磅更新MagiAttention,正在定义分布式Attention性能新标杆
机器之心· 2026-03-24 11:59
MagiAttention v1.1.0 核心发布 - Sand.ai 正式发布 MagiAttention v1.1.0,旨在重新定义 Hopper 与 Blackwell 两代架构分布式 Attention 的性能上限 [1] Blackwell 新架构适配 - 研发团队引入基于 Flash-Attention 4 的 FFA_FA4 后端,完成了对下一代 Blackwell 架构的初步适配,以延续 Flex-Flash-Attention 的灵活性 [3][4] 原生 Group Collective 通信内核 - 受 DeepEP 启发,构建了原生 Group Collective 通信内核,旨在彻底重塑分布式 Attention 在节点内外的数据交换范式,以突破跨机通信效率的瓶颈 [5] 系统级协同优化 - 卓越性能源于系统级的全栈协同调度和全场景通用的启发式算法,包括负载均衡与多阶段重叠 [5][6] 灵活掩码与稀疏生成优化 - 引入 HSTU Function 表达,在性能损耗小于 5% 的前提下,实现了对任意掩码的无缝兼容 [6] - 开发高效分块掩码生成算子,降低了 FlexAttention 实例化完整掩码的性能开销和显存风险 [6] 指令与显存优化 - 利用 Register-to-Predicate 技巧,将复杂的边界检查映射为单条硬件指令,大幅降低了指令周期 [6] - 针对超长序列,对掩码元数据进行 CSR 压缩,并对内核启动进行 FFI 加速,以优化显存与延迟 [6] 通信与算子融合优化 - 将数据重排直接融合进通信算子,显著降低了访存和额外拷贝开销 [6] - 采用 “NVLink 替代冗余 RDMA” 传输策略,实现节点间单次物理交换与节点内高效转发和规约,使跨机通信量降低数倍,性能远超传统 AlltoAll-v 方案 [6] 负载均衡与调度优化 - Dispatch Solver 基于最小堆贪心算法,实现序列的细粒度分配,保证任意掩码下设备的计算负载均衡 [14] - Adaptive Multi-Stage Overlap 自适应调整流水线阶段,通过最小化调度开销实现极致重叠,为超长序列训练提供线性扩展保障 [14] 实测表现与应用 - MagiAttention v1.1.0 已在 Magi-1 等大规模视频生成模型训练中得到实证,并在各大厂中被应用于多模态大模型训练 [8] - Sand.ai 提供了细致的 Benchmark 结果,以验证其在真实长文训练中的表现,包括算子层面在支持灵活掩码下维持 SOTA 性能,以及分布式层面重塑超长序列的扩展性曲线 [8][11] 公司愿景与未来展望 - Sand.ai 认为,只有将底层算力压榨到极限,才能开启人工智能处理复杂多模态任务的新篇章,而 MagiAttention v1.1.0 是向这一愿景迈进的关键一步 [16] - 公司相信,强大的模型能力必须建立在普惠且极致的技术基石之上 [16]
CVPR 2026 | 让AI视频不再「串戏」:免训练精准控制多段动作,SwitchCraft一招破解逻辑崩坏
机器之心· 2026-03-24 09:31
AI视频生成技术现状与瓶颈 - 以Sora、Seedance为代表的文本到视频扩散模型在视觉保真度与动态表现上取得突破性进展,例如Seedance 2.0展现出强大的多镜头叙事与复杂分镜控制能力 [2] - 当前开源视频扩散模型主要针对“单事件”生成优化,难以驾驭包含多个连续动作或复杂场景切换的时序叙事,处理“多事件”提示时面临巨大挑战 [2] - 在处理多事件提示时,模型因缺乏显式帧级时间约束,易产生语义特征纠缠或事件遗漏,导致动作在时空维度发生违背物理常识的重叠或忽略关键动作,破坏叙事逻辑 [2] SwitchCraft框架的技术原理 - 该框架由西湖大学AGI实验室提出,是一种全新的免训练多事件视频生成框架,通过引入底层注意力控制机制,在不更新基础大模型参数的前提下,实现对视频注意力的精准时序引导 [3] - 框架核心创新在于通过直接干预底层模型的注意力响应模式,实现隐帧级别的语义解耦,具备高泛化性与实用性,可作为即插即用模块集成至现有流水线 [13] - 框架由两大核心组件构成:事件对齐的查询引导模块用于实现时序上的语义隔离;自适应强度平衡求解器模块用于动态求解最优干预强度,避免破坏模型原始特征分布 [13][14] SwitchCraft框架的工作机制 - EAQS模块根据用户设定的时间边界将视频帧划分为不同事件区间,并将事件定义为激活事件与非激活事件 [16] - 在去噪过程中,EAQS对视觉查询向量施加定向偏移,强制其向“激活事件”特征靠近,同时从“非激活事件”特征处推开,从根本上阻断特征纠缠与跨时序语义泄漏 [16] - ABSS模块利用奇异值分解提取目标事件与干扰事件在潜空间中的主导方向,计算对齐得分并量化“边距缺口”,进而自适应地求解出当前最优干预强度,实现动态平衡 [16] SwitchCraft框架的性能表现 - 该框架在多事件视频生成任务中展现出卓越的控制性能,能够实现高一致性的多事件连贯叙事 [15][16] - 在场景切换上展现出创意遮挡转场的独特优势,能够巧妙利用环境遮挡关系生成创意的无缝运镜,实现异构场景的平滑融合并锁定核心主体身份特征一致性 [21] - 对比MEVG、DiTCtrl、LongLive等多种现有基线方法,SwitchCraft在多事件文本对齐度、视觉保真度与运动平滑度等方面均表现突出,综合客观评测指标稳居领先水平 [23] 实验数据与消融分析 - 在评测指标中,SwitchCraft在CLIP-T得分上达到0.275,在VideoScore2的T2V alignment上达到4.30,在VBench的Motion smoothness上达到0.989,多项指标领先于对比方法 [25] - 消融实验表明,框架各项核心机制缺一不可,若在EAQS模块中打破“推拉”协同,或在ABSS模块中放弃自适应机制,会导致画面视觉保真度出现断崖式下跌,文本对齐准确率显著降低 [25] - “一推一拉”的时序注意力调度与“动态自适应求解”必须相辅相成,二者的完美配合是模型能在高保真视觉质量与精准多事件控制间取得动态最优平衡的关键 [25] 研究背景与影响 - 该研究成果已成功入选计算机视觉顶级会议CVPR 2026,项目代码与演示主页均已开源 [4] - 研究团队指出,现有视频生成架构缺乏建立“特定时间段”与“特定文本事件”间强映射关系的内在机制,导致不同时间维度的语义特征在全局帧中发生严重的特征泄漏 [8] - 此前业界尝试的“分段生成与拼接”替代方案会引发主体特征退化,在场景或动作切换时出现生硬跳切,难以保持主体外观特征及背景环境的时空一致性 [8]
昨晚,OpenClaw大更新,亲手终结「旧插件」时代
机器之心· 2026-03-24 09:31
核心观点 - OpenClaw 进行重大版本更新,其战略重心从依赖通用生态转向构建自有、集成的开发者平台与插件市场,并通过技术架构重构强化安全性与核心能力 [1][2] 插件生态与市场战略 - 插件生态入口转向自有平台,ClawHub 成为默认插件安装入口,仅在 ClawHub 无对应包时才回退至 npm,这标志着公司正将插件生态从通用包管理转向自有 Agent 插件市场 [2] - ClawHub 插件市场提供多样化的模型与工具,包括 MiniMax M2.7、GPT-5.4-mini/nano 模型,以及按 Agent 分配的推理能力、侧边提问、OpenShell + SSH 沙盒环境和多种搜索工具 [4] 技术架构与开发体系 - 插件体系进行重大改革,包括 SDK 路径重构,新入口为「openclaw/plugin-sdk/*」,开发模式从宽接口转向细粒度模块化 [2][3] - 消息机制被重写,强制使用「describeMessageTool(...)」来定义工具语义,同时插件运行方式改为必须使用注入运行时,禁止随意直接调用宿主 API [5] - 工具能力向核心收敛,内置能力替代第三方 Skill,例如图像生成能力统一到核心工具「image_generate」,并删除了相关第三方技能包装文档,这标志着从技能插件拼装转向核心能力内建加可选扩展的模式 [5] 执行环境与安全强化 - 浏览器体系重构,删除了 Chrome extension relay 方案,统一迁移到现有会话、用户会话或直接 CDP 连接 [5] - 执行环境安全全面升级,新增多项限制以提升安全性,包括禁止 JVM 注入、阻断 glibc 漏洞利用、限制 .NET 依赖劫持以及控制 Gradle 环境覆盖 [5] 模型支持与策略 - 默认模型更新,OpenAI 默认模型切换为 gpt-5.4,Codex 独立为 openai-codex/gpt-5.4,并新增对 gpt-5.4-mini 和 gpt-5.4-nano 的支持 [5] - MiniMax 默认模型从 M2.5 升级为 M2.7,并新增了 MiniMax-M2.7 和 MiniMax-M2.7-highspeed 版本,同时补齐了 M2、M2.1 及 M2.1-highspeed 模型 [5] - 引入按 Agent 分配的模型策略,每个 Agent 拥有默认的深度推理、标准推理和快速模式三种推理配置 [5] 配置体系统一 - 删除旧的「.moltbot」配置体系,移除了 CLAWDBOT_* 和 MOLTBOT_* 环境变量,全面统一为 OPENCLAW_* 前缀,实现了与过去技术体系的彻底切割 [5] 已知问题与修复 - 当前正式版本存在一个关于「Web 控制 UI 资源」的关键问题,导致该功能无法正常加载,此问题已在最新的 beta 版本中修复 [5][6]
龙虾之后,为什么说「主动式智能」才是Agent的终极形态?
机器之心· 2026-03-24 09:31
行业核心观点:AI Agent 从数字主动到现实主动的进化 - 以OpenClaw为代表的数字AI Agent实现了从被动响应到主动服务的跨越,但其主动性的边界止步于屏幕,无法感知现实世界[2][3] - 现实世界作为AI的上下文,意味着从文本流到视听流的维度跨越,这是Proactive AI从线上走向线下的起点[3] - Looki PIE等产品将自动驾驶的工程范式迁移到可穿戴设备,试图在现实世界中构建真正的主动智能,标志着AI Agent开始走出数字对话框,覆盖生活的另一半[4][33] 产品核心:Looki PIE 的主动智能引擎 - Looki PIE是Looki公司最新上线的“Proactive Intelligence Engine”,旨在现实世界中构建主动智能[4] - 产品从早期的“被动记录”模式(Reactive)升级为“主动判断”的动态决策模式,即“场景自适应式智能”[6][9] - 其技术链路起点是未经编辑的现实视听片段,系统需先“看懂”场景,再检索记忆,判断介入时机,最终生成融合即时感知与历史上下文的推送[15] - 产品形态是一款30g的可穿戴设备,具备12小时续航[27] 技术实现:从感知到决策的现实世界工程范式 - **动态感知与激活**:端侧部署轻量化决策模型,根据环境光流和声音波形实时判断“此刻是否值得激活”并采集数据,而非无差别常开[27] - **多层级记忆索引**:面对海量视听流,在云端构建多层级上下文索引体系,按语义需求精准摘取最相关记忆片段[28] - **主动决策时机判断**:核心难度在于推送的时机精度,需在多因子(如场景、空闲状态、偏好匹配)下进行非确定性的时机决策,而非简单规则匹配[23][24][25] - **隐私保护架构**:采用端侧过滤加App手动上传的双重门控,原始数据不无差别上云;动态感知机制本身也服务于隐私,AI判断“何时激活”即控制了数据采集源头[30] 功能与体验:场景自适应式智能的具体表现 - **主动场景化提醒**:例如,在机场安检后,主动提醒用户兑现数天前对话中“给孩子带礼物”的承诺[11];在餐厅识别场景后,基于用户饮食偏好主动推荐菜品搭配[12] - **个性化信息推送**:在碎片时间(如候机),基于用户设定的偏好(如“AI行业动态”)生成并推送附有关联分析的新闻摘要[14] - **用户自定义规则**:用户可通过自然语言自定义“If...Then...”提示词,让Agent在特定语义场景下(如“面前出现第二杯咖啡”、“走进餐厅看菜单”)触发行动,而非依赖时间或坐标[18][20][22] 行业挑战与意义 - **结构性边界突破**:所有数字Agent(如OpenClaw)存在感知现实生活的结构性边界,其上下文介质局限于文本[3] - **工程范式迁移**:将自动驾驶“从感知到决策”的工程范式从道路平移至日常生活,需要为混沌的现实世界重建Harness工程的每一层[26] - **核心价值演进**:当生活轨迹沉淀为“个人上下文”,AI将实现从需要用户手动描述世界,到自主“看见、记住、理解”并先于用户行动的进化[33] - **新竞争维度开启**:现实世界作为上下文的新疆域刚刚被纳入AI视野,开启了AI Agent发展的新赛道[33]
速来!这场龙岗具身沙龙:大咖分享、资源对接,实机演示
机器之心· 2026-03-23 19:56
行业现状与核心观点 - 行业在全球资本市场呈现冰火两重天局面,海外首批具身公司相继折戟,而国内头部创企则频获融资[1] - 行业长期价值被极度笃定,但短期面临模型不成熟、数据匮乏、供需脱节等现实鸿沟[1] - 行业突围已演变为一场关乎趋势研判、场景共建、生态打造的全栈协同[1] 活动概述与目标 - 活动由机器之心联合深圳市龙岗区人工智能(机器人)署举办,主题为“具身智能:从模型到现实,共筑龙岗AI新生态”[1] - 活动旨在通过技术前沿-应用展示-场景对接-产业落地的生态闭环,拆解具身智能发展的真实底色[1] - 活动定位为链接具身智能核心实战圈层的入场券,诚邀开发者、创业者、投资人及行业观察者参与[10] 活动议程与核心内容 - 活动包含三大板块:深度解构、圆桌对话、产品/技术展示与交流[1][3] - 深度解构环节涵盖具身智能多模态感知融合、机器人灵巧操作与具身大脑新范式等前沿技术议题[3] - 圆桌对话主题为“具身‘共生’:从实验室探索到产业生态的协同共振”,汇聚产学研及产业界代表[3] - 产品/技术展示环节以“闪电Show”形式进行,展示方包括机器人6S店、AI公司商业化负责人、机器人硬件及AI架构公司、科技公司总经理以及数据服务公司具身事业部等[3] 活动特色与生态构建 - 活动设有“厂商征集:产品展示与供需对接”以及“AI in Action场景实演征集”环节,旨在寻找能在复杂环境下执行灵巧操作与非标任务的具身机器人厂商进行实机演示[7][8] - 活动设立“生态Social墙”资源/需求征集,邀请生态伙伴发布资源清单与发展诉求,以精准链接供需双方[8] - 活动致力于构建技术前沿、应用展示、场景对接、产业落地的生态闭环[1]
东方理工团队提出HiDrop:重构MLLM计算路径,压缩90%视觉Token实现2.2倍加速
机器之心· 2026-03-23 19:56
多模态大语言模型(MLLM)效率瓶颈与现有方案局限 - 随着多模态大语言模型支持更长上下文,高分辨率图像和长视频产生的视觉Token远多于文本,在自注意力二次复杂度下迅速成为效率瓶颈 [2] - 现有研究通常通过渐进式剪枝来减少视觉Token,但多采用固定策略,忽略了MLLM不同层在多模态处理中的功能差异 [3] MLLM内部信息处理层级机制的核心发现 - 对MLLM内部信息流的分析发现,不同层的功能存在明显差异:浅层主要传递视觉特征,中层进行跨模态融合,而深层则承担语义整合与推理,视觉信息在层间呈现明显的非均匀演化过程 [3] - 浅层阶段,视觉Token表征具有明显的自相似性,跨模态影响可忽略,模型对视觉表征的处理微乎其微,该层主要作为视觉信息的传递通道 [11] - 中层阶段成为跨模态融合的关键,视觉信息开始显著影响文本表示,但此过程具有明显稀疏性,只有少量关键视觉Token产生决定性影响,大量Token相对冗余,因此中层成为视觉Token压缩的关键阶段 [11] - 深层阶段,跨模态融合基本完成,模型进入以抽象语义推理为主的阶段,视觉信息对文本表示的直接影响逐渐减弱 [11] 1) 综合来看,MLLM的信息处理呈现出明显的层级结构:浅层传递信息,中层进行跨模态融合,深层侧重高层语义理解与推理,这一发现为设计更合理的视觉Token压缩策略提供了重要启示 [14] HiDrop方法:三段式层级对齐压缩策略 - 基于对MLLM层级信息处理动态的分析,宁波东方理工大学/宁波数字孪生(东方理工)研究院沈晓宇团队提出HiDrop框架,通过与模型层级结构对齐的视觉Token压缩策略,在保证性能的同时显著降低计算开销 [3][16] - 浅层采用**视觉延迟注入**:由于浅层对视觉信息处理有限,HiDrop不会在模型输入时立即注入视觉Token,而是延迟到跨模态融合的起始处再引入,在减少计算量的同时几乎不影响性能 [19] - 中层采用**凹金字塔式剪枝**:由于该阶段是跨模态融合关键且视觉Token贡献呈现稀疏性,HiDrop采用激进的凹金字塔式剪枝策略,通过先急后缓的方式减少Token,并引入Differentiable Top-k算子实现自适应选择,在保持关键信息的同时降低计算开销 [20] - 深层采用**视觉提前退出**:当跨模态融合基本完成后,HiDrop在深层提前移除剩余视觉Token,使后续层仅处理融合后的语义表示,从而减少深层注意力计算 [21] - HiDrop结合浅层的延迟注入与深层的提前退出,实际形成了一个聚焦的视觉处理窗口,将视觉Token的计算集中在中间层 [21] HiDrop的实验效果与性能优势 - 在压缩约**90%**的视觉Token的情况下,HiDrop仍能保持**98.3%**的模型性能,并实现**1.72×**的训练加速和**2.2×**的预填充加速 [4] - 在多个多模态基准测试上,当平均保留**64个Token**(压缩率**88.9%**)时,HiDrop能保持**98.3%**的原始性能 [23] - 即使压缩率进一步提升至**91.7%**(平均保留**48个Token**)时,HiDrop的性能仍然超过对比方法PDrop在**88.9%**压缩率下的表现,展现出更优的压缩-性能平衡 [23] - 除了保持性能外,HiDrop显著提升了计算效率,该方法将平均视觉Token数量减少约**90%**,大幅降低了推理FLOPs [24] - 在LLaVA-1.5-7B模型上,HiDrop实现了约**1.7×**的训练加速和**2.2×**的预填充加速 [24]