机器之心
搜索文档
蚂蚁具身研究首次亮相!就解决了机器人「看」透明玻璃这些难题,还开源了
机器之心· 2026-01-27 12:59
文章核心观点 - 蚂蚁灵波科技开源的LingBot-Depth模型,通过创新的掩码深度建模方法和超大规模的真实与合成数据训练,针对性地解决了机器人及自动驾驶在透明、反光等复杂场景下的深度感知难题,显著提升了空间感知的精度和鲁棒性,为通用具身智能的落地扫除了一项关键障碍 [9][30][79] 行业背景与痛点 - 具身智能是连接数字世界和物理世界的桥梁,其核心是让机器理解并参与三维环境交互,而空间视觉感知是自动驾驶、机器人等应用的底层能力 [1][3] - 行业普遍采用RGB-D相机获取视觉和深度信息,但面对玻璃等透明或高反光物体时,深度信息会大面积缺失或异常,成为制约机器人长期稳定落地的关键瓶颈 [4][5][7][8][14][19] 解决方案:LingBot-Depth模型 - 该模型是一个高精度空间感知模型,可在不更换硬件的前提下,显著提升透明、反光等复杂场景的深度输出质量 [9] - 模型基于创新的掩码深度建模方法,将传感器自然产生的深度缺失作为有益的学习信号加以利用,而非视为噪声剔除 [30][34] - 模型采用面向RGB-D定制的ViT-Large架构,能同时建模外观语义与几何线索的交互关系 [37] 数据构建与训练范式 - 构建了双线并行的数据集:一条路径基于高质量3D资产进行合成仿真,另一条路径使用工业级深度相机直接采集真实场景数据 [20] - 在合成流水线中刻意模拟真实主动式RGB-D相机的成像过程,引入与真实传感器高度相似的采集伪影,使数据更接近“所见即所得” [21][23] - 最终构建了1000万条用于掩码深度建模的训练样本,其中包含自行构建的320万条数据,覆盖了从理想条件到复杂现实环境的多种深度缺失模式 [25][28] 技术性能与评估 - 在深度补全任务中,模型在多个数据集和难度级别下均稳定超越OMNI-DC、PromptDA、PriorDA等主流方法 [45][47] - 在极端条件下,其RMSE相比此前表现最好的PromptDA仍有显著下降,表明模型真正学会了在结构严重缺失时恢复合理三维形状 [49] - 在单目深度估计任务中,使用LingBot-Depth预训练的编码器替代DINOv2,在10个多样化基准数据集上稳定表现出更优的精度和泛化能力 [52][56][57] 实际应用与落地准备 - 在三维追踪任务中,模型补全后的深度图能输出更平滑、连续且稳定的相机轨迹,并支持恢复出连贯一致的三维动态运动路径 [61][63][65] - 在真实灵巧抓取系统验证中,对于反光不锈钢杯和透明玻璃杯等物体,使用模型补全深度后的抓取成功率显著提升 [67][72][76] - 模型已完成轻量化,部署灵活,无需更换现有硬件即可作为算法增强模块嵌入系统,并且完全开源,便于验证和集成 [77][78][80]
刚刚,微软全新一代自研AI芯片Maia 200问世
机器之心· 2026-01-27 12:00
微软发布自研AI芯片Maia 200 - 微软正式发布其下一代自研AI芯片Maia 200,该芯片原定于2025年发布 [1][2] - Maia 200是一款强大的AI推理加速器,旨在显著改善AI token生成的经济性 [4] 芯片性能与规格 - Maia 200基于台积电的3纳米工艺打造,单颗芯片包含超过1400亿个晶体管 [4][14] - 芯片配备原生FP8/FP4张量核心、重新设计的内存系统,拥有216GB HBM3e内存、7TB/s带宽以及272MB片上SRAM [4] - 在750W的热设计功耗范围内,单颗芯片可提供超过10 PetaFLOPS的FP4性能和超过5 PetaFLOPS的FP8性能 [14] - 其FP4性能是第三代Amazon Trainium的三倍,FP8性能超越了谷歌第七代TPU [4] - 该芯片是微软迄今为止最高效的推理系统,每美元性能比公司当前集群中的最新一代硬件提升了30% [5] 系统架构与设计优势 - Maia 200通过重新设计的内存子系统解决数据传输瓶颈,配备专门的DMA引擎、片上SRAM和专用的片上网络总线,以提升Token吞吐量 [17] - 在系统层面,引入基于标准以太网的新型两层Scale-up网络设计,通过定制传输层和紧密集成的网卡,实现高性能、高可靠性和成本优势 [20] - 每个加速器可提供2.8 TB/s的双向专用Scale-up带宽,并在包含多达6,144个加速器的集群中实现可预测的高性能集合通信 [21][26] - 该架构为密集型推理集群提供了可扩展的性能,同时降低了功耗和Azure全球机架的整体拥有成本 [21] 应用与部署 - Maia 200是微软异构AI基础设施的重要组成部分,将为包括OpenAI最新GPT-5.2在内的多个大模型提供支持 [7] - 该芯片将为Microsoft Foundry和Microsoft 365 Copilot带来更高的性价比优势 [7] - 微软超级智能团队将利用Maia 200进行合成数据生成和强化学习,以提升下一代自研模型的性能 [7] - 芯片已部署在爱荷华州德梅因附近的美国中部数据中心区域,接下来将部署在亚利桑那州菲尼克斯附近的美国西部3区域,未来还将扩展至更多地区 [7] 开发与集成 - Maia 200与Azure实现了无缝集成,微软正在开放Maia SDK的预览,该SDK提供了一整套用于构建和优化Maia 200模型的工具 [7] - 微软采用云原生开发模式,在芯片设计阶段便同步开展对后端网络及第二代闭环液冷换热单元等复杂系统组件的早期验证 [25] - 通过与Azure控制平面的原生集成,系统在芯片和机架层面实现了安全性、遥测、诊断及管理能力的全面覆盖 [25] - 得益于端到端的开发方法,从首颗芯片到首个数据中心机架部署的时间缩短了一半以上,优于同类AI基础设施项目 [25] 行业背景与公司战略 - 大规模AI时代开启,基础设施将决定创新的边界,微软表示Maia AI加速器计划是跨代发展的 [28] - 在部署Maia 200的同时,公司已经在设计未来几代产品,并期待每一代都能不断树立新标杆 [28] - 根据行业数据,NVIDIA芯片的总算力存量正以每年2.3倍的速度增长 [11] - 微软的Fairwater Atlanta数据中心拥有约500,000 H100等效算力,由600兆瓦电力支持,资本支出达200亿美元 [11]
跨境电商版Sora发布:全球首个AI原生电商视频Multi-Agent来了
机器之心· 2026-01-27 12:00
行业痛点与市场机遇 - 电商行业规模持续增长,2025年全国实物商品网上零售额达13.09万亿元,同比增长5.2%[7] - 跨境电商出口额在2024年达到2.15万亿元,已连续九年增长[7] - 中国卖家在亚马逊欧美市场2025年销售额增长超过15%,在新兴市场增速超过30%[7] - 流量重心正从图文转向视频,视频内容转化率比图片高出5到10个百分点,相对提升接近80%至100%[7] - 传统视频制作方式存在“慢、贵、不可规模化”三大痛点:制作周期长易错过流量窗口;单条视频成本从几百到几千美元不等;内容同质化严重,难以支撑多账号、多平台的高频更新需求[7][8][9] - 现有AI视频生成工具多属“低智套壳AI”,存在生成效果不稳定、视频“一眼假”、需二次加工、易使用通用素材库导致同质化严重等问题,无法满足卖家对“可投放营销视频”的稳定、低成本、规模化生产需求[12] Hilight AI产品核心定位与价值主张 - 产品定位为“全球首个AI原生电商视频Multi-Agent”,是“念过营销学的电商版Sora”[3] - 核心价值在于重新定义电商营销视频的生产方式,将Sora级别的视觉能力与4A公司般的营销大脑结合,使营销视频从拼手速的“快餐”变为拼逻辑的“推理”[3] - 旨在解决电商营销视频短缺的根源问题,即落后的“生产方式”,而非简单的生成速度[13] - 产品不是简单的混剪合成工具,而是一个从脚本到画面、从素材到成片的纯AI原创营销内容多智能平台[13] - 相比传统拍摄,能以1/20的成本和10倍的效率生产爆款视频[4] - 生成视频价格低至3元起,最高不过十几元,成本相比传统方式大幅降低[13] 核心技术架构与工作流程 - 采用Multi-Agent(多智能体)协同营销模型,模拟真人视频团队协作,由10多个Agent组成“视频制作团队”[15][17] - 多智能体架构分为三个层级:理解与洞察层、创意与结构层、执行与成片层[18] - 理解与洞察层:4个Agent负责拆解需求、洞察商品“卖点”和受众,将模糊需求转化为精准营销指令[18] - 创意与结构层:4个Agent负责撰写脚本、规划分镜、匹配素材及定向优化,将想法转化为可执行的视频结构[18] - 执行与成片层:剪辑执行Agent和成片生成Agent负责排列素材成片,质检复盘Agent进行最终质量检验[18] - 具备严苛的评测协商机制,下游Agent可对上游输出结果提出异议并“打回重做”,实现局部重算而非全流程推翻[19] - 系统具备自我进化能力,通过爆款数据回流与创意范式自动更新,快速适配新平台规则,增强长期营销效果[20] 关键性能优势:跨帧一致性与商品还原 - 跨帧一致性表现领先于当前一众AI视频生成工具,是产品的最大“杀手锏”[22][31] - 通过“深度解码”商品,依托商品知识图谱对属性进行极细颗粒度的结构化拆解,构建全维度信息基座,从源头确保一致性[25] - 采用“图生视频”技术,先生成高质量首帧图“锁死”商品特征,再基于视频模型驱动生成视频,实现对质量的精准控制[27] - 设有智能自检Agent进行双重校验:包括实体一致性校验(对比商品核心属性)和物理逻辑校验(排查穿模、不合理遮挡等)[28] - 配备“人机交互机制”作为最后防线,用户可通过“精调成片”功能对脚本、素材、镜头等进行把控,确保商品逼真还原与创意实现[29] - 在数字人试穿、口唇同步方面表现优异,能完美还原商品物理质感、自然动作,并实现帧级口型同步[29][30] 产品功能与实测效果 - 用户只需提供商品链接或图片,系统进入“慢思考”模式,20-30分钟后即可生成一条逻辑严密、商品100%还原、符合平台爆款节奏的营销视频[3][43] - 操作流程简洁,核心功能包括智能成片(一键成片)、数字分身和创意工坊[37] - 在需求解析后,会通过“灵活表单”自动帮助用户梳理产品卖点、目标受众等关键营销信息,确保视频与产品贴合[42] - 是AI电商视频领域首个真正实现100%纯AI原创的视频生成工具,全程AI生成,无需用户插手,解决素材版权和重复度问题[44] - 生成的视频是可直接投放的完整视频,而非素材片段组合,画面衔接自然,镜头切换无突兀断裂感[44] - 支持生成各大平台爆款风格视频,通过引入多维知识库(RAG)整合爆款视频要素、热门BGM及用户历史资产,堪称“爆款制造机”[33][34] - 数字分身功能允许用户通过提供真人视频训练生成专属数字人形象并克隆对应音色,打造定制化、稳定、可复用的数字“代言人”[45][46] - 创意工坊提供多模态大模型加持的素材工具集,可快速生成前贴、素材片段、商品图等全营销物料[47] - 能够稳定生成分钟级长度视频,质量可“叫板”实拍效果,数量上可支撑账号矩阵和高频更新[47]
大模型哪里出问题、怎么修,这篇可解释性综述一次讲清
机器之心· 2026-01-27 12:00
文章核心观点 - 一篇由多机构联合发布的综述文章,系统性地提出了“可实践的机制可解释性”框架,旨在将机制可解释性从观察分析工具转变为能实际干预和提升大语言模型性能的“手术刀”[2] - 该框架围绕“定位、操控、提升”三阶段范式,为大模型的对齐、能力增强和效率提升提供了一套具体的方法论[2] - 文章指出,现有机制可解释性研究大多停留在“观察”层面,而该综述的核心是解决如何将机制层面的发现转化为模型行为和性能的实际改进[7] 从“显微镜”到“手术刀”的范式转移 - 大语言模型内部运作机制不透明,常被视为“黑盒”,机制可解释性是一个重要的研究方向[5] - 传统机制可解释性研究侧重于回答“模型内部有什么”,而本篇综述将关注点转向“可以对模型做什么”[7] Locate:精准定位 - 干预的前提是准确诊断,文章首先构建了一套系统的可解释对象定义与分类体系[9] - 微观层面涵盖从传统神经元到稀疏自编码器特征,宏观层面涵盖注意力头、残差流等组件[9] - 梳理了包括因果归因、探针、梯度检测等主流定位技术[9] - 通过表格形式系统定义了各类可解释对象及其表示和形状,如词嵌入矩阵、残差流状态、注意力头输出、前馈网络块输出、神经元激活状态及SAE特征激活状态等[10] Steer:干预手段 - 当关键对象被定位后,对其进行干预标志着机制可解释性从“观察”迈向“可实践”的关键一步[11] - 文章将现有干预手段归纳为三大类:幅度操控、靶向优化和向量运算[13] - **幅度操控**:对目标对象进行置零、缩放、替换等操作,实现“开关式”或“强度式”控制[13] - **靶向优化**:利用定位到的关键组件进行参数级微调,比全量微调更高效、副作用更小[13] - **向量运算**:在激活空间中加入或移除任务向量或特征向量,实现推理时引导模型行为[13] Improve:应用场景 - 机制可解释性赋能的三大应用场景包括对齐、能力和效率[14] - **对齐**:通过定位与有约束的干预,减少有害行为、降低幻觉或提升遵循指令的稳定性[14] - **能力**:将机理层面的“功能模块”转化为具体的能力增强路径,例如更稳定的推理、记忆或语言生成[14] - **效率**:探索更灵活的干预与压缩手段,为高效训练、推理加速与部署成本提供新抓手[14] Paper List指南 - 研究团队将分散的研究成果做成了“可检索的图表”,每篇论文都用统一标签标出研究对象、定位方法和操控方法[17] - 该图表便于将不同研究路线的代表性工作进行直观对照,帮助研究者快速定位与自身需求最契合的关键论文[17] - 图表中列举了大量论文,并按“安全与可靠性”、“公平与偏见”、“角色扮演”、“多语言”、“逻辑与推理”、“知识管理”等类别进行了归类,展示了机制可解释性在改善对齐和提升能力方面的具体应用[18] 未来展望 - 机制可解释性的核心挑战与机遇在于打破“各自为战”的局面,需要建立标准化的评估基准以验证干预手段的泛化性[20] - 未来需推动机制可解释性向自动化演进,最终实现让AI自主发现并修复内部错误的愿景[20] - 期待该综述能为社区提供详实指南,推动大模型从不可解释的黑盒走向透明、可控、可信的未来[21]
DeepSeek-R1推理智能从哪儿来?谷歌新研究:模型内心多个角色吵翻了
机器之心· 2026-01-26 12:08
核心观点 - 大模型推理能力的跃迁并非仅源于计算步数的增加,而是源于其内部模拟了一种复杂的、类多智能体的交互结构,即“思维社会”[1][2] - 这种社会化思维结构通过对话式行为和社会情感角色,促进关键认知策略的运作,从而更高效地探索解空间并提升推理准确率[2][3][16][29] - 实验证明,对对话特征进行正向引导可显著提升模型在特定任务上的准确率,而强化学习实验表明模型在仅奖励正确答案时会自发强化对话式行为[24][30] 对话式行为分析 - 研究识别出四类对话行为:问答行为、视角转换、观点冲突、观点调和[7][8] - 在推理轨迹长度相近的条件下,推理模型(如DeepSeek-R1、QwQ-32B)比指令微调模型展现出显著更高频率的对话式行为[16] - 与DeepSeek-V3相比,DeepSeek-R1在提问-回答、视角切换以及整合与调和方面均显著更频繁[18] - 无论参数规模大小(8B、32B、70B或671B),所有指令微调模型的对话式行为出现频率都始终处于较低水平[21] - 当模型面对更高难度的任务(如研究生水平的科学推理GPQA、高难度数学题)时,对话式行为会更加明显[23] 社会情感角色分析 - 研究基于Bales互动过程分析框架,将话语划分为12种互动角色类型,并归总为四大高阶类别:信息给予、信息征询、积极情感、消极情感[10][11] - 推理模型展现出更具互惠性的社会情绪角色结构:它们既会提出问题、请求指引,也会给予回应,同时表现出负向与正向的情绪角色[21] - 指令微调模型主要以单向方式给出指引、观点和建议,几乎不进行反向提问,也缺乏情绪层面的互动,其推理过程更像是一段独白[22] - 使用Jaccard指数量化发现,推理模型更倾向于以互相协调的方式组织不同角色,而不是将它们孤立地、零散地使用[22] 特征干预与准确率提升 - 通过稀疏自编码器识别出特征30939,其定义为“用于表达惊讶、顿悟或认同的话语标记”,该特征在65.7%的会话中占比,且高度稀疏[14] - 在Countdown游戏任务中,对对话式惊讶特征进行正向引导(+10),会使准确率从27.1%提升至54.8%,几乎翻倍;而负向引导(−10)则会将准确率降低至23.8%[24] - 当引导强度从0增加到+10时,四类对话式行为均显著增强;反之,当引导强度从0降至−10时,这些对话行为会被系统性抑制[25] - 正向引导会诱发模型在推理过程中主动质疑先前的解法,体现出明显的视角切换和观点冲突;负向引导则会生成相对平铺直叙的推理文本,缺乏内部讨论[27] 认知策略与强化学习 - 对话特征通过两条路径提升推理能力:直接帮助模型更有效地探索解空间;通过脚手架式地支持验证、回溯和子目标分解等认知策略,推动系统性的问题求解过程[29] - 自教式强化学习实验显示,当只奖励正确答案时,大模型会自发强化对话式行为,表明对话式结构本身能够在强化学习过程中促进推理策略的自发涌现与加速形成[30]
5000万用户、5000万美金ARR,全球第一AI创作消费平台要做AI时代Roblox
机器之心· 2026-01-26 12:08
行业背景与市场洞察 - AI大模型行业陷入“性能偏执”的军备竞赛,普遍认为技术越强用户越多[1] - 市场出现反直觉反馈,用户侧出现“智能过剩”,大部分C端用户大多数时候并不需要用到这么强的智能[2][3] - 更广泛的用户群体并不太在意模型的智能水平,大量用户仍坚持使用如Studio Diffusion 1.5等“过时”模型进行创作[5][6] - 用户真正消费的是风格和情绪,而非模型版本号[6] SeaArt公司的市场表现与成功逻辑 - SeaArt(海艺)在成立仅两年半后,超越Midjourney、Leonardo、Civitai等,成为全球访问量第一的AI内容创作社区[8] - 平台单月访问用户超过3000万,注册用户超过5000万,ARR(年度经常性收入)逾5000万美元[9] - 用户平均在线时长达到竞品的3倍以上,单日生成图片超2000万张、视频超50万个[9] - 2024年,平台用户规模同比提升7.7倍,收入同比增长5.5倍[10] - 2025年,通过发力多模态与视频创作场景,平台流量与收入规模较2024年同期均实现4-5倍增长[10] - 公司成功验证的商业逻辑是:AI时代效率工具贩卖时间成本,内容平台贩卖情绪价值、审美品味与表达欲,后者的天花板在于人类想象力本身[10] SeaVerse 2.0产品能力与体验 - SeaVerse标志着公司从单一创作工具进化为AI时代的互动娱乐平台,是一个由AI Agent驱动的创意社区[11][13] - 只需简单一句话,即可生成图像、视频、音乐、游戏、APP等全模态内容[13] - 生成《太空侵略者》游戏示例:系统调用app-builder、frontend-design等skill,确立“复古未来主义霓虹街机”设计方向,自动完成从设计到编码的全流程,交付功能完整的HTML5游戏[14][16][17] - 生成《超级玛丽》游戏示例:系统迅速调动游戏开发工作流,全自动完成美术设计、关卡设计、交互逻辑,交付功能完整的横版平台跳跃游戏,并融入现代化视觉呈现[19][20][22] - 开发健康管理App示例:自动集成SeaCloud SDK,连接GPT-4o视觉模型,使App具备拍照识别食物并计算卡路里的能力,可细化分析蛋白质、碳水、脂肪等六大营养指标[24][26] - 视频生成示例:根据详细提示词创作30秒宫崎骏风格早餐Vlog片头,系统调用工具分别生成视频和音频,最后使用FFmpeg组合成片[27][28] - 产品通过多Agent协同机制,实现从创意输入到成品交付的全流程自动化,消解了技术门槛[28] - 目前更适合快速原型验证和创意探索场景,深度定制或复杂业务逻辑项目仍需专业开发[29] 商业模式与核心优势 - 公司未陷入“卖模型”陷阱,从一开始就没打算自己训练底层大模型,而是选择做“超级调度者”[32][33] - 向下兼容全球主流的开源和闭源模型(如Stable Diffusion、Flux),可快速接入新技术;向上专注于沉淀用户的创作资产和社交关系[33] - 避开了烧钱的模型研发竞赛,技术迭代变成公司的增益而非威胁[33] - 核心资产是平台上超过200万个一级AI创作SKU,包括模型、LoRA、Workflow、模板化应用、数字人或Agent,每个SKU都代表创作者的品味和调性,可定价、交易并持续产生收益[33][34] - 头部创作者通过分享风格模板,月收入可达3000-4000美元[35] - 形成创作者贡献高质量资产→平台创意供给丰富→降低小白用户门槛→用户增长→吸引更多创作者的飞轮效应[35][36] - 传统AI工具平台用户“用完即走”(如Sora APP两个月后留存率为零),而SeaArt将每次创作都沉淀为数据资产,用户偏好、参数等数据反哺推荐系统和模型优化[36] - 已形成全球规模最大的AI原生创作资产库之一,超200万SKU构成动态进化的AI时代内容与创意供应链,资产可复用、可个性化调用、可组合迭代,提升生态创新效率[37][38] 公司快速崛起的驱动因素 - 背后是一支拥有20年出海游戏经验的团队,擅长在全球范围内寻找成本洼地[41] - 通过跨时区灵活调度全球算力资源,在早期实现了极低成本的快速扩张[42] - 用户规模突破3000万量级后,单日海量的token调用进一步摊薄算力成本,形成规模效应和成本优势良性循环[43] - 市场策略:未先对标竞争最激烈的美国市场,而是利用在巴西等非英语市场的获客经验,率先切入高需求但竞争密度低的新兴市场,随后动态布局日本、欧洲、美国等高付费能力国家[43] - 产品设计:内嵌深刻的反馈机制与成瘾曲线,生成的随机性、点赞的即时满足、remix带来的社交认可,促使用户产生持续使用冲动[43] - 社区运营:团队深耕SLG等高复杂度游戏领域,对高粘性社区构建有系统性认知,构建了创作者(KOL/意见领袖)与粉丝之间的强绑定关系,大幅提高用户迁移成本[43][44] 行业意义与未来展望 - 技术突破不等于护城河,大模型技术进步对SeaArt而言只是更丰富的供给侧资源[46][47] - 只要人类核心需求仍是“表达”和“消费”,技术就只是手段[47] - 随着SeaVerse全模态能力释放、创作者生态深化及变现机制完善,公司或许会成长为AI时代真正的“全民级内容平台”,定义一代人的内容消费方式,类似移动互联网时代的Roblox、B站[47]
关于多模态大模型Token压缩技术进展,看这一篇就够了
机器之心· 2026-01-26 12:08
多模态大模型Token压缩技术综述 - 多模态大模型在处理高分辨率图像和长视频时,会产生成千上万个视觉token,导致极高的显存占用和延迟,限制了模型的可扩展性和本地部署 [2] - 为解决此问题,MLLM Token Compression(多模态大模型Token压缩)技术迅速成为研究热点,两年内该垂直领域产出了约200篇论文 [2] - 来自北京大学、中国科学技术大学等机构的研究人员对该领域方法进行了系统性梳理,旨在为特定部署场景选择压缩机制提供指导 [2] 基于压缩位置的系统分类 - 研究人员根据Token压缩方法在MLLM架构中应用的位置,将现有方法系统性地分为三类:在视觉编码器、投影器和大语言模型模块中进行压缩 [7] - 在视觉编码器阶段进行压缩可以降低视觉感知阶段的计算开销 [7] - 在投影器阶段整合Token削减技术,是在从视觉表示空间向语言表示空间转换的过程中进行压缩 [7] - 在大语言模型阶段进行压缩可实现整体的跨模态效率优化 [11] 视觉编码器模块的压缩策略 - 在视觉编码器模块应用的Token压缩方法分为两大类:视觉编码器内部压缩和视觉编码器外部压缩 [9] - 视觉编码器内部压缩往往通过开发多尺度压缩方案来协调各层之间的压缩,因为不同层会捕捉从低层纹理到高层概念的不同尺度视觉信息 [9] - 视觉编码器外部压缩设计具有即插即用的特点,对原始架构改动极小,并且可以根据是否引入文本信号进行灵活设计 [9] 投影器模块的压缩策略 - 投影器模块作为一个接口,将原始的视觉嵌入转换为与语言兼容的表示形式,确保视觉编码器提取的信息能被大语言模型有效利用 [13] - 早期投影器架构(如Q-Former)通过将大量视觉嵌入提炼为一组紧凑的查询Token来实现高效压缩 [13] - 后续研究为投影器引入了额外的设计增强,以实现更细粒度和任务自适应的压缩,方法大致分为基于变换的方法、基于查询的方法和重要性驱动的方法 [13] 大语言模型模块的压缩策略 - 由于大语言模型的参数量通常远超视觉编码器和投影器,是性能瓶颈的关键组件,在此阶段进行高效压缩会产生直接收益 [15] - MLLM早期发展关注短文本视觉问答,因此压缩策略专注于预填充阶段,在输入序列第一次前向传播时就对视觉token进行压缩 [15] - 随着思维链技术的发展,研究重心转向长视觉问答场景,技术通常在解码阶段选择性地剪枝或合并KV Cache来降低内存和计算成本 [15] 跨模块混合压缩策略 - 近期方法开始探索跨多个模块的压缩策略,以实现更高的压缩效率和更优的表征质量 [16] - 这类方法主要关注如何协调不同组件之间的压缩,并将其组织为一个多阶段过程 [16] - 研究人员详细介绍了两种新兴的设计范式:多模块协同压缩以及多阶段渐进式压缩 [16] 针对特定部署场景的选择指南 - 针对视频输入,最近的研究提出了时空增强的Token压缩方法,这些方法明确考虑了时间结构,以实现高效的长序列建模 [19] - 现有方法根据是否利用文本信息可分为纯视觉压缩和文本引导压缩,这两种策略是互补的 [20] - Token合并适用于密集或在时间上冗余的视觉输入,而Token丢弃在高层语义已足够稀疏时效率更具优势 [21] - 即插即用方法适合训练资源有限或任务需求温和的情况,便于快速部署和推理加速,但性能上限相对有限 [22] - 重训练方法在细粒度多模态理解方面表现优异,能够提供更高的性能上限,但代价是大量的额外训练开销 [22] - 原则上所有可用于大语言模型预填充的加速推理策略也可用于加速训练,但大多数先进的多模态大模型仍使用最简单的Token压缩机制 [23] 当前挑战与未来方向 - 尽管多模态大模型的Token压缩技术取得了快速进展,但仍有若干开放性挑战,如缺乏理论辅助、缺乏任务与内容感知的自适应性、实际细粒度感知的任务性能下降等 [24] - 该综述后续将保持更新,计划在v2版本中整理Token压缩研究中常用的图像和视频理解基准测试,并据此构建一个全面的评估框架 [25]
AAAI 2026杰出论文奖 | ReconVLA:具身智能研究首次获得AI顶级会议最佳论文奖
机器之心· 2026-01-26 11:08
在长期以来的 AI 研究版图中,具身智能虽然在机器人操作、自动化系统与现实应用中至关重要,却常被视 为「系统工程驱动」的研究方向,鲜少被认为能够在 AI 核心建模范式上产生决定性影响。 近年来,Vision-Language-Action(VLA)模型在多任务学习与长时序操作中取得了显著进展。然而,我们 在大量实验中发现,一个基础但被长期忽视的问题严重制约了其性能上限: 视觉注意力难以稳定、精准地 聚焦于任务相关目标。 以指令「将蓝色积木放到粉色积木上」为例,模型需要在复杂背景中持续锁定「蓝色积木」和「粉色积 木」。但现实中,许多 VLA 模型的视觉注意力呈现为近似均匀分布,不同于人类行为专注于目标物体, VLA 模型容易被 无关物体或背景干扰 ,从而导致抓取或放置失败。 而 ReconVLA 获得 AAAI Outstanding Paper Awards,释放了一个清晰而重要的信号: 让智能体在真实世界 中「看、想、做」的能力,已经成为人工智能研究的核心问题之一 。 这是具身智能(Embodied Intelligence / Vision-Language-Action)方向历史上, 首次获得 AI 顶 ...
这届网友太狠了:Clawdbot爆火,狂囤40台Mac mini来跑
机器之心· 2026-01-26 11:08
Clawdbot现象与市场热度 - 开源AI助手Clawdbot在社交平台刷屏,并意外带动Mac mini销量,有用户专门购买或翻出旧设备以运行该应用[1] - 有极端案例显示,用户一次性购买40台Mac mini用于运行Clawdbot并绑定Claude Max订阅,视其为对未来的投资[2] - 也存在成本更低的替代方案,例如在便宜的服务器或闲置的树莓派上运行,以降低安全风险或成本[6][7] Clawdbot产品核心功能与架构 - Clawdbot是一款可集成于常用聊天软件(如WhatsApp, Telegram, Slack)的AI助手,具备持久记忆、主动提醒和自动执行任务的能力[9][12] - 其核心架构包含四大模块:Gateway(网关)负责通信协调,Agent(智能体)负责推理,Skills(技能模块)提供扩展能力,Memory(记忆系统)提供持久化存储[13][19] - 该应用为自托管模式,用户对数据和配置拥有完全控制权,相比云端AI助手更灵活但也需要用户自行部署[12][14] 实际应用案例与潜力 - 博主Alex Finn将其命名为Henry,作为“全天候AI员工”,自动化完成了阅读邮件并自建CRM、修复18个SaaS产品Bug、基于趋势分析生成爆款视频脚本等任务[16][20][21][22] - 应用场景广泛,包括自动化交易(给予2000美元账户进行24/7加密货币、股票交易)、汽车购买议价(成功砍价4200美元)以及管理家族茶叶生意(处理排班、库存及B2B跟进)[34][35][36] - 用户为追求更强算力,从Mac mini升级至价值1万美元的Mac Studio,并计划用Opus模型作为大脑驱动多个本地模型集群[25][26][27][28] 创始人背景与项目起源 - Clawdbot创始人Peter Steinberger拥有工程与计算机科学背景,曾独立开发并运营PSPDFKit公司,客户包括Dropbox、Evernote,产品累计服务用户近10亿人[44] - 其在2021年以约1亿欧元出售公司大部分股份后,于2025年全职回归技术工作,并于2026年1月发布开源的Clawdbot项目[44][45]
谷歌、Anthropic双重围剿下的OpenAI,正面临「生死抉择」
机器之心· 2026-01-25 16:08
OpenAI战略重心转移 - 公司进入2026年后,战略重心从消费级产品部分转向企业级市场,传递出清晰的战略转型信号,全方位发力企业端业务[1] - 公司CEO奥特曼近期召集企业高管聚会,传达服务企业用户的意向,提出公司可成为满足企业所有AI需求的一站式商店[5] - 公司正在预热一项针对大型公司的新方案,旨在协助其进行大规模AI转型,并将AI整合进客户服务、代码改写、数据组织等业务运营中[5] 企业市场具体举措与目标 - 公司正为ChatGPT添加协作及更多办公功能,并推出针对特定行业的垂类产品(如ChatGPT Health)[9] - 公司重组了销售模式,改为由一名销售人员向客户推销多种产品,并挖来顶级人才Barret Zoph专门负责面向企业客户的AI商业化业务[9] - 公司目前约40%的收入来自企业客户,其CFO表示到今年年底,约50%的业务将来自企业客户[10] 企业市场竞争态势 - 公司发力企业市场的一大原因,是希望将企业客户从竞争对手Anthropic手中争取过来[6] - Anthropic的工具Claude Code和Cowork引起业界广泛关注,据一家每月在两家公司投入数百万美元的初创公司CEO称,Claude Code对某些客户而言比聊天机器人更能提高生产力[7] - 公司自身某些产品(如处理电子表格的智能体)表现未达预期,但CEO预告将发布很多与Codex相关的更新,预示其编程工具即将升级[8] 生成式AI流量格局变化 - 行业正从“一家独大”走向“群雄逐鹿”,OpenAI的市场份额从12个月前的接近90%持续下降至目前的65%左右[13] - 谷歌Gemini成为最大挑战者,市场份额从极低水平跃升至第二位,目前占据约20%的市场[13] - 包括DeepSeek、Meta、Claude、Perplexity和Grok在内的第二梯队也在稳步蚕食原本属于OpenAI的市场空间[14] 用户与流量增长数据 - 根据SimilarWeb数据,2025年ChatGPT每月独立访客增长达3060万,市场渗透率从1月的71%增长到11月的77.3%[18] - 同期,谷歌Gemini每月独立访客增长1420万,渗透率从15.1%跃升至24.2%,增幅最大[18] - Grok渗透率从0.2%飙升至6.7%,Claude的每月独立访客为320万,渗透率达5.3%[18] - 有评论指出,从客户价值角度看,大多数Claude用户每月开销在200美元左右,而OpenAI在此方面处于垫底水平[16]