量子位
搜索文档
复旦等推出「第一人称视听基准」,补齐多模态模型「听觉拼图」
量子位· 2026-03-12 10:59
行业现状与问题 - 当前多模态大模型在理解真实世界时存在明显缺陷,尤其是在复杂听觉环境中,即使是最强模型也会“失灵”,表现为能看懂动作但听不懂发生了什么,能描述现象但推不出原因 [1] - 问题的核心在于模型还不会真正“听”,现有第一人称视频理解基准长期“视觉中心化”,音频信息常被当作辅助,缺乏对声音理解与推理的系统性评测,导致第一视角世界处于“半静音”状态 [2][3] 解决方案:EgoSound基准 - 来自复旦大学、上海创智学院等机构的研究团队提出了首个系统评测第一人称声音理解能力的基准“EgoSound”,旨在填补该领域的空白 [4][5] - 该基准是首个专门面向多模态大模型的第一视角“声音理解”评测体系,其目标是让模型在真实世界中能听见、理解、推理并解释发生的一切 [6][7] - EgoSound关注声音作为关键证据时的模型表现,它能够提供空间线索(如声源方位、距离、移动)、揭示画面外事件(如镜头外的对话、声响)以及承载因果与意图信息 [8] - 该基准融合了Ego4D和EgoBlind两类互补数据,覆盖从“视觉主导”到“声音主导”的多种现实场景,构建了高质量、大规模的数据集,包含**900段严格筛选视频**和**7315条验证后的开放式问答** [9][11][12] 技术框架与任务体系 - EgoSound系统拆解了第一人称声音能力边界,覆盖从感知到推理的完整链路,共设立七大核心任务 [10] - 七大任务包括:声音特征、计数、时序属性、空间定位、声源识别、因果推理和跨模态推理 [14] - 为确保问题真正依赖听觉线索,研究团队采用了多阶段筛选机制,并借助多个强模型辅助标注,构建了为“听觉推理”量身打造的数据流程 [16] 评测结果与关键发现 - 评测结果显示,当前最强模型与人类表现存在巨大差距,人类在EgoSound基准上的平均准确率为**83.9%**,而当前最佳模型(Qwen3-Omni-Thinking-30B)的准确率仅为**56.7%**,差距超过**27个百分点** [17][18] - 关键发现一:模型在空间定位、时序属性和因果推理任务上表现最差,难以稳定回答声音的来源、发生时间和原因 [20] - 关键发现二:跨模态对齐仍是瓶颈,模型需要建立“听到—看到—推断”的链条,而声音线索经常在画面之外 [21] - 关键发现三:第一人称的真实复杂度被低估,人与物的交互、遮挡、镜头抖动等因素使声音推理更贴近真实但也更具挑战性 [22] 行业影响与未来方向 - EgoSound基准的推出标志着行业开始从让模型“看见世界”转向“听懂世界”,旨在推动多模态模型成为真正的第一人称智能体 [7][23] - 该工作揭示了当前多模态大模型在听觉理解和推理能力上的严重不足,为未来方法研究提供了清晰的靶点和方向 [13][23]
真·养虾!3步让龙虾边聊边进化,不用GPU不用数据集就能强化学习
量子位· 2026-03-12 10:59
文章核心观点 - 介绍了一种名为MetaClaw的新型在线强化学习系统,该系统能够通过拦截用户与AI的日常对话作为训练数据,在后台自动优化AI智能体,实现“边聊边学”的持续能力进化,显著降低了AI持续学习的门槛[1][2][4] 技术机制与架构 - **核心框架**:系统基于自研的SkillRL(技能增强强化学习)框架,核心是“技能注入”与“技能进化”的组合拳[9] - **技能注入**:在每轮对话中精准匹配相关技能指令并注入系统提示,使AI能即时优化表现,避免同类错误[6][10] - **技能进化**:AI能从被动接收指令转变为主动生成新技能,使技能库随着使用不断丰富和增强[5][11] - **学习模式**:提供异步架构与双学习模式,将服务、奖励建模和训练解耦,支持从用户隐式反馈中优化的强化学习,以及结合高质量文本反馈的在线策略蒸馏,实现“工作学习”两不误[17] - **模型底座**:主要基于Kimi-2.5构建,同时提供Qwen3-4B作为轻量级替代方案,以适应低配设备[8] 部署与使用优势 - **云端训练**:系统将所有训练任务托管于Tinker云平台,实现了训练与部署的分离,用户无需本地GPU集群,也无需专门的工程团队维护[13][14] - **低门槛**:只要设备能联网即可运行整个系统,将AI持续学习的门槛降至极低水平,使普通开发者也能培养可进化的AI[15][16] - **简易上手**:使用仅需三步:安装依赖(包括`tinker`和`tinker-cookbook`云端LoRA训练SDK)、运行配置脚本将OpenClaw网关指向MetaClaw代理、设置Tinker API密钥并运行训练脚本[18][19][20][21][22][23] - **自动运行**:配置完成后,用户只需正常与智能体聊天,系统会自动收集对话轮次、评分并训练模型,每攒够一批样本(批次大小默认32)就热替换一次权重,全程无需人工干预[24][25][27] 配置与定制 - **核心配置**:所有配置项集中于`MetaClawConfig`中,包括模型选择、LoRA参数、训练步数等,一目了然[26][27] - **关键参数**:基础模型默认使用“moonshotai/Kimi-2.5”;LoRA rank默认32;触发一次训练步所需的批次大小默认32;最大训练步数默认1000[27] - **功能启用**:通过配置可灵活启用技能注入或技能进化功能,例如在启用技能进化时,可配置使用如GPT-5.2等外部模型接口[26]
对话「哈萨比斯传」作者:“他不喜欢奥特曼”
量子位· 2026-03-11 17:00
公司核心人物:哈萨比斯 - 哈萨比斯是谷歌AI的负责人,其传记《哈萨比斯:谷歌AI之脑》历时三年完成,基于超过三十小时的独家专访[1] - 其价值观深受母亲影响,母亲是家境贫寒的新加坡华人,这使他真心想帮助他人,道德在其心中分量极重[12][14][22] - 他自认追求知识与科学,而非权力,并明确不喜欢OpenAI的奥特曼,认为后者追求的是对他人的控制[8][12][51] - 尽管排斥“控制”一词,但其性格极度好胜,坚信“没有我赢不了的游戏”,这被作者解读为另一种形式的控制欲[9][11][44] - 他拥有“救世主情结”,非常渴望名声,渴望成为发现AGI的人[54] 公司发展历程与战略选择 - 哈萨比斯选择在伦敦而非硅谷创业,这使得他有更多时间沉下心来做一个科学家,走的是与硅谷辍学创业不同的道路[23][39][40] - 关于AI的想法在其十六七岁时就已产生,并在十九、二十岁时就写下了构建AI的完整计划[41][43] - 其早期创办的游戏公司相当成功,游戏卖出了大约500万份[26] - 公司曾犯下一些战略错误,包括:长期不重视语言模型方向;一个名为“盖亚”的模拟环境项目烧掉大量资金后失败;花费三年时间与谷歌谈判试图让DeepMind独立,最终未果[61][62][65] - 在融资时曾误判投资者彼得·蒂尔,以为对方会追加投资,结果没有[63] 行业竞争与产品动态 - 在大型语言模型竞赛初期,谷歌一度落后于OpenAI,但哈萨比斯凭借好胜心全力追赶[52] - 目前,哈萨比斯声称Gemini已经取得领先地位[10][53] - 作者认为,如果以AGI为终点,Gemini 3可能已经达到;但技术渗透进日常生活的部分可能只完成了10%[105][106] - 作者预测OpenAI最终可能会垮掉,因其所需资金过多,迟早可能将自己卖给微软[111] 公司治理与内部关系 - 哈萨比斯与联合创始人穆斯塔法·苏莱曼关系复杂,在后者离开后,哈萨比斯曾试图将其从公司历史中抹去[28][91] - 哈萨比斯与大学同学、联合创始人大卫·西尔弗的关系也因持续的竞争导致后者精疲力竭[46][85] - 哈萨比斯曾为DeepMind从谷歌独立进行激烈博弈,聘请律师与里德·霍夫曼等人谈判,并希望奥巴马加入监督委员会,但相关内容曾遭其要求从书中删除[67][69] 行业风险与伦理困境 - 哈萨比斯及其公司面临着“奥本海默困境”,即科学家构建技术,但技术的控制权往往在他人手中[28][72][114] - 哈萨比斯早期为防范风险,在将公司卖给谷歌时设置了监督委员会、禁止军事用途等条款,但监督委员会后来形同虚设,独立努力也告失败[72][73] - 实现AI安全被认为需要中美两个超级大国的携手合作[115] - 作者指出,尽管哈萨比斯想做正确的事,但最终能否做到并非他一人能决定[74][75][115]
量子位编辑作者招聘
量子位· 2026-03-11 17:00
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[12] - 公司在第三方数据平台(如新榜、清博)是AI及前沿科技行业TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向[2][6] - 岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招接受应届毕业生及实习生[4][6] - 所有岗位工作地点均为北京中关村[2] AI产业方向岗位详情 - 岗位职责包括跟进AI基建层新进展(芯片、AI Infra、云计算)及核心玩家动态[5][6] - 职责还包括对前沿论文、开源社区、技术大会报告进行大众化解读[6] - 参与核心采访,对话产业专家、技术大牛,撰写AI云落地案例[7] - 任职要求对芯片、GPU、NPU、服务器、模型训练架构、云计算等有基本理解[11] - 要求熟悉AI行业供应链与生态,并能将复杂技术内容结构化表达,有技术背景者优先[11] AI财经商业方向岗位详情 - 岗位职责聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[6][11] - 需产出创投融资、招股书财报解析、公司战略分析等稿件[11] - 需访谈对话投资人、创业者、产业分析人士[11] - 任职要求对数据敏感,对财报、股权结构、战略规划感兴趣[11] - 要求逻辑结构强,对商业叙事敏感,并热爱对话采访[11] AI产品方向岗位详情 - 岗位职责关注AI在终端的落地,包括软件应用产品和硬件方向[6][11] - 需撰写AI应用产品深度评测,并跟踪多终端新品发布(手机、PC、XR、车机等)[11] - 需对话访谈AI应用创业者、产品专家、终端技术专家[11] - 任职要求对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11] - 要求熟悉各大终端厂商业态和体验方法论,并有强逻辑、体验表达和结构化能力[11] 岗位通用职责与任职要求 - 主编需具备选题和带队能力及经验[6] - 主笔需具备原创深度稿件能力[6] - 编辑需热爱表达,喜欢挖掘信息,能够用通俗语言解读AI新进展[6] 加入公司的潜在收获 - 可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 可将各种AI新工具应用于工作,提升效率和创造力[6] - 可通过撰写独家原创内容建立个人知名度,成为AI领域意见领袖[6] - 可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[6] - 应届新人可获得主编级编辑的一对一指导[6] - 可加入扁平、简单、开放、多劳多得的活力团队[6] - 可获得行业TOP薪资待遇及五险一金、餐补、绩效、加班补助等福利[6] 应聘方式 - 应聘者需将个人简历发送至指定邮箱,邮件主题需注明应聘方向及姓名[11] - 需随简历附上科技行业代表作品或能展现个人写作水平的作品[11]
ChatGPT和Claude争了个寂寞!用户重叠仅11%,中国应用霸榜移动端
量子位· 2026-03-11 17:00
全球AI应用市场格局 - 风投机构a16z发布了第六版“迄今最受消费者喜爱的Top100 AI应用”榜单,该榜单统计了截至2026年1月的网页端和移动APP端前50名应用[1][15][23][24] - 在移动AI应用前50名中,几乎有一半来自中国团队,但大量用户来自海外,显示出AI应用生产大国与消费大国正在分离的现象[3][4][6] - 全球三大AI市场分别为:西方市场(以ChatGPT、Claude、Gemini等为代表,主要国家包括美国、印度、巴西、英国和印度尼西亚)、中国市场(以DeepSeek、豆包、Kimi为代表)以及俄罗斯市场(以Alice、GigaChat为代表)[8][9][60][61][64][65] - 从人均消费看,排名前列的国家/地区依次是新加坡、阿联酋、中国香港、韩国,而美国作为AI生产大国仅排第20位[7][70] 头部AI应用竞争态势 - ChatGPT在消费级AI应用中保持绝对领先,其网页端月流量是第二名Gemini的2.7倍,移动端月活跃用户数是Gemini的2.5倍,周活跃用户数已达9亿,意味着全球超过10%的人口每周使用ChatGPT[28][29][30][31] - 尽管ChatGPT领先,但挑战者增长迅猛,过去一年Claude的付费用户同比增长超过200%,Gemini的付费用户同比增长率高达258%[34][35] - 竞争的关键在于对用户上下文的理解,网页端ChatGPT的用户会话数比Gemini高1.3倍,移动端则高出2.2倍[40][41][42] - ChatGPT与Claude的战略方向出现分化,前者定位为面向大众的AI入口,后者更偏向专业用户,导致两者的应用目录重叠度仅约11%[48][52][53][54][55] - AI助手正从“聊天工具”向“平台操作系统”演变,通过构建类似“应用商店”的体系(如GPTs、Apps)来锁定用户工作流程,形成平台竞争的“飞轮效应”[49][50][51][58] AI应用品类发展趋势 - 创意工具类应用中,图像AI的地位相对“没落”,三年前在创意工具类9席中占7席,如今在7席中仅占3席,Midjourney的排名已从曾经的前十跌至第46位[72][73][75][80] - 视频、音乐和语音生成AI正在强势崛起并补位,中国自主研发的模型在视频AI输出质量方面保持领先,可灵AI、海螺AI和Pixverse等取得显著进展[76][81][82] - 音乐和语音领域因巨头尚未大规模涉足,存在更多发展空间[87] - 去年呈现爆发式增长的五大“vibe coding”平台(Cursor、Replit、Lovable、Bolt、Claude Code)增速已放缓[88][89][90] - 以OpenClaw为代表的智能体(Agent)热度上升,若统计时间推迟至2026年2月,OpenClaw将跻身网站榜单前30名[93][94] 特定赛道观察 - AI浏览器赛道首次出现在榜单视野中,但独立AI浏览器(如Perplexity的Comet)尚未出现持续加速增长的情况,未能“独立行走”[101][104][106] - 更多玩家选择将AI能力直接集成到现有浏览器中,例如谷歌将Gemini集成到Chrome,Anthropic与谷歌合作在Chrome中发布Claude[109] - 桌面版原生AI应用正在崛起,例如在开发者领域成功的Claude Code和Codex,以及面向普通消费者的语音转文字笔记应用(如Fireflies、Fathom、Otter)[111][112] - 当前的数据统计方式(依赖网站访问量和移动端月活)已难以全面捕捉多变的AI使用形态(如Claude Code、语音笔记工具的重度用户行为),导致部分热门AI产品被低估[113][114] 中国AI应用表现 - 在移动AI应用前50名榜单中,中国团队开发的应用占据半壁江山,除了豆包、DeepSeek等聊天机器人,多为影像和视频工具,如美图的Wink、快手的可灵AI、李白实验室的Cutout Pro[27] - DeepSeek是唯一一款在全球范围内被广泛使用的中国AI产品,其网页端流量分布为中国33.5%、俄罗斯7.1%、美国6.6%[62][63] - 美团作为非原生AI应用的代表,因其生成式AI核心体验而上榜[18]
一年一度最值得关注的AI榜单来啦!申报即日启动
量子位· 2026-03-11 13:35
行业现状与趋势 - 中国生成式AI行业正从技术探索阶段进入产业深度融合与应用的“深水区” [1] - AI的角色已从“新技术”演变为“新工具”,并正成为企业运营中必须面对的现实,其影响范围从内容生产扩展至研发效率、营销方式、团队协作及决策流程等多个核心环节 [1] - 行业已跨越“观望期”,进入“全民参与期”,AI技术开始广泛融入大众日常生活与工作场景 [16][17] 2026中国AIGC产业峰会 - 峰会计划于2026年5月在北京举办,主题为“@所有人,马上AI起来” [17] - 峰会旨在聚焦“如何用好AI”,邀请AI创业者、开发者及资深玩家共同探讨,推动AI技术的普及与实际应用 [17] - 峰会将公布“2026年度值得关注的AIGC企业”及“2026年度值得关注的AIGC产品”的评选结果 [1][6] 2026年度值得关注的AIGC企业评选 - 评选目标是发现拥有最创新、最前瞻或最具规模落地潜力的AI企业 [4] - 参选企业需满足以下条件:公司主体或主营业务在中国;主营业务为生成式AI及相关,或已将AI广泛应用于主营业务;近一年在技术/产品或商业化方面有出色表现 [7] - 评选将从四个维度进行考察:技术维度(技术实力、研发能力、创新性)、产品维度(产品创新性、市场适配性、用户体验)、市场维度(商业模式、市场规模、营收情况、合作生态)以及潜力维度(核心团队、投融资进展、品牌影响力) [12] 2026年度值得关注的AIGC产品评选 - 评选目标是发现拥有最创新、最实用、最热门或最具应用潜力的AI产品 [10] - 参选产品需满足以下条件:主要功能基于生成式AI能力;已具备成熟技术并投放市场,拥有一定用户规模;近一年有重要的技术创新或功能迭代,推动了AI技术应用落地并对行业产生影响 [13] - 评选将从四个维度进行考察:产品技术力(技术先进性、成熟度、高效性)、产品创新力(功能、体验、应用场景的独特性)、产品表现力(用户反馈、市场表现、影响力)以及产品潜力(产品生态、市场潜力、战略规划) [13] 评选参与信息 - 评选报名自文章发布即日起开始,截止日期为4月27日,最终结果将于5月的中国AIGC产业峰会上公布 [14] - 企业可通过指定的网页链接或扫描二维码进行报名 [16] - 如有疑问,可通过添加指定微信或发送邮件至指定地址进行联系 [14]
499上门装龙虾的人,开始赚299卸载龙虾的钱了
量子位· 2026-03-11 13:35
文章核心观点 - 围绕AI工具“OpenClaw”(文中戏称“龙虾”)的部署热潮,已迅速催生出一个成熟且分层的“卸载”服务市场,形成了从安装到卸载的完整产业链 [4][7][11] - 该市场火爆的核心原因是OpenClaw存在显著的安全隐患和高昂的使用成本(Token消耗),导致大量用户“尝鲜”后选择卸载 [30][34][37] - 行业竞争激烈,服务商通过差异化定位(如技术背景、恐惧营销)和价格分层(从20元到200元以上)来争夺市场 [21][23][26] “卸载”服务市场的形成与现状 - 一个专门卸载OpenClaw的大型产业链已在多个社交平台(如小红书、闲鱼、微信群)形成,服务价格从几十元到几百元不等 [10][11] - 服务推广采用标准化话术,关键词包括“上门、卸载、299、无残留”,并运用“赛博闭环”等概念和AI生成的海报进行视觉营销 [12][13][15] - 部分商家采用“恐惧营销”,整理发布“龙虾受害者警告”拼图,展示信用卡盗刷、电脑中毒等案例以刺激需求 [17][18] 服务分层与商业模式 - 服务已形成明确的价格分层:第一档(200元以上)提供同城上门服务;第二档(50-100元)提供远程协助;第三档(20-40元)提供自助卸载教程 [21][23] - 市场竞争导致价格可议,例如标价20元的安装包可砍价至15元 [23] - 服务商通过突出“计算机博士生”等技术背景来建立专业信任,实现差异化竞争 [26][27] - 许多服务商同时提供安装和卸载服务,同一批人抓住了产业链的上下游机会 [28][29] OpenClaw面临的主要问题与风险 - **安全隐患突出**:OpenClaw因权限过高且安全配置脆弱,易被攻击者利用,国家互联网应急中心已发布安全提醒 [34] - **具体风险包括**:1. 通过“提示词注入”钓鱼套取系统密钥;2. 可能误删核心数据(如Meta安全负责人邮件被删案例);3. 安装恶意Skills插件导致密钥被盗或植入木马;4. 本身存在多个高中危漏洞,易导致系统被控、信息泄露 [35][36] - **使用成本高昂**:为实现复杂工作流程,OpenClaw会消耗数以万计的Token,导致用户账单激增而实际效用有限 [37][38] - **算力需求激增**:OpenClaw带来Token调用量的井喷式上涨,可能导致算力供不应求 [40] 行业建议与替代方案 - 行业专家建议用户可选择国产化工具并及时更新版本,这些工具通过底层加密与安全技术能大幅降低使用风险 [41] - 市场出现一种戏谑观点,将OpenClaw与雇佣实习生对比,认为后者在成本(月薪3K vs 高额Token消耗)、灵活性和主动性上更具优势 [42][47] - 对于绝大多数用户,OpenClaw并非必要工具,新鲜感过后卸载成为普遍选择 [44]
让龙虾看懂屏幕!谷歌多模态新成果,文本图像视频音频进同一空间
量子位· 2026-03-11 13:35
公司产品发布与核心特性 - 谷歌发布了首个原生多模态嵌入模型Gemini Embedding 2,其核心变化在于将文本、图像、视频、音频和文档全部映射进同一个统一的嵌入空间[1] - 该模型支持多种数据类型的混合输入(例如图像+文本),并能捕捉不同媒体间的复杂语义关系,从而更准确地理解现实世界信息[4][5] - 模型在评测中整体性能较上一代提升,为多模态嵌入任务树立了新的性能基准,在文本、图像和视频任务中均超越现有领先模型,实现SOTA[6][7] 技术规格与性能数据 - 模型处理能力具体为:文本支持最多8192个token;图像每次请求最多处理6张,支持PNG和JPEG;视频支持最长120秒的MP4和MOV格式;音频可原生嵌入,无需中间文本转录;文档可直接嵌入最多6页的PDF[8] - 在多项基准测试中表现优异:多语言文本任务(MTEB)平均得分69.9,代码任务(MTEB)平均得分84.0;文本-图像检索任务(TextCaps recall@1)得分89.6;图像-文本检索任务(TextCaps recall@1)得分97.4;文本-文档检索任务(ViDoRe v2 ndcg@10)得分64.9;文本-视频检索任务(MSR-VTT ndcg@10)得分68.0;语音-文本检索任务(MSEB mrr@10)得分73.9[9] 技术原理与行业意义 - Gemini Embedding 2首次彻底打通了多模态数据,实现了“跨模态语义对齐”,使得不同模态(如文字“猫”与猫的照片)在统一嵌入空间中的向量距离极度接近[18][19] - 该技术能大幅简化多模态流程,使RAG检索、语义搜索、情感分析、数据聚类等应用场景直接受益[21][22] - 该模型为AI Agent(如OpenClaw/龙虾)提供了关键的语义基础,使其能直接理解屏幕像素区域、图标、按钮等视觉信息,而不仅限于识别文字,为Agent代替人类操作电脑奠定基础[23][25][26][28][29] 技术实现与部署 - 模型采用Matryoshka Representation Learning(MRL)方法,允许嵌入向量在保持语义信息的同时进行动态维度缩减,开发者可根据预算和算力自由决定信息密度分布[30][32] - 模型的默认输出维度为3072维,但开发者可根据需求缩减至例如1536维或768维,以在性能与存储成本间取得平衡[32] - 除了通过API调用,模型也支持通过LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB和Vector Search等工具调用[32] 产品发布与可用性 - Gemini Embedding 2目前已经通过Gemini API和Vertex AI展开公测[11] - 该模型被视为为下一代AI应用,包括多模态Agent和具身智能机器人,提供了关键的基础设施[32]
Mira翁荔陈丹琦公司,让老黄掏出了600亿美金
量子位· 2026-03-11 13:35
英伟达与Thinking Machines Lab的战略合作 - 英伟达与Thinking Machines Lab达成新一轮多年度战略伙伴协议,协议包含现金注资与硬件供应[2][3] - 合作核心是在全球范围内部署至少1GW容量的下一代Vera Rubin算力系统,首批算力集群定于2027年初部署[10] - 项目总建设成本估算为500-600亿美元,其中英伟达提供的硬件及配套方案价值约350亿美元[14] - 英伟达将提供一笔数额重大的现金注资,用于支持该公司的长期增长与技术研发[15] Vera Rubin算力系统技术规格 - Vera Rubin平台是Blackwell架构的继任者,由R100系列GPU和GR200系列Grace Rubin超级芯片组成[11] - 单颗GPU集成288GB HBM4显存,内存带宽达22TB/s,能提供50PFLOPS的NVFP4推理算力[11] - 匹配的Vera CPU采用88个Olympus核心,支持1.5TB LPDDR5X内存及1.2TB/s带宽[11] - 通过第六代NVLink技术实现每颗GPU高达3.6TB/s的互连速率[11] 合作目标与影响 - 该超大规模算力设施将直接服务于公司的前沿模型训练任务,并为大规模交付定制化AI平台提供底层支撑[13] - 双方技术团队将深度协作,设计专门适配英伟达架构的模型训练与推理服务系统,拓宽全球获取前沿及开源AI模型的渠道[13] - 英伟达数百亿美元的重资产投入与顶尖芯片配额,帮助公司完成了在底层算力基建上的深度锁定[16] - 通过掌控稀缺的底层算力资源,公司在算法研发之外构筑了更稳固的护城河[24] Thinking Machines Lab公司发展历程 - 公司于去年2月正式成立,创始人Mira Murati此前于2024年辞任OpenAI CTO[17] - 创始团队从OpenAI吸纳了原安全系统负责人等数十名研发精英,并邀请普林斯顿大学教授陈丹琦加盟,奠定了高技术起点[17][18] - 公司在去年7月获得20亿美元融资,估值120亿美元,到去年年底最新估值报价已冲高至500亿美元[8][9][19] - 公司在去年10月发布了旗舰产品Tinker,允许企业利用LoRA技术定制大模型而无需自有服务器[20] 公司团队变动与应对 - 今年1月,公司遭遇人才流失挑战,原首席技术官Barret Zoph带领多名技术骨干集体重返OpenAI[20] - 为应对核心团队突发变动,公司随即聘请PyTorch创始人Soumith Chintala出任新任CTO,负责统筹底层软硬件适配工作[21] - 顶级人才的快速迭代稳住了研发基本盘,显示出公司在面对巨头挖角时极强的资源调动与自我修复能力[22] - 与英伟达合作锁定下一代产能,是公司在“人才保卫战”之外开辟的“第二战场”[23]
仅保留35% Token,性能反超原模型!快手可灵等用视觉信息引导音频压缩,推理时间直降42%
量子位· 2026-03-11 10:45
行业背景与问题 - 全模态大模型(如Gemini-2.5-Pro、Qwen2.5-Omni)能同时理解视频与音频,但处理音视频信息时计算代价巨大 [5] - 一段几十秒的音视频可编码成上万个Token,其中超过65%是冗余的,大量计算资源被消耗在冗余信息上 [1][5][17] - 现有视觉Token压缩方法在音视频全模态场景下面临挑战,难以同时处理视频的时空冗余、音频的时间连续性以及模态间的语义关联 [7] 解决方案:OmniSIFT框架 - 该框架由快手可灵团队、中科院自动化所和南京大学提出,是一种模态非对称Token压缩框架 [2] - 核心洞察是视频信息远比音频密集,利用音视频间的非对称依赖关系,让视觉特征引导音频Token的筛选 [3][4] - 框架由两个核心模块组成:时空视频剪枝模块(STVP)和视觉引导音频选择模块(VGAS) [8] 技术实现细节 - **STVP(视频压缩)**:通过帧内剪枝识别单帧内的背景或重复纹理,通过帧间剪枝分析连续帧的相似度以丢弃重复帧,从空间和时间两个维度压缩视频Token [10][11][12][13] - **VGAS(音频压缩)**:利用筛选后的视觉特征,通过跨模态注意力机制评估音频Token的重要性,保留与视觉内容高度相关的声音(如说话声、碰撞声),过滤无关背景音 [14][15] - 引入Straight-Through Estimator(STE)使离散的Token选择过程可参与训练,实现端到端的可微优化 [15] 性能表现 - 在仅保留35%多模态Token的情况下,模型性能在多个基准测试中未下降,部分甚至超过全量输入模型 [3][18] - 例如,在WorldSense基准上,Qwen2.5-Omni-7B模型使用OmniSIFT取得50.0分,高于全量Token基线(49.7分) [19] - 在更严格的25% Token保留率设置下,OmniSIFT性能依然稳定,整体优于OmniZip、DyCoke等对比方法 [19] 效率提升 - 在35% Token保留率下,Qwen2.5-Omni-7B的总推理时间从15097秒降低至8756秒,减少约42% [3][24] - GPU显存占用同步下降,例如Qwen2.5-Omni-7B的显存从27.59 GB降至22.91 GB [24][25] - 在计算开销显著减少的同时,模型准确率保持稳定甚至略有提升,实现了计算效率与模型性能的良好平衡 [24] 技术验证与意义 - 消融实验表明,STVP的空间与时间剪枝模块均不可或缺;视觉引导的音频选择(VGAS)比仅依赖音频自身注意力剪枝效果更优(DailyOmni得分从69.3提升至73.2) [21][22] - 该技术揭示了决定模型理解能力的关键是信息密度而非Token数量,为全模态模型的高效推理提供了新思路 [26] - 该方案为Omni-modal大模型在实时交互和端侧部署等场景中的应用提供了新的可能 [25]