量子位
搜索文档
对话VAST曹炎培:2秒才是3D生成本该有的速度
量子位· 2026-03-12 17:37
公司核心技术与产品 - 公司最新发布的Tripo P1.0模型实现了AI 3D生成算法的范式级突破,首次在原生三维空间实现概率生成,重构了底层算法架构[11][13] - Tripo P1.0采用“整体生成”方法,对三角形或多边形的点线面进行统一概率建模,能在2秒内极速生成兼具几何和拓扑结构的3D模型,速度相比传统方法提升百倍[13][21][40] - 公司另一模型Tripo H3.1是高精度模型,在输入对齐、结构精度、贴图质量等核心指标上达到行业SOTA水平,追求雕塑级的三维表现[13][32][36] - 公司通过Tripo Studio平台提供端到端的3D设计工作流,其最新上线的Smart Mesh功能仅凭提示词或参考图即可在2秒内生成专业级3D模型[11][13][69] - 公司评估Tripo P1.0生成的模型整体已达到三到五年经验设计师90%的水平,在部分工业场景仍有提升空间[22][46] 行业地位与竞争优势 - 公司首席科学家表示,公司目前处在全球3D领域全栈领军的位置,在生成质量和底层范式重构方面均具领先优势[31][68] - 公司的技术优势在于定义和发明了新的原生3D表征能力,确立了现代3D生成与引擎工具、图形标准之间的底层连接[31][68] - 公司已服务全球超过9万家企业,客户包括拓竹、网易、索尼等,覆盖3D打印、游戏、XR、机器人及汽车等多个行业[70][72] 市场前景与战略布局 - 公司近期完成了5000万美元的A轮融资,由阿里和恒旭资本领投,老股东继续加注[15] - 公司计划在今年推出自己的UGC 3D互动平台,旨在打造一个比Roblox和Minecraft门槛更低的AI原生平台,类似“3D版TikTok”[25][26][55] - 公司认为,当3D资产生成门槛降至2秒且近乎零成本时,UGC互动内容将迎来爆发,AI时代限制创作的不再是技能而是想象力[25][28][50] - 公司判断AI 3D生成将首先改变游戏形式,使人人都能创作个性化的可交互世界,进而对游戏、影视、元宇宙等产业带来根本性范式转变[53] 技术演进与行业洞察 - 公司将Tripo P1.0的发布定义为AI 3D大模型算法范式进入2.0时代的标志[29] - AI 3D的1.0时代追求视觉或几何拟真,而2.0时代的特征是:生成原生资产、资产具备功能性、同时打破速度质量可用性的“不可能三角”[30][57] - 公司指出当前行业主流方法存在两大问题:在原始数据和最终资产间绕远路;以及受LLM成功影响而“强行”将3D数据序列化,这违背了三维空间的各向同性[18][19] - 公司认为,未来技术挑战在于使生成的3D资产具备原生的动态和可交互性,例如自发理解物体的物理关节结构[58] 世界模型发展规划 - 公司正在研究世界模型,并很快会有具备交互能力的demo公布[27][63] - 公司认为世界模型的发展需要视频数据与3D数据结合,3D数据能更高效地表示物理世界中的持久状态实体[62] - 公司在世界模型领域的优势包括:3D团队的底层思考积累,以及通过“V·STAR计划”吸引的顶尖人才[64][65]
一年一度最值得关注的AI榜单来啦!申报即日启动
量子位· 2026-03-12 17:37
行业趋势与峰会背景 - 中国生成式AI正从“新技术”、“新工具”阶段,进入深刻改变企业研发、营销、协作与决策流程的“产业深水区” [1] - AI发展已跨越“观望期”,进入“全民参与期”,成为短视频创作工具、手机常驻助手等广泛应用的“新物种” [16][17] - 2026年中国AIGC产业峰会将于5月在北京举办,主题为“@所有人,马上AI起来”,聚焦“如何用好AI”,旨在推动AI技术的普及与应用落地 [17] 2026年度值得关注的AIGC企业评选 - 评选旨在发掘拥有最创新、最前瞻或最有规模落地潜力的AI企业 [4] - **参选条件**:公司主体或主营业务在中国;主营业务为生成式AI及相关,或已将AI广泛应用于主营业务;近一年在技术/产品、商业化方面有出色表现 [7] - **评选维度**: - 技术维度:关注技术实力、研发能力、创新性,包含技术成果、研发投入、人才储备 [12] - 产品维度:关注核心产品的创新性、市场适配性、用户体验,包含产品创新性、用户规模、用户体验 [12] - 市场维度:关注市场表现和增长机会,包含商业模式、市场规模、营收情况、合作生态 [12] - 潜力维度:关注核心团队实力和品牌潜力,包含核心团队、投融资进展、品牌影响力 [12] 2026年度值得关注的AIGC产品评选 - 评选旨在发掘拥有最创新、最实用、最热门或最有应用潜力的AI产品 [10] - **参选条件**:产品主要功能基于生成式AI能力;产品技术成熟且已投放市场,具有一定用户规模;近一年有重要的技术创新或功能迭代,推动了应用落地并对行业有影响力 [13] - **评选维度**: - 产品技术力:关注技术的先进性、成熟度、高效性,包含技术架构、技术成果、产品效果 [13] - 产品创新力:关注功能、体验、应用场景的创新性和独特性,包含核心功能、应用场景、解决的核心痛点、趣味性 [13] - 产品表现力:关注用户反馈和市场表现,包括用户规模、留存率、用户反馈、产品影响力 [13] - 产品潜力:关注未来发展和市场扩展潜力,包括产品生态、市场潜力、战略规划 [13] 评选活动安排 - 评选由量子位主办,结合对公司的深入调研及数十位行业知名专家的意见 [1] - 评选报名即日开始,4月27日截止,最终结果将于2026年5月的中国AIGC产业峰会上公布 [14] - 评选结果将邀请数百万行业从业者共同见证 [2]
养虾人Token自由!千亿Token+百万奖金等你来拿,0门槛冲就完了
量子位· 2026-03-12 15:48
大赛概述 - 由北京中关村学院、中关村人工智能研究院、AI商学院联合主办,北京中关村学院教育基⾦会支持的首届“中关村北纬龙虾大赛”正式上线[1] - 大赛旨在为“养虾人”(AI应用开发者/用户)提供展示平台,特点是0代码0门槛[3] - 大赛设有百万奖金池和千亿级别Token作为激励[4] 赛道设置与评判标准 - 大赛设置三大赛道:学术龙虾、生产力龙虾、生活龙虾,覆盖不同应用场景[5] - 学术龙虾赛道聚焦与“搞懂一件事”相关的场景,例如管理文献库、自动生成实验报告[5][6] - 生产力龙虾赛道聚焦与“把事情做成”相关的场景,例如运营自媒体账号、充当数字员工[7][8] - 生活龙虾赛道聚焦与“把日子过好”相关的场景,例如聊天解闷、管理日程和旅行计划[9][10] - 三大赛道采用统一评判标准:在各自赛道所创造的实际价值,注重解决问题、帮助他人和创造实效,而非技术复杂度[12] - 评审工作由专家评审委员会完成[13] - 鼓励探索“龙虾+”应用,将AI接入机器人、智能玩偶、智能家居等硬件设备的创新作品将获得额外加分[13] 奖励机制 - 大赛提供丰厚奖励以实现“Token自由”,解决AI应用开发中高昂API成本的问题[14] - 全场最佳龙虾(1名):奖励20万元人民币奖金及100亿Token[14] - 各赛道第一名(共3名):每名奖励8万元人民币奖金及100亿Token[15] - 各赛道第二名(共9名):每名奖励3万元人民币奖金及100亿Token[16] - 各赛道第三名(共18名):每名奖励2万元人民币奖金及100亿Token[17] 技术支持与资源 - 大赛期间(3月11日1-19日),选手可直接访问OpenRouter平台调用两款匿名高性能模型:Hunter Alpha和Healer Alpha[18][20] - 这两款模型全球尚未正式亮相,正在OpenRouter免费开放,并获得了行业创始人的关注[18][19] - 此举旨在为参赛者提供算力支持,解决token消耗问题,释放创意[20] 参赛要求与安全原则 - 参赛作品需遵循五大核心原则:数据安全、合规使用、透明可控、尊重知识产权、社会责任[24][25][31] - 数据安全方面,严禁非法获取或泄露用户隐私数据,作品不得将AI暴露于公网,运行环境须做好权限隔离[24] - 合规使用方面,不得用于违法用途,并需严格管理插件来源,仅使用可信渠道验证的扩展程序[25] - 透明可控方面,鼓励清晰展示AI的行为边界与安全机制[31] - 尊重知识产权方面,AI生成内容应充分尊重原创版权与创作者权益[31] - 社会责任方面,鼓励用AI创造社会价值、提升公共服务效率,此类作品将获得评审额外关注[31] - 参赛者需提交可公开访问的作品链接,无需技术文档或代码[34] - 组委会保留取消违规作品资格的权利,参赛者须对自身作品安全性负责[26] 赛程安排 - 作品征集期:3月11日至3月19日[36] - 专家评审期:3月20日至3月21日[36] - 现场路演与颁奖:拟定于3月22日在北京海淀举行[36]
卡帕西:编程从写文件变成管龙虾!IDE不会凉但得换个用法
量子位· 2026-03-12 15:48
文章核心观点 - AI编程先锋认为,尽管AI代码生成能力强大,但集成开发环境(IDE)不会被淘汰,而是会进化成一个功能更强大的“更大的IDE” [3][4][5] - 编程的基本单元正从代码文件转变为AI智能体(Agent),未来的IDE将演变为一个能够高效协同、调度和管理多个智能体的综合平台或“命令中心” [6][12][15][26][27] AI编程的现状与影响 - AI编程先锋卡帕西透露,其目前80%的代码由AI生成,其近期的一些开源小项目(如autoresearch)也大部分出自AI之手 [1] - 在AI辅助下,开发者只需明确任务目标和约束条件,无需手写代码即可获得可操作的程序 [12][13] 编程范式的转变 - 传统编程模式的核心是操作以`.py`、`.js`等为后缀的代码文件,IDE的作用是编辑、保存和编译这些文件 [9][10] - 当前编程模式的核心执行单元已转变为智能体(Agent),开发挑战从编写高质量单段代码转变为如何让多个智能体高效协同、有序推进任务 [12][13][14] 未来IDE的形态与功能 - 未来的IDE将从一个单纯管理文件的工具,升级为能统筹、调度多个AI智能体的综合管理平台 [15] - 其核心是“管理的边界更大,设计逻辑更高级”,而非简单扩大界面或堆砌功能 [27] - 具体功能设想包括:一键显示/隐藏任意Agent以管理界面;实时监控每个Agent的状态(空闲、执行、异常);支持针对特定Agent快速弹出相关工具(如终端);提供每个Agent的详细使用统计(如token消耗量、计算资源占用、运行时长、任务完成率);支持全屏或跨多显示器布局的指挥中心视图 [27] 组织架构(Org Code)的可编程化 - 未来的IDE将用于构建、运行和管理被称为“组织代码”的智能体协同结构,其灵感可来源于各大科技公司的组织架构(如亚马逊的树状层级、谷歌的网状、Facebook的蜘蛛网状、微软的对抗性、苹果的中心放射状、甲骨文以法务为主导的结构) [18][19][26] - 在AI时代,当执行单元是AI智能体时,公司高效的组织架构和管理风格(如亚马逊的层级分明、谷歌的乱中有序)可以被“一键fork”并复制,应用于智能体团队的协同工作中 [21][22][23][24][25]
用Diffusion构建「AI虚拟细胞」,14项指标霸榜!Mila唐建团队破解单细胞「破坏性」测序难题
量子位· 2026-03-12 15:48
文章核心观点 - Mila(魁北克人工智能研究所)唐建团队开发的PerturbDiff模型,通过将“细胞群体的概率分布”视作一个可加噪、去噪的随机变量,在泛函空间进行扩散建模,从根本上解决了单细胞微扰响应预测中因数据非配对和传统静态分布假设导致的泛化难题,从而在多项权威基准测试中以压倒性优势刷新了单细胞响应预测的SOTA记录,是构建高保真“虚拟细胞”道路上的重大突破 [1][3][6][28] 模型原理与创新 - **认知升维与核心假设突破**:模型摒弃了传统方法将微扰后细胞分布视为唯一固定结果的静态假设,认识到生物系统的混沌性,首次将建模目标设定为“细胞分布的分布”,即一个在分布空间中取值的随机变量,以拟合生物微扰固有的多变性 [4][6] - **关键数学工具与工程实现**:模型引入再生核希尔伯特空间(RKHS)与核均值嵌入(KME)工具,将复杂细胞种群压缩为高维函数空间中的一个“点”,并在此空间进行泛函扩散 通过严密的数学证明,将抽象的泛函扩散过程等价于对每个单细胞独立注入欧氏噪声,从而架起了理论与工程的桥梁,实现了高效建模 [9][10][11][12] - **损失函数的内生性优势**:在PerturbDiff框架下,最大均值差异(MMD)不再是外挂的正则化项,而是从反向去噪目标的变分下界中自然导出的、与单细胞空间中真实分布与预测分布之间MMD平方绝对等价的度量 这迫使模型在高阶统计特征上对齐,有效避免了因单细胞基因表达高度稀疏(零膨胀常高达95%以上)而使用均方误差(MSE)会导致模型陷入“预测全0”次优解的问题 [14][15][16][17] 性能表现与数据优势 - **基准测试全面霸榜**:在包含超1亿单细胞、1100种药物的全球最大药物响应基准Tahoe100M以及PBMC免疫信号基准测试中,PerturbDiff在14项评估指标上实现了全面领先 [3][18] - **核心生物学指标表现卓越**:模型在差异表达基因(DEGs)预测的核心生物学指标(如AUPRC, AUROC)上展现出压倒性优势,因其真正学到了微扰的“系统性偏移”,这对于新药研发中识别关键基因的开启或关闭至关重要 [17][20] - **训练范式与数据利用**:采用“边缘分布预训练”策略,利用CellxGene数据集中6100万个无干预的单细胞转录组数据对扩散模型进行无条件流形预训练 这不仅大幅提升了模型在极低样本量(如每种微扰仅数百个细胞)下的微调性能,更在预训练检查点上观察到了显著的零样本预测能力,其生物学洞察在于微扰轨迹部分嵌套于自然界已存在的细胞状态流形中 [22][23][25][26] 行业意义与前景 - **理论根基的重新审视**:PerturbDiff的成功如同CNN之于图像识别、Transformer之于文本生成,展示了符合数据内在规律的归纳偏置对于发挥数据全部价值的决定性作用,推动了计算表型建模理论根基的进步 [28] - **虚拟细胞开发的里程碑**:该模型是AI在构建高保真“虚拟细胞”道路上的一次重大突破,使得能够无限次试错、精准模拟扰动响应的终极“AI虚拟细胞”愿景更近一步 [3][29]
马斯克官宣数字AI员工!世界首富也来养龙虾,测试阶段员工把它当真人
量子位· 2026-03-12 12:40
项目核心:AI数字员工“数字擎天柱/巨硬” - 马斯克宣布了名为“数字擎天柱”或“巨硬”的新AI项目,这是一个能够理解电脑屏幕、操作键盘鼠标以自动完成日常办公任务的AI数字员工[2][3] - 该AI代理旨在将任何需要键盘、鼠标、屏幕决策的工作数字化,其核心目标是模拟人类白领在数字环境中的工作,甚至从原则上可以模拟一家完整公司的运作[3][10][11] - 项目定位为比“一人公司”更进一步,主要应用领域包括企业自动化、模拟整个公司、处理大量重复性任务,未来可能与处理体力劳动的擎天柱机器人协同工作[3][13][14] 技术架构与能力 - 在技术分工上,Grok AI充当总指挥和导航者,负责理解与决策(System 2思考),而数字擎天柱则负责动手执行电脑操作(System 1执行)[17][18] - 硬件层面,数字擎天柱将运行在特斯拉自研的Tesla AI4芯片上,其功耗仅为英伟达H100芯片的四分之一,价格仅为650美元,同时只少量使用英伟达的计算硬件[19] - 项目追求小模型和极致的推理速度,设计上可以直接利用特斯拉的车载芯片进行运算[20] 项目背景与演变历程 - “巨硬”最初是xAI内部的一个核心项目与团队,早在2025年8月就已提交商标申请,当时被定位为一家纯粹的AI软件公司,目标是对标微软,构建AI白领系统[23][24] - 项目后续经历了管理层变动、一个涉及约600名外包人员的数据项目暂停、大量人员流失以及组织重组,导致项目推进受阻并陷入停滞[26][27][28][34] - 在经历变动后,原巨硬项目的部分技术与资源被整合到特斯拉的自动驾驶团队,最终演变为由特斯拉与xAI联合推出的“数字擎天柱”项目[38][40][44][45] 组织与资源动态 - xAI在近期进行了重组,形成了四个主要团队:专注于聊天机器人的Grok团队、负责编码系统的团队、专注于视频图像生成的Imagine Team,以及由前DeepMind工程师领导的巨硬团队[35] - 特斯拉宣布向xAI投资约20亿美元,同时SpaceX也与xAI进行了整合,为项目提供了资金与资源支持[36] - 尽管项目在推进,但存在命名混乱、组织结构混乱以及人手可能不足的问题[48][49]
量子位编辑作者招聘
量子位· 2026-03-12 12:40
公司业务与市场地位 - 公司是一家以追踪人工智能新进展为核心的内容平台,拥有8年的积累[1] - 公司在微信公众号平台拥有超过240万订阅用户,全网用户超过700万,日均阅读量超过200万[12] - 公司在第三方数据平台(如新榜和清博)是人工智能及前沿科技行业的TOP1新媒体[12] 招聘岗位与方向 - 公司正在招聘三个方向的内容专家,工作地点位于北京中关村[2] - 招聘岗位包括人工智能产业方向、人工智能财经商业方向和人工智能产品方向[6] - 岗位面向社会招聘(覆盖编辑、主笔、主编各个层级)和校园招聘(接受实习且可转正)[6] 人工智能产业方向岗位详情 - 岗位职责是关注基建层创新,包括芯片、人工智能基础设施、云计算领域的新进展及核心玩家动态[5][6] - 职责包括对前沿论文、开源社区、技术大会(如Hot Chips、NeurIPS、MLSys)的技术报告进行大众化解读[6] - 职责包括参与核心采访,对话产业专家、技术大牛,并撰写人工智能云落地案例[7] - 任职要求包括对芯片、GPU、NPU、服务器、模型训练架构、云计算等有基本理解[11] - 任职要求包括熟悉人工智能行业的供应链与生态(如训练-推理、算力-成本、云-芯片关系)[11] - 任职要求包括能够将复杂技术内容结构化表达,有技术背景、理工或计算机科学/电子工程方向优先[11] 人工智能财经商业方向岗位详情 - 岗位职责是聚焦创投、人工智能创业公司、上市公司、商业模式、产业链资本动向[11] - 职责包括产出创投融资、招股书财报解析、公司战略分析等稿件[11] - 职责包括访谈对话投资人、创业者、产业分析人士[11] - 任职要求包括对数据敏感,对财报、股权结构、战略规划感兴趣[11] - 任职要求包括逻辑结构强,对商业叙事敏感[11] - 任职要求包括热爱对话采访,具备社交型人格[11] 人工智能产品方向岗位详情 - 岗位职责是关注人工智能在终端的落地,包括软件应用产品和硬件方向落地[11] - 职责包括撰写人工智能应用产品深度评测,跟踪多终端新品发布(如手机、PC、XR、车机等)[11] - 职责包括对话访谈人工智能应用创业者、产品专家、终端技术专家[11] - 任职要求包括对智能硬件、人工智能终端趋势敏锐,是重度人工智能产品体验人士[11] - 任职要求包括熟悉各大终端厂商业态和体验方法论[11] - 任职要求包括具备强逻辑、体验表达和结构化能力[11] 员工福利与发展 - 员工可以第一时间接触和了解人工智能领域最新技术和产品,构建完整的人工智能认知体系[6] - 员工可以将各种人工智能新技术、新工具应用于工作,提升效率和创造力[6] - 员工可以通过撰写独家原创内容建立个人知名度,成为人工智能领域的意见领袖[6] - 员工可以与人工智能领域专家零距离接触,参与重要科技活动和发布会,拓展行业视野[6] - 应届新人会由主编级编辑担任导师,提供一对一指导,帮助更快成长[6] - 团队氛围扁平、简单、开放,奉行多劳多得、能者上位的原则[6] - 公司提供行业TOP级别的薪资待遇,以及五险一金、餐补、项目绩效、商务绩效、加班补助等福利[6]
老黄入局吃龙虾!英伟达发布最强开源Agent推理模型
量子位· 2026-03-12 12:40
Nemotron 3 Super 模型发布与性能表现 - 英伟达发布并开源了120B参数的MoE模型 Nemotron 3 Super [1] - 在PinchBench测试中,该模型取得85.6%的成功率,在开源模型中排名第一 [1][2] - 在Artificial Intelligence Index中,该模型获得37分,超过GPT-OSS的33分 [2] Nemotron 3 Super 技术规格与能力 - 模型原生支持100万token的上下文窗口 [4] - 吞吐量提升至上一代Nemotron Super的5倍以上 [5] - 在处理代码和工具调用等任务时,最高能实现3倍的实际推理提速 [6] - 在8k输入与64k输出的设置下,推理吞吐量达到GPT-OSS-120B的2.2倍 [7] 模型在各项基准测试中的表现 - 在SWE-Bench代码基准测试中,搭配OpenHands框架取得60.47%的准确率,高于GPT-OSS的41.9% [10] - 在Terminal Bench困难子集测试中,取得25.78%的得分,略超GPT-OSS的24.00% [10] - 在MMLU-Pro常识推理测试中,取得83.73分,高于GPT-OSS的81.00分 [11] - 在TauBench V2复杂业务场景测试中,取得61.15%的平均成绩 [13] 模型核心架构创新 - 采用混合Mamba-Transformer架构,以兼顾长序列处理效率与关联检索精度 [14][15] - 引入Latent MoE架构,通过在低秩潜空间降维处理,能在同等推理成本下调用四倍数量的专家网络 [16][17][18] - 原生应用多token预测技术,通过单次前向传递并行预测多个token,强化长程逻辑理解并内置投机解码能力 [19][20][23] - 采用原生NVFP4格式进行预训练,在25万亿个token上直接进行低精度训练,完全适应Blackwell架构 [25] - 在B200芯片上实现比H100快四倍的推理速度,同时降低内存需求 [25] 针对智能体能力的训练策略 - 在SFT阶段采用两阶段训练工艺,先通过标记级平均损失建立基础,再切换为样本级平均损失以解决长输入性能降级问题 [26] - 构建包含2万个初始查询的种子任务集,经精细过滤后沉淀出1.5万个核心合成任务,用于训练智能体命令行交互 [28] - 通过从高性能模型中蒸馏操作轨迹,将复杂的终端交互知识内化为模型技能 [29] - 在强化学习阶段,将模型投入NeMo Gym平台的21种真实环境配置中训练,考核工具调用准确性、代码可执行性及复杂计划完整性 [31][32] - 针对软件工程任务进行专门的SWE-RL阶段训练,在隔离容器中通过执行反馈修正逻辑漏洞 [33] - 引入PivotRL技术,在关键领域重点强化不确定性较高的决策点,以提升多步工作流中的行为稳定性,遏制推理漂移风险 [34] 英伟达的开源战略与资本投入 - 公司计划在未来五年内投入260亿美元(约合1789亿人民币)巨资,用于构建开源AI模型 [3][35] - 该投入旨在通过运行自家优化的开源模型,对计算、存储和网络性能进行全方位压力测试,所得数据将用于反哺和规划未来的硬件架构路线图 [36][37] - 公司对外全面开放模型的全参数权重,以及训练、评估配方和详细的部署手册 [38] - 此举旨在推动开源生态发展,引导全球开发者将创新根基绑定在英伟达的技术底座中 [39]
魔法原子,105亿瞄准具身智能终局
量子位· 2026-03-12 10:59AI 处理中...
梦瑶 发自 凹非寺 量子位 | 公众号 QbitAI 具身智能这个赛道,从来不缺想象力,也不缺好故事。 都2026年了,一个越来越难回避的现实是:很多行业,真的在被AI重做一遍。 到具身智能赛道里,这个信号尤其明显:机器人正在从一台设备,变成AI进入真实世界的行动载体。 谁能把模型、硬件、数据、场景和产业接起来,谁就更有机会先把闭环跑通,而资本的判断,也在迅速向这类玩家集中。 就在这两天,魔法原子推动生态基金布局,整体撬动资金规模超过 105亿 元,并宣布完成新一轮 5亿元 融资。 百亿募资+五亿融资重磅加注背后,一个越来越清晰的共识是—— 资本市场的钱,正在加速流向那些真正有机会把AI机器人带进工厂、商业空间和家庭场景的玩家。 而具身智能的行业竞争,已然进入 拼落地、拼协同、拼系统能力 的新阶段。 百亿募资+五亿融资:魔法原子成为具身智能落地样本 这两年,围绕机器人与AI结合的讨论几乎铺满整个行业:会做家务的机器人、能长期陪伴的智能助手,各种新概念轮番冒头,演示视频也一支 比一支有噱头。 热闹之外,行业很快走到一个更现实的问题上: 热度,从来不等于落地,也不等于资本愿意为其买单。 资本真正看重的,始终是这些 ...
复旦等推出「第一人称视听基准」,补齐多模态模型「听觉拼图」
量子位· 2026-03-12 10:59
行业现状与问题 - 当前多模态大模型在理解真实世界时存在明显缺陷,尤其是在复杂听觉环境中,即使是最强模型也会“失灵”,表现为能看懂动作但听不懂发生了什么,能描述现象但推不出原因 [1] - 问题的核心在于模型还不会真正“听”,现有第一人称视频理解基准长期“视觉中心化”,音频信息常被当作辅助,缺乏对声音理解与推理的系统性评测,导致第一视角世界处于“半静音”状态 [2][3] 解决方案:EgoSound基准 - 来自复旦大学、上海创智学院等机构的研究团队提出了首个系统评测第一人称声音理解能力的基准“EgoSound”,旨在填补该领域的空白 [4][5] - 该基准是首个专门面向多模态大模型的第一视角“声音理解”评测体系,其目标是让模型在真实世界中能听见、理解、推理并解释发生的一切 [6][7] - EgoSound关注声音作为关键证据时的模型表现,它能够提供空间线索(如声源方位、距离、移动)、揭示画面外事件(如镜头外的对话、声响)以及承载因果与意图信息 [8] - 该基准融合了Ego4D和EgoBlind两类互补数据,覆盖从“视觉主导”到“声音主导”的多种现实场景,构建了高质量、大规模的数据集,包含**900段严格筛选视频**和**7315条验证后的开放式问答** [9][11][12] 技术框架与任务体系 - EgoSound系统拆解了第一人称声音能力边界,覆盖从感知到推理的完整链路,共设立七大核心任务 [10] - 七大任务包括:声音特征、计数、时序属性、空间定位、声源识别、因果推理和跨模态推理 [14] - 为确保问题真正依赖听觉线索,研究团队采用了多阶段筛选机制,并借助多个强模型辅助标注,构建了为“听觉推理”量身打造的数据流程 [16] 评测结果与关键发现 - 评测结果显示,当前最强模型与人类表现存在巨大差距,人类在EgoSound基准上的平均准确率为**83.9%**,而当前最佳模型(Qwen3-Omni-Thinking-30B)的准确率仅为**56.7%**,差距超过**27个百分点** [17][18] - 关键发现一:模型在空间定位、时序属性和因果推理任务上表现最差,难以稳定回答声音的来源、发生时间和原因 [20] - 关键发现二:跨模态对齐仍是瓶颈,模型需要建立“听到—看到—推断”的链条,而声音线索经常在画面之外 [21] - 关键发现三:第一人称的真实复杂度被低估,人与物的交互、遮挡、镜头抖动等因素使声音推理更贴近真实但也更具挑战性 [22] 行业影响与未来方向 - EgoSound基准的推出标志着行业开始从让模型“看见世界”转向“听懂世界”,旨在推动多模态模型成为真正的第一人称智能体 [7][23] - 该工作揭示了当前多模态大模型在听觉理解和推理能力上的严重不足,为未来方法研究提供了清晰的靶点和方向 [13][23]