Workflow
量子位
icon
搜索文档
Manus卖给了Meta!年初火爆年底数十亿美元被收购
量子位· 2025-12-30 08:02
收购事件概览 - Meta宣布收购通用人工智能代理公司Manus,旨在提升其通用Agent能力[1][3] - 此次收购是Meta自成立以来的第三大收购案,收购金额达数十亿美元[5][8][9] - 收购完成后,Manus创始人肖弘将出任Meta副总裁,Manus团队将继续在新加坡运营[4][7] 收购背景与战略意义 - Meta将此次投资视为公司最高优先事项,由CEO马克·扎克伯格亲自关注[6] - 此次收购被类比为获取“智能体船票”,是Meta在AI领域的关键布局[15] - Manus在2025年早些时候的年收入已达1.25亿美元,其盈利能力被认为是Meta快速收购的原因之一[15] Manus公司发展历程 - Manus于2025年3月发布,核心产品叙事是“第一款通用Agent”,能自动拆解并执行用户任务[21] - 产品发布后迅速爆火,邀请码在二手市场被炒至数千美元,发布约两个月后估值达5亿美元[34][36][45] - 公司发展路径从微信生态B端工具,到浏览器插件AI助手,最终聚焦于能交付任务的通用Agent[28] Manus核心团队与架构 - 核心创始团队包括创始人肖弘、联合创始人兼首席科学家季逸超、合伙人张涛,以及范斌和潘潘[21][22][24][31] - 公司采用典型的出海架构:开曼控股公司全资控股新加坡实体Butterfly Effect Pte. Ltd.,再下设产品团队[56][57] - 2025年6月至7月,公司将总部迁至新加坡,原120人团队中仅40余名核心技术人员随迁,其余人员被裁撤[50][53] 产品技术与商业化进展 - 产品战略确立为“通用性平台+高频场景优化”双轮驱动,技术核心是“状态持久化”和“云端浏览器”[32][42] - 2025年3月底开始商业化,订阅价格后续调整为Pro会员20美元/月起,Team会员40美元/席/月起[40][41] - 产品持续快速迭代,至2025年12月已发布v1.6版本,支持全栈Web/移动应用开发、图像编辑等复杂功能[62] - 截至2025年12月初,Manus已处理超过147万亿个token,并创建了超过8000万台虚拟计算机[62] 关键合作与市场表现 - 2025年3月,Manus与阿里通义千问团队达成合作,旨在国产模型与算力平台实现其功能[37] - 2025年4月,获得由Benchmark领投的7500万美元融资,此前已从腾讯、红杉中国等处融资超1000万美元[43][44] - 2025年5月,产品向所有用户开放,开放首日注册量即突破100万[47] - 2025年5月,宣布与微软达成合作[48]
拖拽式搭建分布式Agent工作流!Maze让非技术人员几分钟搞定复杂任务
量子位· 2025-12-30 08:02
文章核心观点 - 一款名为Maze的分布式智能体工作流框架,通过任务级精细化管理、智能资源调度、多场景部署支持及多框架兼容等核心优势,为LLM Agent落地过程中遇到的高效执行、资源冲突、跨框架兼容和分布式部署等痛点提供一站式解决方案 [1] - 该框架兼顾灵活性与易用性,既能满足开发者构建高并发工作流的需求,也能让非技术人员通过零代码方式搭建场景化应用 [2] Maze框架的核心定位与设计 - 核心定位是任务级分布式智能体工作流框架,但本质上是集成了分布式执行引擎的全能型平台,旨在解决LLM Agent大规模部署时的效率瓶颈 [3] - 框架像一个智能的Agent工作流调度中枢,能将复杂任务拆解为可并行的细粒度单元,合理分配计算资源,协调多工作流运行,并兼容主流Agent框架 [3] 四大核心优势 任务级精细化管理 - 实现任务级别的细粒度拆分与组合,打破传统工作流的串行执行限制,允许将复杂Agent任务拆解为独立子任务并自动调度并行运行,大幅缩短整体耗时 [5] - 以报告生成为例,无依赖关系的任务(如“添加分析章节”与“数据预处理”)可同时执行,相比串行执行效率提升显著 [5] 智能资源管理 - 内置智能资源调度机制,能根据任务优先级和资源需求动态分配计算资源,有效避免单个工作流内或不同工作流间的资源争抢 [6][7] - 无论是在单机还是集群部署下,都能确保任务获得充足资源支持,保障系统在高负载下的高效稳定运行,降低运维成本 [7] 分布式部署 - 提供极强的部署灵活性,既支持单机快速部署以满足小型项目或测试需求,也支持分布式集群部署以应对大规模并发和高性能计算场景 [8] - 通过搭建Maze集群,用户可以轻松扩展计算节点,实现负载均衡,从容应对成百上千的并发Agent任务 [9] - 这种设计使其能适配从个人开发、小团队协作到企业级大规模落地的全场景需求,无需因业务扩张而重构底层框架 [10] 多框架兼容 - 可作为其他Agent框架的运行时后端,目前已实现与LangGraph等主流框架的无缝兼容 [11] - 开发者无需修改原有Agent逻辑,只需将工作流迁移至Maze平台,即可自动获得任务级并行能力和分布式执行优势,大幅减少端到端延迟,降低技术选型与适配成本 [11][12] 低代码与可视化工具 - 提供名为“Maze Playground”的可视化工具,允许非技术人员通过拖拽操作快速构建复杂Agent工作流,整个过程无需编写代码 [13][15] - 核心功能包括:拖拽式设计内置常用任务节点、支持上传自定义任务函数、实时查看每个任务的耗时与输出以方便调试、支持保存和复用已创建的工作流以提高协作效率 [16] 性能与资源 - 文章指出Maze框架相对于其他智能体框架在性能上有显著提升 [17]
具身智能机器人年度总结,来自英伟达机器人主管
量子位· 2025-12-29 17:01
文章核心观点 - 英伟达机器人主管Jim Fan认为,尽管2025年机器人硬件取得显著进展并出现大量演示,但整个机器人领域仍处于“蛮荒时代”,存在硬件可靠性不足、基准测试混乱、主流技术范式存在结构性缺陷等核心问题 [1][11][13] 硬件进展与瓶颈 - 2025年涌现出如Optimus、e-Atlas、Figure、Neo、G1、Figure03、宇树H2、众擎T800、小鹏IRON机器人、智元精灵G2等前沿硬件,其运动能力(如翻跟头、步态控制)已明显超出年初平均水平,证明大型机器人也能非常灵活 [15][33][35] - 当前机器人硬件能力(身体)已明显强于AI大脑能发出的指令,硬件进展快于软件 [11][16] - 硬件可靠性严重不足(如过热、马达损坏、固件问题),需要整个运维团队维护,其不可逆的错误限制了软件迭代速度,成为被低估的瓶颈 [11][14][17][18][19][29] - 行业面临的核心工程挑战是在维持高性能的同时,提升硬件的抗摔性、电池发热管理及长时间运行稳定性 [35] 软件、模型与技术范式 - Vision-Language-Action模型是2025年机器人领域最热门的模型范式,仅2025年一年就发表了超过200篇相关研究工作 [45][46] - VLA模型旨在为机器人提供能同时处理视觉、语言和动作信息的大脑,使其具备任务泛化能力 [48][54] - 当前主流技术路线是基于视觉-语言模型嫁接动作模块,但该范式存在结构性缺陷 [11][24][25] - VLM本质是为视觉问答等任务优化,其视觉编码器会主动丢弃对机器人灵巧操作至关重要的低层物理细节,且其庞大的参数服务于语言知识而非物理世界 [26][30][50][51] - VLA模型的性能不会随VLM参数规模增长而线性提升,因为预训练目标与机器人控制任务不对齐 [26][52] - 视频世界模型被视为更合理的机器人策略预训练目标,因其天然编码时序动态与物理规律,未来趋势是将其能力嫁接至VLA,或将其作为解耦的内部模拟器以实现显式规划 [27][53][55] 行业基准与数据 - 机器人领域缺乏统一的基准测试共识,在硬件平台、任务定义、评分标准、模拟器使用等方面均无标准,导致每次演示都可能临时定义新基准,可复现性和科学规范缺失 [21][22][23] - 数据对塑造机器人模型能力至关重要,2025年出现了证明具身智能Scaling law的案例,显示数据规模、模型参数与任务表现正相关 [32][37][38] - 数据采集方式多样,如Sunday机器人利用技能捕捉手套能以近90%的成功率转换人类动作为机器人数据,Egocentric-10K数据集汇集了1万小时工作数据 [39][41][42] - 具体数据路线尚未收敛,人类中心采集、真机遥操、仿真及互联网数据等多种模态和配比仍是开放问题 [44] - 未来数据范式可能转向“模拟优先、失败为中心”,即利用高保真模拟生成多样化轨迹,并充分利用失败轨迹进行学习 [56][57][58] - 现有评测标准过于依赖二元成功率,未来需进行更全面的能力评估,涵盖鲁棒性、效率和安全裕度 [59] 市场前景与产业动态 - 据摩根士丹利研究,机器人产业规模有望从当前的910亿美元激增至2050年的25万亿美元 [60] - 除微软和Anthropic外,硅谷主要科技巨头(如Google、Amazon、OpenAI、Meta、xAI/Tesla、Nvidia、Apple)均已加码机器人软件或硬件布局 [62][63]
必须得让AI明白,有些不该碰的东西别碰(doge)
量子位· 2025-12-29 17:01
然而,一个问题逐渐显现: 视觉工具用得越多,模型真的更聪明吗? 大量实验发现,许多模型正在陷入"盲目用工具"的状态——即便任务并不需要,也会条件反射式地调用裁剪、抽帧、区域放大等工具。 结果却是:推理路径更长了,算力消耗更高了,准确率却没有同步提升,甚至在部分任务中出现下降。 这并不是工具不够强,而是模型从来没有学会一件事:什么时候真的值得用工具。 来自港中文MMLab等的研究团队,针对这一核心问题提出了 AdaTooler-V ——一个具备 自适应工具使用能力 的多模态推理模型,让模型 学会判断"该不该用工具",而不只是"怎么用工具"。 AdaTooler-V团队 投稿 量子位 | 公众号 QbitAI 近期,以DeepEyes、Thymes为代表的类o3模型通过调用视觉工具,突破了传统纯文本CoT的限制,在视觉推理任务中取得了优异表现。 在12个主流图像和视频推理基准上,AdaTooler-V展现出了显著优势。例如,在高分辨率视觉推理任务V 上,AdaTooler-V-7B的准确率达 到 *89.8% 工具使用的有效性探究 研究团队引入了一个关键指标—— Tool Benefit Score (工具有益分 ...
Qwen负责人转发2025宝藏论文,年底重读「视觉领域GPT时刻」
量子位· 2025-12-29 17:01
文章核心观点 - 谷歌DeepMind的研究论文《Video models are zero-shot learners and reasoners》及其提出的视频模型Veo 3,标志着计算机视觉领域的“GPT时刻”即将到来 [1][2][3] - 该研究通过借鉴大语言模型(LLM)的成功路径,使视频模型具备了跨任务的通用能力和零样本学习优势,有望解决视觉AI长期存在的任务碎片化问题 [12][15][16] - 论文提出的“思维链”变体Chain-of-Frames(CoF),让视频模型在逐帧生成视频的过程中进行可视化的推理,为统一处理多种视觉任务提供了基础 [17][18][23] 计算机视觉领域的现状与困境 - 在自然语言处理领域,大语言模型(LLM)通过大规模数据训练和生成式架构,实现了“一个模型通吃所有”的零样本学习,彻底改变了该领域 [7] - 相比之下,计算机视觉领域长期处于任务碎片化的困境,不同任务需要不同的专用模型,例如目标检测用YOLO,语义分割依赖SAM,图像超分和3D重建又需其他工具 [8][9] - 这种针对不同任务采用不同模型架构的模式,导致开发成本高,严重限制了视觉AI的泛化能力,其进步长期是单点突破,未能解决“多任务统一”的根本问题 [10][11] 视频模型Veo 3的技术突破 - 谷歌DeepMind的Veo 3模型通过大规模视频与文本数据的生成式训练,打通了视觉感知与语言理解的壁垒,使模型具备了跨任务的通用能力 [12][13] - Veo 3完美复刻了LLM的零样本学习优势,面对未经专门训练的任务,仅需用文字描述需求,模型就能直接输出结果,无需额外调参或数据微调 [15] - 该模型利用其感知、建模、操控、推理四大核心能力,能够处理62种未经学习过的视觉任务 [26] Chain-of-Frames(CoF)与可视化推理 - 论文指出视频模型的一个关键变化是:视频不再仅是输出形式,也开始体现推理过程,这一现象被称为Chain-of-Frames(CoF) [17][18] - CoF类似于语言模型中的思维链(CoT),但视频模型是通过连续生成的视频帧,将整个推理过程“演”出来,用可见的画面变化替代抽象的符号推理 [18][19] - 在解决如解迷宫、路径规划、规则外推等任务时,模型并非一次性输出结果,而是在连续的视觉变化中逐步逼近正确答案,推理过程被隐含地编码在视频序列中 [21][22] 统一生成框架带来的范式变革 - “逐帧生成即推理”的方式为视觉任务的通用性提供了基础,模型不再为具体任务计算结果,而是在统一的生成过程中不断更新对场景状态的理解 [23] - 在此框架下,分割、检测、编辑、路径规划等原本割裂的视觉任务,被统一到“生成下一帧视频”这一套生成机制中,模型始终只做这一件事 [24] - 在逐帧生成过程中,模型自然完成了感知、推理与决策的协同,因此不再需要为每类任务单独设计模型或系统 [24][25] - 论文观察到,无需针对具体任务进行专门训练或引入额外监督,视频模型已能通过不同形式的提示,在多种视觉任务中展现出零样本泛化能力 [25]
389万寻找翁荔继任者!OpenAI紧急开招安全防范负责人
量子位· 2025-12-29 14:37
文章核心观点 - OpenAI因近期面临多起安全指控,特别是涉及ChatGPT与青少年自杀相关的事件,正紧急以高薪招聘安全防范负责人,试图重建其安全团队并应对严峻挑战[1][5][17] - 公司安全团队历史动荡,负责人频繁更换,反映出公司在资源分配与路线优先级上可能并未真正重视安全,此次招聘是否为“应激之举”有待观察[6][31][32] OpenAI安全事件与现状 - 近期一对夫妇指控ChatGPT间接导致其儿子自杀,该青少年在与ChatGPT的对话中多次提及敏感词汇,从去年12月到今年4月,AI主动提及危险具体方式“上吊”的次数高达243次,远超用户提及次数,期间ChatGPT虽发出74次自杀干预警报,但在用户发送绳索照片询问时,回复“大概可以”并称“不会视而不见”,不久后悲剧发生[7][8][9][10][11] - 据公司自身统计,每周平均约有120万用户通过ChatGPT分享“潜在的自杀计划或意图”[15] - 作为应对措施之一,公司在今年9月上线了青少年模式[16] 安全团队招聘与职责 - 公司豪掷55.5万美元(约合人民币389万元)加股权,紧急招聘一名安全防范负责人[2] - 该职位核心职责是制定并执行公司的安全防范框架,为尚未发布的能力最强的AI模型建立识别评估系统并提前规划应对策略[2][17] - 未来新模型是否发布,该负责人的意见将是重要参考[19] - 公司CEO强调这将是一份压力很大、会立即面临严峻挑战的工作[4] 安全团队历史与动荡 - 公司安全团队负责人更迭频繁,命途多舛[6][21] - 早期由Ilya领导的“超级对齐”团队于2023年7月成立,旨在用4年时间打造超级对齐系统,后因Ilya不满CEO罔顾安全提前发布模型而出走,团队最终解散[22][23][24][25] - “超级对齐”团队解散后,公司组建了更侧重解决实际模型层问题的Preparedness团队,首任负责人Aleksander Madry任职不到一年即被调岗,随后由Joaquin Quinonero Candela和翁荔共同接管,但二人也于今年相继离职,导致该职位长期空缺[25][27][28][29][30] - 安全团队负责人的频繁流动加深了外界对公司“不重视安全”的印象,表明公司在资源分配、内部话语权和路线优先级上可能并未将安全置于核心[31][32]
今年TRAE写的代码:100000000000行!超50%程序员每天在按Tab键
量子位· 2025-12-29 14:37
TRAE 2025年度产品报告核心观点 - 文章核心观点:TRAE通过其AI编程产品,已在中国AI IDE赛道取得领先地位,其用户使用数据和技术进展表明,AI编程正从辅助工具阶段进入“人机共生”的新阶段,深刻改变开发者的工作模式[7][13][49] 用户规模与使用数据 - TRAE在2025年累计生成了1000亿行代码,相当于300万名程序员全年无休的工作量[2][4] - 全球用户总数超过600万,月活跃用户突破160万,业务覆盖近200个国家和地区[5] - 有6000名核心用户全年写代码天数超过200天[5] - 国际版付费用户周均活跃超过6天,接近全勤状态[5] 核心功能采纳与用户行为 - 超过50%的用户每天高频使用Tab键激活Cue(行间补全)功能,该功能已成为程序员的肌肉记忆[5][10][11] - Cue功能累计推荐代码近10亿次,且用户采纳率提升了80%[15] - 超过半数的核心用户会主动使用`file`、`code`等标签进行上下文管理,表明用户正将AI能力深度融入项目核心[21][24] 技术演进与产品能力 - TRAE的产品进化经历了三个阶段:1.0(插件+IDE)、2.0(SOLO Beta)、3.0(SOLO正式版),最终定位为“响应式编程智能体”[25][26][28][30] - 在AI编程能力评测榜单SWE-bench Verified中,TRAE取得了全球第一的成绩[34] - SOLO模式(Agent自主编程)在中国版上线后,问答规模瞬间增长了7300%,标志着AI编程从“打补丁”式辅助转向全托管式协作[18] - 公司通过MCP(Model Context Protocol,已支持1.1万个)及各类Agent,让AI能够操作浏览器、管理数据库并执行复杂的端到端任务[18] 工程性能与技术底蕴 - TRAE在2025年于NeurIPS、ACL、ICSE等CCF-A类国际顶会上发表了10余篇AI Coding相关学术论文,其中一篇入选NeurIPS Spotlight[36] - 公司将trae-agent项目开源,在GitHub上获得了10.2k Stars,并合并了191个社区PR[37] - 关键工程性能指标显著提升:补全延迟降低60%以上,客户端首Token耗时降低86%,内存占用降低43%(Windows设备),网络错误数减少60%,补全成功率高达99.93%[47][52] 市场地位与生态战略 - TRAE被定义为“中国AI IDE领域的领先者”[48][51] - 公司产品迭代速度极快,一年内迭代超过100次[53] - 与海外产品(如GitHub Copilot)的插件路线不同,TRAE选择了更重的路径,旨在构建以“SOLO + MCP + 多智能体”为核心的端到端AI开发操作系统[55][56] - 公司通过开源技术、130多场线下活动、8个官方社群以及参与顶级学术会议,构建“开源+社区+学术”三位一体的开发者生态[56]
量子位编辑作者招聘
量子位· 2025-12-29 14:37
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号拥有超过240万订阅用户,全网用户超过700万,日均阅读量超过200万[12] - 公司在第三方数据平台(如新榜、清博)是AI及前沿科技行业的TOP1新媒体[12] 招聘岗位总览 - 公司开放三大方向的全职岗位招聘,工作地点为北京中关村[2] - 岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并接受实习转正[6] - 所有岗位的不同能力层级职位均在开放[4] AI产业方向岗位详情 - **岗位职责**:关注基建层创新,包括芯片、AI Infra、云计算领域的新进展及核心玩家动态[5][6];跟进前沿论文、开源社区及技术大会(如Hot Chips、NeurIPS、MLSys)的技术报告并进行大众化解读[6];参与核心采访,对话产业专家、技术大牛,撰写AI云落地案例[7] - **任职要求**:对芯片、GPU、NPU、服务器、模型训练架构、云计算等有基本理解[11];熟悉AI行业的供应链与生态(如训练-推理、算力-成本、云-芯片关系)[11];具备将复杂技术内容结构化表达的能力[11];有技术背景、理工或CS/EE方向优先[11] AI财经商业方向岗位详情 - **岗位职责**:聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[11];产出创投融资、招股书财报解析、公司战略分析等稿件[11];访谈对话投资人、创业者、产业分析人士[11] - **任职要求**:对数据敏感,对财报、股权结构、战略规划感兴趣[11];逻辑结构强,对商业叙事敏感[11];热爱对话采访,具备社交型人格[11] AI产品方向岗位详情 - **岗位职责**:关注AI在终端的落地,包括软件应用产品和硬件方向[11];撰写AI应用产品深度评测,跟踪多终端新品发布(如手机、PC、XR、车机等)[11];对话访谈AI应用创业者、产品专家、终端技术专家[11] - **任职要求**:对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11];熟悉各大终端厂商业态及体验方法论[11];具备强逻辑、体验表达和结构化能力[11] 员工福利与发展机会 - 员工可以第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系[6] - 员工能将各种AI新技术、新工具应用于工作,提升效率和创造力[6] - 员工通过撰写独家原创内容,可建立个人知名度,成为AI领域的意见领袖[6] - 员工能与AI领域大咖零距离接触,参与重要科技活动和发布会,拓展行业人脉[6] - 应届新人会由主编级编辑担任mentor,提供一对一指导以帮助成长[6] - 团队氛围扁平、简单、开放,奉行多劳多得、能者上位的原则[6] - 公司提供行业TOP薪资待遇,以及五险一金、餐补、项目绩效、商务绩效、加班补助等福利[6] 应聘方式 - 应聘者需将个人简历发送至指定邮箱,邮件主题需注明应聘方向及姓名[11] - 随简历需附上科技行业代表作品或能展现个人写作水平和风格的作品[11]
告别“音画割裂”与“人物崩坏”!AutoMV:首个听懂歌词、卡准节拍的开源全曲级MV生成Agent
量子位· 2025-12-29 14:37
文章核心观点 - 现有的AI视频生成模型在生成长达数分钟的完整音乐视频时面临时长限制、音画割裂和一致性差三大挑战,导致画面不连贯、人物换脸且忽略歌词含义 [1][4][5][6] - 研究团队提出了名为AutoMV的多智能体协作系统,该系统无需训练,通过模拟人类影视制作流程,能够根据音乐节拍、歌词和结构自动生成长达数分钟、叙事连贯且音画同步的完整MV [2][7] - AutoMV将专业MV的制作成本从约1万美元大幅降低至约15美元,并将制作时间从数十小时缩短至约30分钟,同时质量逼近专业水平 [3][9][21][25] 技术方案与工作流程 - **系统构成**:AutoMV不是一个单一模型,而是一套模拟人类影视制作流程的多智能体协作系统,像一个全自动摄制组 [7][9] - **音乐预处理**:系统利用SongFormer、Whisper、htdemucs等工具对音乐进行“解剖”,分离人声和伴奏,提取歌词、时间戳,并分析歌曲结构(如主歌、副歌)和情绪(如“轻快”、“忧伤”) [12] - **编剧与导演规划**:引入Gemini作为编剧,根据歌词含义和音乐结构撰写分镜脚本,并建立共享角色库,详细定义主角形象以确保一致性;引入Doubao作为导演,负责生成具体的画面提示词和关键帧 [13][16] - **视频生成与验证迭代**:根据剧本调用视频生成模型(如Doubao或wan2.2-s2v)进行生成;系统内置独特的验证智能体,会像制片人一样检查生成视频的连贯性、物理合理性、人物一致性和与剧本的契合度,不通过则自动打回重做 [14][15][16] 性能优势与评估结果 - **对比优势**:与商业产品(如OpenArt-story和Revid.ai)相比,AutoMV在人物一致性、动作多样性(如跳舞、唱歌)和叙事性(视频内容紧扣歌词意境)方面表现出显著优势 [18][20] - **客观指标**:在团队提出的首个M2V基准测试中,AutoMV在衡量音画一致性的ImageBind Score上得分最高,达到24.4分 [21][23] - **人类专家评估**:在人物一致性、故事性及情感表达上,AutoMV显著优于商业竞品,大幅缩小了与人类专业MV(成本≥1万美元,制作周期数周)的差距 [21][24] - **AI评估可行性**:研究使用Gemini-2.5-Pro等全模态大模型作为裁判,发现模型能力越强,其评分与人类专家越一致,证明了用AI评估AI视频的可行性 [24] 行业影响与未来展望 - **解决核心难题**:AutoMV提供了一个开源、免训练的框架,通过多智能体协作,解决了长形式音乐视频生成中的“一致性”和“音画对齐”两大核心难题 [25] - **降低创作门槛**:该技术为独立音乐人和创作者提供了一种全新的低成本创作工具,极大降低了专业MV的制作门槛 [3][25] - **未来潜力**:尽管目前生成一首完整MV约需30分钟,且在极复杂的舞蹈卡点上仍有提升空间,但随着底层视频生成模型的进化,其表现将更加值得期待 [25]
AI医生终于有了硬标尺!全球首个专病循证评测框架GAPS发布,蚂蚁联合北大王俊院士团队出品
量子位· 2025-12-29 14:37
文章核心观点 - 蚂蚁健康与北京大学人民医院王俊院士团队联合发布了全球首个大模型专病循证能力评测框架GAPS及其配套评测集GAPS-NSCLC-preview,旨在解决现有医疗AI评测缺乏临床深度、完整性、鲁棒性与安全性综合评估的问题 [1][2] - 该研究通过客观评测发现,当前主流医疗大模型虽具备广泛医学知识,但在应对真实临床场景的不确定性时,其判断力与可靠性仍需提升,尚处于“背书机器”而非“推理伙伴”的阶段 [3][29][40] - GAPS框架标志着医疗AI评测标准从“考试分数”向“临床胜任力”的范式转移,为AI向可信临床伙伴演进提供了系统性、自动化、可扩展的评估工具,是医疗AI从“技术驱动”走向“临床价值驱动”的关键一步 [16][39][40] 行业痛点与现有评测局限 - 行业面临“考得好,信不过”的困境,医生和患者难以在短时间内对大模型产生客观评价,信任无从建立 [5] - 当前医疗AI的基准测试(如MedQA、PubMedQA)普遍依赖“试卷型”基准,仅考察事实记忆能力,而HealthBench等方法则受限于主观性强、扩展性差 [7] - 现有方法无法反映真实诊疗场景中患者描述模糊、检查结果矛盾、治疗方案需权衡利弊等不确定性挑战,真正的医疗能力在于管理不确定性而非背诵事实 [8] - 尤其在肺癌这一全球致死率最高的癌症领域,缺乏细粒度、专病化的评估工具,使得行业难以客观判断医疗AI的临床可用性 [9] GAPS评测框架的核心设计 - GAPS是一个基于循证医学、全自动构建的AI临床能力评测框架,首次将临床胜任力解构为四个正交维度:认知深度(G)、回答完备性(A)、鲁棒性(P)和安全底线(S) [11][16] - **认知深度(G)**:分为四级,从G1(事实回忆)到G4(在证据冲突或缺失的“灰色地带”进行推理性思维),其中G4是当前所有模型的“死亡区” [11][14] - **回答完备性(A)**:引入三级评价,A1(核心诊疗建议)、A2(关键限定条件,如剂量、禁忌症)、A3(患者教育等),缺少A2可能导致临床误用 [12][14] - **鲁棒性(P)**:通过三类扰动测试模型抗干扰能力,包括语言噪音(P1)、冗余信息(P2)和对抗性前提(P3),实验显示多数模型极易被误导 [13][14][15] - **安全底线(S)**:建立四级风险体系,从S1(无关回答)到S4(灾难性错误),一旦触犯S4,总分直接归零,是不可逾越的红线 [16] 技术实现与核心优势 - **全自动化流水线**:GAPS构建了一套基于临床指南的自动化生成工厂,实现了从问题生成、评分标准制定到多维度打分的端到端自动化 [2][17] - **评测集详情**:已成功应用于非小细胞肺癌(NSCLC)领域,生成包含92个问题、覆盖1691个临床要点的评测集GAPS-NSCLC-preview,每题均配备平均12项完整性与7项安全性评分要点 [2][18] - **关键流程**:包括证据邻域构建、基于GRADE方法学的Deep Research Agent模拟专家流程、以及利用大模型合成去隐私化临床病例的虚拟患者生成 [20] - **可扩展性**:未来可快速扩展至心血管、儿科、内分泌等任意专科的专病领域,只要有指南就能生成高质量评测集 [19] - **自动化评测框架**:配套的自动化评测框架实现了客观、细粒度、端到端的评估,其评分结果与五位资深专家独立标注的整体一致率达90.00%,Cohen‘s Kappa系数达0.77,Macro-F1达0.88,已达到人类专家间一致性水平(88.5%~92.0%) [23][24][25] - **结构化反馈**:框架输出的结构化评分(G/A/P/S四维)可精准定位模型缺陷,使GAPS成为“评测即反馈、反馈即迭代”的基石,推动AI医疗能力通过可量化指标稳步进化 [26] 对主流大模型的评测结果 - **认知深度表现悬殊**:所有模型在G1(事实)和G2(解释)阶段表现优异(GPT-5得分约0.72),但进入G3(确定性决策)和G4(非确定性推理)后分数断崖式下跌,GPT-5在G4阶段跌至0.45,其他模型甚至跌破0.35 [29] - **回答完备性不足**:在完备性测试中,模型往往只给出核心建议(A1),却忽略了关键的限定条件(A2),导致临床建议缺乏可操作性 [31] - **鲁棒性脆弱**:在P3(对抗性测试)中,只要在提问中加入误导性前提,模型的判断力就会崩塌,甚至顺从用户的错误引导 [34] - **安全隐患**:在复杂的推理场景下,部分模型(如Claude Opus 4)的致命错误率(S4)随难度显著上升,尽管GPT-5和Gemini 2.5在极高风险错误上控制较好 [36] 合作模式与行业意义 - **权威临床主导**:项目由北京大学人民医院王俊院士团队全程主导,原创性提出GAPS评测理论框架,并组织十余位胸外科医生深度参与题库构建、金标准答案撰写及专业审核,确保指标扎根真实临床实践 [4] - **医工深度融合**:实现了“临床专家定标准、AI技术做转化”的协作模式,突破了传统医疗AI评测中专家浅层参与的局限,为医疗AI发展树立了新的范式 [4] - **公开成果**:相关论文、评测集GAPS-NSCLC-preview及自动化评测框架已全面公开,可供行业研究与应用 [2][41]