量子位
搜索文档
全球开源大模型杭州霸榜被终结,上海Minimax M2发布即爆单,百万Tokens仅需8元人民币
量子位· 2025-10-28 09:18
模型性能与排名 - 在第三方评测机构Artificial Analysis的测试中,Minimax M2以61分获得开源模型第一,总排名第五[2][14] - 测试涵盖10个热门数据集,包括MMLU Pro、GPQA Diamond、人类最后测试、LiveCodeBench等[15] - 在具体数据集表现上,M2在AIME25得分为78,MMLU-Pro得分为82,GPQA-Diamond得分为78,LiveCodeBench得分为83[16] 技术架构与特点 - M2是一个稀疏度较高的MoE模型,总参数量230B,激活参数量仅为10B,网友称10B激活参数运行起来会非常快[9][10] - 模型采用交错的思维格式,使其能够规划和验证跨多个对话的操作步骤,这对Agent推理至关重要[11] - 技术细节显示M2使用全注意力机制,未采用滑动窗口注意力或Lightning Attention,因测试发现这些会造成性能损失[45][46][51] 成本与效率优势 - M2的推理速度是Claude 3.5 Sonnet的两倍,API价格仅为Claude 3.5 Sonnet的8%[5][6] - 具体定价为输入Token每百万0.3美元/2.1人民币,输出Token每百万1.2美元/8.4人民币[16] - 在线推理服务速度可达每秒100 Token,以速度衡量的性价比表现突出[20] 智能体与编程能力 - 模型专为智能体和编程而生,表现出对复杂、长链工具调用任务的出色规划和稳定执行能力[4][12] - 支持Shell、浏览器、Python代码解释器和各种MCP工具的调用,在工具使用和深度搜索方面不逊于海外顶尖模型[12] - 在智能体、全站开发和Terminal Use三项任务比拼中,M2相对于Claude Sonnet 4.5等模型有极高Win+Tie比例[23][24] 应用生态与平台部署 - Minimax已将M2部署到Agent平台并限时免费使用,免费期直到服务器扛不住为止[7][32] - 平台展示了许多Minimax Agent现成作品,包括网页应用、经典游戏复刻、在线五子棋平台等[35][36][38][40] - 网友实战案例显示,通过三轮反馈即可完成足球小游戏制作,应用效果非常不错[42][43]
Thinking Machine新研究刷屏!结合RL+微调优势,小模型训练更具性价比了
量子位· 2025-10-28 09:18
文章核心观点 - Thinking Machine提出一种名为“在线策略蒸馏”的新型大语言模型后训练方法,该方法通过结合在线策略的自主探索与离线策略的密集监督,显著提升了小模型在专业领域的学习效率和性能 [1][8] - 该方法在数学能力迁移和企业AI助理应用两个实验中展现出巨大优势,训练效率提升高达50-100倍,并能有效解决模型“灾难性遗忘”问题 [4][18][26] 方法原理与创新 - 在线策略蒸馏的核心创新在于融合了实战演戏(在线策略)和请家教(离线策略)两种传统训练模式的优点,如同一位“天才教练”在AI自主解题时提供即时指导 [3][4] - 该方法使用KL散度作为评估学生模型与教师模型分歧的指标,学生模型通过最小化逆向KL散度来模仿教师模型,该指标具备防作弊和使学习过程更稳定的优秀特性 [12][15][17] 实验验证与效果 - 在数学能力迁移实验中,使用在线策略蒸馏方法,仅需约150个训练步骤就将8B学生模型在AIME'24基准上的性能从60%提升至70%,计算成本相比传统监督微调方法降低了9-30倍 [19][21][22] - 在企业AI助理应用中,该方法成功解决了灾难性遗忘问题,使模型在内部知识评估得分从36%提升至41%的同时,通用聊天能力也从79%恢复至83% [23][25][26] 行业影响与团队背景 - 该方法的高效性(效率提升50-100倍)使得资源受限的个人或小公司也能训练出在特定领域具备竞争力的专业小模型,降低了AI应用门槛 [4][5] - 该研究由前OpenAI员工Kevin Lu领导,其曾在OpenAI负责4o-mini发布并参与o1-mini、o3发布,研究背景与强化学习、小模型和合成数据密切相关 [27][28][29]
微调已死!「共识机制」实现提示词自我进化,性能飙升
量子位· 2025-10-28 09:18
西湖大学MAPLE实验室 投稿 量子位 | 公众号 QbitAI 当前,人工智能领域正经历一场由「模型微调」向「上下文工程」的范式转变。 通过在输入中引入更明确的指令和更丰富详实的知识,「上下文工程」既无需投入高昂的训练成本,亦不依赖开源模型权重参数,同时能够 为用户和开发者提供更强的可解释性,正逐渐成为构建高性能、可扩展且具备自我改进能力的 AI 系统的核心范式。 正因如此,「微调已死」成为了AI领域近期广泛认可的热门话题。 对于这一缺陷,多提示词的相互协作是一个很自然的解决方案——单个提示词可能无法处理特定输入,但其他提示词可以弥补这一方面的性 能损失。 如果能基于多个提示词生成的回答提取他们所达成的「共识」,AI系统就更有可能输出正确答案。 基于这一思想,西湖大学MAPLE实验室齐国君教授团队提出了基于「共识机制」的提示词组进化算法C-Evolve。 与既往仅优化单一提示词不同,C-Evolve旨在通过进化算法生成一组提示词。该组提示词在对输入信息进行独立处理后,通过提取所有输 出结果的共识,以实现最优任务性能。 为实现这一目标,团队创新性地提出了「共识表决得分」这一进化指标,用于评估单个提示词在成组工 ...
比尔盖茨女儿也AI创业了!时尚电商,刚被塞了800万美元投资
量子位· 2025-10-27 16:26
融资与股东背景 - 公司Phia于2025年9月完成800万美元种子轮融资[6] - 融资将用于组建工程、人工智能研究、产品和营销领域的世界一流团队以加速增长[7] - 股东包括名人海莉·比伯和克里斯·詹纳但比尔·盖茨未直接投资[2][6] 公司产品与业务模式 - Phia是一款AI购物助手于2025年4月上线核心功能为实时比较新品与二手价格帮助用户以最低价购买服饰、鞋履或配饰[12][14] - 产品形式包括iOS应用和浏览器扩展用户点击"我应该买这个吗"按钮后可获取价格判断(偏高、正常或值得入手)[15][16] - 数据库接入The RealReal、eBay等转售平台覆盖超过2.5亿件商品并已在超过4万个购物网站上线[20][22] - 算法由来自Pinterest、Meta、亚马逊等公司的工程师团队自研[21] 市场表现与用户增长 - 上线不到半年积累超过60万用户[13] - 公司拥有超过5000名直接品牌合作伙伴[22] 行业背景与市场机会 - 全球电子商务销售额从2010年的约0.6万亿美元增长至2025年的约6.4万亿美元增幅超过十倍[32] - 全球网购用户接近30亿人但购物流程(搜索→浏览→结账)自2010年代以来几乎无变化存在信息筛选效率低下的矛盾[33][35][37] - Phia旨在解决用户购物时"做功课"时间过长、易受优惠策略困扰的问题提供更高效的消费方式[38][39] 创始人背景与公司起源 - 公司由菲比·盖茨和索菲娅·基安尼创立二人为斯坦福大学室友公司名Phia源自两人名字组合[41][50] - 索菲娅·基安尼曾创立气候公益平台Climate Cardinals并于2020年18岁时被任命为联合国气候变化青年顾问团成员[61][63][64] - 菲比·盖茨为比尔·盖茨之女拥有超过50万Instagram粉丝但强调不依赖家庭光环创业[72][75] - 公司起源于二人对购物过程中信息战的不满初衷是让用户"守住钱包"成为"最聪明的购物者"[23][46][47]
零一万物高管新阵容亮相,李开复加码布局ToB 2.0
量子位· 2025-10-27 16:26
公司战略升级 - 公司正式公布新一轮高管任命,联合创始人沈鹏飞、AI模型与专业用户产品副总裁赵斌强、国际业务与AI咨询副总裁宁宁三位核心管理者组成市场与销售、模型与技术、国际与咨询三维合力的执行中枢 [2][4][13][14] - 公司于今年3月提出"All in ToB"战略,并将"一把手工程"确定为核心执行路径,强调企业AI转型必须由CEO亲自参与战略设计,将AI深度嵌入核心流程以实现价值交付 [3][15] - 公司进入ToB战略2.0阶段,以万智企业大模型平台为核心,打造开放、可扩展的企业级AI操作系统,联合生态伙伴与客户价值共创,实现从研发到交付的产业闭环,让AI能力可复制、可规模化落地 [17][20][21] 核心高管团队 - 沈鹏飞出任联合创始人,统筹国内ToB与ToG业务拓展,拥有26年IT与互联网经验,曾任百度智能云中国区副总经理,带领团队签约并交付六十亿级项目,将作为"一把手工程"落地的重要旗手角色 [5][6] - 赵斌强升任AI模型与专业用户产品副总裁,在互联网算法和AI领域从业17年,曾任阿里巴巴资深算法专家,主导公司自研模型的数据工程和全链路训练管线,负责大模型核心算法研发、专业Agent应用开发及出海专业用户生产力产品线 [8] - 宁宁出任国际业务与AI咨询副总裁,负责全球业务拓展及AI咨询体系建设,带领团队推动多个一带一路国家级主权模型项目,开创前线部署工程师机制,并多次受邀兼任国际客户首席AI官 [10][11] 产品与技术平台 - 万智企业大模型平台具备完整技术栈,覆盖数据、算法、训练、安全的全链条能力,并于今年7月正式升级至万智2.0版,支持企业级Agent定制与多行业场景化落地 [17] - 万智平台已覆盖政务、金融、工业、办公等五大行业,部署超过30类超级员工AI Agent,实现企业AI能力的批量化复制 [18] - 公司采用以平台为横、行业多纵的架构,一横代表平台和模型的通用能力,多纵则是政务、金融、工业、能源、医疗等领域的行业解法,旨在搭建企业AI操作系统的新底座 [18][19] 业务进展与生态合作 - 在国内市场,公司已与友邦保险、智联招聘、东方智媒城等标杆客户共建行业灯塔项目,同时推出生态矩阵合作伙伴计划,携手山羊派、云客、法天使等合作伙伴打造多场景落地方案 [22] - 在国际市场,公司与哈萨克斯坦联合推出AlemLLM语言模型,成为共建一带一路国家人工智能合作的新样板 [23] - 赵斌强领导的PopAi产品已成为公司ToP出海关键产品,在全球专业用户中实现规模化增长,并推动企业级Agent的研发与交付 [8]
「世界理解」维度看AI视频生成:Veo3和Sora2水平如何?新基准来了
量子位· 2025-10-27 16:26
评测框架概述 - 提出名为VideoVerse的新评测框架,旨在系统评估文生视频模型在事件因果、物理规律与常识理解等“世界模型”核心能力上的表现[1] - 框架设计包含动态和静态两大视角,共十个评测维度,涵盖事件顺序与因果、力学、交互、材料特性、镜头控制、自然约束、常识、属性正确性、二维布局和三维深度[3] - 采用QA(二元问题)与LCS(最长公共子序列)的混合评分机制,综合评估模型在各维度上的表现[4][5] 评测流程构建 - Prompt构建采用多阶段流程,首先从日常生活、科学实验和科幻三大领域采样原始语料,以确保覆盖真实、受控和超现实场景[8][9] - 使用GPT-4o等大型语言模型自动从视频或文本中抽取事件序列与潜在因果链,将自然语言描述转换为结构化的事件因果链[10][11] - 由具备本科及以上学历的独立人工注释者对自动抽取的prompt进行语义增补,并为其选择适用的评测维度,结合自动化与人工知识保障标注质量[12][13][14] - 基于每条prompt的选定维度,自动或人工生成对应的二元检测问题,用于后续的视觉语言模型评测,并屏蔽原始prompt以降低文本幻觉风险[15] 评测方法与创新 - 评估分为三步:使用VLM提取生成视频的事件序列并通过LCS与真实序列比对评分;各维度下的二元问题独立询问VLM并计分;综合LCS得分与各维度答对问题数之和得出总体得分[16][17][18] - 创新性地引入“隐含语义”评测概念,不仅评估模型对prompt中显式描述内容的理解,还评估其对未明说但合理存在的语义前提的遵循能力,例如评估鸡蛋掉落地面后是否破碎、液体是否流动等隐含物理后果[19][20][21][22][23][24][25][26] 主要评测结果 - 评测结果显示,开源模型在基础维度(如属性、2D/3D布局)上与闭源模型表现接近,但在世界模型级别的能力(如自然约束、常识、事件因果)上与闭源模型存在明显差距[28] - 即便是当前最强的闭源模型Sora2,在“隐藏语义跟随”以及部分物理和材料推断任务上仍存在显著缺陷[29] - 具体模型表现方面,闭源模型如Veo-3和Sora2+在总体得分上领先,例如Veo-3总体得分为1292(总分1608),Sora2+为1299;而开源模型中Wan2.2-A14B总体得分1085,表现较好[30] - 案例分析发现,部分模型能生成正确的描述性内容,但在事件连贯性和常识理解方面表现不佳;还存在明显的反常识错误,例如生成的剃须动作中胡须未被刮掉,或干冰在室温下未呈现升华现象[31][33][34][36][37] 行业影响与未来方向 - VideoVerse框架的推出旨在推动文生视频模型行业从追求“生成逼真画面”向“理解并模拟世界”的根本性转变[40] - 团队已开源相关数据、评测代码并设立排行榜,以促进更多研究者基于该框架开发具备更强世界模型能力的新方法[41]
美团视频生成模型来了!一出手就是开源SOTA
量子位· 2025-10-27 13:37
核心观点 - 美团开源其最新视频生成模型LongCat-Video,参数规模为13.6B,支持文生视频、图生视频及视频延长,生成视频时长可达数分钟,整体质量在开源模型中达到SOTA水平 [1][8] - 该模型在物理世界建模和理解能力上表现突出,部分核心维度可与谷歌闭源模型Veo3媲美,并采用允许商用的MIT协议 [8][9][64] - 此次发布是美团在AI领域系列布局的最新动作,标志着“跨界”AI成为公司新常态 [65][68][70] 模型功能与性能 - **文生视频**:可生成720p、30fps高清视频,语义理解与视觉呈现能力达开源SOTA级别,尤其在足球、体操等复杂动态场景中表现出对真实世界的高度理解能力 [15][16][18] - **图生视频**:能够保留参考图像的主体属性、背景关系与整体风格,在一致性挑战中表现稳定,例如生成机器人工作vlog时桌面环境未发生异变 [18][22][23][24] - **视频延长**:为核心差异化能力,可基于多帧条件帧续接视频内容,稳定输出长达5分钟的视频而不会出现颜色漂移或质量下降,支持像制作连续剧一样生成完整情节 [32][33][38][48] - **性能基准**:在内部测试中,文生视频整体质量超越PixVerse-V5和Wan2.2-T2V-A14B;在VBench 2.0公开测试总得分位列第三(62.11%),在常识性维度(运动合理性、物理定律遵循)上处于领先优势 [62][63][64] 技术创新与架构 - **统一架构设计**:以Diffusion Transformer(DiT)为框架,集成文生视频、图生视频和视频续生三大任务于单一13.6B参数模型中,通过条件帧数量区分任务 [41][42][44][47] - **长视频生成能力**:通过直接在视频续生任务上预训练,从源头解决累积误差问题,并支持交互式生成,允许用户为不同片段设置独立指令 [45][46][48][49] - **效率优化**:采用从粗到精的生成范式,结合块稀疏注意力将计算量降至原生10%以下,并通过CFG蒸馏和一致性模型蒸馏将采样步数从50步缩减至16步,效率提升超10倍 [51][52][53] - **训练优化**:使用组相对策略优化(GRPO)算法,并采用视觉质量(VQ)、运动质量(MQ)和文本-视频对齐度(TA)三类专用奖励模型进行多奖励加权融合训练 [54][56][57][58][59] 公司AI战略布局 - LongCat-Video是美团龙猫大模型系列的最新成员,此前公司已陆续开源了总参数560B的基础模型LongCat-Flash-Chat、具备深度思考能力的LongCat-Flash-Thinking以及语音模型LongCat-Audio-Codec [65][66][68][70] - 公司还专为外卖送餐、餐厅点餐等复杂现实生活场景打造了Agent评测基准VitaBench,系统性衡量Agent能力 [70] - 一系列动作表明,AI正成为公司核心战略的重要组成部分,跨界布局已成常态 [65][70]
人工智能年度榜单火热报名中!五大奖项,寻找AI+时代的先锋力量
量子位· 2025-10-27 13:37
评选活动概述 - 正式启动2025人工智能年度榜单评选报名,旨在让从业者感受智能浪潮跃迁并给予同行掌声与鼓舞[1] - 评选从企业、产品、人物三大维度设立五类奖项,共同见证年度之星并点亮未来方向[2] - 评选结果将于量子位主办的MEET2026智能未来大会上正式公布,报名截止日期为2025年11月17日[22] 企业类奖项评选标准 - 年度领航企业评选面向中国人工智能领域最具综合实力企业,参选条件包括注册地在中国或主营业务主要面向中国市场、主营业务属于AI及相关产业并居行业领先地位、具备成熟产品或服务并获得市场认可、近一年在技术创新或市场拓展上取得显著突破[5][6] - 年度潜力创业公司聚焦中国AI领域创新创业力量,评选最具投资价值和发展潜力AI创业公司,参选条件包括公司未上市、拥有AI产品或服务落地并获市场认可、近一年在技术研发或行业应用方面取得显著成果[9][12] - 领航企业评选标准涵盖业务能力(市场占有率与营收规模)、技术能力(科研实力与研发投入)、资本能力(融资情况与财务状况)及其他综合能力(品牌影响力与行业口碑)[11] - 潜力创业公司评选标准包括业务潜力(商业模式与营收增长)、技术创新(科研实力与差异化优势)、资本能力(融资情况与估值水平)及其他综合能力(核心团队构成与品牌影响力)[12] 产品与解决方案类奖项评选标准 - 年度杰出产品评选标准包括产品力与技术力(功能完整性与技术先进性)、落地情况(市场占有率与用户规模)及其他综合能力(品牌影响力与产品生态)[17] - 年度杰出解决方案聚焦AI在不同行业与场景中的典型应用,评选创新性、落地性和行业推动力突出方案,参选条件包括解决方案以自主创新AI技术为核心并已落地实施、近一年在技术融合或应用创新上有显著突破[15][18] - 杰出解决方案评选标准涵盖创新性(技术融合能力与应用模式创新)、落地情况(市场占有率与客户情况)及其他综合能力(销售服务能力与行业生态)[18] 人物类奖项评选标准 - 年度焦点人物参选条件包括国籍为中国或所属公司主体在中国、为所在公司创始团队成员或核心高管、近一年带领团队在AI技术或商业化方面取得显著突破[23] - 评选标准涵盖企业情况(行业地位与商业模式)、个人能力(技术能力与商业能力)及其他综合能力(学术背景与行业认可度)[23] - 科研院所中符合条件且在AI领域具有同等影响力的个人也可参与评选[19] 行业大会信息 - MEET2026智能未来大会以“共生无界,智启未来”为主题,诚邀科技、产业与学术领域领军人物齐聚探讨行业变革[25] - 大会作为年度影响力科技商业峰会,每年吸引上千名科技从业者参与、百万观众线上围观、近百家合作媒体联合曝光[26] - 大会聚焦智能科技产业,探讨人工智能+、AI Infra、智能终端、智能驾驶、低空经济、能源电力等前沿科技话题[26]
OpenAI产品线拉出来吓我一跳,奥特曼不愧是YC出身
量子位· 2025-10-27 13:37
公司战略与商业模式 - 公司采用顶级分发渠道ChatGPT结合广泛产品线扩张的策略,模式类似大型互联网公司[1][2] - 商业模式核心为“GPT+AI”自身即产品,而非其他产品的“AI+”模式[3] - 战略核心是先通过杀手级应用获取10亿用户形成渠道垄断,再基于庞大流量池进行多产品线试错和快速迭代[4][26][28] - 该策略能将创新风险降至最低,因失败产品不会影响核心流量池生存[29] - 整体产品路径规划为“先赚钱变现、再构建用户生态、最后将AI融入现实生活”[31] 产品线布局 - 协作工具:支持多ChatGPT用户共同协作并实时聊天[9] - 新型AI:结合传统大型语言模型与推理型AI[10] - ChatGPT-agent:支持用户创建编辑电子表格、演示文稿及生成复杂报告[11] - AI浏览器:集成网页浏览器的ChatGPT(Atlas)[12] - A-SWE:AI编程助手,可模拟高级软件工程师完成需人类数小时或数天的任务[14] - 机器人软硬件:可能为人形机器人[15] - AI驱动的个人设备:通过收购Jony Ive与Sam Altman的初创公司开发[16] - ChatGPT-社交媒体:用户可分享使用ChatGPT解决问题或生成图像的案例[17] - 购物推荐功能:在ChatGPT中提供个性化商品推荐并支持直接购买[19] - 定制化模型:结合客户独有数据和业务背景为内部AI工具提供定制支持[20] - 音乐生成AI:帮助用户从零开始生成音乐[21] - 聊天机器人ChatGPT为一切产品起点[22] 用户基础与市场地位 - ChatGPT周活跃用户已达7亿,构成强大用户基础[27] - 产品布局旨在实现流量闭环,让用户在OpenAI生态中沉浸而非“用完即走”[33] - 未来愿景通过机器人、AI个人设备等将AI从虚拟世界扩展至现实生活各个层面[34] - 竞争模式从单点突破转向生态对抗,利用分发渠道优势对冲创新风险[35][36] 公司演变与行业影响 - 公司从单纯学术机构转变为AI驱动的互联网公司,使命从“确保AGI造福全人类”转向在追求利润同时兼顾社会与环境影响[43] - 公司近期焦点更多转向商业化应用,如GPT找工作、购物、编程等,而非重新开天辟地的技术突破[45] - 这一战略转变与CEO早年在美国顶级初创孵化器Y Combinator的经历相关,其擅长通过多点开花观察存活产品的逻辑[39][41]
拜拜了GUI!中科院团队“LLM友好”计算机使用接口来了
量子位· 2025-10-27 13:37
文章核心观点 - 当前大模型智能体(LLM Agent)在自动操作电脑时面临成功率低和效率差的核心瓶颈,并非模型能力不足,而是源于为人类设计的图形用户界面(GUI)的命令式交互范式与LLM的能力模型不匹配 [2][4][7] - 中国科学院软件研究所团队提出全新解决方案:声明式接口(GOI),通过“策略-机制分离”原则,将繁琐的底层GUI导航和交互自动化,使LLM能专注于其擅长的语义理解和任务规划 [10][12][15] - 实验证明GOI能显著提升性能,在OSWorld-W基准测试中,任务成功率从44%提升至74%,并将失败原因从机制性错误主导转变为策略性错误主导 [21][24][25] GUI的固有瓶颈与LLM能力错配 - GUI是为人类量身定制的命令式设计,其核心问题在于应用程序的功能无法被直接访问,必须依赖导航和交互,例如控件隐藏在层层菜单后,使用需要高频的“观察-操作”循环 [5] - GUI设计基于对人类用户的四个关键假设:精于视觉识别、操作反应快、临时记忆容量小、擅长做选择题而非回忆具体规则 [8] - LLM的能力与GUI假设完全错配:视觉识别能力有限、单次推理反应慢、拥有巨大上下文窗口不怕信息量大、输出精确结构化指令是强项 [8] - 这种错配导致LLM在操作GUI时需同时承担“大脑”(策略规划)和“双手”(底层操作)的角色,认知负担过重,极易出错 [6] 声明式接口(GOI)的解决方案 - GOI的核心思想是将交互方式从“命令式”转换为“声明式”,实现“策略-机制分离”,LLM只需下达高层指令,GOI自动完成所有中间GUI操作 [10][12][14] - GOI为LLM提供三个声明式原语接口:访问(直接声明目标功能控件ID)、状态(直接声明控件的最终状态)、观察(直接获取控件结构化信息) [12][22] - 该方案无需修改应用程序源代码,也不依赖应用程序对外提供API,而是基于GUI和操作系统的通用可访问性实现 [15][19] GOI的实现机制与性能提升 - GOI实现分为离线建模和在线执行两阶段:离线阶段自动探索应用并构建无歧义的“UI导航图”(森林结构);在线阶段LLM使用压缩后的文本化“地图”和声明式接口下达指令 [16][18][19] - 在包含Word、Excel、PowerPoint的OSWorld-W基准测试中,使用GPT-4推理模型,GOI将任务成功率从44%大幅提升至74% [21] - 失败分析显示,使用传统GUI时,53.3%的失败源于机制层面错误(如控件定位、导航、交互错误);引入GOI后,81%的失败集中于策略层面(如语义理解错误),成功降低了机制性错误 [24][25] 行业影响与未来方向 - GOI的提出为设计更适合大模型的交互范式指明了清晰方向,启发行业思考未来的操作系统和应用程序是否应原生提供“LLM友好”的声明式接口 [27][28] - 该工作为提升现有AI Agent的性能提供了切实可行的解决思路,有望推动更强大、更通用AI Agent的发展 [27][28]