应用趋势 - 通用类Agent深度整合工具使用,完成场景多样的深度研究类任务,交付内容更加丰富,成为2025上半年应用亮点 [1][9] - 以视觉操作为核心的Computer Use Agent (CUA)开始推向市场,代表通用类Agent的另一条路径,正在与基于文本的深度研究类Agent融合 [1][9] - 垂类应用场景开始Agent化,自然语言操控功能正在成为垂类工作流的一部分,覆盖旅行、设计、创作、时尚等领域 [11][12] - AI编程成为当前最核心的垂类应用领域,正在从源头改变软件生产方式,头部编程应用收入增长速度创纪录,获得市场有效验证 [13][14] - 模型上下文协议MCP加速大模型应用普及,赋能模型获取大量外部信息、操控现有软件应用,打开更大应用空间,但尚未达到规模化生产级水平 [1][15][16] 模型趋势 - 模型推理能力在思维链范式下持续提升,数理类、代码类问题提升尤其显著,AIME 25准确率提升7%,GPQA Diamond准确率提升23%,Codeforce代码竞赛排名提升43% [18] - 模型开始走向Agentic,对工具使用进行端到端训练集成,工具使用能力相比原本的思维链推理有重大提升,可完成更复杂困难的任务 [1][19][20] - 大模型开始端到端融合视觉和文本走向多模态推理,以语言为中枢逐步解锁多模态推理的系统2慢思考 [22][23] - 模型图像生成能力全方位增强,语言理解能力升级和审美提升,普通用户可以仅通过自然语言进行完整创作 [24] - 视频生成模型整合原生配音,可控性和编辑灵活度增加,生成视频的物体一致性和物理规律协调性增强,AI视频商业化和普及度进展积极 [26] - 模型智能密度持续提升,模型厂商积极推出小模型实现极致性价比,降低模型部署硬性门槛,加速模型应用普及 [26] - 模型评估加速演化,传统评估榜单快速饱和,可以动态更新,能在真实世界产生使用价值任务成为重要评估方向 [27] 技术趋势 - 训练资源向后训练和强化学习倾斜,预训练仍然有充足的优化空间,二者最终共同决定模型能力 [29] - 强化学习的重要性继续提升,算力消耗在未来会超过以自监督学习为核心的预训练,未来会从数学、代码等奖励清晰的领域向其他领域泛化 [28][30] - 多智能体系统可能成为继思维链推理模型之后的下一个前沿范式,继续提高智能上限 [31][32] - 在线学习有希望成为下一代模型学习方式,正在成为核心突破,可使模型摆脱对人类数据的依赖,提高智能上限 [33][34] - Transformer模型架构正在快速迭代,优化主要集中在注意力机制和前馈神经网络等层面,在工业界有多个落地案例 [35] - Transformer混合架构正在涌现,以RNN变体为主,已经出现在工业界大规模应用 [35] - 由于生成和验证难度的不对称性,代码验证成为目前AI编程自动化水平提升的前沿方向,可进一步加速软件生产自动化 [36][37] - 系统提示词正在成为决定模型用户体验的关键技术要素,相比更新大模型更加轻量化、敏捷化 [38][40] 行业趋势 - xAI发布Grok 4在多个领域达到SOTA水平,跻身全球大模型第一梯队,改变模型层竞争格局 [43][44] - 算力是AI竞赛中的关键竞争要素,强化学习对算力的需求超过预训练,头部大模型玩家的计算集群已达到数十万卡规模,并在持续扩张中 [47][48] - OpenAI技术领先优势明显弱化,海外头部玩家水平趋同,xAI上半年迎头赶上,模型在多个领域达到SOTA水准 [49] - 中美通用大模型技术差距缩小,中国模型公司在通用大模型之外的多模态领域达到SOTA水平,尤其多模态领域表现出色 [51] - AI编程领域成为模型厂商必争之地,海外和国内头部玩家在AI编程的模型和产品领域密集布局 [52][53] - 国内大模型创业公司路线开始分化,部分厂商积极发布前沿模型产品追求智能上限,其他厂商专注垂类领域和商业化落地,放缓通用模型投入 [54]
2025上半年AI核心成果及趋势报告 量子位智库 2025-7_01
搜狐财经·2025-08-04 16:16