多模态和Agent成为大厂AI的新赛点

大模型应用场景的竞争策略 - 大厂AI竞争策略向应用场景倾斜，多模态能力和代理执行成为两大焦点 [1] - 大模型落地C端需接近人类能力，进化方向包括降低沟通难度和提升复杂任务执行能力 [1] - 多模态能力实现需依托基础大模型升级，代理执行能力依赖Agent产品生态成熟 [1] 多模态能力发展现状 - 字节、百度、谷歌、OpenAI近期推出多模态能力更强的基础大模型产品 [1] - 阿里夸克上线"拍照问夸克"功能，基于通义推理及多模态大模型+后训练实现 [1] - 多模态应用场景包括看图分析地貌、生成流程图、识别图像视频内容等 [5] - OpenAI最新o3和o4-mini具备"用图像思考"能力，谷歌Gemini 2.5 Flash可分析股票走势图 [5] 代理执行产品发展 - 通用Agent产品近期集中上线，包括字节扣子空间、百度心响App、360纳米AI等 [1] - 海外巨头倾向打造单一场景Agent，如Notion Mail、OpenAI的Operator和Deep Research [2] - 通用Agent产品雏形为对话框+工作区模式，能理解任务意图并调用工具模块 [12] - 百度心响App侧重移动端轻量化任务，包含数学解题、AI相亲等生活化功能 [13] Agent产品关键能力 - 优化任务体验需培养三大能力：第三方数据工具连接、编码能力、大模型任务理解能力 [14][16] - MCP和A2A协议为Agent提供统一接口和协作能力，国内厂商已接受该解决方案 [14] - AI编程能力对复杂任务执行至关重要，OpenAI可能收购编程公司Windsurf提升该能力 [16] - 大模型任务理解能力是底层基础，OpenAI正培养职业化Agent如司机、学者等角色 [16] 行业发展趋势 - 多模态能力提升将影响AI硬件发展，未来交互可能从手机迁移到智能眼镜 [11] - OpenAI预计2025年Agent业务销售额达30亿美元，2029年达290亿美元 [17] - 国内厂商采取API逻辑开发Agent，OpenAI采用职业化培养模式 [17] - 未来入口可能是多模态能力与Agent执行能力的结合 [17]