Workflow
多模态和Agent成为大厂AI的新赛点
创业邦·2025-05-01 10:54

大模型C端落地的核心方向 - 大模型落地C端场景的核心是让模型能力接近人类,分为降低用户沟通难度和提升复杂任务执行能力两个方向 [4] - 降低沟通难度依赖多模态能力提升,复杂任务执行依赖Agent产品生态成熟 [4] - 字节、百度、谷歌、OpenAI近期均推出多模态基础模型,阿里夸克上线"拍照问夸克"功能实现图文交互 [4][9] 多模态能力进展与场景渗透 - 火山引擎豆包1.5具备视觉理解能力,文心4.5 Turbo展示图像/视频识别能力,OpenAI o3/o4-mini实现"用图像思考" [9] - 谷歌Gemini 2.5 Flash可分析股票走势图并生成游戏场景设计图 [9] - 夸克"拍照问夸克"支持拍照搜索、文案生成、卡路里识别等功能,未来可能延伸至实时摄像头交互 [10][11][14] - 多模态能力将推动AI眼镜发展,目前受限于模型成熟度 [14] Agent产品生态现状 - 通用Agent产品形态趋向Manus提出的"对话框+工作区"模式,字节扣子空间、百度心响App等均采用该框架 [16][17] - 扣子空间擅长文字梳理但网页转化效果欠佳,心响App侧重移动端轻量化任务 [17][19] - 海外Agent更聚焦单一场景:Notion Mail处理邮件,OpenAI Operator操控浏览器,X AI Grok Studio生成文档/代码 [5] Agent核心能力要求 - 关键能力1:连接第三方数据/工具,需通过MCP/A2A协议扩展工具箱,纳米AI已接入近百工具 [20][21] - 关键能力2:编码能力,OpenAI拟收购Windsurf强化AI编程,支撑PPT/网页/游戏生成 [23] - 关键能力3:模型任务理解能力,OpenAI通过o3/o4-mini实现上网查资料/执行代码等"大脑"功能 [23] 厂商差异化发展路径 - 字节/百度采用API逻辑开发Agent,OpenAI按职业培养拟人化Agent(如司机型Operator、学者型Deep Research) [24] - OpenAI预计2025年Agent业务收入达30亿美元,2029年增至290亿美元,需结合多模态与执行能力成为底层入口 [25]