拍照问夸克

搜索文档
多模态和Agent成为大厂AI的新赛点
创业邦· 2025-05-01 10:54
大模型C端落地的核心方向 - 大模型落地C端场景的核心是让模型能力接近人类,分为降低用户沟通难度和提升复杂任务执行能力两个方向 [4] - 降低沟通难度依赖多模态能力提升,复杂任务执行依赖Agent产品生态成熟 [4] - 字节、百度、谷歌、OpenAI近期均推出多模态基础模型,阿里夸克上线"拍照问夸克"功能实现图文交互 [4][9] 多模态能力进展与场景渗透 - 火山引擎豆包1.5具备视觉理解能力,文心4.5 Turbo展示图像/视频识别能力,OpenAI o3/o4-mini实现"用图像思考" [9] - 谷歌Gemini 2.5 Flash可分析股票走势图并生成游戏场景设计图 [9] - 夸克"拍照问夸克"支持拍照搜索、文案生成、卡路里识别等功能,未来可能延伸至实时摄像头交互 [10][11][14] - 多模态能力将推动AI眼镜发展,目前受限于模型成熟度 [14] Agent产品生态现状 - 通用Agent产品形态趋向Manus提出的"对话框+工作区"模式,字节扣子空间、百度心响App等均采用该框架 [16][17] - 扣子空间擅长文字梳理但网页转化效果欠佳,心响App侧重移动端轻量化任务 [17][19] - 海外Agent更聚焦单一场景:Notion Mail处理邮件,OpenAI Operator操控浏览器,X AI Grok Studio生成文档/代码 [5] Agent核心能力要求 - 关键能力1:连接第三方数据/工具,需通过MCP/A2A协议扩展工具箱,纳米AI已接入近百工具 [20][21] - 关键能力2:编码能力,OpenAI拟收购Windsurf强化AI编程,支撑PPT/网页/游戏生成 [23] - 关键能力3:模型任务理解能力,OpenAI通过o3/o4-mini实现上网查资料/执行代码等"大脑"功能 [23] 厂商差异化发展路径 - 字节/百度采用API逻辑开发Agent,OpenAI按职业培养拟人化Agent(如司机型Operator、学者型Deep Research) [24] - OpenAI预计2025年Agent业务收入达30亿美元,2029年增至290亿美元,需结合多模态与执行能力成为底层入口 [25]
多模态和Agent成为大厂AI的新赛点
36氪· 2025-04-30 07:29
大模型应用场景的竞争策略 - 大厂AI竞争策略向应用场景倾斜,多模态能力和代理执行成为两大焦点 [1] - 大模型落地C端需接近人类能力,进化方向包括降低沟通难度和提升复杂任务执行能力 [1] - 多模态能力实现需依托基础大模型升级,代理执行能力依赖Agent产品生态成熟 [1] 多模态能力发展现状 - 字节、百度、谷歌、OpenAI近期推出多模态能力更强的基础大模型产品 [1] - 阿里夸克上线"拍照问夸克"功能,基于通义推理及多模态大模型+后训练实现 [1] - 多模态应用场景包括看图分析地貌、生成流程图、识别图像视频内容等 [5] - OpenAI最新o3和o4-mini具备"用图像思考"能力,谷歌Gemini 2.5 Flash可分析股票走势图 [5] 代理执行产品发展 - 通用Agent产品近期集中上线,包括字节扣子空间、百度心响App、360纳米AI等 [1] - 海外巨头倾向打造单一场景Agent,如Notion Mail、OpenAI的Operator和Deep Research [2] - 通用Agent产品雏形为对话框+工作区模式,能理解任务意图并调用工具模块 [12] - 百度心响App侧重移动端轻量化任务,包含数学解题、AI相亲等生活化功能 [13] Agent产品关键能力 - 优化任务体验需培养三大能力:第三方数据工具连接、编码能力、大模型任务理解能力 [14][16] - MCP和A2A协议为Agent提供统一接口和协作能力,国内厂商已接受该解决方案 [14] - AI编程能力对复杂任务执行至关重要,OpenAI可能收购编程公司Windsurf提升该能力 [16] - 大模型任务理解能力是底层基础,OpenAI正培养职业化Agent如司机、学者等角色 [16] 行业发展趋势 - 多模态能力提升将影响AI硬件发展,未来交互可能从手机迁移到智能眼镜 [11] - OpenAI预计2025年Agent业务销售额达30亿美元,2029年达290亿美元 [17] - 国内厂商采取API逻辑开发Agent,OpenAI采用职业化培养模式 [17] - 未来入口可能是多模态能力与Agent执行能力的结合 [17]