拍照问夸克 - 财报，业绩电话会，研报，新闻

拍照问夸克

搜索文档

创业邦· 2025-05-01 10:54

大模型C端落地的核心方向 - 大模型落地C端场景的核心是让模型能力接近人类，分为降低用户沟通难度和提升复杂任务执行能力两个方向 [4] - 降低沟通难度依赖多模态能力提升，复杂任务执行依赖Agent产品生态成熟 [4] - 字节、百度、谷歌、OpenAI近期均推出多模态基础模型，阿里夸克上线"拍照问夸克"功能实现图文交互 [4][9] 多模态能力进展与场景渗透 - 火山引擎豆包1.5具备视觉理解能力，文心4.5 Turbo展示图像/视频识别能力，OpenAI o3/o4-mini实现"用图像思考" [9] - 谷歌Gemini 2.5 Flash可分析股票走势图并生成游戏场景设计图 [9] - 夸克"拍照问夸克"支持拍照搜索、文案生成、卡路里识别等功能，未来可能延伸至实时摄像头交互 [10][11][14] - 多模态能力将推动AI眼镜发展，目前受限于模型成熟度 [14] Agent产品生态现状 - 通用Agent产品形态趋向Manus提出的"对话框+工作区"模式，字节扣子空间、百度心响App等均采用该框架 [16][17] - 扣子空间擅长文字梳理但网页转化效果欠佳，心响App侧重移动端轻量化任务 [17][19] - 海外Agent更聚焦单一场景：Notion Mail处理邮件，OpenAI Operator操控浏览器，X AI Grok Studio生成文档/代码 [5] Agent核心能力要求 - 关键能力1：连接第三方数据/工具，需通过MCP/A2A协议扩展工具箱，纳米AI已接入近百工具 [20][21] - 关键能力2：编码能力，OpenAI拟收购Windsurf强化AI编程，支撑PPT/网页/游戏生成 [23] - 关键能力3：模型任务理解能力，OpenAI通过o3/o4-mini实现上网查资料/执行代码等"大脑"功能 [23] 厂商差异化发展路径 - 字节/百度采用API逻辑开发Agent，OpenAI按职业培养拟人化Agent（如司机型Operator、学者型Deep Research） [24] - OpenAI预计2025年Agent业务收入达30亿美元，2029年增至290亿美元，需结合多模态与执行能力成为底层入口 [25]

多模态

Agent

Artificial Intelligence

Artificial Intelligence

36氪· 2025-04-30 07:29

大模型应用场景的竞争策略 - 大厂AI竞争策略向应用场景倾斜，多模态能力和代理执行成为两大焦点 [1] - 大模型落地C端需接近人类能力，进化方向包括降低沟通难度和提升复杂任务执行能力 [1] - 多模态能力实现需依托基础大模型升级，代理执行能力依赖Agent产品生态成熟 [1] 多模态能力发展现状 - 字节、百度、谷歌、OpenAI近期推出多模态能力更强的基础大模型产品 [1] - 阿里夸克上线"拍照问夸克"功能，基于通义推理及多模态大模型+后训练实现 [1] - 多模态应用场景包括看图分析地貌、生成流程图、识别图像视频内容等 [5] - OpenAI最新o3和o4-mini具备"用图像思考"能力，谷歌Gemini 2.5 Flash可分析股票走势图 [5] 代理执行产品发展 - 通用Agent产品近期集中上线，包括字节扣子空间、百度心响App、360纳米AI等 [1] - 海外巨头倾向打造单一场景Agent，如Notion Mail、OpenAI的Operator和Deep Research [2] - 通用Agent产品雏形为对话框+工作区模式，能理解任务意图并调用工具模块 [12] - 百度心响App侧重移动端轻量化任务，包含数学解题、AI相亲等生活化功能 [13] Agent产品关键能力 - 优化任务体验需培养三大能力：第三方数据工具连接、编码能力、大模型任务理解能力 [14][16] - MCP和A2A协议为Agent提供统一接口和协作能力，国内厂商已接受该解决方案 [14] - AI编程能力对复杂任务执行至关重要，OpenAI可能收购编程公司Windsurf提升该能力 [16] - 大模型任务理解能力是底层基础，OpenAI正培养职业化Agent如司机、学者等角色 [16] 行业发展趋势 - 多模态能力提升将影响AI硬件发展，未来交互可能从手机迁移到智能眼镜 [11] - OpenAI预计2025年Agent业务销售额达30亿美元，2029年达290亿美元 [17] - 国内厂商采取API逻辑开发Agent，OpenAI采用职业化培养模式 [17] - 未来入口可能是多模态能力与Agent执行能力的结合 [17]

多模态

Agent

Artificial Intelligence

Artificial Intelligence

豆包1.5深度思考模型

文心4.5 Turbo