Workflow
通用模型
icon
搜索文档
谷歌“香蕉”爆火启示:国产垂类AI的危机还是转机?
36氪· 2025-09-26 18:44
Nano Banana的市场影响与用户增长 - Nano Banana上线两周内全球生成超2亿张图片 亚太地区用户热情最高[1] - 英伟达CEO黄仁勋公开宣称是其忠实粉丝[1] - 为Gemini App带来超1000万新用户 并助其超越ChatGPT登顶苹果应用榜[1] 行业竞争格局变化 - OpenAI以11亿美元全股票交易收购产品实验平台Statsig以应对冲击[3] - 字节跳动快速推出Seedream4.0强化豆包和即梦产品[5] - 美图股价因通用模型威胁出现巨量波动[5] 技术突破与产品特性 - 通过自然语言对话实现精准图像编辑 无需结构化提示词[8][9] - 具备Gemini大模型的"原生世界知识" 支持风格一致性/多图融合/逐步编辑等功能[9] - 成本为0.039美元每张图片(按30美元/百万token 每张消耗1290 token计算)[11] - 核心技术依赖文字渲染/交错生成/速度哲学及世界知识引入[11] 垂类应用的竞争壁垒 - 摩根士丹利认为美图核心价值在于"最后一公里"解决方案[14] - 美图优势包括垂直领域数据积累/付费功能专注/多模型整合能力[14] - C端业务依赖美颜美体精细化理解 B端业务聚焦商拍场景know-how[14] - 与阿里达成18亿元战略合作 重点推进AI试衣和AI商品图功能[17] 行业发展趋势与战略方向 - 通用模型与垂类应用的竞争焦点在于场景赋能能力[24][25] - 垂类应用需聚焦"用户付费转化" 避免与通用模型直接技术对抗[24] - AI时代演化速度是移动互联网的三倍 需寻找差异化竞争机会[25] - 终极胜负手取决于能否将通用技术转化为用户愿付费的场景服务[25]
Nano Banana核心团队:图像生成质量几乎到顶了,下一步是让模型读懂用户的intention
Founder Park· 2025-09-22 19:39
现在最好的图像质量,和几年后图像质量可能相差不大,实际在于模型能力下限的提升。 未来的交互一定是多模态的,识别用户的意图特别关键。 这是一篇 Nano Banana 背后核心团队成员的专访, 信息量很大。 在 Nano Banana 正式上线后的近一个月以来,社交平台上充满了各种「 邪修 」玩法和探索。Nano Banana 的热度甚至一度冲击了图像、修图类产品的股价。 Nano Banana 为什么好用?读懂背后的 「 how 」特别重要 。Nano Banana 核心团队是如何思考和做图 像模型的?基于图像模型的能力,衍生出来的应用会有哪些特点? 在一期播客节目中,Nano Banana 核心团队研究员 Nicole Brichtova 和 Oliver Wang,围绕基于模型打造 产品时遇到的挑战、如何思考解决「空白画布难题」以及如何与其他图像编辑产品进行交互等话题进行 了分享。 TLDR: 图像模型未来的趋势可能和 LLM 的发展很像,从单纯的创意工具变为信息查询工具。 未来,模型应该会变得更主动、更智能,能根据用户的问题,灵活运用文本、图像等不同模态进 行交互。 如何把 LLM 中的「世界知识」融入 ...
六大主流Agent横向测评,能打的只有两个半
虎嗅· 2025-06-02 17:45
Agent行业发展趋势 - 未来十年被视为Agent发展的关键时期,行业普遍认同Agent将成为重要技术方向[1][3] - Token成本下降和MCP资源丰富推动Agent产品从Demo走向B/C端应用[4][5] - 企业需求旺盛,部分Agent产品内测阶段即出现邀请码炒作和私有化部署咨询[6] Agent产品评估框架 - 核心评估公式:产品价值=能力×信任×频率,三项均为3分制,总分8分以上为优质Agent[7][8] - 能力维度关注任务完成度和交付稳定性[9] - 信任维度强调过程可控性和行为可解释性[9] - 频率维度考察场景适配性和调用便捷性[9] - 行业投资人普遍认同该框架,红杉资本提出"Always-On Economy"概念,a16z强调需求承接能力[11] 典型Agent产品分析 Manus - 首创完整动作链范式,但存在成功率低(20%以下)、入口重、上下文易断等问题[27][28] - 能力1分、信任2分、频率1分,总分4分低于基准线[28] - 行业意义在于确立Agent≠Chatbot的新范式[30][32] 扣子空间 - 首个实现MCP调用+任务编排+结果交付完整链路的系统[36] - 能力3分、信任2分、频率2分,总分7分接近基准线[38][40] - 优势在于豆包模型+火山MCP+完整架构的生态协同[42][43] Lovart - 设计领域垂类Agent,实现从需求到成稿的端到端交付[45][50] - 能力3分、信任3分、频率2分,总分18分达到优秀水平[54][58] - 商业化采用积分制,单任务成本约3美元[204][211] Flowith Neo - 特色在于并发任务处理和上下文管理技术[66] - 能力3分、信任3分、频率1分,总分9分[71][73] - 交互复杂度限制其日常使用频率[68][70] Skywork - 办公场景最强Agent,实现从分析到PPT的完整工作流[77][83] - 能力3分、信任3分、频率2分,总分18分[101][105] - 关键价值在于结果可直接交付且带溯源功能[99][100] 超级麦吉 - 专注OA流程自动化,实现审批、报销等企业高频需求[104][112] - 能力3分、信任2分、频率3分,总分18分[128][138] - 体现Agent在B端流程提效中的独特价值[126][137] 行业竞争格局 - 当前阶段垂类Agent更具留存优势,因其场景深度和交付确定性[139][140] - 通用模型存在执行链断裂风险,KnowHow构成垂类Agent短期壁垒[146][147] - 商业化面临信任挑战,用户对付费产品的容错率显著降低[220][225] - 入口争夺成为关键竞争维度,缺乏流量支撑的产品易被大厂复制[235][240] - 行业呈现"通才处理长尾需求,专才攻克核心场景"的共生格局[171][175]