Founder Park
搜索文档
加量不加价,一篇说明白 Claude Sonnet 4.5 强在哪
Founder Park· 2025-09-30 11:46
产品发布与核心性能 - Anthropic发布Claude Sonnet 4.5模型,官方称之为世界上最好的编码模型 [2] - 该模型在处理复杂多步骤任务时能保持超过30小时的专注度 [2][9] - 在SWE-bench Verified评测中达到77.2%的得分,在Agentic coding with parallel test-time compute评测中达到82.0%的得分 [12] - 在OSWorld基准测试中得分达61.4%,相比四个月前Sonnet 4的42.2%得分有显著提升 [10] 定价与成本优化 - Claude Sonnet 4.5定价与Claude Sonnet 4相同,输入为3美元/百万token,输出为15美元/百万token [2] - 通过提示缓存可节省高达90%的成本,批量处理可节省50%的成本 [2] 功能与工具更新 - 在Claude Code中添加了检查点功能,可保存进度并即时回滚到之前的状态 [4] - 更新了终端界面并发布了原生VS Code扩展 [4] - 在Claude API中新增了上下文编辑功能和记忆工具 [4] - 代码执行和文件创建(电子表格、幻灯片和文档)功能已直接集成到对话中 [5] - 为Max用户提供了Claude for Chrome扩展程序 [6][13] 多领域能力表现 - 在金融分析Finance Agent评测中得分55.3%,优于GPT-5的46.9%和Gemini 2.5 Pro的29.4% [12] - 在研究生级推理GPQA Diamond评测中得分83.4% [12] - 金融、法律、医学和STEM领域的专家认为,相比旧模型,Sonnet 4.5在领域特定知识和推理方面能力显著更好 [14] 开发者工具与平台集成 - 发布面向开发者的工具Claude Agent SDK [2][30] - Sonnet 4.5已集成到Claude开发者平台、Amazon Bedrock和Google Cloud的Vertex AI中 [3] - Claude Agent SDK提供了管理内存、权限系统和协调子智能体的能力 [28][30] 实验性功能与安全特性 - 发布实验性研究预览功能"Imagine with Claude",可在五天内为Max订阅用户实时生成软件 [31][33] - 该模型是迄今为止对齐性最好的前沿模型,减少了谄媚、欺骗、权力寻求等未对齐行为 [24] - 模型在防御提示注入攻击方面取得重大进展 [24] - 根据AI安全级别3(ASL-3)保护下发布,包含针对CBRN武器相关内容的过滤器 [25]
DeepSeek V3.2 发布:长文本能力新突破,API 价格砍半
Founder Park· 2025-09-29 18:55
模型发布与技术升级 - 公司正式推出实验性模型DeepSeek-V3.2-Exp,该模型在V3.1-Terminus基础上引入了革命性的DeepSeek Sparse Attention技术[2] - 新技术DSA首次实现细粒度稀疏注意力机制,旨在几乎不影响模型输出效果的前提下大幅提升长文本训练和推理效率[6] - 官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp模型[3][14] 性能表现与基准测试 - 在严格对齐V3.1-Terminus训练设置后,V3.2-Exp在各领域公开评测集上表现基本持平[10] - 具体基准测试结果显示:MMLU-Pro保持85.0分,GPQA-Diamond从80.7降至79.9,Codeforces-Div1从2046分提升至2121分,AIME 2025从88.4提升至89.3分[11] - 模型已在Huggingface与魔搭平台开源,论文同步公开[11] 定价策略与成本优化 - API服务价格下调超过50%,成本降低直接惠及开发者[4][12] - 价格下调得益于DSA技术带来的效率提升[7] - 限时保留V3.1模型API访问通道至2025年10月15日,调用价格与新版V3.2-Exp相同[15][16] 用户支持与测试安排 - 为方便用户进行新旧版本对比,官方限时保留V3.1模型的API访问通道[15] - 用户可通过修改base_url为特定地址访问V3.1-Terminus模型[16] - 公司邀请用户参与实验性版本测试并提供反馈[15][18]
扒完全网最强 AI 团队的 Context Engineering 攻略,我们总结出了这 5 大方法
Founder Park· 2025-09-28 20:58
AI Agent开发痛点与Context Engineering需求 - AI Agent开发面临海量工具调用和长程推理(long horizon reasoning)产生的长上下文(long context)问题,严重制约Agent性能和成本,甚至导致模型能力下降[4] - 典型任务通常需要约50次工具调用,生产级Agent运行时可能需要多达数百次工具调用[11] - 单次运行可能消耗50万个token,成本达到1-2美元[11] Context Engineering核心概念 - Context Engineering定义为"在大语言模型的上下文窗口中放入正好适合它执行下一步所需的信息"[8] - 本质上是AI Engineering的子集,包含内循环(即时筛选所需context)和外循环(长期优化context window)[10][13] - 随着context长度增加,模型注意力会分散,推理能力下降,这种现象称为context衰减(context decay)[15] 五大Context Engineering策略 Offload(转移) - 将完整工具调用context转移到文件系统等外部存储,仅返回摘要或URL标识[21][26] - 使用文件系统记录笔记、跟踪进度、存储长期记忆[23] - 必须生成有效摘要描述文件信息,prompt engineering在其中起重要作用[28] Reduce(压缩) - 通过摘要(summarization)和剪裁(pruning)减少context内容[21][35] - Claude Code在95% context window占满时自动触发reduce机制[35] - 存在信息丢失风险,Manus选择先offload确保原始数据不丢失再进行reduce[37] Retrieve(检索) - 从外部资源检索与当前任务相关信息加入context window[21][46] - 包括经典向量检索、文件工具检索和context填充等方法[47] - 测试表明基于文本文件和简单文件加载工具的检索方法效果最佳[48] Isolate(隔离) - 在multi-agent架构中拆分context,避免不同类型信息相互干扰[21][59] - 不同角色agent各自压缩管理不同内容,避免单一agent承担全部context负担[59] - Cognition认为sub-agent获得足够context极其困难,需要大量精力在context摘要与压缩上[61] Cache(缓存) - 缓存已计算结果,降低延迟和成本[21][67] - 使用Claude Sonnet时缓存输入token成本为0.30美元/百万token,未缓存为3美元/百万token,相差10倍[69] - 只能优化延迟和成本问题,无法解决long context根本问题[70] The Bitter Lesson启示与实践经验 - 计算能力每五年增长十倍,scaling趋势是推动AI进步的关键因素[71] - 随着模型能力提升,早期添加的结构化假设可能成为发展瓶颈[74][81] - AI-native产品应在模型能力足够时从零构建,而非受限于现有流程[82] - Claude Code设计保持简单通用,为用户提供广泛模型访问权限[81] 记忆系统与检索关系 - Agent记忆分为情景记忆、语义记忆、程序记忆和背景记忆四类[50] - 大规模记忆读取本质上就是检索操作,复杂记忆系统就是复杂RAG系统[54] - Claude Code采用极简模式,启动时自动加载用户GitHub仓库,效果出奇地好[53][54] 框架选择与架构设计 - 应区分agent抽象(高级封装)和底层编排框架(精细控制)[77][78] - 开发者需要警惕agent抽象,但不排斥透明可自由组合的底层编排框架[79] - 大型组织推动标准化框架是为了解决实际协作问题,而非框架本身[80]
泡泡玛特的玩具收入,超过迪士尼了,成年人才是玩具的最佳消费者
Founder Park· 2025-09-27 10:37
全球玩具市场概况 - 2025年上半年全球玩具市场回暖明显 全球12个主要市场(不含中国)玩具销售额平均同比增长7% [6] - 增长势头主要得益于特定品类爆发式表现 "游戏与拼图"品类同比增长36% "收藏品类"同比增长35% [7] - 由于法律法规原因 Circana跟踪的消费数据不包含中国市场 中国本土调研机构暂未披露相关数据 [10] 2025年上半年全球玩具公司收入排名 - 乐高集团以384.5亿元人民币销售收入位居榜首 基于公司2025年半年报 [12] - 泡泡玛特以138.8亿元收入位列第二 超越迪士尼的138.6亿元 [12] - 万代南梦宫以144.4亿元收入排名第四 孩之宝和美泰分别以133.4亿元和131.8亿元位列第五和第六 [12] - 榜单统计专注于各公司直接来源于玩具、收藏品、集换式卡牌及相关衍生品的业务收入 剥离了主题公园、非相关数字娱乐等业务收入 [13] IP收藏玩具发展趋势 - IP开发、获取、运营及跨平台价值放大能力成为品牌成败关键因素 [19] - 迪士尼通过内容撬动共鸣 用角色链接情感 消费品部营收138.6亿元 同比增长约3.5% [20][21] - 万代南梦宫采用内容与实体商品高度协同模式 高达系列和《海贼王》TCG卡牌游戏成为主要贡献者 [27][29] - 美泰加速从传统玩具公司向内容供应商转型 成立美泰工作室强化IP跨媒体叙事能力 [39][42] - 泡泡玛特用无故事IP撬动全球潮玩市场 THE MONSTERS系列贡献48.1亿元收入 占总营收34.7% [48][49] 集换式卡牌游戏爆发 - 集换式卡牌游戏成为增长最快、毛利率最丰厚的玩具品类 [53] - 2025年全球TCG市场规模预计达到78亿美元(约555亿元) 2034年将突破150亿美元(约1068亿元) [56] - 孩之宝《万智牌:最终幻想》创下单日2亿美元(约14.3亿元)销售额记录 [59] - 艾赐魔袋集换式卡牌游戏贡献约64%收入 成为连接IP方与全球玩家的黄金桥梁 [69][76] - 万代南梦宫卡牌业务表现亮眼 《海贼王卡牌对战》销量在2025年8月超过《宝可梦卡牌游戏》成为日本卡牌销售榜首 [77][80] 成人玩具消费市场崛起 - 成人消费者成为全球玩具市场复苏的关键力量 [87] - 乐高成人向系列产品推动业绩增长 上半年营收创历史纪录达384.5亿元 同比增长约12% [88][91] - 世嘉通过IP怀旧再造与周边收藏品化双轮驱动方式刺激成年消费者情感与购买力 [95][101] - 多美聚焦高端收藏品类市场 变形金刚大师系列和TLV车模贡献显著利润增长 [102][107] 中国玩具品牌出海模式 - 泡泡玛特采用IP合作孵化+直接面向消费者模式 构建闭环生态系统 毛利率达70.3% [109][112] - 布鲁可采用授权IP+海外渠道商模式 上半年销售收入13.38亿元 同比增长27.9% 海外收入同比飙升898% [113][118] - 两家公司代表中国玩具从幕后工厂进化为主桌玩家 在全球市场与国际巨头同台竞技 [119]
Sam Altman:到目前为止,这绝对是我最喜欢的 ChatGPT 新功能
Founder Park· 2025-09-26 11:30
产品功能发布 - OpenAI宣布推出ChatGPT新功能“Pulse”的预览版,首先向Pro订阅用户开放 [2] - “Pulse”功能类似于超级私人助理,会在每晚主动研究,根据用户聊天记录、反馈及日历等关联应用提供个性化更新,并在次日清晨以可视化卡片形式推送 [2] - 该功能基于智能体(Agent)技术,旨在使ChatGPT从完全被动转变为主动,提供高度个性化服务,被公司首席执行官视为其最喜欢的ChatGPT功能 [2] 产品运作机制 - ChatGPT可代表用户进行异步搜索,每晚综合记忆、聊天记录和直接反馈以了解最相关内容,次日提供个性化更新,内容可包括常讨论话题的后续、健康晚餐创意或长期目标的后续步骤 [5] - 研究结果以主题可视化卡片形式呈现在Pulse中,用户可快速浏览或查看详情,并可管理研究内容,告知哪些内容有用或无用 [5] - 功能支持链接Gmail和Google日历以提供更多上下文,从而提供更相关建议,如起草会议议程、提醒购买礼物或推荐旅行餐厅,集成功能默认关闭,用户可随时在设置中开启或关闭 [5] 用户交互与反馈 - 用户可请求ChatGPT每天搜索互联网内容,例如请求周五本地活动综述、学习新技能技巧或跟踪最新AI领域论文 [8] - 用户可通过点赞或踩赞快速提供反馈,并可查看或删除反馈历史记录,人类指导将使Pulse随时间推移更加个性化和实用 [8] - Pulse显示的主题经过安全检查,以避免显示有害内容 [7] 市场反应与战略意义 - 功能推出后已有大量用户收到推送,用户反馈显示推送内容不仅宽泛且非常具体,涉及之前与ChatGPT聊过的具体话题 [10] - Pulse推送包含数个带AI生成配图的主题卡片,并继续提供其他功能指引,如优化推送、发送电子邮件通知或访问电子邮件和日历,被视为最个性化的新闻推送 [10] - 主动的AI可能影响人们获取新闻和社交媒体消费习惯,并为公司提供清晰平台以在未来插入广告甚至构建社交网络,但目前仍专注于提供有用信息 [12] - 公司表示这是ChatGPT走向实用化的第一步,旨在主动为人们提供所需,下一步目标是推广至Plus级别用户 [14]
对话 Plaud 莫子皓:你还记得 PMF 的感觉吗?
Founder Park· 2025-09-25 09:03
公司财务与市场地位 - 公司去年盈利超过1亿美元,今年预计盈利将超过2亿美元 [3] - 公司是全球最成功的AI硬件初创企业,其约150美元的录音卡片产品已销往全球超过100万人 [4] - 公司实现了显著增长,一年内增长四倍,这被视作产品市场契合的有力证明 [5][17][18] 产品形态与市场验证 - 公司最初的产品形态是卡片式设计,可吸附于手机背面,但后续推出的挂坠形态产品日出货量已与卡片形态持平 [26] - 挂坠形态产品特别受到专业用户群体的欢迎,例如销售和保险经纪人,在国内的ToB合作中90%的订单选择此形态 [28] - 公司认为工业设计是成功的因素之一,但不同用户对产品形态有不同需求,核心价值在于作为用户线下场景的传感器 [26][27] 产品哲学与AI战略 - 公司的产品哲学强调与大模型和用户意图对齐,而非简单功能优化,致力于开发只有最强模型才能实现的能力 [21][47] - 公司开发了Press to Highlight功能,通过硬件按键标记关键时刻,以此捕获用户意图,为AI提供更丰富的上下文 [44][45][48] - 公司的长期愿景是让模型评估用户,其核心思想是捕获上下文是为了让模型更好地“使用”用户,而非相反 [55][56] 技术能力与竞争优势 - 公司认为竞争对手需要超过100人的团队、大量资金和时间才能达到其同等水平,尤其在数据合规认证方面存在壁垒 [32] - 公司的竞争优势在于软硬件结合,中国供应链在硬件方面具有优势,而AI软件部分则与硅谷公司竞争 [36] - 公司产品被定义为AI Native硬件,即没有大模型就无法使用,其语音识别技术已开始融入大模型 [73] 目标用户与产品定位 - 公司将目标用户定义为“三高”人群:语言媒介占比高、行业知识浓度高、决策杠杆高 [60] - 公司当前将产品定位为Work Companion,强调平等伙伴关系,而非助手,旨在提供战略层面的决策支持 [58][59] - 公司服务的用户主要工作场景不在电脑前,不需要传统办公软件,而是需要更好的思考和决策工具 [60][71] 未来发展方向 - 公司未来的重要方向是组织和利用用户的上下文,构建一个让AI智能体自主演进的数字分身或环境 [63][64] - 公司认为幻觉在AI智能体突破用户智能边界时具有积极作用,是产生新想法的源泉 [65] - 公司的发展将紧跟大模型能力演进,模型能力的变化将直接驱动公司产品和战略的调整 [66][67] 团队与文化 - 公司团队背景多元,包括硬件、软件、营销等领域的专业合伙人,员工流失率低且充满干劲 [12][38] - 公司正在积极招聘,特别需要工程能力强、能设计面向大模型架构的顶尖人才 [9][78] - 公司招人标准强调聪明、正直、有野心,并注重试用期的实际工作能力考察 [79]
a16z:AI 产品初期用户流失高很正常,M3 留存才是评估 PMF 的关键
Founder Park· 2025-09-24 16:16
核心观点 - 头部AI企业面临的核心挑战是用户留存的准确衡量问题,而非留存本身存在问题 [2][4] - 将用户留存率基准点从第0个月后移至第3个月,能更清晰评估产品市场契合度和市场推广策略 [2][4] - AI产品用户留存曲线可划分为三个明确阶段:获客期、留存期和扩张期 [2][8] - M12/M3比率是预测长期留存质量的早期关键指标,比率接近或超过100%意味着长期净收入留存率有望突破100% [2][15] - 随着AI产品持续迭代并捕捉服务型工作负载价值,未来头部AI企业的长期留存率可能超越SaaS及消费互联网企业 [5][24][25] 留存曲线阶段分析 - **获客期**:指用户注册后的前三个月,此阶段营收留存曲线常因“AI体验者”激增而出现“初期下滑”,这是过滤非核心用户的自然过程 [8][10] - **留存期**:通常指第3个月至第6或第9个月,此时曲线开始平稳,兴趣型用户基本流失,剩余用户多为找到高价值使用场景的核心用户 [8][12] - **扩张期**:指第9个月之后,部分核心用户将产品融入新工作流,企业可通过基于使用量的定价模式或引导试用新产品将扩张转化为营收增长 [8][12] - 在原生AI企业中观察到“微笑型”客户留存曲线,即随着产品功能迭代,流失或低使用率用户会重新回归或提升使用频率,ChatGPT是典型案例 [12] 关键衡量指标与方法 - **M3留存率**:代表“AI体验者”流失后企业真实的核心客户基数,是衡量市场推广投入转化为长期用户效率的关键 [18][23] - **M12留存率**:反映核心客户在整年周期内的留存表现 [18] - **M12/M3比率**:衡量挺过体验者流失期的核心客户在首个完整年度的留存质量,是预测长期留存表现的重要早期指标 [18] - 建议跟踪“M3留存客户的单位获取成本”,该指标能衡量市场推广投入转化为长期用户的效率 [23] - 对于按月签约客户,留存曲线可直接作为产品市场契合度的判断依据;对于按年签约客户,需重点跟踪使用模式、功能采用率等用户活跃度指标 [23] 产品策略与市场推广影响 - 适用场景广泛的产品更容易吸引兴趣型用户,尤其是定价较低的产品,大多数潜在用户愿意支付20美元试用一个月 [13] - 付费墙设置严格的产品可能吸引大量付费用户,但如果用户无法快速看到产品价值,流失速度也会更快 [13] - 采用“generous free tier”策略的产品,其付费转化用户的留存表现通常更好,M3留存率也更高 [13] - 若M3后留存曲线仍显著下滑或无法平稳,表明初期客户满意度未转化为长期产品效用;若曲线实现平稳,则可更可靠预测单位经济效益并更激进地投入市场推广 [23] - 留存率是预测5年期“客户终身价值/客户获取成本”回报率的核心输入变量,若留存率表现不佳,盲目增加市场推广投入效率低下 [22][23]
Google Cloud 最新 AI 创业者报告:应用公司不用做自己的模型,速度和认知才是壁垒
Founder Park· 2025-09-24 16:16
给创业者的建议 - 抢占市场先机是初创公司的重中之重 [6] - 定价应以交付价值为准绳,考虑按用量或价值收费,而非局限于按人头收费 [6] - 即刻开展评估,在初始阶段建立明确的指标体系和 AI 系统性能评估方法 [6] - 应深耕细分领域解决特定难题,而非着眼于通用 AI [6] - 创始人需做到找人要精、脸皮要厚、嗓门要大、离钱要近 [6][18] 平台级应用的新机会 - 当前市场对出现千亿级公司机会尚未形成共识,百亿级公司机会更为现实 [7][9] - 出现千亿级公司需突破三道门槛:分发格局改写、大厂机制逆袭、冷启动与产品力完美耦合 [7] - AI 未像移动互联网那样引入分发渠道变革,大厂仍把控流量入口且反应迅速 [9] - 百亿美金路径现实存在,假设给20倍市销率,仅需5亿美金年度经常性收入,目前已有公司达到1-2亿美金年度经常性收入以上 [9] - 跑出百亿美金级别AI原生消费级公司,需在集中基础设施格局中找到差异化切口,打磨产品体验与商业模型 [10] AI应用公司的模型策略 - 应用公司无需自研模型,可类比消费电子行业与芯片供应商的关系 [11] - 只依赖单一闭源模型的应用最脆弱,供应商可能下场做相同业务或停止提供接口 [11] - 当市场出现多家供应商或强大开源模型追平闭源模型时,应用生意更安全且可节省模型层毛利 [11] - 自研模型收益低且可能丧失使用所有前沿模型的灵活性优势,对规模尚小的公司是麻烦 [11] - 时机是第一位的,应尽快将产品做出并进行市场验证,快速获得反馈 [12] AI应用的壁垒 - 随着智能提升,最初以为的壁垒会发生变化,难以有能一直延续的壁垒 [13] - 认知以及基于认知的速度可能是唯一的壁垒,做得早、做得快就是壁垒 [13][14] - 长期来看,垂类数据相比通用数据更难获取,可能构成壁垒,但若模型智能足够强可自我学习则壁垒不存在 [13][14] - 真正难点在于可持续性,即能否形成稳定盈利结构实现每年5亿美金净利润 [13] - 当前客服、设计、代码、法律、教育、医疗等多个垂类均显现出潜在爆款应用苗头 [13] AI产品的形态与增长 - AI产品过去是模型越好体验越好的「生鱼片型」,现在更像需看厨艺和配料的「水煮鱼」,产品能力更重要 [15] - AI应用能力分为三层:模型层、Context层(公共、组织、个人)和环境层(模型与外部世界交互的能力) [15][16] - AI产品增长靠创新而非广告,需让用户意识到创新点,用户对AI敏感,真正创新会自发传播 [16][17] - 花钱投广告对AI产品大多无效,增长核心不是怎么花钱,而是有何新东西 [16][17] - 推广方式改变,创始人需直接上台清晰讲解新能力,产品需持续迭代以留在用户记忆里 [17] 创始人与组织建设 - 抢占优秀人才比找方向更重要,公司前3-4号位对成败的权重可能占90%以上 [19] - 不要被自己说过的话绑架,环境变化快,该调整调整该转型转型 [19] - 技术品牌是重要竞争力,吸引用户和顶级人才需要足够响亮的声量 [19] - 用户付费是很好的价值验证投票器,产品从一开始就要尽可能离钱近 [19] 出海战略与素质 - 出海AI组织需具备三大素质:比较优势识别能力、选择与判断力、执行力 [23][24][25] - 需找到人类共同需求(普适需求)或对目标市场有真正深入理解和审美 [21][25] - 发挥中国创业者优势,如工程师性价比和执行力,在产品品位达标基础上抢占用户心智 [25] - 产品需为未来设计,预判技术趋势,滑向冰球将去之处而非现在方向 [25] - 生而全球化,AI是全球机会,全球化视角决定能否捕捉最大机会 [25] - 建议错位竞争,利用比较优势,例如避开美国转向中东、拉美等增长市场 [26] 投资人看好的赛道与准则 - 有四类AI产品值得投资:双边网络效应产品(极稀缺)、非共识路径、数据和场景优势、复杂产品 [27][28][29][30] - 双边网络效应曾是强护城河,但当前AI产品多是用户对模型的单边交互,未来形态尚难预测 [27] - 伟大公司早期多为非共识,能在没人看懂时做对事情,错开巨头注意力争取成长窗口 [28] - 拥有数据和场景是长期护城河,垂类场景尽早落地产品并绑定数据流可构筑有效壁垒 [29] - 复杂产品的竞争力来自产品模式、技术路径和商业模式的复杂耦合,本身是门槛 [30][31] - 投资核心准则包括建立前瞻视角、找准数据路径、秉持第一原理、优秀的创始人和出色的产品缺一不可 [32][33][34][35]
18 年 SEO 增长经验专家:别再收藏各种 AEO 最佳攻略了,自己动手实验才是做好的关键
Founder Park· 2025-09-23 22:19
于是,有人创建了几百个 Reddit 假账号,伪装成真人,自动发帖、评论、互赞,刷信任分,在 Reddit 上疯狂刷屏,让自家产品无处不在。 结果是,这招效果并不好,最后账号被封禁,评论被删除。 在 AEO 中,有大部分工作都被浪费了,是因为还没有搞清楚背后的引用「逻辑」。Reddit 平台的核心 优势是发布来自真人的、有用的、高质量且真实的评论。因此,ChatGPT 有意地引用来自 Reddit 的内 容。但如果 Reddit 内容变得不可信,结果可想而知。所以,五条高质量的评论反而会比一万条评论的 效果更好。 但做好 AEO 优化这事并不简单。需要你理解搜索背后的底层逻辑,找到适合的渠道及对应策略,然后 用自己的真实数据反复去验证,才能找到 AEO 优化最好的打法。 「你在网上能读到的,大部分关于 AEO 的信息和最佳实践都是不准确的。做好 AEO 最关键的一步, 是自己动手去验证。」 Reddit 是做好 AEO 最有效的渠道之一。这是近期频繁出现在各种 AEO/GEO 攻略里的一句话。 Ethan Smith,Graphite CEO、Reforge 合伙人,拥有 18 年 SEO 经验。 在与 Le ...
Nano Banana核心团队:图像生成质量几乎到顶了,下一步是让模型读懂用户的intention
Founder Park· 2025-09-22 19:39
图像模型发展趋势 - 图像模型正从创意工具向信息查询工具转变,类似于LLM的发展路径[4][11] - 未来模型将更主动、更智能,能根据用户问题灵活运用文本、图像等多模态交互[4][11] - 所有团队都在朝通用模型(Omni Models)方向发展,即能处理多种任务的模型[6][40] 技术突破方向 - 关键进步将体现在模型的可表达性方面,重点是提升能力下限而非上限[6][33] - 现在最好的图像质量与几年后相差不大,但最差的图像质量将显著改善[6][33] - 图像与视频模型技术共享紧密,未来可能融合在一起[40][41] 产品应用场景 - 角色一致性功能成为用户最感兴趣的功能之一,允许用户将自己形象置于不同场景[8][9] - 用户最高频需求包括更高分辨率(目前为1K)、透明背景和更好的文字渲染效果[9] - 图像模型在专业工作流中应用广泛,包括建筑设计、视频制作和网站UI生成[24][25][28] 交互设计挑战 - 多模态交互核心在于识别用户意图,根据实际任务切换不同交互模式[4][19] - 界面设计需明确问题边界,让用户清楚哪些操作可行[5][20] - 当前UI设计被低估,需要整合各种模态让普通人更容易使用模型[4][18] 模型评估方法 - 真实用户主动测试是最佳评估方式,如LM Arena平台让用户输入自己的Prompt使用模型[21] - 形成反馈循环,利用语言模型的智能来评估自己生成的内容[21] - 团队通过多渠道收集用户反馈,调整评估标准确保好用功能不退化[22] 个性化与美学需求 - 美学需求难以满足,需要深度个性化才能提供有用建议[6][26] - 个性化更多停留在Prompt层面,通过对话和上下文实现而非专属模型[26][27] - 现成模型支持的使用场景范围广泛,但高级功能需求需要结合其他工具[28] 行业竞争格局 - Midjourney成功关键在于比其他团队更早搞清楚如何进行模型的后续训练[6][31] - 小团队仍有可能做出顶尖模型,但有能力训练LLMs的团队可能占据主导地位[6][43] - 图像和视频领域存在良性竞争,推动整个行业快速发展[30] 工作流整合 - 传统工具和AI模型将长期共存,各自满足不同精度控制需求[35][36][37] - Gemini等聊天工具适合快速迭代和创意构思,专业场景需要更精密的多工具协作流程[35] - 模型在办公协作、知识性场景和创意领域都有巨大应用潜力[37][38]