Workflow
Founder Park
icon
搜索文档
Adobe 新研究:不用再「喂」训练数据,VLM 靠和自己玩游戏变聪明
Founder Park· 2025-10-13 18:57
研究背景与核心问题 - 当前视觉语言模型训练过度依赖人工标注数据,导致数据稀缺和成本高昂,且模型能力受限于人类知识天花板 [7] - 受AlphaGo通过自博弈实现自我迭代、突破人类能力上限的启发,研究旨在探索VLM不依赖人类标注数据的自我进化路径 [2][7] Vision-Zero框架核心设计 - 框架核心是让AI通过自博弈游戏学习,类似“谁是卧底”游戏,通过制定规则和交替训练策略实现自我进化 [3] - 框架特点一:策略自博弈框架,在社交推理类游戏环境中训练,自动生成高复杂度推理数据,无需人工标注 [9] - 框架特点二:支持任意形式图片作为输入,无限制条件,使模型能在多领域获得能力提升并具备良好泛化性能 [9] - 框架特点三:提出自博弈与可验证奖励的强化学习交替优化的算法,解决传统自博弈的性能瓶颈问题,实现持续性能提升 [9] 自博弈游戏规则与机制 - 游戏规则受“谁是卧底”启发,包含n名平民和1名卧底,玩家获知角色后观察略有差异的图片 [13][14] - 游戏分线索阶段和决策阶段,玩家需提供或分析线索并投票找出卧底,过程生成复杂推理链条 [14][15] - 该游戏具有高度策略性,能激发并持续提升Agent的视觉理解与推理能力 [16] 训练数据构建与领域无关性 - 游戏仅需两张有细微差异的图片对即可启动,数据构建简单且成本低廉,应用场景广泛 [17] - 研究使用了三种不同场景的图片输入进行训练:CLEVR合成场景2000对图像、图表数据1000对图像、真实世界图片1000对图像 [17] 训练方法与性能优化 - 提出Iterative Self-Play Policy Optimization算法,采用双阶段交替训练,缓解纯自博弈的局部均衡和强化学习的知识饱和问题 [18] - 实验表明,两阶段交替训练性能明显优于单阶段训练 [18] 实验结果与性能表现 - 在六个基准数据集测试表明,未使用任何标注数据训练的Vision-Zero一致性地优于其他需要标注的SOTA方法 [19] - 具体提升:VisionZero-Qwen-7B在CLEVR和Real-World数据上较基线提升约3%,在Chart数据上提升约2.8%,而最优基线方法提升仅约1.9% [19] - 模型展现出强任务泛化能力,其环境未显式包含数学任务,但通过自然语言策略博弈提升的逻辑推理能力能有效迁移至数学与推理任务,甚至超过专门在大规模任务数据上训练的模型 [19] 缓解跨能力负迁移 - Vision-Zero训练能有效缓解VLM后训练中常见的跨能力负迁移问题 [22] - 例如,基线模型MM-Eureka-Qwen-7B在特定任务训练后,在ChartQA任务上性能下降约10%,而Vision-Zero训练的模型则能保持或提升其他任务性能 [22] - VisionZero-Qwen-7B在视觉任务上显著提升的同时,在图表/OCR任务上平均仅下降0.2%,甚至在某些配置下实现全面提升 [22] 研究意义与潜力 - Vision-Zero证明了自博弈从单一任务走向通用任务的可行性与巨大潜力 [24] - 通过构建开放、可扩展的博弈环境,摆脱了对人工标注的依赖,突破了数据和知识瓶颈,使模型能在无需特定任务训练下实现可持续能力进化与跨领域泛化 [24] - 双阶段交替优化有效避免了自博弈常见的局部均衡问题 [24]
AI 产品范式探讨:非线性思维、多 Agent 协作才是复杂任务的更优解
Founder Park· 2025-10-13 14:39
群体智能与单一智能对比 - 单一智能由一个大模型承担所有环节,依赖上下文工程,优点是实现路径单一、响应快,缺点是信息维度和流程复杂时,体系容易在上下文窗口、注意力分配与可追溯性上崩塌 [5] - 群体智能将任务拆解为子角色,由多个角色化Agent并行或分布式工作,强调分工-沟通-整合的闭环,更像人类团队合作而非单个超人的能力 [5] - 在复杂任务下,单一智能面临上下文窗口与检索瓶颈、注意力漂移、可追溯性差等挑战,这些短板与模型本身的工作范式有关,一个主体在有限的概率空间内难以同时拓展广度和深度 [9] - 群体智能通过并行分工降低重复成本、博弈与聚合带来更稳健结论、独立记忆减少互相干扰、天然支持可审计性等优势,在复杂研究型任务上性能显著更高,例如Anthropic的多智能体研究系统性能比单一智能体提高了90.2% [11][12] - 更合理的策略是混合使用单一智能和群体智能,在示例驱动、上下文紧凑的任务采用单体策略,在信息量大、需并行验证的情形启用多Agent,并依靠人类在环进行关键澄清与对齐 [12] 复杂任务协作的非线性思维 - 复杂任务不是线性从输入到输出,而是一张有回路、有分支、有博弈的网络,人类通过开会进行博弈-收敛过程,是多个认知主体完成共享世界观、交换假设、修正偏差、达成局部-全局折衷的机制 [13] - 会议环节包括信息同步、生成假设、质疑与反驳、协商与让步、记录与锚定,这些环节充满反馈循环,通过反复的局部博弈与信息回环,团队能在复杂不确定的世界里逐步逼近可操作的方案 [13][14] - 单一智能在复杂任务中常见的失败源于缺乏对非线性博弈过程的支持,导致对于跨文献、需核查、需多方协商的任务,输出既不稳健也不易追责 [14][15] AI时代的人机协作智慧 - 顶尖研究者如陶哲轩能有效使用AI作为研究助手,关键在于他们具备深厚的领域判断力以及将AI视为协作伙伴的方法论,参与到对话、验证与改造的循环中,而非被动接收模型输出 [16] - AI能将人类认知向上推,通过记忆外化、并行思维与模拟、低门槛的实验平台等能力,扩展人类的记忆、模拟与思考速度,提升认知上界 [17][19] - 人类在AI协作中保留高价值智慧,包括纠错与澄清、目标设定与价值判断、直觉性创造,这些真实世界规则与判断是模型所不具备的 [20] - 正确的人机协作应对齐两个方向:认知向上对齐,让AI扩展人的认知能力;价值观向下对齐,将人类价值、伦理与目标明确定义并内置到产品流程中,确保结果符合社会与用户期待 [21] AI产品设计新范式 - 传统互联网产品设计遵循功能拆分明确、固定交互范式、一次性数据处理/存储、向外暴露API/插件的流水线逻辑,但当能力扩展为可生成、可推理的大模型时,继续把模型当成更聪明的按钮往往行不通 [22][23][24][25][26] - 把大模型简单包装成聊天框功能会导致体验表面化但能力薄弱、成本难以控制、信任/合规问题、难以形成差异化护城河等问题 [26][27] - 新范式将大模型能力嵌入到多智能体协作+人类在环+证据可追溯的生态中,其核心要素包括明确基础模型与应用层的分工、多智能体之间的通信、最佳策略的任务分工、群体决策与纳什均衡 [28][30][31] - 对于信息来源多、参与角色多、需要多轮博弈迭代、且产出必须可验证与可追溯的复杂工作,新范式在质量、成本与信任三大维度上具有优势,并行分工减少重复检索与上下文传输,显著压低token与时间成本,结构化通信与证据包天然支持可审计与责任归属,博弈式聚合提高结论的鲁棒性 [32][34] AI产品商业化核心 - 随着注意力成本上升,信任经济正在崛起,企业需要创造真正有价值的用户体验,而非单纯流量堆砌,未来AI产品商业化核心是信任商业 [35] - AI产品必须以可靠性和可控性为基石,为用户提供可解释和可验证的结果,才能获得市场认可,形成差异化的竞争优势 [35]
吴欣鸿内部分享,美图在 AI 时代的组织进化心得
Founder Park· 2025-10-12 10:04
公司AI技术应用与市场表现 - 美图秀秀凭借AI合照功能获得欧洲14个国家App Store总榜第一,28个国家分类榜第一[4] - RoboNeo项目通过封闭开发一个月完成全球发行,上线首月MAU突破百万,未借助美图产品导流和PR推广即进入全球数十个国家应用商店分类榜前10名[22] - 公司AI编码普及率达到86%,设计流程中AI赋能使整体效率提升50%以上[43] 行业竞争格局与挑战 - 影像赛道成为行业风口,影像产品成为大厂标配,市场竞争激烈[9] - 全球涌现大量影像AI创业团队,不到10人团队能做出千万美元年度经常性收入,AI全栈工程师越来越普遍[9] - 公司面临大厂和灵活创业公司的双重竞争,内部存在17年积累带来的认知惯性和路径依赖[10] 传统工作流程痛点 - 产品需求文档需要开发长时间阅读理解,会议繁多但效率低下[16] - 需求排期长达三个月,OA审批流程需要几十人审批耗时三天[16] - 创新想法需要层层汇报,传达到决策层时已背离初衷,职能边界思维导致项目推进缓慢[16] RoboNeo项目反惯性工作流实践 - 采用需求共创模式,只确定大方向,研发设计同步开工,高频协作代替厚重文档[25] - 取消不产生决策的会议,缩短决策链路,小范围快速讨论当场拍板[26][27] - 借助AI实现单一职能多面手,海外运营工作由一人完成,传统项目需要两三人[28] - 要求所有Leader躬身入局承担执行任务,用最短时间构建MVP根据用户反馈快速迭代[29][30] AI时代组织进化方向 - 提倡全员拥抱AI生产力工具,迈向人人都是多面手,甚至一个人就是一支团队[39] - 内部搭建AI Agent平台、MCP服务平台、AI翻译平台等基础设施[44] - 鼓励简单事务不求人,用AI工具完成个人闭环,但需避免无脑照搬AI产出[44] 内部创新机制建设 - 推出AI创新工作室机制,鼓励员工组建极小规模团队实践产品构想[45] - 通过立项评审的团队获得项目启动预算和利润分红,目前已成立5个AI创新工作室[47] - 目标是构建蜂巢型组织,文化六边形提供稳定性,创新工作室保持敏捷性与体系化[58] 公司文化价值观升级 - 发布升级版价值观:热爱影像、追求极致、着眼全球、求真务实、打破惯性、爱拼能赢[55] - 文化六边形是公司最优解,提供稳定性和方向感,支撑使命让艺术与科技美好交汇[57][58] - 价值观不是推倒重来而是迭代升级,这些特质原本就深植公司基因[58]
谁在赚钱,谁爱花钱,谁是草台班子,2025 年度最全面的 AI 报告
Founder Park· 2025-10-11 19:57
行业宏观趋势 - 2025年AI行业核心变化是实际业务发展终于匹配上早期的市场炒作叙事[2] - AI已成为最重要的经济增长动力之一,16家头部AI-first公司年化总收入达到185亿美元,进入百亿美元时代[3] - AI正从前沿技术研究演变为重塑社会结构和经济基础的生产系统,影响能源市场、资本流动和政策制定[3] 模型能力与竞争格局 - 2025年被定义为“推理之年”,各大公司密集发布具备思考、推理能力的模型,如OpenAI的o1-preview和DeepSeek的R1-lite-preview[6][11] - DeepSeek R1-lite-preview在AIME 2024上以52.5分击败OpenAI o1-preview的44.6分[8] - OpenAI在前沿研究领域仍是行业标杆但优势微弱,GPT-5在关键推理与编码能力上仅领先其他模型数个百分点[17] - 模型基准测试因数据污染和结果方差逐渐失效,AI真正价值体现在实用性上[21][22] - 模型发布时机成为重要策略,Anthropic平均在融资前44天发布新模型,OpenAI平均在融资前50天发布新模型[15] 开源生态演变 - 中国正取代Meta成为全球开放权重生态系统新领导者,阿里巴巴通义千问在用户偏好、全球下载量和模型采用率上实现反超[24] - Qwen模型在Hugging Face上每月新衍生模型占比超过40%,而Llama份额从2024年末约50%下降到仅15%[24] - 中国开源生态崛起得益于完善工具链和宽松开源许可证,极大降低全球开发者使用门槛[26] AI智能体发展 - AI智能体框架生态系统进入“百家争鸣”阶段,数十个相互竞争框架共存并各自占据细分市场[27][28] - 智能体记忆从临时上下文管理转向结构化持久记忆系统,支撑推理、规划和身份认同[31][32] - 字节跳动原生GUI Agent“UI-TARS-2”在多个主流基准测试中创下最佳纪录,在网页游戏上平均得分达59.8分,约为人类水平60%[33] AI应用商业化 - 截至2025年8月,16家领先AI-first公司年化总收入达185亿美元[42] - 企业级和消费级AI应用中位数年化经常性收入在第一年分别达200万美元和400万美元以上[43] - 44家小型AI公司总收入超40亿美元,平均每位员工年创收超250万美元[43] - 顶尖AI公司从创立到达到500万美元ARR的速度比传统SaaS公司快1.5倍,2022年后成立的新一代AI公司增长速度达4.5倍[45] - 美国企业付费AI采用率从2023年初5%升至2025年9月43.8%,12个月留存率80%,平均合同价值两年内从3.9万美元涨至53万美元[48] 具体应用赛道表现 - AI编程赛道独角兽涌现,Lovable成立8个月后估值18亿美元,Base44以8000万美元估值被收购[49] - 音频与视频生成领域头部公司实现规模化营收,ElevenLabs收入在9个月内翻倍达2亿美元[52] - AI搜索成为高意向获客渠道,ChatGPT引荐零售访问转化率从约6%增长至约11%,超过所有主要营销渠道测量值[53] 芯片与硬件市场 - NVIDIA在AI芯片市场占据主导地位,市值突破4万亿美元,约90%明确引用计算硬件的开源AI论文提到NVIDIA产品[55][57] - 电力供应已取代芯片成为新制约因素,预测到2028年美国将出现68GW隐含电力缺口[64] 用户行为与基础设施 - 95%专业人士在工作或家庭中使用AI,76%专业人士自行付费使用AI工具,AI从实验性技术转变为核心生产力工具[67] - 付费用户更能感受到生产力提升,认为AI没有帮助或导致生产力下降的用户中60%是免费用户[71] - AI正改变用户信息获取习惯,“提升生产力和效率”、“编码与技术辅助”、“研究与知识学习”是三大主要使用动机[73] 行业资源分配 - AI安全研究机构资源严重不足,11家著名美国AI安全研究机构2025年预计总支出约1.33亿美元,而AI前沿实验室同年总支出估算约920亿美元[74]
智能体开发大赛、AI 项目月度路演,近期优质 AI 活动都在这里
Founder Park· 2025-10-11 19:57
AI行业近期活动与赛事 - 由深势科技、北京科学智能研究院(AISI)及上海交通大学人工智能学院联合主办的玻尔科研智能体开发大赛正在进行,第一阶段为2025年9月11日至10月10日,第二阶段为2025年10月至12月,活动形式为线上与线下结合[4] - 该大赛为第一阶段入选队伍提供研发经费支持,包括算力机时与模型API等资源,并提供全套Agent开发工具箱与孵化机会[4][5][6] - 大赛设置总奖金100万元人民币(税前),分两次发放:第一次评比奖金20万元计划于10月底发放,第二次评比奖金80万元计划于比赛结束后发放[9] - 中国技术创业协会主办的元创营高校AI Agent创新赛将于9月22日至11月7日在上海举行,聚焦“AI+互娱”方向,设置五大赛题[10] - 该创新赛提供重磅现金奖池,单个作品最高可赢取十万元大奖,优秀作品有机会上线Soul App,全球高校优胜者将汇聚上海Soul App总部[10] - S创月度路演第四十九期“未来智能Future Intelligence 1024”将于10月24日在上海漕河泾会议中心举行,活动形式为夜间场,设有酒水畅饮与DJ驻场[11] - 该路演活动将有10个未来智能项目亮相,其中8家进行路演竞技,2家进行展示,前2名将直通S创上海2026科创大会路演大赛复赛,路演项目申请截止日期为10月14日24:00[11] - 赤道象限(EquatorQ)主办的“AI全球未来峰会”将于10月17日至18日在上海举行,活动汇聚近百位行业大咖,内容涵盖创新项目路演、前沿展位、五大年度AI荣誉榜单、两大年度AI奖项及两大AI行业研究报告[11][12] - 该峰会设有AI社交名片、特邀AI主持、AI玄学解签、AI调奶茶等互动环节[12] - NVIDIA初创加速计划正在招募中,该计划为会员创业公司提供免费的NVIDIA深度学习培训中心(DLI)课程、SDK访问权限、精选软硬件优惠价格、GPU云折扣以及投融资与商务对接和联合营销机会[14][15]
为什么 OpenAI 们都要搞 AI 基建?Groq 创始人把背后的逻辑讲透了
Founder Park· 2025-10-10 21:27
AI算力供需格局与市场动态 - AI应用增长完全受限于算力供给,推理算力翻倍可令OpenAI和Anthropic的收入在一个月内几乎翻倍[3][23] - 市场算力供给远不应求,大量接近五年前发布的英伟达H100 GPU仍在被高价租用,且其产生的收入远高于运营成本[7][46][47] - 全球约有35或36家公司贡献了99%的AI收入或算力开销,市场集中度极高[14] - 在算力稀缺时代,交付能力和供应链的确定性本身构成强大的护城河,价值主张从速度转向算力容量的可获得性[3][7][49][51] 自研芯片的战略意义与挑战 - 科技巨头自研芯片的核心动机并非单纯追求性能超越,而是为了掌控自身命运和获取供应链议价权[7][32] - 自研芯片的挑战远超硬件设计,涉及极为复杂的软件生态、持续工程优化以及对技术生态演进节奏的精准把握[7][27] - 芯片成功的关键在于系统视角而非单一芯片性能,SRAM单位成本虽比DRAM贵10倍,但在系统层面因所需芯片数量大幅减少,总成本可能更具优势[145][147] - 行业预测五年后英伟达营收份额仍将超过50%,但芯片出货量占比可能低于10%,品牌溢价和客户决策惯性将维持其高端市场地位[140] 芯片行业竞争与投资逻辑 - 芯片行业存在极高的进入壁垒,首版流片成功率仅14%,从设计到量产理想情况下需三年,构成了时间护城河[159] - 投资应关注真实价值而非情绪价值,AI领域存在实打实的价值兑现,例如私募基金寻求廉价算力以直接改善被投企业利润表[104] - 英伟达的买方垄断地位体现在HBM市场,其通过大额预付款提前两年锁定产能,使得其他玩家难以获得关键组件[30][36] - Groq等新进入者通过缩短交付周期(6个月对比传统18-24个月)和独特的LPU架构切入市场,其最新一轮融资规模达7.5亿美元,估值接近70亿美元[52][53][126][127] AI三要素与经济影响 - AI三要素(数据、算法、算力)中,算力是当前最容易调整、见效最快的要素,提升任意一项都能改善AI整体表现[3][90] - AI与工业革命不同,其增长不受单一要素制约,增加算力可直接提升模型质量、用户数和经济活动,产生强烈的通缩压力[90][96][97] - AI将导致大规模的用工短缺而非失业,通缩压力使人们减少工作时间,同时催生目前难以想象的新岗位和新兴产业[98][99] - 芯片的摊销周期应更为激进,甚至按一年一换的节奏看待,其价值分为覆盖资本支出的部署阶段和覆盖运营成本的持续运行阶段[40][41][43] 地缘政治与能源制约 - AI竞赛存在主场和客场优势,中国在主场依靠政府补贴和能源建设(如计划建设150座核电机组)具备优势,但在客场能效更高的芯片是关键[68][70][74] - 欧洲在AI竞赛中面临落后风险,若无法解决算力基础设施建设(如利用挪威风电等可再生能源),其经济可能沦为旅游经济[74][78][86] - 美国及其盟友通过将算力中心建在能源便宜的地方可获得比中国更多的可用能源,行动速度和对不作为风险的恐惧是其优势[70][74][76] - 算力是AI的基础,而能源是算力的基础,未来竞争的核心在于能源基础设施的建设速度与规模[84][86] 商业模式与未来展望 - AI商业模式不同于SaaS,增加算力投入可直接提升产品质量,导致按量计费成本几乎贴着营收走,形成算力投入与收入的强正反馈[61][90] - 开源模型并不总是更便宜,某些中国模型的运行成本估计比美国模型高出十倍,价格差异源于市场锁定而非实际成本[66][67] - 大模型被视为心智的望远镜,短期让人感到自身渺小,长期将展现智能的广阔前景,未来可能从七巨头演变为九巨头甚至二十巨头[122][123][174] - 推理与训练形成正向循环,推理越多越需要追加训练优化效果,训练越多又需要铺开更多推理摊薄成本,相互促进[89]
Sam Altman:我承认我之前错了,AI 超级系统才是 OpenAI 真正想要的
Founder Park· 2025-10-09 20:37
公司战略愿景 - 核心目标是构建一个集前沿研究、超大规模基础设施和消费级产品于一体的AI超级系统,而非单一的“超级应用”[4] - 公司致力于成为人们普遍订阅的个人AI服务,用户可在其消费产品、其他服务及未来专用硬件上使用[4] - 公司将自身定位为垂直整合的AGI公司,业务核心包括个人AI订阅服务、支撑该服务所需的海量基础设施以及研究实验室[8] 垂直整合与业务逻辑 - 公司发展路径表明,为实现使命必须进行垂直整合,其技术栈包含研究、基础设施和产品,三者相互依存[11] - 公司认为垂直整合在其案例中至关重要,并以实现了极高垂直整合度的iPhone作为科技行业的成功典范[11] - 连接不同业务的底层逻辑是研究推动伟大产品,基础设施支撑研究,形成一个整合的技术栈[11] 产品策略与分发 - 产品战略是构建强大的AI超级系统,而非无所不包的“超级应用”[12] - 将Sora作为独立应用发布,而非集成进ChatGPT,是基于用户对不同产品有不同认知和心态,混合会产生割裂感[12][13] - 未来开发者将找到适合自身的新分发机制,App与ChatGPT的结合非常棒[7][8] Agent发展与技术展望 - 最看好的Agent发展方向是参考Codex在编程领域的成功,将其体验推广至法律、金融等其他行业[14] - 像Code Interpreter这样的工具,距离完成“一周的工作量”已不遥远,并非遥不可及的2025年目标[14] - 实现更高级Agent所需的技术突破包括更聪明的模型、更长的上下文处理能力和更好的记忆系统[16] - 未来交互界面可能是一个由AI实时渲染出的动态视频世界,这将解锁新的可能性[7][29] 竞争优势与护城河 - 公司认为不存在通用的“最佳答案”式护城河,独特的竞争优势往往是为特定产品、技术、市场定位量身打造且仅在特定时间点成立[7][16] - 竞争优势是在实践过程中逐步发现的,例如“记忆”功能意外成为了ChatGPT一个非常强的竞争优势和用户留存原因[17] - 获得优势的底层机制未因AI改变,网络效应、品牌、用户数据、平台双边效应等传统因素依然有效[18] 基础设施扩张与行业合作 - 公司已下定决心进行非常激进的基础设施投资,因其对研究路线图和模型能创造的经济价值充满信心[20] - 大规模投资需要整个行业或一批关键角色共同支持,涉及从底层硬件到模型分发的所有环节,未来几个月会有更多合作动作[20] - 限制公司规模的客观因素存在(如全球GDP),但距离当前水平遥远,公司因能预见未来模型能力而进行激进扩张[21][22] Sora的战略角色与盈利模式 - 发布Sora是“社会与技术共同演进”策略的一部分,旨在让社会提前感受并适应强大的视频生成技术[26][28] - Sora有助于研究计划,是通往AGI之路的一部分,并且只占了公司总算力的一小部分[26][28] - Sora的盈利模式可能需按次收费,以应对高制作成本和用户高频创作行为,对广告变现持开放但谨慎态度[30][31][32] AGI认知与未来突破 - AGI的重要标志是AI具备“发现新知识”、扩展人类知识边界的能力,目前已观察到微小但重要的突破[39] - 公司认为基于现有大语言模型技术路线能走得足够远,直至创造出能帮助找到下一条技术路线的AI[38] - 未来最令人兴奋的能力跃迁是“AI科学家”,预计两年内模型将能承担更大部分科学研究并做出重要发现[39][40] - 模型能力与公众认知之间存在巨大鸿沟,公司已创造出巨大的“能力富余”[36][37] 版权与数据使用 - 预测社会最终将接受AI使用公开数据训练属于“合理使用”,但在生成内容时需有新模式(如模仿风格、使用IP需授权)[33] - 观察到版权方态度变化,部分版权方担忧的不是其IP被过度使用,而是在AI互动中被使用得不够多[34]
OpenAI年度发布会:ChatGPT里能直接用App、Sora 2 API开放、推出Agent开发工具包
Founder Park· 2025-10-07 08:31
文章核心观点 - OpenAI DevDay 2025 发布会聚焦于“如何让人更好的用 AI 去创造”,核心是让开发者定义人与AI的交互方式 [5][6] - AI已从研究试验的新鲜玩意儿转变为每天都在用的生产工具,OpenAI开发者生态规模显著扩大 [73][75][65] App Inside ChatGPT - 这是Plugin系统的加强版,第三方应用不仅提供数据还可提供界面,用户可在ChatGPT内直接使用应用功能而无需跳转 [7][8] - 发布Apps SDK,基于MCP标准构建,开发者可快速将现有MCP服务器升级为完整App并集成到ChatGPT获取流量 [12] - 功能已开始Preview,年底开放正式提交和审核,首批合作伙伴包括Figma、Canva、Coursera、Spotify、Zillow等,未来将支持Uber、Tripadvisor及多种商业化方式 [13][15][17] Agent Kit - 发布Workflow编辑器Agent Builder,可视化拖拽节点搭建工作流,支持预览、版本管理及Guardrails安全模块,Ramp团队用其将采购agent开发周期从两个季度缩短至两个sprint,迭代周期减少70% [20][25][29][31] - Chat Kit为可嵌入聊天组件,Canva集成后节省两周开发时间,一小时完成集成 [32] - Evals for Agents新增四大能力:Datasets快速构建评估、Trace grading端到端评估工作流、自动化prompt优化、第三方模型支持 [34] 编程工具Codex - Codex正式版发布,使用专为写代码优化的GPT-5 Codex模型,OpenAI内部新代码均由其编写,使用工程师每周多完成70%的PR且每个PR都经Codex审核 [41][42] - 功能扩展至IDE、终端、GitHub、ChatGPT,现场演示通过语音和Real-time API控制会场摄像头及灯光系统,无需手写代码 [44][46][48] - 新增Slack Integration直接协作写代码,以及Enterprise Control企业级管理工具 [50][52] API迭代 - GPT-5 Pro API开放,具备400k上下文和272k最长输出,适合金融、法律、医疗等高精度场景,GPT-5 Codex已处理超40万亿tokens,为增长最快模型之一 [53][55] - Sora 2 API开放Preview,分快速版sora-2(几分钟出结果)和专业版sora-2-pro(高画质),价格每秒0.10美元起 [57][59] - Real-Time Mini语音API价格比Advanced Voice低70%,旨在推广语音交互;另发布生图模型GPT Image,最低每张图0.005美分 [61][63][64] 开发者生态与影响力 - OpenAI当前拥有400万开发者、每周8亿ChatGPT用户、API每分钟处理60亿tokens,较两年前(200万开发者、1亿用户、3亿tokens/分钟)翻倍增长 [65][67] - 现场表彰处理超100亿至1万亿tokens的开发者,并展示日本89岁退休老人用ChatGPT开发11个老年专用iPhone App的案例 [69][71]
硅谷资深工程师:不止是 AI 产品,Coding 也需要好的 taste
Founder Park· 2025-10-06 10:05
技术品味与工程价值观 - 技术品味与技术能力是两码事,有人可能技术能力强但品味差,或者技术弱但品味好 [2] - 技术品味的核心是为当前项目选择适配的工程价值观的能力 [2][6] - 软件工程中绝大多数决策核心是在不同目标之间进行权衡,很少会遇到一个选项在所有方面都绝对优于另一个选项的情况 [2][11] 品味与能力的区别 - 品味不等于能力,分歧本质上是价值观的差异 [7][10] - 不成熟的工程师对自己的决定很固执,认为做X或Y总是更好;成熟的工程师更愿意考虑决策的两面,知道两个方面都有不同的好处 [11] - 关键不在于决定技术X是否比Y更好,而在于在特定情况下X的好处是否超过了Y [11] 技术品味的构成要素 - 一个人的技术品味由他最看重的那套工程价值观构成 [11] - 重要的工程价值观包括弹性、运行速度、可读性、正确性、灵活性、可移植性、可扩展性、开发效率等 [11][12][14] - 品味取决于工程师把哪些价值观排在优先位置,例如更看重运行速度和正确性超过开发效率的工程师可能更偏爱Rust而非Python [11][14] 坏品味的识别 - 糟糕的品味意味着工程师偏好的价值观并不适合其正在从事的项目 [13] - 大多数坏品味都来源于僵化,即工程师极力推崇某样东西仅仅是因为这是他们喜欢的方式,无论是否适合当前项目 [13][15] - 永远不信任那些通过说这是最佳实践来为决策辩护的工程师,因为没有任何工程决策在所有场景下都是最佳实践 [15] 好品味的识别与培养 - 好品味的本质是为特定技术问题选择适配的工程价值观的能力,难以通过玩具问题或技术常识提问测试,必须结合真实问题及复杂现实背景判断 [16] - 培养良好品味建议多尝试不同类型的工作,仔细观察哪些项目做起来轻松,哪些部分困难重重,并注重灵活性,避免对软件开发的正确方式形成绝对化认知 [17] - 好品味可以慢慢积累,但有些人可以快速养成,编程领域也存在品味远超自身经验的天才 [18]
当下的 AI 产品:有 revenue,但不是 recurring 的
Founder Park· 2025-10-03 09:03
ARR指标的扭曲现象 - ARR(年度经常性收入)正被初创公司广泛用于展示快速增长,例如Midjourney在不到三年内ARR从零增长到2亿美元,ElevenLabs在20个月内ARR从零飙升至近1亿美元,Lovable在三个月内ARR从零增长到1700万美元,Cursor在一年内ARR从零做到1亿美元 [6] - 风险投资行业规模巨大,超过3000家VC公司管理着超过3600亿美元的资产,预计到2029年风险投资将成为一个超过7000亿美元的行业 [8] - 创始人们面临巨大压力,将各种非经常性收入计入ARR,包括试点项目、一次性交易甚至尚未激活的合同,这种做法被描述为"氛围收入"(vibe revenue) [4][8][9] ARR指标在AI时代的不适用性 - ARR指标诞生于21世纪初的SaaS浪潮,适用于稳定可预测的商业模式,但AI公司的业务动态与SaaS有本质区别 [10] - AI客户行为模式不同,早期客户更像是进行实验而非长期承诺,签订短期试点项目导致极高的客户流失风险 [12] - AI服务计费方式基于Token使用量,具有不可预测的波动性,与传统SaaS的"按席位"线性定价模式完全不同 [12] - AI初创公司的经济模型受制于少数巨头如OpenAI和Anthropic,这些"inference whales"拥有巨大定价权,可能随时调整成本,改变AI初创公司的单位经济模型 [13] 初创生态系统的封闭循环问题 - 创业过程被"产品化",像Y Combinator这样的机构将创办公司的方法标准化,导致创始人学会套用固定"剧本" [17] - 生态系统内部存在交易循环,许多AI初创公司将产品卖给其他初创公司,形成封闭经济圈 [18] - ARR指标成为给高估值找借口的工具,形成"如果我想给你更多的钱,请给我更多的ARR,我就会给你更高的估值"的循环逻辑 [18] - 风险投资是一个相对封闭的圈子,特定类型的人和商业模式更容易获得资金,导致可疑指标被接受为行业标准 [18]