Workflow
Founder Park
icon
搜索文档
万字解读OpenAI产品哲学:先发布再迭代、不要低估模型微调和评估
Founder Park· 2025-04-15 19:56
核心观点 - OpenAI采用「迭代部署」哲学 先发布不完美产品再公开迭代 与整个社会共同学习模型能力[4][10] - 公司坚持「模型最大化」理念 避免过度构建「脚手架」 因模型能力每2-3个月就有突破性进展[10][11] - 优秀AI公司必须同时是一流研究公司和产品公司 研究团队与产品团队需深度协作而非接力开发[13] - 行业低估了模型微调价值 未来特定用例需定制微调模型 组合多个专用模型解决复杂问题[17][18] - 模型评估能力成为AI产品经理核心技能 需通过结构化测试精准衡量模型在不同任务的表现[6][28] 产品发布策略 - 命名混乱反映优先级排序 模型命名重要性低于快速迭代 如GPT-4 1晚于4 5发布但性能更优[1][9] - 季度路线图仅作方向指引 实际执行高度灵活 因技术变化速度远超传统行业[5][8] - 内部使用热度是产品成功风向标 如图像生成功能推出前已在员工中形成病毒式传播[24] 组织架构与人才 - 产品团队保持精简 仅25名产品经理 依赖产品导向型工程师自主决策[14][15] - 招聘产品经理核心标准:主动性强、适应模糊性、高情商 需在技术复杂性中推动跨团队协作[15] - 研究人员嵌入每个产品团队 形成「研究-产品」闭环 避免沦为自身模型的API消费者[13][16] 技术发展趋势 - 模型能力呈指数级提升 GPT-4o mini成本仅为GPT-3 5 API的1/100 性能却显著增强[33] - 聊天界面仍是AI交互最佳载体 非结构化沟通能最大化利用模型理解人类语言的优势[37][38] - 视频生成工具Sora改变影视制作流程 导演可快速生成50个创意版本再精修 成本降低90%[33] 行业机会判断 - 基础模型公司不会覆盖所有垂直领域 创业者应聚焦行业特定数据和用例进行微调创新[19] - 评估体系决定产品上限 需针对微调模型开发定制化测试标准 如客户支持场景的准确率校准[31] - 提示工程重要性将降低 未来可通过「示例植入」实现轻量级微调 降低用户使用门槛[20]
AI活动公告板:4月份这些AI活动值得参加
Founder Park· 2025-04-15 19:56
AI行业热点与趋势 - Agent技术持续受到关注,Gemini-2.5-Pro获得广泛好评,OpenAI发布新模型GPT-4.1,上下文长度增加且编程能力显著提升 [2] - AI应用层被普遍视为2025年主战场,AI Agent技术全面崛起 [15] - AI数字人技术趋于成熟,应用层预计迎来爆发,可能成为十亿级规模赛道 [15] 重点AI活动汇总 行业战略与投资方向 - 「AI开年百日剧变」沙龙探讨DeepSeek、Manus、GPT-4o等技术变革对2025年创投市场的影响,面向创业者与投资人 [5][6] - 火星具身智能创业大赛聚焦机器人产业,入围项目可获得300+投资机构关注及产业链资源对接 [10] 技术开发与实践 - 「赛博鲁滨逊」72小时AI开发挑战赛要求参与者仅使用AI工具完成生存与创造任务,优胜者获得品牌资产包及行业认证 [7] - 微软与TEN Framework在东京举办Voice Agent工作坊,涵盖语音模型、多模态交互技术实践 [11] 学术与产业交流 - 清华i-Space联合真格基金等机构举办「AI Campus Talk」,阿里通义实验室专家分享Agent开发技术 [8] - 第三届中国AIGC产业峰会汇聚百度、华为、AWS等企业,讨论AI算力、Agent、安全及教育等热点议题 [9] 行业深度内容推荐 - 分析AI Agent浏览器的创业机会及技术路径 [15] - Anthropic工程师提出Agent开发方法论:聚焦单一场景、简化设计逻辑 [15] - Day.ai案例研究:红杉资本投资的AI Native CRM创新实践 [15]
OpenAI自曝GPT-4.5训练内幕:数据效率是关键,预训练仍然有用
Founder Park· 2025-04-14 19:34
GPT-4.5研发历程 - 项目启动于两年前,是OpenAI迄今为止最周密的计划,涉及数百人团队协作,几乎全员上阵[7][8] - 研发耗时远超预期,原计划耗时与实际相差甚远[16][17] - 目标为打造比GPT-4聪明10倍的模型,最终性能提升达到预期[16] 技术挑战与突破 - 10万卡计算集群暴露基础设施深层次故障,故障率高达40%进度才被发现[8][18][19] - 新一代硬件部署初期系统运行面临诸多未被充分认知的技术挑战[26] - 通过协同设计打造更强大技术栈,如今仅需5-10人即可复刻GPT-4级别模型[8][20] 数据效率与算法创新 - 未来AI发展关键从算力转向数据效率,需用相同数据学到更多知识[8][24] - Transformer架构在数据压缩方面高效,但洞察深度有限[24] - 算法改进产生叠加效应,每次提升10%-20%可显著提高数据效率[43] 模型训练范式转变 - 计算资源不再是主要瓶颈,数据成为制约因素[28] - 预训练模型性能提升可预测,但智能提升路径难以量化[31][32] - 1000万块GPU同步预训练可能采用去中心化模式,类似大脑各部分运作[42] 团队协作与系统优化 - 机器学习与系统团队密切合作,不存在工作界限[34] - 采用渐进式改进策略,严格验证每个改进在不同规模下的扩展性[35] - 理想系统尚未实现,当前仍需调和资源与理想化设计的差异[39] 理论基础与行业影响 - 智能本质是压缩,数据长尾效应让Scaling Law持续有效[47][48] - 预训练通过压缩数据发现抽象联系,与推理能力互补[45] - 无监督学习有效性基于压缩原理,更大规模训练带来更高压缩率[46][48]
The Information爆料:苹果的大公司病,是怎么搞砸了AI版Siri的?
Founder Park· 2025-04-14 19:34
科技媒体「The Information」近期发布了一篇关于苹果新版 Siri 延期发布内幕的评论文章,直指苹果 Siri 项目推迟发布背后隐藏的诸多问题。 模型技术路线摇摆、内部团队冲突、高层犹豫不决等,Siri AI 的失败,可以说是完整体现了一个公司面对新技术的「大公司病」。 文章基于 The Information 的文章编译,略有调整。 TLDR: 苹果 Siri 部门高级总监 Robby Walker 对此的说法是, 「但这也只是一个目标,并不意味着那时就会发布」。 换言之,关于新版 Siri 发布时间,最新的答案是: 苹果自己也不知道。 背后到底发生了什么?为何苹果在 AI 战略上进度这么缓慢,已经落后在其他手机品牌之后? 在 WWDC 2024 上预告的新版 Siri,迄今仍未发布。甚至有消息称,可能会延期到今年的 iOS 19 版本中才会正式发布。 Founder Park 正在搭建开发者社群,邀请积极尝试、测试新模型、新技术的开发者、创业者们加入,请扫码详细填写你的产品/项目信息,通过审核 后工作人员会拉你入群~ 进群之后,你有机会得到: 01 云端结合,还是一个云端模型 从大小模型协作到 ...
a16解读AI数字人:技术基本Ready、应用层即将爆发,下一个十亿级赛道
Founder Park· 2025-04-12 01:40
文章转载自「RTE开发者社区」。 过去几年,AI 已经能生成逼真的图片、视频和声音,悄然通过视觉和听觉的图灵测试。但 2025 年最令人激动的突破之一,毫无疑问将是把这些方案 集于一体的 AI 数字人(Al Avatar)。 结合 GPT-4o 吉卜力风格生成和 Hedra 制作的主播数字人,在 X 上获得了 231 万次观看。 今年 2 月,字节跳动推出的 OmniHuman-1 模型在全球 AI 圈掀起了巨浪。仅需一张照片和一段音频,即可生成具有动态背景、支持全身动作,且口 型同步的逼真 AI 视频。 这些不再令人感到「恐怖」的 AI 角色,正以惊人的速度走出「恐怖谷」,并开始全面渗透到内容创作、广告营销、企业培训等多个领域。这不仅是 人工智能技术的一次飞跃,更是内容产业的一次重要转变。 近期,a16z 发布了关于 AI Avatar 数字人的最新报告,详细介绍了数字人的研究进展、构成要素以及未来发展应用。报告中,Agora、ElevenLabs、 字节跳动的 OmniHuman 等技术被列为核心要素技术能力。 报告预测:「底层模型的技术水平已经显著提升,AI 数字人应用层将迎来快速发展的机遇,我们预计该 ...
福布斯2025 AI 50榜单:AI Agent全面崛起,应用层才是2025真正的主战场
Founder Park· 2025-04-11 19:11
《福布斯》发布了 2025 年的年度 AI 公司 50 榜单,该榜单由福布斯、红杉资本和 Meritech Capital 联合制作。 一句话总结趋势: AI Agents Move Beyond Chat。 前几年,AI 应用主要还是用于回答问题或根据指令生成内容,而今年的创新则侧重于 AI 实际完成工作。AI 正从简单地响应提示,转向解决问题和完 成整个工作流程。 红杉资本给出的几点核心观察: | 公司 | 行业/业务 | 融资 | 成立年份 城市 | 国家 | | --- | --- | --- | --- | --- | | Abridge | 医生用 Al 笔记工具 | $458 M | 2018 旧金山 | 美国 | | Anthropic | Al 模型开发商 | $17 B | 2020 旧金山 | 美国 | | Anysphere | AI 编程工具 | $176 M | 2022 旧金山 | 美国 | | Baseten | AI 应用部署软件 | $135 M | 2019 旧金山 | 美国 | | Captions | 视频编辑器 | $100 M | 2021 纽约 | 美国 | | ...
Anthropic工程师教你怎么做AI Agent:不做全场景、保持简单,像Agent一样思考
Founder Park· 2025-04-11 19:11
Agent系统构建原则 - 避免构建全能型Agent 大模型更适合处理通用任务 应专注于特定领域[3] - 明智选择应用场景 非所有任务都需要Agent 保持系统简单性优先[9] - 迭代过程中需从Agent视角思考 理解其局限性并提供必要支持[9] Agent系统演进路径 - **简单功能阶段**:早期处理摘要/分类等基础任务 现已成为行业标配[9] - **工作流阶段**:通过编排多模型调用形成预定义控制流 牺牲成本/延迟换取性能提升[9] - **Agent阶段**:模型能力强化后出现领域专用Agent 可自主决策行动路径[9] - **未来趋势**:可能向通用单一Agent或多Agent协作发展 系统自主权持续扩大但伴随成本/错误率上升[9] Agent适用性评估框架 - **任务复杂度**:模糊问题空间适合Agent 清晰决策路径应选工作流[11][13] - **任务价值**:需验证Agent探索成本 低于$0.1/任务选工作流 高于$1可考虑Agent[11][13] - **能力可行性**:关键环节需无严重瓶颈 否则应缩减任务范围[11][13] - **错误成本**:高代价错误场景需设置只读模式或人工干预[11][13] - 编码是典型适用场景 因复杂度高/价值大/结果易验证[12] Agent核心架构设计 - 基础结构=模型+工具+循环 在特定环境中运作[15][21] - 优先迭代三大组件(环境/工具集/系统提示) 避免过早复杂化[16][21] - 不同领域Agent共享相似后端架构 产品层表现差异化[17] 开发者优化策略 - 模拟Agent有限上下文窗口(10k-20k token) 体验决策局限性[19][22] - 直接询问模型(如Claude)以诊断指令模糊性/工具理解障碍[23] - 优化方向包括缓存轨迹/并行化工具调用/改进用户界面[16] 未来发展方向 - **预算感知**:需强化成本/延迟控制 定义时间/token预算机制[24] - **工具进化**:探索Agent自设计工具能力 提升工具通用性[25] - **多Agent协作**:预计年底出现生产级应用 需解决异步通信等挑战[26]