Founder Park
搜索文档
AdventureX 2025招募开启:5天时间,用AI做点东西,改变世界一点点
Founder Park· 2025-04-17 20:12
以下文章来源于AdventureX ,作者激动地上蹦下跳的 AdventureX . 让更多中国年轻人为改变世界而活 47 此图片来自微信公众平台 未经究许不可引用 此图片来自微信公众平台 未经允许不可引用 编者荐语: Founder Park 作为合作方,强烈推荐 26 岁以上的创业者也来参与: 你不是来讲故事的,你是来重新做事的。真正的经验,是用来被年轻人挑战的。 最好的 Mentor 不是站在讲台上,而是坐在地板上和年轻人一起吃泡面、Debug、吵架、构建的那个 人。 此图片来自微信公众平台 未经允许不可引用 此图片来自微信公众平台 未经允许不可引用 此图片来自微信公众平台 未经允许不可引用 此图片来自微信公众平台 未经允许不可引用 4 此图片来自微信公众平台 此图片来自微信公众平台 未经允许不可引用 ■ ■ � P t P ■ 此图片来自微信公众平台 未经允许不可引用 此图片来自微信公众平台 未经允许不可引用 此图片来自微信公众平台 未经允许不可引用 此图片来自微信公众平台 未经允许不可引用 此图片来自微信公众平台 未经允许不可引用 此图片来自微信公众平台 未经允许不可引用 此图片来自微信公众平台 未 ...
OpenAI科学家姚顺雨:o3发布、RL迎来新范式,AI正式进入下半场
Founder Park· 2025-04-17 20:12
AI发展阶段的划分 - AI发展进入下半场,核心从训练方法创新转向问题定义和评估体系重构 [1][5] - 上半场的标志性成果包括DeepBlue、AlphaGo、GPT-4等,均依赖训练方法突破 [2][6] - 下半场的关键转变在于强化学习(RL)泛化能力突破,实现跨领域任务统一解决 [3][13] 上半场的特征与局限 - 最具影响力的AI论文集中于训练方法创新,如Transformer(16万次引用)远超其基准WMT'14(1300次) [8][10] - 训练方法创新具有跨领域通用性,例如Transformer同时推动CV、NLP、RL发展 [11] - 局限性在于过度简化评估环境,导致算法与现实需求脱节 [19][21] 有效配方(Recipe)的构成 - 核心要素包括:大规模语言预训练、算力数据扩展、推理与行动结合 [14] - 传统RL三要素中,先验知识(priors)重要性被低估,语言预训练成为泛化关键 [22][29] - OpenAI实践显示环境设计优先级需提升,Gym/Universe项目验证环境复杂性需求 [21] 下半场的范式转变 - 评估体系需重构,挑战自动运行、独立同分布(i.i.d.)等传统假设 [38][41] - 新游戏规则要求开发面向现实效用的评估设定,突破渐进式改进局限 [33][41] - 典型案例包括Chatbot Arena引入真人交互、tau-bench采用用户模拟 [38] 技术突破的具体表现 - ReAct框架实现语言推理与行动协同,成为Agent领域基础架构 [27][28] - GPT系列通过预训练注入先验知识,解决WebGPT/ChatGPT等现实任务 [21][22] - o系列模型展现跨任务泛化能力,特定任务优化边际效益递减 [33] 行业影响与未来方向 - 头部实验室资源向RL环境设计倾斜,算法创新优先级下降 [1][29] - 效用问题(Utility Problem)成为核心挑战,需建立与经济价值挂钩的评估标准 [36][37] - 产品化能力成为竞争焦点,成功案例可能催生万亿级企业 [41][42]
AI创业,为什么小红书是「冷启动」的第一步?
Founder Park· 2025-04-16 20:56
独立开发者趋势 - 2022-2024年独立开发者Shawn因工作压力转向独立开发,其开发的晒太阳App「SunAlly」通过小红书内测2个月获2万用户,并被App Store推荐[2][3][4][19] - 良渚地区独立开发者数量激增,AI技术降低开发门槛是核心驱动因素,行业出现「小红书+Cursor」两件套现象[4][18] - 小红书过去一年活跃独立开发者超5万名,相关内容发布增长146%[31] 小红书平台价值 - 小红书成为独立开发者冷启动核心渠道,90%用户来自平台内测,算法去中心化机制助力精准曝光[10][19][20][21] - 平台生活社区属性形成「需求池」,开发者通过关键词搜索(如「晒太阳」百万笔记)验证细分需求并调整产品方向[23][25] - 案例:谜底黑胶3.0版本通过单条小红书视频实现国内用户高峰,Stress Watch针对小红书20-35岁女性用户设计获400万用户[13][27][29] 产品开发模式变革 - 开发逻辑转向毛细血管级需求,如INFJ陪伴应用、ADHD专注神器等,AI技术使开发周期缩短至「快时尚」级别[24][25] - 用户直接参与产品迭代,如小猫补光灯开发者将用户反馈写入版本更新记录,形成「隐形共创」模式[32][36] - 独立开发者年均开发超1款应用,90%开发者推出多款产品,应用或成为新型内容形态[37] 行业未来展望 - 小红书计划搭建产品能力简化开发流程,推动「应用即内容」生态,或演变为新一代App Store[37][38] - AI技术平权下独立开发者被视为AI时代创作者,其敏捷开发模式预示应用分发新趋势[39]
黄仁勋「组局」,具身智能的核心玩家们聊了聊人形机器人的落地与未来
Founder Park· 2025-04-16 20:56
核心观点 - 英伟达发布通用机器人模型GR00T N1 重点布局Physical AI领域 并召集行业核心玩家探讨人形机器人技术路径与数据问题 [2] - 机器人领域加速发展得益于三大因素:模型突破(多模态/推理能力)、数据获取方式革新(仿真技术)、硬件成本下降(价格从150万美元降至4万美元) [8][9] - 具身智能未来将走向通用模型 但需要解决数据多样性问题 真实环境数据收集至关重要 [14][16][17] - 行业对"一脑多体"技术路径存在分歧 硬件与软件协同进化是关键挑战 [20][21] - 预计3-5年内机器人将实现社会普及 专用机器人将早于通用机器人落地 [24][25] 技术突破 - 模型层面:大型基础模型(如LLM)的出现使三维视觉理解和开放词汇能力大幅提升 端到端模型简化了控制架构 [9][14] - 数据层面:GPU加速仿真技术可在3小时内生成相当于10年训练数据量 突破数据瓶颈 [9][18] - 硬件层面:执行器/传感器等核心部件商品化 硬件价格从2001年150万美元降至当前4万美元水平 [9][13] 行业趋势 - 数据获取:必须通过真实环境部署获取多样化数据 家庭/工厂等场景将成关键数据源 [12][17] - 技术路径:从"基于编程的经验"转向"通过经验学习" 形成数据飞轮效应 [10][12] - 产品演进:专用机器人先行商用(如Agility的Digit) 逐步向多任务/通用型发展 [25][26] 关键挑战 - 跨实体泛化:需建立"实体宇宙"概念 通过多样化硬件平台积累数据 目前零样本泛化仍不现实 [20][21] - 安全机制:必须内置安全性设计 传统控制方法与AI新技术的"工具箱"需协同使用 [15][22] - 幻觉消除:物理交互能力是纠正认知偏差的核心 需构建闭环反馈系统 [22][23] 商业化展望 - 短期(1-2年):专用机器人在物流/制造等垂直领域实现商业价值 [25] - 中期(3-5年):机器人社会渗透率显著提升 进入消费级市场 [24] - 长期(10年):可能引发类似电力普及的社会变革 形成数字物理劳动力网络 [24][26]
万字解读OpenAI产品哲学:先发布再迭代、不要低估模型微调和评估
Founder Park· 2025-04-15 19:56
核心观点 - OpenAI采用「迭代部署」哲学 先发布不完美产品再公开迭代 与整个社会共同学习模型能力[4][10] - 公司坚持「模型最大化」理念 避免过度构建「脚手架」 因模型能力每2-3个月就有突破性进展[10][11] - 优秀AI公司必须同时是一流研究公司和产品公司 研究团队与产品团队需深度协作而非接力开发[13] - 行业低估了模型微调价值 未来特定用例需定制微调模型 组合多个专用模型解决复杂问题[17][18] - 模型评估能力成为AI产品经理核心技能 需通过结构化测试精准衡量模型在不同任务的表现[6][28] 产品发布策略 - 命名混乱反映优先级排序 模型命名重要性低于快速迭代 如GPT-4 1晚于4 5发布但性能更优[1][9] - 季度路线图仅作方向指引 实际执行高度灵活 因技术变化速度远超传统行业[5][8] - 内部使用热度是产品成功风向标 如图像生成功能推出前已在员工中形成病毒式传播[24] 组织架构与人才 - 产品团队保持精简 仅25名产品经理 依赖产品导向型工程师自主决策[14][15] - 招聘产品经理核心标准:主动性强、适应模糊性、高情商 需在技术复杂性中推动跨团队协作[15] - 研究人员嵌入每个产品团队 形成「研究-产品」闭环 避免沦为自身模型的API消费者[13][16] 技术发展趋势 - 模型能力呈指数级提升 GPT-4o mini成本仅为GPT-3 5 API的1/100 性能却显著增强[33] - 聊天界面仍是AI交互最佳载体 非结构化沟通能最大化利用模型理解人类语言的优势[37][38] - 视频生成工具Sora改变影视制作流程 导演可快速生成50个创意版本再精修 成本降低90%[33] 行业机会判断 - 基础模型公司不会覆盖所有垂直领域 创业者应聚焦行业特定数据和用例进行微调创新[19] - 评估体系决定产品上限 需针对微调模型开发定制化测试标准 如客户支持场景的准确率校准[31] - 提示工程重要性将降低 未来可通过「示例植入」实现轻量级微调 降低用户使用门槛[20]
AI活动公告板:4月份这些AI活动值得参加
Founder Park· 2025-04-15 19:56
AI行业热点与趋势 - Agent技术持续受到关注,Gemini-2.5-Pro获得广泛好评,OpenAI发布新模型GPT-4.1,上下文长度增加且编程能力显著提升 [2] - AI应用层被普遍视为2025年主战场,AI Agent技术全面崛起 [15] - AI数字人技术趋于成熟,应用层预计迎来爆发,可能成为十亿级规模赛道 [15] 重点AI活动汇总 行业战略与投资方向 - 「AI开年百日剧变」沙龙探讨DeepSeek、Manus、GPT-4o等技术变革对2025年创投市场的影响,面向创业者与投资人 [5][6] - 火星具身智能创业大赛聚焦机器人产业,入围项目可获得300+投资机构关注及产业链资源对接 [10] 技术开发与实践 - 「赛博鲁滨逊」72小时AI开发挑战赛要求参与者仅使用AI工具完成生存与创造任务,优胜者获得品牌资产包及行业认证 [7] - 微软与TEN Framework在东京举办Voice Agent工作坊,涵盖语音模型、多模态交互技术实践 [11] 学术与产业交流 - 清华i-Space联合真格基金等机构举办「AI Campus Talk」,阿里通义实验室专家分享Agent开发技术 [8] - 第三届中国AIGC产业峰会汇聚百度、华为、AWS等企业,讨论AI算力、Agent、安全及教育等热点议题 [9] 行业深度内容推荐 - 分析AI Agent浏览器的创业机会及技术路径 [15] - Anthropic工程师提出Agent开发方法论:聚焦单一场景、简化设计逻辑 [15] - Day.ai案例研究:红杉资本投资的AI Native CRM创新实践 [15]
OpenAI自曝GPT-4.5训练内幕:数据效率是关键,预训练仍然有用
Founder Park· 2025-04-14 19:34
GPT-4.5研发历程 - 项目启动于两年前,是OpenAI迄今为止最周密的计划,涉及数百人团队协作,几乎全员上阵[7][8] - 研发耗时远超预期,原计划耗时与实际相差甚远[16][17] - 目标为打造比GPT-4聪明10倍的模型,最终性能提升达到预期[16] 技术挑战与突破 - 10万卡计算集群暴露基础设施深层次故障,故障率高达40%进度才被发现[8][18][19] - 新一代硬件部署初期系统运行面临诸多未被充分认知的技术挑战[26] - 通过协同设计打造更强大技术栈,如今仅需5-10人即可复刻GPT-4级别模型[8][20] 数据效率与算法创新 - 未来AI发展关键从算力转向数据效率,需用相同数据学到更多知识[8][24] - Transformer架构在数据压缩方面高效,但洞察深度有限[24] - 算法改进产生叠加效应,每次提升10%-20%可显著提高数据效率[43] 模型训练范式转变 - 计算资源不再是主要瓶颈,数据成为制约因素[28] - 预训练模型性能提升可预测,但智能提升路径难以量化[31][32] - 1000万块GPU同步预训练可能采用去中心化模式,类似大脑各部分运作[42] 团队协作与系统优化 - 机器学习与系统团队密切合作,不存在工作界限[34] - 采用渐进式改进策略,严格验证每个改进在不同规模下的扩展性[35] - 理想系统尚未实现,当前仍需调和资源与理想化设计的差异[39] 理论基础与行业影响 - 智能本质是压缩,数据长尾效应让Scaling Law持续有效[47][48] - 预训练通过压缩数据发现抽象联系,与推理能力互补[45] - 无监督学习有效性基于压缩原理,更大规模训练带来更高压缩率[46][48]
The Information爆料:苹果的大公司病,是怎么搞砸了AI版Siri的?
Founder Park· 2025-04-14 19:34
科技媒体「The Information」近期发布了一篇关于苹果新版 Siri 延期发布内幕的评论文章,直指苹果 Siri 项目推迟发布背后隐藏的诸多问题。 模型技术路线摇摆、内部团队冲突、高层犹豫不决等,Siri AI 的失败,可以说是完整体现了一个公司面对新技术的「大公司病」。 文章基于 The Information 的文章编译,略有调整。 TLDR: 苹果 Siri 部门高级总监 Robby Walker 对此的说法是, 「但这也只是一个目标,并不意味着那时就会发布」。 换言之,关于新版 Siri 发布时间,最新的答案是: 苹果自己也不知道。 背后到底发生了什么?为何苹果在 AI 战略上进度这么缓慢,已经落后在其他手机品牌之后? 在 WWDC 2024 上预告的新版 Siri,迄今仍未发布。甚至有消息称,可能会延期到今年的 iOS 19 版本中才会正式发布。 Founder Park 正在搭建开发者社群,邀请积极尝试、测试新模型、新技术的开发者、创业者们加入,请扫码详细填写你的产品/项目信息,通过审核 后工作人员会拉你入群~ 进群之后,你有机会得到: 01 云端结合,还是一个云端模型 从大小模型协作到 ...
a16解读AI数字人:技术基本Ready、应用层即将爆发,下一个十亿级赛道
Founder Park· 2025-04-12 01:40
AI数字人技术发展 - AI数字人技术已能生成逼真的图片、视频和声音,通过视觉和听觉图灵测试,2025年将成为重大突破方向[2][7] - 字节跳动OmniHuman-1模型仅需一张照片和一段音频即可生成动态背景、全身动作且口型同步的逼真AI视频[5] - 结合GPT-4o与Hedra制作的吉卜力风格数字人主播视频在X平台获得231万次观看[4] 技术研究进展 - 模型架构从CNN/GANs演进至3D技术(NeRFs)、Transformer、扩散模型及DiT架构,质量显著提升[9][13] - Hedra Character-3模型在多数场景表现最佳,支持非人类角色及情绪动作文本控制[13] - 当前技术突破包括半身/全身运动生成、动态背景整合及复杂场景唇形同步精度提升[13] 核心构成要素 - 面部需保持帧间连贯性并实现上下文感知表情(如疲惫时打哈欠)[25] - 声音需匹配角色特征,ElevenLabs提供庞大语音库及声音克隆功能[25] - 唇形同步依赖音素-视素映射,字节OmniHuman等模型通过海量数据训练实现精确控制[9][25] - 身体动作、背景交互、实时流传输(Agora)及智能对话能力为关键挑战[25] 应用场景 消费者领域 - 单张图片即可创建动画角色,应用于AI主播、播客、音乐视频等内容创作[18] - Hedra支持图片+音频生成说话角色,Sync工具实现视频素材唇形同步[18][19] - 实时AI教练等交互场景潜力大,Praktika已探索语言学习应用[20] 中小企业领域 - Creatify等工具自动生成含AI演员的广告,降低传统制作成本[21] - 电商/游戏领域普及度高,B2B企业开始用于个性化客户拓展[21] 大型企业领域 - Synthesia自动化员工培训视频制作,提升规模化效率[22] - ElevenLabs支持多语言视频生成,助力全球化内容本地化[22] - 高管形象克隆(Delphi)实现个性化内容批量生产[22] 未来发展趋势 - 角色一致性突破:HeyGen已实现单一角色20种外观变换[26] - 面部表情精细化:Captions Mirage提升表情自然度[27] - 身体动作智能化:Argil尝试程序化手势控制[28] - 环境交互能力:Topview探索广告产品展示功能[29] - 实时互动场景:AI医生咨询、销售助手等应用前景广阔[30] 市场前景 - a16z预测AI数字人应用层将快速发展,孕育多个价值数十亿美元的公司[5][31] - 工作流程差异化决定细分市场,企业级需求偏向高质量与真实性[31]
Anthropic工程师教你怎么做AI Agent:不做全场景、保持简单,像Agent一样思考
Founder Park· 2025-04-11 19:11
Agent系统构建原则 - 避免构建全能型Agent 大模型更适合处理通用任务 应专注于特定领域[3] - 明智选择应用场景 非所有任务都需要Agent 保持系统简单性优先[9] - 迭代过程中需从Agent视角思考 理解其局限性并提供必要支持[9] Agent系统演进路径 - **简单功能阶段**:早期处理摘要/分类等基础任务 现已成为行业标配[9] - **工作流阶段**:通过编排多模型调用形成预定义控制流 牺牲成本/延迟换取性能提升[9] - **Agent阶段**:模型能力强化后出现领域专用Agent 可自主决策行动路径[9] - **未来趋势**:可能向通用单一Agent或多Agent协作发展 系统自主权持续扩大但伴随成本/错误率上升[9] Agent适用性评估框架 - **任务复杂度**:模糊问题空间适合Agent 清晰决策路径应选工作流[11][13] - **任务价值**:需验证Agent探索成本 低于$0.1/任务选工作流 高于$1可考虑Agent[11][13] - **能力可行性**:关键环节需无严重瓶颈 否则应缩减任务范围[11][13] - **错误成本**:高代价错误场景需设置只读模式或人工干预[11][13] - 编码是典型适用场景 因复杂度高/价值大/结果易验证[12] Agent核心架构设计 - 基础结构=模型+工具+循环 在特定环境中运作[15][21] - 优先迭代三大组件(环境/工具集/系统提示) 避免过早复杂化[16][21] - 不同领域Agent共享相似后端架构 产品层表现差异化[17] 开发者优化策略 - 模拟Agent有限上下文窗口(10k-20k token) 体验决策局限性[19][22] - 直接询问模型(如Claude)以诊断指令模糊性/工具理解障碍[23] - 优化方向包括缓存轨迹/并行化工具调用/改进用户界面[16] 未来发展方向 - **预算感知**:需强化成本/延迟控制 定义时间/token预算机制[24] - **工具进化**:探索Agent自设计工具能力 提升工具通用性[25] - **多Agent协作**:预计年底出现生产级应用 需解决异步通信等挑战[26]