Workflow
Founder Park
icon
搜索文档
Manus 加入 Meta,1 年内公司价值 100 倍增长,他们做对了什么?
Founder Park· 2025-12-30 09:01
文章核心观点 - 公司Manus作为一家中国AI Agent创业公司,凭借其产品创新和工程化能力,在缺乏自研大模型的情况下,成功获得海外科技巨头的高度认可与紧密合作,并实现了接近1亿美元的年化经常性收入和约20亿美元估值,其发展路径验证了AI应用层的巨大价值和“增量思维”的重要性 [6][11][12] - 公司的发展历程和Meta可能涉及40-50亿美元的收购交易,印证了AI创业公司在时代变革中通过聚焦、锐利和高效的工程化投入,能够实现“量子隧穿”般的市场突破,并获得巨大的先发红利与超额回报 [6][17][20] - 对于AI应用层公司而言,当前阶段的战略重点不应是纠结于“套壳”质疑或过度优化成本,而应是通过持续交付卓越用户体验、锁定用户工作流与生活流来构建壁垒,并在通用AI Agent底座上不断塑造爆款场景以卷入更多用户 [29][30][31] 根据相关目录分别进行总结 01 「没有模型」却带来了增量游戏 - 公司Manus没有自研大模型,这在国内常受诟病,但在海外巨头眼中却成为亮点,因为它为巨头们的模型创造了新的token消耗出口,是生态繁荣的体现 [13] - 海外巨头如谷歌、微软、OpenAI对Manus持开放与合作态度,谷歌有工程师近乎常驻团队协助与Gemini融合,微软CEO纳德拉也与团队进行了面对面交流并推进合作 [11][15] - 这种合作模式体现了“增量思维”,即巨头乐于看到应用层生态繁荣,而非立即进行“存量游戏”式的收编或控制,这与部分国内巨头的早期策略形成对比 [13][16] 02 「量子隧穿」与「势垒改变」 - 公司Manus的成功可以用“量子隧穿效应”类比:作为资源有限的创业公司,它通过工程化能力“穿透”了看似由巨头把持的技术与市场壁垒,获得了先发红利 [17][18] - 一旦实现“隧穿”,市场格局会发生“势垒改变”:技术可行性得到验证降低了后来者的进入门槛(壁垒高度降低),但先行者积累的用户、资本和生态优势却增加了竞争难度(壁垒宽度增加) [18] - 公司能够实现突破,源于团队在通用AI Agent领域的坚决投入、高效的工程化能力,以及此前产品Monica的实践积累,这些构成了较高的“初始能量” [20][22] 03 Manus们接下来的目标该是什么? - 公司接下来的关键挑战是在其通用AI Agent底座上,持续塑造能引发用户主动参与的爆款应用场景,像抖音一样通过一波波热点不断卷入新用户 [26] - 公司ARR已接近1亿美元,但不应仅从传统财务角度看待,其意义在于更多用户被卷入以及用户工作流和生活流被锁定所带来的高留存价值 [29] - 在当前阶段,公司应优先考虑提升用户有意义的token消耗以巩固生态地位,而非过度优化成本;应把资源投入到交付超越用户想象的体验上,而非大规模买量 [29][30] - 根据“需求收敛模型”,只要能够覆盖大部分用户最常用的核心任务场景并良好交付,就能在用户心中建立起“通用Agent”的认知 [28][29] 04 对于「套壳」的讨论,可以翻篇了 - 将大模型类比为CPU,AI Agent则需要建设大量的周边管理系统(如进程管理、内存管理等),解决这些工程问题本身具有巨大价值,不能简单斥为“套壳” [31] - 如同每一台苹果手机都是CPU的“套壳”,但外壳本身代表了复杂精致的产品工程,AI应用层同样会经历百花齐放的过程并产生有价值的企业 [32] - 在这一世界观下,AI时代的创业机会属于更多能够解决具体工程问题和产品化挑战的创业者 [33]
推特热议、AI 万亿美元新赛道,「上下文图谱」到底是什么?创业机会在哪?
Founder Park· 2025-12-29 19:51
文章核心观点 - 下一代万亿美元级别的企业软件平台机会在于捕捉和利用“决策轨迹”,构建“上下文图谱”,而非仅仅为现有记录系统添加AI功能 [3][5][10] - AI Agent不会取代传统的记录系统,但会凸显“决策轨迹”的价值,即记录数据背后的“为什么”和推理过程,这需要全新的系统来捕捉 [3][4][6] - 捕捉决策轨迹的“上下文图谱”将成为组织的“世界模型”,使AI能进行基于先例的推理和模拟,这是初创公司相对于传统软件巨头的结构性优势 [3][44][47][66] 对传统记录系统与AI Agent关系的讨论 - 上一代企业软件通过成为“记录系统”创造了万亿美元生态,其逻辑是掌握最权威的数据和核心工作流 [5] - AI Agent不会杀死记录系统,反而会对高质量、权威的数据源提出更高要求,Agent将成为新的交互界面,背后仍需权威数据支撑 [5] - 传统观点认为Agent所需数据已存在,只需更好访问和治理,但这忽略了让企业真正运转的“决策轨迹”信息 [2][6] 决策轨迹与上下文图谱的定义与价值 - **决策轨迹**:记录了企业运营中具体的“为什么”,包括例外、特批、过往案例及跨系统上下文,目前散落在聊天记录、会议和员工脑海中 [3][6] - **上下文图谱**:由决策轨迹积累形成的动态结构,是跨越实体和时间的决策记录,将“先例”变为可搜索数据,解释了“为什么允许它发生” [3][8][9] - 其核心价值在于连接“数据”与“行动”背后的“推理”过程,这是当前企业最稀缺的资产 [3][12][13] 当前企业信息系统的缺失与问题 - 现有系统普遍缺失对决策轨迹的捕捉,问题不在于数据脏乱或孤立,而在于推理过程从未被当作正式数据对待 [11][12] - 缺失的信息主要包括:存在于经验中的例外规则、来自过往决策的参考先例、跨系统的综合分析过程、以及系统之外的审批流程上下文 [21] - 现有系统主要围绕“状态时钟”构建,记录“现在是什么”,但几乎缺乏“事件时钟”来记录“为什么会这样” [24][25][26] 构建上下文图谱的核心挑战与思路 - 面临三大核心问题:1) 多数系统是“黑箱”;2) 没有通用标准;3) 一切都在动态变化 [30] - 构建思路是将AI Agent视为“有目标的探索者”,其解决问题的过程就是对组织信息空间的一次遍历,其执行轨迹构成了对组织结构的采样 [31][32][40][43] - 不需要预设模式,模式是结果而非起点,通过充分遍历系统,表达自然涌现 [37] - 需要编码决策的“结构”和“形态”,而非仅仅是语义,回答“解决什么问题通常牵扯哪些部门”、“什么事件先于另一些事件发生”等问题 [34][35][41] 上下文图谱作为“世界模型”的意义 - 上下文图谱本质上是组织的“世界模型”,是一个通过学习得到的、关于组织环境如何运转的压缩表示 [44][45] - 它使AI能进行推理和模拟,预测行动后果,实现反事实推理,这类似于经验丰富员工脑中的模型 [47][52] - 未来方向可能不是让基础模型持续学习,而是为其打造一个能持续进化的世界模型,基础模型是引擎,上下文图谱是世界模型 [51][53][54] 不同类型厂商的竞争格局分析 - **传统运营系统巨头**:如Salesforce、ServiceNow,其AI受限于“当前状态”陷阱和数据孤岛,无法回放决策上下文,存在视野盲区 [57][58] - **数据仓库厂商**:如Snowflake、Databricks,困在数据的“只读路径”上,决策发生后数据才入库,关键上下文已丢失 [60][63][64][65] - **Agent初创公司**:具有结构性优势,因其处于工作流的“执行路径”或“编排路径”上,能在决策瞬间捕获完整上下文,这是事后无法补丁的 [7][66][67][68] 潜在的创业机会与路径 - **路径一:直接取代**:打造AI原生的记录系统,架构原生支持事件溯源和策略捕捉,如Regie [69] - **路径二:模块化渗透**:聚焦例外审批集中的特定工作流,成为该决策的记录系统,而不替换整个底层系统,如Maximor [70] - **路径三:创造全新系统**:从跨系统编排层切入,核心是储存企业从未有过的“决策轨迹”,使其自身成为最权威资产,如PlayerZero [71] - Agent的可观察性将成为关键基础设施,如Arize旨在成为AI时代的Datadog [71] 识别市场机会的关键信号 - **高人力成本流程**:大量员工手动处理工单、核对数据,表明决策逻辑复杂,传统工具无法胜任 [73] - **充满例外的决策场景**:逻辑复杂、先例重要、答案需“看情况”的领域,如销售审批、保险承保、合规审查 [73] - **处在系统交叉点的部门**:如营收运营、开发运维等部门的存在,本身就表明缺乏能处理跨职能工作流的单一系统,自动化这些角色的Agent能沉淀全新决策事实 [74]
Manus 产品立项初期会议纪要
Founder Park· 2025-12-28 14:36
文章核心观点 - 文章记录了Manus项目立项初期的核心讨论,旨在通过打造一个通用性优先的智能体平台,并逐步优化高频场景,以重新定义智能体并成为人类心智的延伸 [2][8][23] 产品哲学与战略定位 - 确立了“通用性优先,逐步沉淀和优化高频场景”的核心战略,类比为“百度模式”,即先构建通用平台吸引用户探索,再基于高频需求反向优化推出预设能力 [8][10][14] - 讨论了通用性的潜在挑战,包括与专业软件(如Final Cut Pro)竞争时在复杂图形界面操作上的短期瓶颈,以及通用智能体可能面临的不同领域知识冲突问题 [11] - 提出了更具未来感的设想,即若Agent运行在完整的“带桌面环境的虚拟机”中,可通过模拟键鼠操作直接使用专业软件,从而突破通用性边界 [11] 技术架构与核心能力 - 技术基石是实现Agent对Web的复杂操作,探讨了“Browser in Browser”概念,即由云端Agent完全控制的浏览器实例流式传输到用户前端 [12][13] - 参考了名为XPRA的开源项目,该项目能将远程应用界面以流式方式传输至前端,且仅传输变化的像素区域,为低延迟远程交互提供了可行方案 [13] - 将“状态持久化”视为构建真正“代理”能力的核心痛点,旨在解决当前Agent产品(如Devin)会话“一次性”的问题,需持久化的关键部分包括:网站登录状态(Cookies & LocalStorage)、文件系统、环境变量与密钥管理 [15][18] - 设计了“用户接管”机制,当Agent遇到障碍(如验证码)时,用户可流畅接管浏览器操作,完成后将控制权交还Agent,以弥补当前AI能力不足 [15] 用户界面与交互设计 - 分析了Devin界面的双重角色:左侧对话流建立“信任”,右侧工作区(Planner, Shell, Browser)为专业用户提供“控制”和透明度 [16][17][19] - 批判了Devin界面的不足:信息过载、缺乏全局概览(如编辑器无文件目录树)、功能组织混乱(如将表格文档全塞入Browser标签) [19] - 提出了Manus的UI设计哲学:采用“渐进式披露”,默认呈现简洁对话框,随任务展开才浮现相关工具窗口;采用“操作系统隐喻”,将浏览器、表格、文档编辑器等设计为独立平等的“一级应用”,提供清晰可扩展的框架 [17][19] 人机协作模式与价值主张 - 认为Agent的价值在于克服人类的认知与执行局限,如人类的“经验主义陷阱”、“缺乏持续性”,而Agent可以不知疲倦地从“第一性原理”出发进行全局搜索与评估 [21][24] - 以游戏《EVE Online》的复杂经济系统管理为例,揭示了Agent作为“总调度官”或“超级助理”,帮助人类管理超越单人认知与执行能力上限的庞大工程的潜在高价值应用场景 [21] 项目结论与后续步骤 - 讨论形成了可指导后续工作的核心原则:战略上采用“通用性平台+高频场景优化”双轮驱动;技术上以“状态持久化”和“云端浏览器”为核心构建架构;产品上以“渐进式披露”和“操作系统隐喻”打造界面 [22][25] - 团队迅速成立项目组,明确了分工,项目正式启动 [23]
预算有限,AI 团队怎么在小红书、推特上招到人?
Founder Park· 2025-12-27 12:59
文章核心观点 - 对于AI领域的创业团队而言,组建全球化团队已成为必然选择,而传统的招聘与管理方式已难以应对跨国远程团队的挑战,需要从人才画像、招聘渠道、雇佣合规、薪酬体系到跨时区协作进行系统性重构 [1][2][4] 全球化团队招聘策略 - **重新定义人才画像**:在跨国远程环境中,除了专业技能,候选人是否具备极强的自我驱动力和高度结构化思维能力更为关键,应寻找能主动创造价值的“合伙人”式人才 [8] - **采用组合渠道精准触达**:单一招聘渠道效果有限,需采用“内容吸引+渠道分发”的组合打法,通过在有价值的社交平台分享行业干货来吸引目标人才 [9][10] - **实施结构化面试验证能力**:面试流程应设计为多轮验证,例如通过纯英文对话、业务场景角色扮演和战略层面对话,来系统考察语言能力、解决问题能力及主人翁精神 [11][12][13] - **内容营销高效吸引人才**:在预算有限情况下,可通过持续输出行业深度干货、创始人亲自分享、展示真实工作场景等方式构建雇主品牌,有效吸引价值观契合的人才 [15][16][21] - **招聘渠道效果数据**:在Wishare的案例中,通过内容吸引自建人才池获得的简历占有效简历的52%,而通过LinkedIn等传统专业渠道获取的占比不到37% [10] 海外雇佣合规与模式选择 - **雇佣模式主要分为两种**:一是使用独立顾问(Contractor),但需警惕“错误分类”风险;二是雇佣全职员工(Employee),可通过名义雇主(EOR)模式在无当地实体时实现合规雇佣 [22][23] - **EOR模式存在限制**:EOR模式不能完全规避“常设机构风险”,即当海外业务达到一定规模时,可能触发当地税务申报义务 [24] - **自有实体雇佣的挑战**:企业在当地设立实体后,需具备法务、财务、HR和薪酬四个核心职能的本地化专业能力才能实现真正合规,否则风险极高 [24] - **雇佣模式选择五维度**:需综合考量岗位资质要求、当地业务阶段与规模(评估常设机构风险)、成本效益、目标国家劳动法保护倾向(如日本、德国、法国、巴西)以及行业特性(如AI人才的竞业限制) [25][26] - **EOR模式成本参考**:EOR服务市场价格普遍在每月400到600美元每人 [25] - **不合规解雇案例**:一家企业用日本分公司解雇当地员工时因处理不当,被法院判决需额外赔偿该员工整整一年的薪资 [24] 跨时区协作与团队管理 - **依赖专业工具提升效率**:高效远程协作依赖工具组合,例如使用Slack作为主要内部沟通平台,Google Suite进行文档协作,Jira管理服务流程 [28] - **构建内部支持系统**:通过开发内部AI工具和强大的知识库,可以解决员工超过90%的问题 [29] - **建立定期同步与沟通文化**:每周举行全员会议同步公司进展,领导层保持高响应速度(如“秒回消息”)以践行“快速行动”的价值观 [29] - **明确协作规则**:规定英语为唯一工作语言,设定3-4小时的“核心协作窗口”保证重叠工作时间,并大力推行异步沟通,将工作进展沉淀在Notion、Slack等工具中 [39][40] - **提升会议效率**:尽量减少不必要的会议,简单信息同步可通过Slack的huddle功能快速解决;必要的会议需提前准备清晰的议程 [41] 海外员工薪酬与福利体系 - **薪酬制定核心原则**:必须对标当地市场同岗位薪资中位数,并上浮10%–15%,绝不能按国内标准换算 [31] - **提供超出预期的福利保障**:除了法定福利,建议提供一次性安家补贴、子女教育咨询、海外租房补贴、税务规划支持等商业补充福利,以消除员工后顾之忧 [32] - **外派签证的薪资考量**:为成功获得工作签证,外派岗位的薪资通常需达到当地收入中位数的1.5倍以上,尤其是在高成本地区如湾区、纽约 [33] - **薪酬发放的货币选择**:在汇率波动大的市场(如日本、拉美国家),雇员可能更偏好合同制,以便约定用美元、欧元等稳定货币结算薪酬 [34] 全球化雇主品牌与合伙人招募 - **本土化雇主品牌建设**:采取“两条腿走路”策略,既要突出全球愿景与平台,也要清晰阐述产品技术为本地市场创造的具体价值,通过分享早期员工故事、与本地KOL/KOC合作来提升影响力 [35] - **合伙人招募途径**:高效找到业务合伙人通常依赖创始人主动出击,而非猎头,成功路径主要来自创始人的个人社交圈、垂直行业线上社群的持续影响力输出,以及对目标人才的反向研究与主动连接 [36][37][38]
2026 年 AI 预测:行业将迎来断崖式迭代,最关键的下注机会在哪?
Founder Park· 2025-12-26 19:35
文章核心观点 - AI行业竞争已从单一的模型强弱转向技术体系、商业路径、基础设施和生态构建的综合博弈 [4] - 2026年将是AI应用形态“断崖式”迭代的关键年份,行业将全面拥抱Agent模式,传统的App概念可能被颠覆 [39] - 基础设施(光通信、存储、电力)是AI发展的关键瓶颈,其供需矛盾将创造投资机会 [48][53] 主要科技巨头竞争格局 Google - 在多模态任务上已建立显著的用户心智壁垒,用户在处理图片等任务时会主动从ChatGPT切换到Gemini [6] - AI搜索不仅未侵蚀传统广告收入,反而优化了经济模型,新广告形式的点击率和用户停留时长比传统搜索广告提升30%-40% [7] - 技术管线布局显示强大爆发力,特别是在视频生成与编辑领域,可能推出定义行业标准的视频编辑模型 [8] - 面临以Oracle、Nvidia和OpenAI为核心的“反Google联盟”的挑战,竞争焦点在于基础设施、芯片互联及模型生态 [9][12] OpenAI - 2026年可能是关键反转年份,看多观点认为其2025年的“停滞”主要受算力瓶颈制约,随着供应链理顺及Nvidia Blackwell算力上线,可能实现反弹 [13] - 看空观点认为其面临巨大变现压力与竞争,技术护城河收窄,用户在多模态任务上已开始向Gemini迁移 [14] - ChatGPT用户粘性依然很强,MAU已接近9亿 [13] Anthropic - 在B端市场战略卡位优势明显,比OpenAI更早、更真实地抓住了企业级业务的痛点 [15][16] - 围绕模型构建了强大的工程化能力与工具链支持(如Skills功能),帮助企业弥补LLM在实际应用中的缺陷 [16] - 在预计2026年将爆发的企业级AI(Enterprise AI)浪潮中,是被普遍低估的变量 [15] Meta - AI已为其广告效率带来3-5个百分点的实质性提升 [20] - 初步显现出AI年化收入规模可达600亿美元级别的潜力 [18] - 需警惕TikTok的竞争,其2025年利润预计达500亿美元级别,将对核心广告业务构成冲击 [22] Tesla - **Robotaxi**: 商业模式可能跑通,Cybercab整车成本约3万美元,测算显示其ROE远超传统卖车业务(单车利润2000-3000美元) [26] - **Robotaxi**: FSD安全性经历质变,新车渗透率达30%-40%,在奥斯汀实测累计行驶50万英里仅发生约7次事故,接近Waymo(8-10万英里一次事故)及人类驾驶水平 [26] - **Optimus**: 进展低于预期,因追求“第一性原理”在灵巧手等硬件环节遇瓶颈,面临中国供应链的激烈竞争,落地周期可能比预想长 [27] 下一代技术范式:World Model - World Model是区分行业领跑者与跟随者的胜负手,其突破将在端侧应用、虚拟世界、机器人及自动驾驶等领域建立巨大优势 [28] - Meta选择独特路径,通过“Segment Anything”从分割图片发展到分割声音、视频,试图以更接近人类感知的方式(原始声音和视觉输入)演化智能,以接近World Model本质 [28][31] - Google在多模态和World模型上的突破也被寄予厚望,2026年的核心看点之一是其能否推出下一代Veo模型及更好的World Model版本 [31] AI应用发展趋势 入口之争:操作系统 vs 超级应用 - 操作系统厂商(如Apple、Google)拥有天然的合规与系统权限优势 [32] - “App派”(如字节跳动的豆包、智谱)试图通过构建自身生态和推出AI手机等硬件来掌握流量分配权,被视为“掀桌子”举动 [32] - “App派”路径面临巨大执行困境:缺乏OS权限导致方案妥协(如利用“视障模式”或“截图模式”),并引发隐私与合规问题;同时,互联网大厂“既做裁判又做运动员”的角色难以建立共赢生态,易遭其他大厂封杀 [34] Agent模式兴起与端侧AI发展 - 预计2026年后,行业将全面拥抱Agent模式,AI手机和Agent服务将普及,打破传统App孤岛效应 [39] - 用户对数据主权和隐私的要求正推动计算权力向边缘侧转移,基于开源模型和本地Memory的方案具备非对称竞争优势 [40] - 端侧AI推高了消费电子硬件门槛,尤其是存储(DRAM和NAND),因本地隐私数据处理和多模态应用(如视频流Buffering)产生刚性需求 [40][41] - 长远看,AI将突破屏幕限制,驱动硬件进化为能与物理环境交互的智能终端 [42] 应用公司向上游延伸 - 智谱财报显示,其达到当前水平的年研发投入约4亿美元,表明AI应用公司在获得收入后,具备向底层研发延伸的现实可能性 [43][44] - Cursor等AI应用公司已开始从单纯做应用转向自建AI研发底座 [45] - 预计2026年前后,“应用反向进入底层研发”的趋势将越来越频繁 [47] 基础设施瓶颈与投资机会 光通信与互联 - 被视为算力产业链中“通胀度”最高的环节,需求可能迎来3-5倍的爆发式增长 [48] - 两大技术看点:Google的OCS(光路交换)技术和Nvidia下一代集群方案中大幅增加的光互联占比与创新 [48] 存储 - 正从周期趋势转向成长趋势,核心驱动力是Enterprise AI的强劲需求,以及pre-training、多模态和Long Context的需求 [49] - 用户希望AI记住所有历史交互,数据量指数级增长,压缩技术缓解有限,存储缺口巨大 [49] - 供给侧形成“攻守同盟”,厂商经营逻辑转向利润最大化,导致消费电子厂商处于被动“价高者得”的竞价模式 [50][51] - 只要AI趋势持续,存储行业将处于卖方市场,美光等厂商的业绩增长和价格上涨在2026年具有高确定性 [52] 电力 - 将成为制约AI发展的最大物理瓶颈,叙事逻辑从“卡”转向“电” [53] - 深层矛盾在于电网输配电能力的老旧与低效(尤其在美国),催生了微电网和储能的爆发性机会 [53] - 电力需求爆发将利好上游大宗商品,特别是铜和锂,预计2026年价格有较大弹性 [53] - 宁德时代(CATL)被视为“产业链之王”,AI对电力的渴求是长周期基本面驱动力 [54] AI在垂直领域的落地路径 企业服务(Enterprise AI) - 2026年将加速渗透,在金融、HR、财务等垂直领域可能出现成熟的、产生实际业务增量的AI产品 [55] - 传统SaaS行业将面临挑战,企业IT预算可能被AI模型和应用分流,2026年美股软件公司将感受到实质性竞争压力 [59] - 埃森哲等系统集成商预计将与大模型厂商紧密协作,推动AI在企业场景中的规模化落地 [59] 金融预测与支付 - AI让预测市场(如Polymarket)从感性博彩转向理性风险对冲与决策辅助 [61] - 典型场景是“对冲现实生活成本”,AI可辅助个人做出精准预测并自动执行微小对冲交易 [62][63] - 2026年Agent将在泛支付领域落地,主要方向:自动交易机器人、电商自动化管理、以及基于crypto的自动化收益策略探索 [64] 监管环境与潜在风险 - 中国大模型备案制度存在“一次性许可”特点,过程监管相对薄弱,高流量应用若输出敏感内容可能触发回溯性严查,成为行业黑天鹅事件 [65] - 这种风险可能催生新的商业角色,即由国家官方授权的厂商提供“安全合规”API,作为AI应用必须接入的“网关”,蚂蚁或阿里等大厂有望成为“合规infra”提供商 [66]
AI Agent 很火,但 Agent Infra 准备好了吗?
Founder Park· 2025-12-25 17:04
文章核心观点 - 基础设施软件的主要使用者正从人类开发者转变为AI Agent,这要求基础设施的架构范式发生根本性变革,以支持AI Agent的自主、高并发、低延迟和不确定性任务处理 [1] - 当前的基础设施仍主要为人类开发者设计,无法满足AI Agent的需求,因此面向“原生智能体”的基础设施建设将成为未来的关键门槛和巨大市场机会 [1][3] - AI Agent的开发和落地范式与传统App完全不同,其核心区别在于系统从确定性转向概率性,这要求工程思维、基础设施和商业模式进行彻底重塑 [3][4][6] Agent Infra 与传统软件工程的根本区别 - **核心区别在于不确定性**:传统软件依赖确定的if/else逻辑,而AI Agent依赖概率性目标规划和提示词调教,其行为更像教育孩子而非修复水管 [4] - **系统性质发生改变**:AI Agent是由模型、提示词、上下文等多因素共同决定效果的“不确定性的复杂系统”,而传统的微服务是调用关系清晰的“确定性简单系统” [6] - **交付物与工作方式转变**:传统工程交付确定的功能,判断标准非对即错;AI Agent工程交付的是一种概率性能力,工程师需要从追求确定性转向驾驭不确定性 [6][7] Agent Infra 的定义、现状与挑战 - **定义尚未明确**:Agent Infra的边界尚未完全定型,其核心作用是帮助解决AI Agent落地过程中的“偶然复杂度”,但不同应用场景的偶然复杂度差异巨大 [11] - **解决公共的偶然复杂度**:行业领先者正聚焦于所有场景下偶然复杂度的“最大公共子集”,包括安全问题、执行环境、工具体系、记忆管理和可观测性 [11] - **安全沙箱是突出需求**:由于AI Agent自主运行带来的风险,全方位的安全沙箱服务成为关键,需从虚拟化、网络和凭证层面限制其操作边界 [12] - **完备范式尚未出现**:当前云厂商提供的Agent Infra产品多是从上一代技术演进而来,并非基于全新范式思考,行业仍在探索完备的Agent Infra形态 [15][16] 当前Agent Infra的主要服务场景 - **主要应用方向**:根据LangChain报告,客户服务、研究与数据分析是当前Agent最火热的两大应用方向 [17] - **具体服务场景**:主要包括Vibe Coding、深度研究与数据处理、GUI Agent以及强化学习场景,这些场景普遍依赖云端沙箱环境来实现安全隔离与资源弹性 [18][19] - **开发者核心需求**:开发者对Agent Infra的需求聚焦于极致的使用体验和完善的生态兼容性,以降低开发成本,统一的API标准至关重要 [20] 行业参与者的实践与优势 - **腾讯云的实践**:腾讯云推出了Agent Runtime解决方案,其沙箱服务实现了全球领先的80毫秒启动速度,这依赖于从底层计算到调度层的全栈深度优化 [21][22] - **显著的效益提升**:腾讯内部一些Agent产品从传统方案切换到Agent Runtime沙箱后,成本节省了90%以上 [23] - **性能标杆**:在典型应用生成场景中,Agent Runtime能做到端到端200毫秒的全流程响应,而全球多数同类产品需要秒级等待 [24] Agent Infra 的未来重点与创业机会 - **下一阶段技术重点**:可调试性、语义化的情景记忆管理以及支撑实时交互的低延迟性能是未来的发展重点 [27][29] - **核心演进方向**:Agent Infra需要完成从“服务Agent的构建与运行”到“服务Agent的智能进化”的跨越,即利用Agent产生的真实业务数据反哺模型与Agent的迭代优化,形成智能进化闭环 [30][31][32] - **创业机会存在**:在范式标准未明确时,并非只是大厂的赛道,谁能更快更好地支持Agent的特性需求,谁就有可能更快占领市场 [26] - **商业模式变革**:AI Agent极大地民主化了“计算”,降低了原型验证和开发的边际成本,使得许多过去不经济的商业模式变得可行 [26]
Notion 创始人年终预测:AI 是新时代的「钢铁」,未来的工作、组织架构会这样演变
Founder Park· 2025-12-25 14:09
文章核心观点 - AI是塑造当前时代的革命性核心材料 类比于工业时代的钢铁和数字时代的半导体 掌握AI将定义时代 [2][3][6] - 当前处于AI应用的早期过渡阶段 人们习惯用旧框架理解新技术 例如将AI聊天机器人视为搜索框 [3][13] - 文章从个人、组织、经济体三个层面探讨AI作为“无限智能”将如何重塑生产力、组织架构和经济模式 [5][14][43] 个人生产力:从自行车到汽车 - 程序员等先行者已实现效率飞跃 例如Notion联合创始人通过调度多个AI编程智能体 将综合效率提升至30-40倍 成为“无限智能”的管理者 [15][18] - 多数知识工作者仍像在高速路上骑自行车 依赖人力驱动信息处理 工作方式落后 [3][17] - 知识工作全面应用AI面临两大核心障碍:1) 上下文碎片化 信息分散在数十个不同应用中 人类像“胶水”一样手动拼接 [21][22][23];2) 成果缺乏可验证性 难以像代码一样通过测试评估质量 导致仍需人类深度介入监督 [21][23] - 理想的模式是人类从更高维度监督系统 而非成为执行环节 当上下文整合且成果可验证后 知识工作者将实现从“骑行”到“驾驶”乃至“自动驾驶”的飞跃 [25] 组织架构:钢铁与蒸汽 - 现代组织沟通基础设施(人类大脑通过会议和信息连接)在规模指数增长下不堪重负 现有管理工具如同用木材建造摩天大楼 与问题规模不匹配 [27][28] - AI是组织的“钢铁” 具备坚固和延展性 能跨工作流维持信息上下文并精准呈现决策依据 消除沟通噪音 使人类沟通不再成为限制发展的“承重墙” [32] - AI可极大提升组织效率 例如将每周两小时的同步会议变为五分钟的异步审阅 或将需三级审批的决策缩短至几分钟 [32] - 当前处于AI应用的“替换水车”阶段 仅将AI聊天机器人简单嫁接至现有人类工作流程 未围绕AI彻底重新设计组织 [35][36] - Notion已进行实验 除1000名员工外 还拥有700多个AI智能体处理重复性工作 如整理会议纪要、整合隐性知识、处理IT支持等 [36] - 真正的突破需像蒸汽机取代水车后重新设计工厂布局一样 围绕“永不休眠的智能”彻底重新构想组织形态 摆脱旧有限制 [35][36] 经济模式:从佛罗伦萨到超级城市 - 知识经济占美国GDP近一半 但运作方式仍停留在“人的尺度” 如团队规模几十人、工作节奏由会议邮件主导、组织人数超几百即困难重重 [41] - 类比历史 钢铁和蒸汽机重塑了城市 催生了东京等超级城市 其不再是放大版的佛罗伦萨 而是一种规模、密度和复杂性全新的生活方式 [40] - AI智能体大规模应用后 知识经济将建造自己的“东京” 即由成千上万智能体与人类共同组成、跨时区持续运行、决策在“恰到好处的人类介入”下完成的组织 [41] - 这种变革将带来更快节奏、更强杠杆效应 但初期会令人迷茫 熟悉的例会、规划、评估节奏可能被取代 换来的是前所未有的规模和速度 [41] 时代展望与行动呼吁 - 应停止通过“后视镜”看待AI 需超越当前“水车时代”或“Copilot”式的简单应用 开始大胆想象由“钢铁”加固和“无限智能”驱动的新知识工作图景 [42] - 下一个由AI定义的“天际线”等待被建造 需要像卡内基预见摩天大楼、工厂主构想新厂房一样 发挥想象力突破惯性 [42][43]
听完 15 位创业者的「开放麦」,我看到了初创和大厂的注意力差异
Founder Park· 2025-12-24 19:22
文章核心观点 - 2025年AI创业已从“炒作周期”走向“结构性繁荣”,模型推理和多模态能力的大幅提升拓宽了创业场景,涌现出通用Agent、企业服务、消费硬件等众多具有竞争力的赛道[4] - 创业企业与大厂形成共生关系,在To B领域瞄准科技巨头留下的“空隙”,例如垂类定制化解决方案和大模型落地的“最后一公里”,补足了AI产业落地的链条[5] - 多模态生成项目占比高,模型能力提升切中了年轻用户自我表达和创作的需求,创业企业通过建立“新产品-好作品-高频交流-吸引用户-更新模型能力-带来更好体验”的良性循环来抢占市场[5] AI创业趋势与生态观察 - 2024年AI创业场景较为单一,生成对话、角色互动是应用大头,而2025年模型能力提升使创业场景显著拓宽[4] - 火山引擎V-START加速器通过提供字节系资源,能从资源供需背后观察AI创业的“大盘”和“细节”[4] - 创业企业加快抢占市场步伐,并注重建立自己的社区生态以形成良性循环[5] 路演项目概览(按业务领域分组) 企业服务与效率工具 - **呼波特**:主业为AI电话数字员工,面向销售、客服场景,能抓取关键信息并实现“边说边做”的加微信、发短信等操作,已积累200多家真实付费客户[9] - **小宿科技**:专注AI Agent Infra,提供智能搜索、模型、数据等基础设施,业务覆盖80多个国家和地区,已赋能近千家企业[21] - **船水智能**:在金融领域打造TradingAgents实现全智能化股票交易;在企业效率领域推出繁星无线投屏产品,具备智能会议助理功能[27] 内容创作与AIGC - **萱禾映画**:专注于AIGC生成式动画,打造AI动画数据流制作工具,旨在通过技术提升AI动画的IP化与商业化能力[13] - **智灵动力**:作为中国最早进行AI视频创业的团队之一,产品可实现“一句话生成视频”,并与新华社、中央广播电视总台合作打造AI短剧[17] - **爱诗科技**:致力于打造AI视频生成大模型,旗下海外产品“PixVerse”和国内版“拍我AI”已吸引超过1亿用户,并建立了创作者生态[23] - **WeShop唯象**:一站式AI商拍平台,上传商品图即可一键生成带模特和场景的高质量图片与视频,为全球百万商家提供服务[35] 消费硬件与交互体验 - **弋途科技**:致力于移动智能空间探索,应用豆包大模型打造车载语音助手,已覆盖30+大类用车场景[11] - **亮亮视野**:专注AR+AI软硬一体解决方案,其消费级AR翻译眼镜Leion Hey2覆盖100+语种实时翻译,已用于高规格国际会议[15] - **Rokid**:专注于人机交互技术,其AR眼镜Rokid Glasses搭载豆包大模型,可实现多语种翻译、问答搜索等功能[37] - **赛博创力**:专注于AI角色化智能硬件,基于大语言模型开发多模态产品,推动IP潮玩智能化升级[33] 娱乐、教育与陪伴 - **心影随形**:聚焦打造AI游戏伙伴“逗逗AI”,可理解游戏画面并提供实时攻略与情绪价值,用户数已突破1000万[19] - **OneOneTalk**:致力于构建人类的“第二大脑”和“全场景认知操作系统”,从语言学习切入,提供个性化的实时交互服务[25] 3D与数字孪生 - **数美万物**:提供面向制造业的AI 3D建模解决方案Hitem3D,支持最高1536^3分辨率建模,可一键生成高质量三维模型[29] - **镜绽科技**:专注打造下一代3D人形智能体动作生成平台momax,实现低延迟、高拟真的动作生成,覆盖游戏NPC、影视动画等场景[31]
谷歌今年最成功的两款 AI 应用,都出自他手
Founder Park· 2025-12-24 19:22
核心观点 - 谷歌旗下AI应用,特别是Gemini App和NotebookLM,在2024年实现了用户和市场份额的显著增长,这得益于其负责人Josh Woodward独特的“创业者”气质、快速的产品开发策略以及对用户需求的深刻洞察 [1][4][6] Gemini应用的用户增长与市场表现 - NotebookLM移动端月活跃用户达到800万 [2] - Gemini App月活跃用户从2024年8月的2.66亿增长至11月的3.46亿,净增8000万用户 [2] - 在四个月内,Gemini市场份额上升3个百分点,而ChatGPT市场份额则下降了3个百分点 [2] - 过去一年内,Gemini Pro订阅量同比增幅接近300%,大幅领先于ChatGPT的155%增速 [3] - 在Josh Woodward领导下,Gemini应用的月用户数从3月的3.5亿激增至10月的6.5亿 [9][30] 关键人物Josh Woodward的领导风格 - Josh Woodward被评价为行动迅速、善于打破障碍、执行力强,这些特质使其成为谷歌AI战略的核心 [6] - 其领导风格具有独特的“创业者”气质,体现在快速行动、懂技术且有远见、聚焦用户反馈以及有能力绕开公司官僚体系 [7] - 通过建立名为“block”的内部系统,帮助团队推进项目、打破内部障碍并争取资源 [7][39] - 创立“Papercuts”流程,专门快速响应和解决影响用户体验的细微痛点,并常在社交媒体与用户交流 [40] 产品开发策略与创新理念 - 采用小团队快速开发模式,NotebookLM以5-7人团队在六周内完成原型开发 [7][10][15] - 强调将产品快速推向用户以获取反馈,例如Flow视频创作工具从想法到发布仅用86天 [45] - 认为AI不仅是搜索引擎,更应是帮助用户深度理解与重构知识的伙伴,NotebookLM被设计为一种“新的内容容器” [17] - 提出“生成式界面”的前瞻概念,认为未来AI交互将远超聊天框形式,能动态生成可交互的界面和组件 [34] - 对Gemini应用的最终定位是个人化生活助手,核心是“三个P”:个人化、前瞻性、功能强大 [35] NotebookLM的产品特性与成功因素 - NotebookLM能深度分析用户上传的文档、PDF、音视频,并提供基于原始资料的摘要和洞见,规避“幻觉”问题 [15][17] - 产品设计直观,界面分为原始资料、AI问答互动和丰富的媒体输出(如思维导图)三个区域,保证内容可溯源 [17] - 通过“音频概览”和“视频概览”功能,将海量零散信息提炼成易于消化的精华版本,降低了高质量内容创作门槛 [19][20][21] - 为收集用户反馈,大胆使用外部平台Discord,该频道成员已超过23万 [16][22] - 邀请外部科技作家Steven Johnson加入团队,为产品带来“发现连接”的辅助思考视角 [23] Gemini App的产品突破与功能亮点 - 推出的图像生成功能Nano Banana在技术上解决了AI生图渲染文字和角色一致性的痛点,并通过社交媒体形成病毒式传播 [28][29] - 团队策略是快速观察并简化用户的自发创造力,将高频场景固化为预设提示词或一键功能,极大降低用户参与门槛 [30] - 到9月底,Gemini生成的图像数量突破50亿张,应用在苹果商店榜单上超越了ChatGPT [30] - 强调Gemini模型的原生多模态能力是其实现复杂跨模态创作(如Nano Banana)的根本原因 [33] - 致力于通过“上下文工程”理解用户个人数据,以实现真正的个性化助手体验 [36] 内部管理与文化构建 - 通过“block”系统绕过官僚体系,确保小团队的创新动力,例如为NotebookLM成功争取关键的计算资源 [39] - 在谷歌内部建立快速发布产品的文化,核心是保持小团队规模、优先推向用户、招聘热爱动手的“创造者” [44] - 认为早期产品的成功不能只看数据,更需要与真实用户交流,观察其定性反馈 [41][42][43] - 在招聘时倾向于通过原型表达想法、学习速度快且心态积极的候选人 [49]
创业者思考:如何做 AI Agent 喜欢的基础软件?
Founder Park· 2025-12-23 19:34
文章核心观点 - 基础软件(Infra)的主要使用者正从人类开发者迅速转向AI Agent,这要求软件的设计理念、接口和商业模式进行根本性重构 [1] - 在TiDB Cloud的生产环境中,超过90%的新建数据库集群由AI Agent直接创建,标志着这一趋势已成为现实 [1] 当AI Agent成为核心用户时,软件应具备的本质特征 稳定且可扩展的心智模型 - 软件暴露给AI用户的不再是UI或API,而是其背后的心智模型,AI在训练中已内化了大量关于底层系统(如文件系统、SQL)的稳定假设和模式 [2] - 设计给Agent使用的软件应主动顺应这些已被训练进模型、存在数十年的古老心智模型(如文件系统、Bash Shell、Python、SQL),而非发明全新的接口 [4] - 好的心智模型特征是可扩展的,允许在不破坏原有模型的前提下引入新实现,例如Linux VFS或试验性文件系统agfs,它们保持了文件系统的接口约束,但底层实现了向量索引等新能力 [5] 生态与语法的重要性变化 - 对于AI Agent而言,特定语法(如MySQL与Postgres之别)或社区文化等“偏好性差异”意义不大,只要接口稳定、语义清晰、生态完备即可 [6] - 生态之所以重要,是因为流行的软件对应着经典、稳固且已被LLM广泛学习的心智模型(如SQL),在此框架下,具体选择哪种“方言”并非关键 [7] - 这意味着在范式级别进行创新将更加困难,因为AI更倾向于使用它已经理解的系统 [7] Agent友好的系统接口设计 可被自然语言描述 - 友好的接口要求软件能力本身适合用自然语言表达意图,图形界面因难以用语言精确描述而对Agent不友好 [10] - 自然语言虽有歧义,但LLM擅长结合上下文猜测意图,成功率在多数工程场景下已足够高 [11] - 当系统底层心智模型正确、接口语义稳定时,上层的少量歧义不会成为系统性问题,Agent可通过反馈和尝试来消解 [12] 可被符号逻辑固化并交付确定性结果 - 自然语言适合表达意图,但执行必须收敛到无歧义的中间表示(如SQL、脚本、代码),以实现任务的复用、组合和自动化验证 [14][15] - 系统需清晰定义“歧义被彻底消除”的时刻,从而将模糊意图冻结为确定、可存储复用的结构 [15] - 目前最好的逻辑符号描述是代码,因其能用尽可能少的Token实现最多的可能性,具有极高的认知密度,例如用一段Python脚本描述规则,即可应用于任意规模的数据 [16][17][18][19] AI Infra's Infra的必要特征 支持日抛型工作负载 - Agent产出的工作负载本质上是日抛型的,重视开箱即用、随时创建和无负担丢弃,而非长期稳定运行 [22] - Infra设计需假设实例便宜、生命周期短、数量增长快,例如Agent常并行拉起多个分支进行尝试,成功后即放弃其他分支 [23] - 代码生产能力被极大释放,大量过去因成本被忽略的长尾需求变得可行,预计基础软件的租户数量将爆炸性增长,但对服务连续性和可靠性的需求并未下降 [24] 实现极致的低成本 - 为满足大量低频访问的长尾需求,系统成本必须极低,不能为每个需求提供真实的物理实例 [26][27] - 必须引入虚拟化(如虚拟数据库实例、虚拟分支),在实现极致资源复用的同时,让Agent在交互层面感觉拥有独立的、可随意折腾的环境 [28][29] - 这种“看起来像独占,实际上是虚拟化”的设计,是构建可规模化、超低成本Agent Infra的前提条件,否则将限制Agent并行探索的优势 [30][31] 提升单位时间可撬动的算力 - 当前多数AI交互是串行对话模式,单位时间调动的算力受限于单次请求对应的单块GPU [32] - Agent天然倾向于并行探索,例如将阅读数百篇论文的任务分发给成百上千个Agent并行处理,这需要Infra能支持低成本快速创建大量“工位”,并稳定地分发任务、收敛结果 [33][34] - 这提出了对能支持大规模并行、任务分发与管理的Infra系统的需求,可能是一个K8s和Hadoop级别的机会 [34] Agent时代商业模式的演变 使过去不经济的模式变得合理 - 过去因成本过高而被搁置的定制化、长尾需求(如小超市的库存管理系统),因AI Agent极大降低了实现边际成本而变得可行 [35][36] - AI Agent将“计算”民主化,许多以前算不过账的需求,并非消失,而是实现成本终于降到足够低 [36] 从卖Token转向云服务模式 - 单纯卖Token的商业模式有结构性缺陷,随着使用量增长,边际成本不会自动下降,商业上较为脆弱 [37] - 成功的AI Agent公司应更像将目标用户群体放大100倍、1000倍的云服务公司,关键在于将持续的Token消耗沉淀为“boring”的、可复用的在线服务或系统能力,从而极大摊薄边际成本 [37] - 底层服务(如云服务、数据库)形态可能很传统,但使用这些服务的用户群体被Agent放大了几个数量级 [38] - 以Manus 1.5为例,其ARR已超过1亿美元,其商业模式代表了一种趋势:将Agent的单次关键推理成本,转化为有规模化效应的传统云计算生意 [39]