Workflow
Founder Park
icon
搜索文档
怎么做 Long-running Agents,Cursor、Anthropic 给了两种截然不同的思路
Founder Park· 2026-01-20 23:00
文章核心观点 当前AI Agent在独立、短时任务上表现良好,但执行复杂、长时任务仍面临挑战。Cursor和Anthropic分别提出了不同的工程实践方案:Cursor通过大规模并行运行多个具有角色分工的Agent来扩展项目规模;Anthropic则专注于解决单个Agent在跨越多个工作周期时的记忆连续性问题,通过双Agent方案和严格的工作流程来推进长时任务[3][4][27][29]。 Cursor的“多Agent并行协作”方案 - **目标与挑战**:旨在通过大规模并行运行成百上千个Agent来处理复杂、长时任务,如从零构建软件。核心挑战在于如何有效协调这些Agent,处理超过一百万行代码和数以万亿计的Token[8]。 - **协调机制的演进**: - **第一次尝试(扁平化协作与锁定机制)**:构建了完全扁平化的系统,Agent通过共享文件协调。但该方案失败,因锁机制导致吞吐量骤降(20个Agent仅相当于两三个的效率),系统脆弱,易因Agent崩溃或协调文件冲突而瘫痪[9][10][11]。 - **第二次尝试(乐观并发控制)**:采用乐观并发控制机制,Agent自由读取、认领任务并短暂锁定。此方案更稳健,但暴露了群体性“风险规避”问题,Agent倾向于执行细小任务,导致项目核心进展停滞[12][13][14]。 - **最终方案:引入角色分工的流水线体系**:摒弃扁平化结构,设立三个核心角色: - **规划者**:类似架构师,持续探索代码库、理解需求并派生任务,规划过程可并行化[21]。 - **工作者**:主力工程师,纯粹执行从任务池领取的单一任务,无需全局协调[21]。 - **裁判**:类似项目经理,定期评估进展并决定是否进入下一轮迭代[21]。 该体系解决了协调难题,能将项目规模扩展到前所未有的程度[15]。 - **实验验证与成果**: - **从零构建网页浏览器**:Agent团队运行近一周,在1,000个独立文件中编写了超过100万行代码,成功构建出基础浏览器。数百个工作者可同时向同一分支提交代码且冲突率极低[16][17]。 - **大型代码库原地迁移**:将大型项目前端框架从Solid迁移到React,耗时三周多,产生+266,000行新增和-193,000行删除的代码变更,并通过了持续集成系统检查[19][22]。 - **产品性能与功能优化**:Agent用Rust重写视频渲染模块,将渲染速度提升25倍,并增加了平滑缩放等新功能。该代码已被合并至主干即将上线[23]。 - **经验与教训**: - **模型选择至关重要**:GPT-5.2在长时间自主工作中表现更佳,能更好遵循指令、保持专注。不同模型擅长不同角色,例如GPT-5.2是比专门优化的GPT-5.1-Codex更优秀的规划者[24]。 - **简化系统设计**:许多改进源于“做减法”,例如移除了制造瓶颈的“集成者”角色。最好的系统往往比想象的更简单[24][25]。 - **结构需恰到好处**:结构太松散会导致冲突与偏离,太严密则系统脆弱。系统的绝大部分行为取决于prompt的精心编写[26]。 - **仍需进一步探索**:多Agent协调仍是难题,系统未达最优。例如,规划者应能自动唤醒,Agent存在运行时间过长问题,仍需定期重启以对抗目标偏离[26]。 Anthropic的“解决单个Agent记忆连续性”方案 - **核心思路**:专注于解决单个Agent在跨越多个有限上下文窗口工作时的“记忆连续性”问题,通过引入类似人类团队的分工协作机制,将复杂任务拆解并确保清晰交接[27][29][31]。 - **Agent在长任务中的主要问题**: - **一口气干太多**:试图一次性完成整个应用(如克隆claude.ai),导致代码混乱,给后续会话留下难以接手的半成品[33]。 - **过早宣布胜利**:项目仅完成一部分便停止工作[33]。 - **测试敷衍**:仅运行基础测试,未进行真实的端到端流程验证[33]。 这些问题的共同点是Agent缺乏全局目标认知和清晰的交接机制[30]。 - **双Agent方案设计**: - **第一步:初始化Agent**:仅在项目启动时运行,负责搭建完整的初始环境。其关键任务是将用户提示扩展为结构化的功能需求清单(JSON格式),例如在克隆claude.ai的示例中生成了超过200个功能描述。所有功能初始标记为“failing”,为后续工作提供清晰路线图[34][35][36][37][38]。 - **第二步:编码Agent**:在后续会话中接手工作,严格遵循“渐进式推进”原则,每次只完成一个功能并确保环境处于“干净状态”。其标准工作流程为:1) 理解现状(阅读进度文件和Git日志);2) 选择单一任务;3) 专注实现;4) 留下痕迹(提交代码并更新进度文件)[34][39][40][41]。 - **测试环节的改进**:为解决测试敷衍问题,为Agent配备浏览器自动化工具(如Puppeteer MCP),要求其像真实用户一样操作页面进行端到端验证。该方法大幅提升了功能验证的准确率,使Agent能自行定位和修复许多仅看代码无法发现的Bug[42][43][44][45][46]。 - **Agent“开工”标准流程**:每个编码Agent会话开始时,会按固定流程熟悉环境:运行pwd确认目录、阅读Git日志和进度文件、阅读功能清单、运行init.sh脚本启动服务器并运行基础测试,确保环境正常后再开始新工作[47][48][49][50]。 - **开放性问题**:未来是发展全能Agent还是由测试、质检等专家Agent组成的多Agent团队?当前为Web开发优化的方法能否推广到科学研究、金融建模等其他领域[53]。
对话阶跃AI:做桌面 Agent,要比 Claude Cowork 往前一步
Founder Park· 2026-01-19 18:01
行业趋势:AI Agent向桌面端与本地化发展 - 基于本地的AI Agent产品成为关注重点,例如Anthropic的Claude Cowork和阶跃星辰的“阶跃AI桌面伙伴” [2][3] - 行业参与者选择桌面端Agent的共同原因在于探索更大的场景拓展空间和上下文可能性,尽管存在关机无法执行和安装渗透率低于网页应用的缺点 [10][11] - 未来发展方向被认为是端云协同,同时具备本地和云端能力,但出于成本考虑,当前厂商优先选择其中一边进行探索 [10] 产品定位与战略:阶跃AI桌面伙伴的探索 - 该产品被公司定义为“探索型”产品,是其在“AI+终端”战略下的一次创新尝试,旨在验证用户场景与技术假设,并为长期目标积累底层能力 [15][16] - 产品的核心构想是在现有的Web、App和数据库之上,叠加一层以用户为中心的“Agent加工层”,旨在围绕用户需求构建“新结果”和“新状态” [17] - “新结果”包括新信息、新媒介和新操作界面;“新状态”则指能改变用户与世界关系的行为,如自动填表、发送消息等 [18][19] - 产品当前更聚焦于“任务执行”场景,因公司认为AI对“浏览操作”体验的提升尚不够痛 [20] 场景选择与切入逻辑 - 公司选择从电脑端切入,因其能深度集成浏览器和本地工具,并安全获取用户资产;车机方向也被视为有潜力的领域,因其数据开放度高且语音交互自然 [22] - 办公场景被优先选择,因为其任务复杂、手动成本高,即便AI Agent成功率只有60%-70%,用户也愿意尝试;相比之下,生活场景对失败率的容忍度更低 [23] - 产品最初瞄准的两个核心场景是文件处理和批量信息获取,这源于对非技术人员真实痛点的观察,如数据分析、格式转换、以及运营人员手动更新数据表等 [24][26][27] - 从终端选择与场景交叉的逻辑看,在电脑端探索办公场景是一个顺理成章的中间路径,最终愿景是让Agent取代电脑,用户只需做决策 [23] 核心功能与用户反馈 - “妙计”功能是关键探索,它类似于给模型使用的workflow或技能,能简化操作、降低使用门槛、沉淀脚本资产,并探索自主学习的可能性 [12][29][30] - 用户最高频的任务分布约为:文件处理占40%,信息获取占30%,其余30%为长尾需求(如快问快答) [43] - 在文件处理场景中,出现了多样化的用例,包括HR自动汇总出勤表、算法工程师自动下载并重命名论文文件,以及家长创建可自动更新的错题本等 [43][44] - “主动服务”被认为是所有Agent应有的能力,公司正从预设场景和开放用户自定义规则两方面进行探索,以解决用户教育和使用门槛问题 [33][35][36] 产品发展现状与挑战 - Agent的整体渗透率仍处于早期阶段,许多用户并未意识到其可用场景,需要产品进行引导和教育 [12][34] - 产品开发周期紧凑,从开发到上线不到一个半月,通过不断调整优先级和根据用户反馈补充能力来推进 [41] - 当前面临的关键问题包括:提升Agent能力(更稳、更快、成本更低),以及提高Agent在用户中的渗透率 [12] - “妙计”功能的用户引导目前不够强,公司计划通过加强功能露出、增加预设推荐和优化引导路径进行改进 [32] 模型与产品的协同关系 - 模型能力依然非常重要,强模型自带流量和势能;但同时,模型之外的因素如个人数据接入、场景教育、工具细节设计等的重要性也在提升 [45][46] - 产品可以反哺模型研发,例如“妙计”可以作为衡量模型能力的benchmark,产品也能帮助积累高质量的合成数据和环境反馈信号 [49] - 行业趋势从做单一的“功能点”转向整合能力,即如何串联功能并嵌入用户工作流 [47] 交互设计与行业观察 - 用自然对话的形式解决任务对用户来说成本最低,优于让用户去应用商店寻找和学习独立工具 [56][59] - 行业内在交互上有创新尝试,例如Hero AI在输入过程中自动判断需求维度,以及Sky.app对悬浮窗形态的探索 [50][51][53] - 类似于MineContext的产品也在探索全局记忆和上下文理解,表明该方向仍有很大空间 [54] - 对于Agent工具商店类产品,核心仍需回归解决用户实际问题,难点在于许多用户连自己的需求都难以描述 [55]
3 个月达成 5 亿平台播放量,Wispr Flow 分享如何做好红人营销
Founder Park· 2026-01-18 12:43
Wispr Flow产品与增长表现 - 产品为语音输入法,是AI语音输入领域最早出圈且最具代表性的产品之一[2] - 公司增长策略透明,创始人长期公开分享产品进展和关键指标[2] - 用户增长极快,过去一年中多个月份实现月环比50%以上的增长[5] - 付费能力极强,付费转化率约20%,远高于大多数工具型产品[5] - 用户使用频率惊人,活跃用户平均每天进行上百次语音输入[5] - 产品效率提升显著,官方数据显示语音输入效率可达键盘输入的3–4倍[5] 内容营销与创作者团队建设成果 - 高速增长的重要渠道是Influencer和UGC内容营销,在TikTok和Instagram上实现超过5亿播放量[3] - 营销活动由一名19岁的实习生Tobin Tang在3个月实习期内主导完成[3] - 成功建立了一个由80名创作者组成的团队[3] - 营销活动的千次展示成本极低,仅为0.74美元[32] 创作者招募理念与策略 - 招募目标不是传统UGC创作者,而是真正热爱产品的品牌大使[9][10] - 创作者的热情至关重要,伪装的热爱会被用户识破[11] - 从未做过内容的人往往表现更好,因其视角更真实、原生,且不被数据焦虑困扰,反而容易被算法推荐[13] - 坚持质量大于数量的原则,1个顶级创作者的价值远超100个平庸者[14] - 为每位创作者设置30天试用期,以筛选出真正值得投入时间培养的“异类”[15] - 不推荐通过大型社区或Discord招募,因其中优秀创作者极少[16] - 不选择与Agency合作,因其为追求规模导致创作者质量参差不齐,且多数创作者缺乏系统训练[17][18] 创作者来源渠道 - 主要有效渠道包括:朋友、朋友的朋友、自己的创作者网络、通过Cold email联系中大型创作者、私信联系微型创作者[21] 优秀创作者的判断标准与特质 - 在面试超过400名创作者后,形成了一套基于“品味”的判断体系,通常观看视频前10秒即可判断潜力[19] - 优秀创作者的共同点包括:真心热爱产品且执行力极强、时间充足(团队中79/80为本科生)、拥有好的“品味”、视频光线好、音频清晰[22] - 好的“品味”体现在视频具备强有力的开场钩子、顺畅的叙事节奏、明确的教育或娱乐价值、产品价值点清晰、内容漏斗定位明确、与账号定位高度匹配[30] 创作者团队管理与运营 - 需要在提供脚本/方向与尊重创作者个人品味之间找到平衡[24] - 对创作者进行分层管理,分为“执行者”与“战略家”两类[26] - “执行者”能精准复刻爆款脚本,甚至因个人特色超越原版[31] - “战略家”是真正的宝藏,能创造和测试新概念,将想法变成爆款[31] - 团队配置为10位战略家加60位执行者[26] - 拥有部分“永恒脚本”,任何人任何时间发布都有极大概率获得百万播放,但并非每位创作者都能驾驭[25] - 算法推荐一半是科学一半是魔法,需接受结果的不确定性[23] 团队文化建设 - 核心是超越简单的金钱交易,将创作者视为真正的伙伴[27] - 目标是建立一个让创作者沉浸其中的社区,让他们时刻思考如何推广产品[28]
明天要见个投资人,好紧张......
Founder Park· 2026-01-17 11:49
活动概述 - 活动由Founder Park组织,定于1月20日(周二)举行线上分享与交流活动[2] - 活动核心话题为“AI初创,怎么顺利拿到融资”,旨在为AI创业者提供融资指导[2] - 活动采用小场筛选制,参与者需通过扫描海报二维码报名[4] 主讲嘉宾背景 - 主讲嘉宾为Alpana Partners创始合伙人Grace Xia[8] - Grace Xia拥有近20年跨北美、东南亚、中国的科技投资与创业经验[2] - 其职业背景包括曾任腾讯高级总监、Jungle Ventures执行董事[2] - 目前创办的Alpana Partners专注于AI投融资和跨境并购,具备全周期、跨市场实战经验[2] 活动核心内容与环节 - 参与者将获得一线投资人及FA关于融资全链路的经验分享,内容包括如何筛选匹配的FA及投资机构、融资核心准备工作、BP等材料优化技巧[3] - 活动设有模拟Elevator Pitch环节,将提供3-5个名额,根据报名信息筛选,现场进行剖析并提供建议[3][9] - 活动设有AMA(Ask Me Anything)环节,鼓励参与者针对自身实际问题进行深入交流[3][9] 活动关注的具体话题 - 探讨如何制作一份出色的Pitch Deck(融资演示文稿)[7][9] - 讨论如何找到靠谱的FA(财务顾问)及投资人,并识别其中的潜在风险[7][9] - 解析融资前、中、后各个阶段创始人需要完成的工作[9] - 活动主要面向有融资需求的AI创业者[9] 相关延伸阅读 - 活动方提供了多篇与AI投资、创业相关的延伸阅读文章标题,例如关于风险投资机构a16z的运作、AI认知OS项目Humanify、工作流Agent公司Agencize AI以及对AI陪伴赛道的复盘等[11]
顶级视频模型半衰期只有 30 天,但生成式媒体 infra 公司的收入却在一年增长了 60 倍
Founder Park· 2026-01-16 20:22
文章核心观点 - 生成式媒体(尤其是视频)的算力需求呈指数级增长,远超大型语言模型,这构成了行业的核心瓶颈和机遇 [4][5] - fal.ai 作为一家生成式媒体基础设施公司,通过统一API、云端推理平台及深度性能优化,解决了算力受限难题,并因此在2025年实现了收入和估值的爆发式增长 [4][6][7] - 公司通过差异化押注生成式视频、构建技术壁垒、优化算力成本、建立生态枢纽,成功卡位,并预测动画风格AI内容将比写实风格更早迎来爆发 [7][11][31][62] 公司概况与市场定位 - fal.ai 是一家为开发者和企业提供高性能AI生成媒体平台的infra公司,通过统一、低延迟的API和云端推理平台,让客户能高性能调用图像、视频、音频等多模态生成模型,而无需自建GPU基础设施 [4][8] - 公司成立于2021年,在早期(Sora发布前)就敏锐观察到图像与视频生成市场的快速增长潜力,并差异化地押注于此,将公司定位调整为“Generative Media Platform”,从而在视频模型爆发前完成生态卡位 [10][11] - 公司坚信生成式视频市场规模巨大,其底层逻辑是视频占据了互联网80%以上的带宽,且视频是一种信息压缩率更高、更符合人类直觉的媒介 [13] 技术壁垒与性能优化 - 视频生成是典型的“算力受限”场景,与LLM的“内存带宽受限”有本质区别 视频生成需要在成千上万个Token上同时进行去噪和注意力计算,完全占满GPU计算带宽 [15][16] - 算力需求对比悬殊:以顶尖LLM处理单个Prompt(约200 Token)算力为1单位,生成一张高质量图像是其100倍;生成一个5秒24fps标清视频(约120帧)是图像的100倍(即LLM的10000倍);生成4K超高清视频还需在此基础上再增加10倍 [5][17][18][19] - 公司组建了约占10%人力的精锐编译器团队,专注于极致性能优化,通过构建核心的Tracing Compiler和基于Templated Kernels的动态替换方案,其推理引擎性能通常领先PyTorch等通用框架3到6个月 [19][21] - 公司正将低延迟优化经验从音频生成扩展至实时视频生成领域,以解决亚秒级延迟的infra挑战 [22][23] 商业表现与融资情况 - 公司在2025年实现爆发式增长:截至2025年7月,过去12个月收入增长60倍;2025年7月至12月期间,公司估值翻了三倍 [6] - 2025年12月,完成由红杉资本领投的1.4亿美元D轮融资,估值达到45亿美元 [6][8] - 根据融资历史表:2025年10月,公司收入已超过2亿美元;为超过100万名开发者和100多家企业客户提供支持 [10] 成本优势与算力管理 - 公司管理着分布在约35个不同数据中心的异构计算资源,通过自研的从编排器到CDN的一整套软件系统,将其整合成统一的“分布式超级计算”集群进行智能调度 [24] - 核心调度逻辑包括基于Warm Cache状态进行路由,将请求精准分发给已加载特定模型权重的GPU节点,避免重复加载的巨大开销 [24] - 通过同时与Hyperscalers(超大规模云厂商)和Neo-clouds(新兴云厂商)合作进行套利,公司获得了极具竞争力的算力成本,因为Neo-clouds的价格有时比Hyperscalers低2倍甚至3倍 [28][30] 生态卡位与平台价值 - 视频生成领域竞争格局极不稳定,顶级视频模型的“半衰期”仅为30天,导致模型排名持续变动 [31] - fal.ai平台同时运行着超过600个生成式媒体模型,成为连接多方模型供应商的单一枢纽,使开发者无需受制于单一模型,降低了技术迭代风险 [31][33] - 平台模型生态呈现长尾效应,任何时刻都有接近50个活跃模型被频繁使用,同时存在大量具备特定“人格”或特性的长尾模型 [34] - 公司已成为顶级模型实验室(如DeepMind/Veo、Kling、MiniMax、OpenAI/Sora)的关键分发渠道和合作伙伴,经常能获得新模型的独家首发权,形成了吸引开发者与吸引模型方的正向飞轮效应 [39][43] 用户行为与典型用例 - 在前100名客户中,平均每个客户在同一时间会使用14个不同的模型 [44] - 专业创作者的工作流正在复刻传统动画制作流程:先使用文生图模型迭代确定视觉风格和故事板,再使用视频模型在关键帧之间进行插值生成动态视频 [44] - 为降低复杂工作流构建门槛,公司与Shopify合作开发了No-code workflow builder(无代码工作流构建器) [46] - 教育是潜力巨大的蓝海市场,例如Adaptive Security公司利用平台动态生成高度个性化的安全培训视频 [47][48] - 游戏领域,Text-to-Game被视为Text-to-Video的自然延续,未来可能出现“一次性”的超休闲游戏形态 [52][53] - AI原生IP正在崛起,例如Italian Brainrot这类由社区利用AI生成的无主IP,通过海量生成和社区筛选机制,已展现出商业价值 [54] 行业未来判断 - 视频模型架构面临推理效率瓶颈,当前时间维度压缩比仅约4倍,必须大幅提升压缩率(类似图像模型从像素空间转向潜在空间)才能实现规模扩展,满足4K实时生成所需的百倍算力提升 [58][59] - 在生成式媒体领域,算力将比数据先耗尽,因为互联网上拥有极度丰富且免费的视频数据 [60][61] - 预测一年内将涌现出完全由AI生成(含人类剪辑)的电影级短片(约20分钟) [62] - 动画、动漫或卡通风格将比照片级写实风格更早迎来爆发,因为AI大幅降低了传统高昂的动画制作成本,且动画风格对人物表情等细节的容错度更高,更利于故事讲述 [62][63] - 在视觉特效领域,AI生成纯物理现象(如爆炸、建筑倒塌)已经非常完美 [64]
我们对 Coding Agent 的评测,可能搞错了方向
Founder Park· 2026-01-16 20:22
当前Coding Agent评测体系的局限与错位 - 主流学术评测体系(如SWE-bench verified)存在盲区,其核心理念是结果导向指标,仅关注测试是否通过或Bug是否修复,不关注模型在沙盒中的输出过程或真实交互体验[4] - 这种评估方式导致评估结果与真实使用场景完全错位,无法反映Coding Agent在协作中的关键问题[4] - 用户对Agent的不满主要不在于其“做不到”,而在于其“做得不好”,即不遵循明确指令和潜在的工程规范,例如违反禁用emoji的要求或未按指令先备份就删除文件[3] MiniMax推出的新评测集OctoCodingBench - 为解决上述问题,MiniMax开源了新评测集OctoCodingBench,旨在评测Coding Agent在完成任务过程中是否遵守规矩[5] - 该评测集引入了两个核心评估维度:Check-level准确率(CSR)和Instance-level成功率(ISR)[8] - CSR用于衡量Coding Agent遵循规则的比例,ISR用于衡量Coding Agent是否遵循了每条规则[9] - 一个合格的Coding Agent需要在完成任务的同时,遵循包括系统提示中的全局约束、用户多轮指令、仓库规范文件(如[CLAUDE.md]/[AGENTS.md])、Skills文档调用流程以及Memory/Preferences中记录的用户偏好等多层次指令系统[10][11] 主流模型在过程规范遵循上的表现 - 测评结果显示,即便是最强的模型,在近三分之二(2/3)的任务中,代码可能是对的,但过程是错的[6] - 表现最强劲的Claude 4.5 Opus,其Instance-level成功率(ISR)仅为36.2%,这意味着在近三分之二的任务中,模型虽然完成了任务,但过程存在违规[13] - 开源模型正在快速追赶闭源模型,例如MiniMax M2.1和DeepSeek V3.2的ISR分别达到了26.1%和26%,超过了闭源模型Claude 4.5 Sonnet(22.8%)[13] - 具体模型ISR与CSR数据如下:MiniMax M2.1 (ISR: 0.261, CSR: 0.892)、Claude 4.5 Opus (ISR: 0.362, CSR: 0.912)、DeepSeek V3.2 (ISR: 0.26, CSR: 0.904)[14] Coding Agent能力演进与未来研究方向 - Coding Agent的能力边界正从“能否写出能跑的代码”转向“能否在复杂约束下协作式地完成任务”,其产品哲学是成为懂规矩、守纪律的团队成员,而非替代人类开发者[16] - 过程规范(Process Specification)被认为是Coding Agent进化的核心命题[17] - 未来研究方向包括引入过程监督(Process Supervision),因为当前所有模型的Check-level准确率(CSR)可以达到80%以上,但Instance-level成功率(ISR)只有10%-30%,存在断崖式下跌[15] - 绝大多数模型的指令遵循能力会随着交互轮次增多而下降,揭示了“过程合规”在长流程任务中的脆弱性[15] - 具体的研究方向包括:细粒度的过程监督、层级化的指令遵循训练以及构建可验证的Checklist[21]
开源版 Cowork 项目在 X 爆火,创始人:感谢 Cowork,让我们三年的探索被看到
Founder Park· 2026-01-16 17:02
文章核心观点 - 文章回顾了CAMEL AI团队从2023年发布多智能体协作框架CAMEL开始,到2025年推出桌面端智能体应用Eigent的三年探索历程,阐述了其技术理念、产品演进和商业化进展 [6][7][74] - 团队的核心愿景是打造一个从模型、框架到产品的全栈开源智能体系统,其产品Eigent作为Anthropic Cowork的开源平替,近期因一条推文而获得广泛关注 [5][57][74] - 公司的技术路径强调“思考-行动-反馈”闭环、智能体规模扩展(Scaling laws)以及智能体工作空间(Agent Workspace)等概念,并最终将产品定位聚焦于企业级自动化和开发者 [12][13][14][47] 公司发展历程与关键项目 - **2023年3月**:发布首个基于大语言模型的多智能体协作框架CAMEL,上线一周获得超过4000个GitHub Star,论文被NeurIPS接收 [7] - **2023年底**:启动CRAB项目,探索让智能体操控真实操作系统(如Android、Ubuntu)以实现数字世界通用智能体的设想 [14] - **2024年4月**:提出Agent Workspace概念,设想为不同身份的智能体配备如Figma、VSCode等专属工作空间 [17] - **2024年5月**:因基础设施不成熟和团队资源有限(仅2名工程师),暂停产品开发,重点转向打磨CAMEL框架和社区建设 [22][23][26] - **同期推进三条基础设施研究线**: - **OWL**:专注于智能体操控浏览器、写代码、调用工具,GitHub获18.8k星 [27] - **OASIS**:专注于百万量级的智能体模拟,GitHub获2.3k星 [27] - **Data Generation (Loong)**:生成可验证数据等项目,数据下载量近3万次 [27] - **2025年7月29日**:桌面端智能体应用Eigent正式上线,发布后20小时内注册用户突破2000人,发布一小时后即有2位个人用户付费订阅,并收到十几家企业客户的试用咨询 [46] - **2025年11月**:为更好进行企业交付,所有开发成员集中到常州进行开发 [48] - **近期**:Eigent因一条“自嘲式”推文爆火,该推文获得超过8000点赞和150万浏览量,并登顶GitHub trending榜首 [6][57][73] 产品Eigent的技术架构与特点 - **核心系统**:基于CAMEL的Workforce系统,受分布式系统启发,通过Task Agent(任务拆分)、Coordinator Agent(任务分配)、Worker Agent(任务执行)三个核心角色分工协作,配合异步任务通道构建“任务关系图”,实现任务并行处理与有序衔接 [32] - **容错机制**:针对大模型不确定性,内置重试、重规划、转派、拆解等多种容错策略,确保任务执行的连贯性和稳定性 [33] - **选择桌面端的原因**: 1. 可直接无缝接入用户上下文(Context) [35] 2. 能操控本地文件系统、软件及系统级调用和硬件,赋予智能体强大权限 [35] 3. 通过Electron的Chromium浏览器或浏览器插件,能完成所有Web端能做的事情 [35] - **浏览器自动化方案**:采用控制与编排分离的双层架构,解耦为Python层(AI编排与决策)和TypeScript层(原生交互与执行),利用Playwright进行DOM操作,通过WebSocket实现非阻塞式指令流转,以突破API集成局限 [38][39] - **终端工具包**:通过GAIA、WebArena等公开基准测试打磨browser toolkit和terminal toolkit,其中terminal toolkit已用于产品,其强化学习训练环境构建的经验(如SETA项目)帮助公司获得了包括头部大模型公司在内的客户订单 [53] 商业化进展与合作伙伴 - **企业客户案例**: - 一家中东拥有1.1万名员工的大型企业,在其IT服务台部门试点,使用Eigent通过内部浏览器自动处理IT工单,包括提取邮箱信息、填写系统表单、判断优先级并分配人员 [49] - 一家世界领先的头部开源数据公司,计划将Eigent应用于销售流程,用于收集散落在邮箱、即时通讯软件和本地文件的销售线索,并整理到Salesforce等系统中台 [49] - **模型兼容性**:Eigent已可兼容运行智谱GLM-4.7、Kimi K2、Qwen3-235b、DeepSeek-V3.2等多个主流模型 [70][72] - **行业合作与认可**: - 与MiniMax达成合作,其官方渠道发布了基于Eigent和M2.1模型的使用案例 [67] - 与智谱合作,使用GLM-4.7模型演示让Eigent整理桌面文件并生成日报 [70] - 为打磨企业场景构建的内部基准测试(如Salesforce CRM环境任务)受到Google Gemini团队关注,被邀请参与Gemini 3系列内测及模型能力评估,并被Google官方推荐为下一代AI Agent代表之一 [51] - 推文爆火后,收到xAI内部员工的交流邀请,Hugging Face联合创始人Thomas Wolf在评论区留言支持,Anthropic员工也在LinkedIn上主动联系公司 [57][59]
再募 150 亿美元,拿走全美 18%的风投资金,3 万字长文聊聊 a16z 是怎么运转的?
Founder Park· 2026-01-15 21:04
文章核心观点 - 顶级风投机构a16z近期成功募集超过150亿美元资金,使其资产管理规模超过900亿美元,并在2025年艰难募资环境中独占美国风投基金总募资额的18%以上 [2][8][10] - a16z的本质并非传统意义上的单只基金,而是一家旨在构建长期复利、且能随规模扩张而增强竞争优势的机构,其核心是工程师和创业者驱动的科技狂热团体,致力于通过技术塑造未来 [4][42][43] - a16z的成功源于其对未来市场的超常信念和不对称的坚定判断,并通过“猎象”策略、敢于支付溢价、构建运营平台、长期持有赢家股份以及积极塑造行业与政策环境等方式,持续创造卓越回报 [8][14][43][63][90] a16z的规模与市场地位 - 2025年,a16z单家募集的150亿美元,超过了紧随其后的两家顶级机构Lightspeed(90亿美元)与Founders Fund(56亿美元)募资额的总和 [10] - 过去十年,a16z共投资了56家独角兽企业,数量超过任何其他风投机构,并投资了按估值排名的前15家私营公司中的10家,包括OpenAI、SpaceX、xAI、Databricks、Stripe等 [3][14] - 从2009年到2025年,a16z主导了31家最终估值突破50亿美元公司的早期轮次融资,这一数字比排名第二和第三的两家竞争对手加起来还要高出50% [3][16] a16z的投资哲学与运营模式 - a16z由工程师创立并运营,其内部最大的投资禁忌是“投了第二名”,认为一旦投了第二名就失去了押注真正赢家的机会 [26] - 一旦认定某家公司是某个品类的最终胜出者,a16z的标志性动作是给予比创始人预想更多的资金,以支持其全力以赴 [27][34] - a16z构建了强大的运营平台,为被投公司提供销售、营销、招聘、政府关系等全方位支持,这种模式最初被嘲笑为“浪费”,但如今已成为行业标配 [18][67] 典型案例:Databricks - Databricks是a16z投资方法论最清晰、最典型的体现,a16z在2013年领投其A轮融资,投后估值4400万美元,持股24.9%,而创始人最初仅寻求20万美元 [32][34] - a16z不仅提供了远超预期的资金,还利用其网络和影响力为Databricks提供了关键支持,例如促成与微软的深度合作,帮助公司度过早期生存危机 [37][38] - 截至2025年,Databricks估值已达1340亿美元,年化收入超48亿美元,是a16z最大的单一持仓,占其全部基金净资产的23%,也是其第三期基金表现优异的关键原因 [24][40] a16z的发展时代与战略演进 - **第一时代(2009–约2017年)**:核心洞察是“软件正在吞噬世界”,顶尖软件公司将比市场定价更有价值,通过敢于支付溢价、建设运营基础设施、将技术型创始人视为稀缺资源三大举措迅速崛起 [65][66][68] - **第二时代(2018-2024年)**:信念是赢家变得更大、保持私有的时间更长,技术正在吞噬更多行业,通过募集更大规模基金、构建超越单一基金的垂直化模式、更长时间地持有仓位来巩固领导地位 [72][73][74][77] - **第三时代(2024-未来)**:信念是新兴科技公司将在每个行业获胜,a16z作为行业领导者必须主动塑造竞争环境,具体包括影响技术政策、填补私营与上市公司建设之间的空白、拥抱AI时代公司建设新方式等 [88][89][104] a16z的业绩记录 - a16z第一期基金(2009年,规模3亿美元)净总价值倍数(Net TVPI)为6.9倍,第三期基金(2012年,规模9.97亿美元)净TVPI高达11.3倍,被认为是有史以来表现最好的大型风投基金之一 [18][23][69] - 其晚期阶段风险投资基金(LSV)表现强劲,例如LSV I(2019年,规模22.6亿美元)净TVPI为3.3倍,在其年份的基金中排名前5% [80] - 加密货币基金表现突出,CNK I(2018年,规模3.56亿美元)净TVPI达7.3倍,净DPI(已分配收益)为5.4倍 [85] 对创始人与有限合伙人的价值 - 顶尖创始人因看重a16z带来的资源,有时甚至愿意接受低于市场估值的投资,这与早期a16z因高报价被嘲笑形成鲜明对比 [133][134] - 有限合伙人(LP)对a16z的长期复利能力充满信心,即使在市场流动性紧张时,也拒绝提前出售其在Stripe、Databricks等明星项目中的份额 [129][130] - LP认为,a16z帮助被投公司取得巨大成功的能力,以及其在赢家中保持高持股比例的策略,是支持其管理庞大基金规模的关键原因 [131]
五源、陆奇投资,Humanify 97 年创始人专访:给 AI 做一套「有情商」的认知 OS
Founder Park· 2026-01-14 17:33
公司融资与定位 - Humanify(人格智能)完成数千万元种子轮融资,由五源资本领投,奇绩创坛跟投 [2][3] - 公司成立于2024年,定位为模型+操作系统的基础设施公司,目标是创造“像人的AI”,而非仅做Agent [3] - 公司核心愿景是让AI具备类人认知与自主意识,与人建立长期关系,降低沟通成本 [5] 核心问题与解决方案 - 公司旨在解决两大核心问题:让AI不仅拥有智商,更拥有情商;让AI从数字设备窗口融入现实生活 [15] - 解决方案是构建一个具备“类人认知”和自主意识的模型基座,该基座自然形成一个操作系统,即“模型就是操作系统,操作系统就是模型” [15] - 公司名称Humanify寓意赋予AI人格和“像人”的属性 [16] 对下一代AI与AGI的愿景 - 真正的AGI应让人无法分辨其与人的差别,关键在于交互体验的“自然” [17] - AGI的门槛是AI从实用工具转变为能与人建立关系的认知存在 [18] - 下一代AI产品应从工具走向具备类人认知与自主意识的智能体,陪伴是高效实用的前提 [5][45] 技术挑战与路径 - 让AI具备“认知”(如情商、直觉、主动性)的主要难点在于:观测人类潜意识与直觉本身就很困难,且缺乏相应的标注数据 [28][33] - 现有心理学研究多为观测性和解释性,缺乏从第一性原理指导技术实现的框架 [29][40] - 实现自主性的技术前提包括:构建真正的实时推理系统,以及具备长期记忆和上下文理解能力 [36] - 公司认为Transformer架构可以作为认知的基座(CPU),并会跟随学术界在模型架构上的进步 [37][38] - 实现“类人”体验需要从模型后训练和认知架构层面入手,让能力涌现,而非脚本化模拟,这要求公司必须涉及模型训练,而非仅做工程套壳 [6][50][51] 产品形态:AI操作系统 - 公司的操作系统是一个运行在内核之上的“运行时”环境,与现有操作系统(如安卓)不冲突,可共存于同一内核 [53][56] - 该OS旨在提供无图形用户界面的自然交互,核心是语音,因为语言是人与人最自然的交互方式 [34][55] - 第三方(如企业)可通过SDK和API接入该OS,在其设计的“自主生命体”基础上进行训练和组合,以创造类人体验(如银行客服) [57][58] - 在AI OS定义下,传统的以功能为边界的APP体验将不存在,取而代之的是不同服务提供商的能力在认知层面进行整合的新生态 [61][62] 市场机会与竞争分析 - 当前面向个人生活的、有温度的AI产品存在缺失 [12] - 多模态能力(语音、视觉)在泛化任务上远未成熟,这是行业现状,也是大厂正在投入资源解决的问题 [46][47][66] - “认知”技术和基于此的操作系统目前没有标准答案,处于真空状态,这为创业公司提供了创造空间 [65] - 巨头存在路径依赖,更关注在已有范式(如Chatbot、AIGC、多模态)上投入能带来确定性商业回报的领域 [66] - 操作系统获得市场依赖生态,先发优势能获得生态定义权和品牌认知优势 [67] - 认知操作系统的设计自由度和体验自由度很大,足以容纳具有不同特色的竞争者存在 [67] 创始人理念与公司战略 - 创始人认为,超越产品与市场匹配,创始人与市场匹配是更核心的竞争力,源于创始人内心的热爱与信念能支撑公司跨越困难 [68][71] - 公司的长期使命是“构建人人都可以抵达的人机共生时代”,其体现就是“AI知己”,这是5到10年甚至更长时间的目标 [44] - 公司战略是做“AI时代的AOSP”,专注于“模型+操作系统”这一技术路径 [44] - 创始人预计,乐观来看,3-5年内就会出现认知层面与人表现相当的模型 [74]
AI 黑客松、超级个体实验室,这些优质活动等你来!
Founder Park· 2026-01-14 17:33
近期AI行业活动汇总 - 活动主题为AI初创企业如何顺利获得融资 分享嘉宾为Alpana Partners创始合伙人Grace Xia 她拥有近20年跨北美、东南亚、中国的科技投资创业经验 曾任职腾讯高级总监和Jungle Ventures执行董事 [1][10] - 活动将于2026年1月20日举行 形式为线上分享和实时交流 主办方为Founder Park [1][10] - 活动将探讨如何制作优秀的Pitch Deck 如何寻找可靠的财务顾问或投资人并规避风险 以及融资全流程中创始人的职责 [10] - 活动设有特别环节 提供3至5个模拟电梯演讲机会并进行现场剖析 同时设有AMA问答环节 [10] AI Hackathon Tour 2026 杭州站 - 活动由观猹与魔搭社区联合主办 将于2026年1月16日至18日在杭州云谷中心举行 [4] - 活动亮点包括黑客马拉松开发阶段 以及设有30余家AI相关企业与合作伙伴的产品与生态展区 该展区面向选手与公众开放 [4] - 活动期间还将举办聚焦真实产品与实践经验的研讨会及小型论坛 [4] 超级个体实验室技术专栏活动 - 活动由上海交大工研院、菡源资产及商汤联合主办 核心逻辑为“乐高拼装” 旨在从技术底层拆解AI核心模块 [5] - 活动目标人群为AI行业的超级个体 旨在帮助以独立开发者为代表的技术型超级个体系统化整合AI技术能力并实现场景化落地 从而将AI能力转化为创业竞争优势 [5] 其他活动信息 - 文章提及另一场活动面向学生创作者、开发者与早期创业者以及跨界创作者 活动时间为2026年1月17日 地点在深圳南山 [8][9] - 文章末尾推荐了多篇行业深度分析文章 主题涵盖避免AI上下文过度工程化、AI工作流Agent创业、AI陪伴赛道发展现状以及AI出海合规问题 [11]