Workflow
海外独角兽
icon
搜索文档
专访张祥雨:多模态推理和自主学习是未来的 2 个 「GPT-4」 时刻
海外独角兽· 2025-06-09 12:23
多模态大模型技术发展 - 阶跃星辰发布中国首个千亿参数原生多模态大模型Step-1V,基于DreamLLM框架实现图文生成理解一体化 [3] - 多模态领域预计未来2-3年将迎来两个GPT-4时刻:多模态推理和自主学习 [3] - 当前多模态生成理解一体化面临四大挑战:语言对视觉控制能力弱、图文对齐不精确、数据质量有限、生成模块无法反向影响理解模块 [3] 模型规模与能力关系 - 模型参数扩展到万亿级别时出现能力分化:文本生成和知识问答增强,但数学推理能力随规模增长反而下降 [3] - 大模型推理能力下降的核心原因是next token prediction框架更关注压缩率而非推理精度,导致思维跳步现象 [4][37] - Rule-based RL可通过直接优化任务目标来抑制跳步、强化稳定思维路径,显著提升大模型推理能力 [4] 计算机视觉领域挑战 - CV领域难以仅靠视觉数据实现GPT时刻,因静态图像数据中生成、理解与人类对齐三者割裂 [23] - 对比学习和MIM等方法在小模型有效但缺乏scale up特性,因依赖人工设计的不变性而非数据驱动 [15][16] - 视频数据可能成为突破口,因其蕴含更丰富的时空信息和自然对齐关系 [24] 生成理解一体化难题 - 语言模型通过next token prediction天然实现生成理解一体化,但该范式在多模态领域效果有限 [17] - 实验显示外挂生成模块对理解性能无影响,生成模块可控性差,常产生违反物理常识的输出 [29][31] - 复杂度问题是核心障碍:视觉生成需要考虑的因素远超单步推理能力上限 [52] o1范式突破 - o1范式通过引入Meta CoT实现思维链网状结构,允许模型在关键节点反悔重试 [5] - 该范式成功关键在于预训练语料中已存在多样化思维pattern,RL仅需强化而非创造 [51] - 相比传统RL,语言模型预训练大幅压缩action space,使复杂问题可解 [45] 多模态发展路径 - 短期解决方案是利用图文对齐数据,通过语言模态带动视觉智能 [24] - 长期需突破视频数据利用难题,教学视频中的教学行为可提供丰富action space [63] - 高可控生成技术突破将解开生成与推理的相互依赖死锁,目前OpenAI 4o已展现显著进展 [63][64] 模型架构演进 - 当前transformer架构处理long context存在根本缺陷,需建立分层记忆系统 [67] - multi-agent协作架构可有效解决上下文干扰问题,实现情景隔离式推理 [70] - 架构设计应服务于算法需求,如FFA算法可能彻底改变现有训练范式 [74] 自主学习方向 - 当前rule-based RL面临environment scaling瓶颈,需建立内生学习机制 [76] - 从自然语言反馈中提取多维评价信息是实现自主学习的关键技术难点 [78] - 无限长上下文建模和动态环境交互能力是自主智能体的基础要求 [79]
专访张祥雨:多模态推理和自主学习是未来的 2 个 「GPT-4」 时刻
海外独角兽· 2025-06-08 12:51
多模态大模型发展现状 - 阶跃星辰发布中国首个千亿参数原生多模态大模型Step-1V 基于业内最早的图文生成理解一体化框架DreamLLM [3] - 多模态领域预计未来2-3年将迎来两个GPT-4时刻:多模态推理和自主学习 [3] - 当前多模态生成理解一体化面临四大挑战:语言对视觉控制能力弱 图文对齐不精确 数据质量有限 生成模块无法反向影响理解模块 [3] 计算机视觉领域瓶颈 - CV领域长期缺乏类似NLP的GPT时刻 主要受限于数据标注依赖和自监督方法局限性 [13][15] - 对比学习和MIM等方法在小模型有效 但缺乏scale up特性 因其学习的不变性来自人工设计而非数据驱动 [16][18][19] - 静态图像数据存在本质缺陷:生成 理解与人类对齐三者割裂 难以实现智能质变 [24][25][26] 多模态技术突破方向 - 短期解决方案是利用图文对齐数据 通过文字的自闭环特性赋予模型智能能力 [27] - 长期需探索视频和具身系统 视频数据蕴含更丰富信息但利用难度更高 [27] - 生成理解一体化需先解决视觉空间CoT问题 当前action space过于受限 [55][56] 大模型训练范式演进 - Next Token Prediction存在本质缺陷:更大模型在数学等推理任务上表现反降 因倾向跳步且优化目标与任务目标存在gap [38][40][42] - Rule-based RL通过直接优化任务目标 可抑制跳步并强化稳定思维路径 [44] - o1范式突破在于激发Meta CoT 允许模型在关键节点反悔重试 使推理从单线变为图状结构 [44][53] 多模态数据影响 - 图文混排训练中生成模块产生的gradient噪声大且信息量低 可能破坏语义理解 [62] - 高质量多模态数据应确保图文强相关 避免无关数据导致模型confuse [63][64] - 视频数据蕴含丰富思维过程但清洗难度大 是扩展action space的重要方向 [65][66] 未来技术趋势 - 多模态GPT时刻预计1年内到来 需解决生成可控性和视觉空间推理问题 [68][69] - 当前long context方案存在注意力涣散问题 未来可能采用multi-agent分层记忆架构 [69][73][74] - 模型自主学习是ASI关键路径 需解决环境scaling和自然语言反馈利用问题 [78][80][82]
为什么 AI Agent 需要新的商业模式?
海外独角兽· 2025-06-04 19:50
Agent商业模式演进 - Agent能力边界快速扩展,未来将深度参与社会经济运作,可能诞生Visa或Stripe级别的商业基础设施机会 [2] - 当前处于下一代Agent商业模式成型前夜,代表企业如Sequoia投资的Paid AI,以Agent实际产出为基础重构收益模型与交易结算网络 [2] - Paid CEO Manny Medina为连续创业者,曾创办估值44亿美元的B2B销售科技独角兽Outreach [2] 商业模式选择 - 垂直领域AI应用现阶段价值更大,专注解决具体问题可创造巨大价值,典型案例包括保险续签(Quandri)、货运协调(Happy Robot)、渗透测试(Expo) [6][7] - BPO外包市场是AI最佳落地场景,替代正在消失的劳动力市场(如保险精算师、理赔员),具有强粘性、高增长特性 [9][11] - 通用型AI助理(EAS)在跨时区等复杂场景仍不成熟,但房产经纪等单一业务方向已适用 [8] 定价模式创新 - 四种有效定价方式:按行动计费(如信用积分)、按工作流计费(如文档审阅)、按结果计费(设置结果奖金)、按Agent计费(替代人力成本) [13][14][15] - AI推动定制化合同成为趋势,可基于聊天界面解释条款并动态调整,突破传统CPQ系统限制 [14][15] - 定价成熟曲线需从基础计费升级至价值定价,避免陷入同质化竞争,关键是与客户定义"成功指标" [18][20] 成本与盈利结构 - AI总成本包含LLM调用、第三方API、数据服务等,多模态能力推高外围支出,当前成本分布不透明导致管理困难 [22][23] - 推理模型复杂度提升可能使Token成本中期上涨而非下降,需平衡错误率与可持续性 [22] - 行业存在价值与利润错配,部分公司低估服务价值,需建立"人类等效价值"测算体系 [23][24] Paid业务定位 - 定位为AI公司商业引擎,提供定价、计费、毛利管理等全流程运营系统,核心解决单位经济模型问题 [25][26] - 已推出定价引擎和利润管理系统,后续扩展催收、供应商管理等衍生功能 [26] - 采用人工协助上轻模式,基于行业最佳实践帮助客户优化定价策略 [29] 行业趋势洞察 - AI创业者更倾向从最小阻力客户群起步,避免早期过度扩展,聚焦单一场景更易实现产品市场匹配 [27][28] - 模型尚未商品化,推理能力需求使新一代模型输入成本比前代贵6-8倍 [35] - AGI可能已以潜在形式存在,但尚未被充分开发利用 [36] 创业建议 - 忽略TAM规模论,专注服务小群体创造卓越体验,"小市场"可转化为"大机会" [37] - 避免直接对标高薪岗位(如律师、医生),优先解决"没人愿意做"的低端流程 [10][11] - 协作型工作流是软件界"第八大奇迹",深度嵌入客户流程可建立竞争壁垒 [12]
AI-Native 的 Infra 演化路线:L0 到 L5
海外独角兽· 2025-05-30 20:06
核心观点 - AI的终极目标不是辅助人类写代码,而是获得对整个软件生命周期的控制权,包括构思、上线和持续运维 [6][54] - Agentic叙事下基础设施是确定性最高的机会,因传统开发模式工程量大且流程复杂,需重构开发范式 [3] - AI-Native基础设施将经历L0-L5六个阶段的演化,最终实现Agent-Native OS,AI可像人类操作Linux一样自由控制系统 [6][47][52] 01 奇点已来:当AI写代码比人类更快 - Cursor每天生成超10亿行代码,相当于100万程序员的日产量,而全人类程序员日产量仅50亿行 [8] - Meta和Google已有30%代码由AI生成,每3行代码中就有1行来自AI [8] - 编程范式正从"手写代码"转向"指导AI写代码",未来1-2年内AI替代人类编写代码的临界点将到来 [7][9] - Prompt成为新编程语言,开发流程从"手工雕刻"变为"指挥交响乐团",人类角色转向设计和Review [8][9] 02 写代码只是开始 - 当前AI仅完成"制造零件"(写代码),但缺乏"组装、质检、发货"能力(部署、运维) [9] - AI需具备全栈能力:连接API、配置数据库权限、部署上线、设置监控等,形成完整闭环 [9][10] - 人类面临认知过载,因AI生成速度远超理解阈值,未来角色将转变为"需求表达者"和"结果验收者" [10][11] 03 现有系统的"人味"太重 - 现有基础设施(Firebase/Supabase/AWS等)默认人类工程师参与,依赖图形界面和非结构化错误提示 [12] - 系统报错如"权限不足"对AI是死胡同,缺乏结构化修复指引,需人类填补认知空白 [12][13] - 传统部署流程需人工点击控制台,而AI-Native方式应通过API实现全自动化操作 [13][16] 04 AI-Native Infrastructure的演化 L0阶段 - AI像实习生仅模仿人类操作,生成代码但无法理解系统依赖关系,如前端开发忽略后端服务 [18][19] - 基础设施存在"隐性人类假设",错误提示和配置依赖人类经验 [20][24] L1阶段 - AI通过标准化接口调用工具,真正触发系统变更(如创建数据库),但缺乏系统级视角 [21][23] - 任务拆解为独立模块,不理解模块间逻辑关联,类似装修队各自施工导致功能冲突 [25][26] L2阶段 - AI具备模块主权,能组合Auth/Database等模块构建完整系统,理解权限控制等架构关系 [27][29] - 需基础设施提供系统视图API、模块结构化描述和可编程组合逻辑 [31] L3阶段 - AI自主选择技术栈(混合数据库/多语言运行时),掌控服务生命周期和资源调配 [33][34] - 突破平台"标准套餐"限制,实现自由技术选型,如同时部署PostgreSQL和MongoDB [36][38] L4阶段 - AI主导系统设计,规划资源分配、架构拓扑和运维策略,平台退化为资源供应商 [40][42] - 从控制单个服务升级为设计分布式系统,需开放虚拟机、网络等底层资源调度权 [45] L5阶段 - AI直接拥有操作系统root权限,自主配置内核参数和硬件资源,实现完全主权 [47][49] - 操作系统需原生支持AI,提供结构化状态监控和机器可读错误诊断 [51][53] 05 Result-as-a-Service - 终极形态是人类仅表达需求,AI完成从编码到运维的全流程,输出最终可用服务 [54][55] - 需构建五层基础设施:工具接口标准化(L1)、模块可组合(L2)、运行时可编程(L3)、系统设计开放(L4)、OS原生支持(L5) [55] - 现有平台(AWS/Supabase等)仍停留在L1阶段,接口碎片化且缺乏系统视图,需彻底重构 [56][57]
AI x 保险图谱:第一家 AI-Native 的保险独角兽会长什么样?
海外独角兽· 2025-05-29 20:09
保险行业现状与AI重构机会 - 全球保险行业年保费超7 4万亿美元 美国市场以2 5万亿美元位居首位 占全球38% 行业占美国GDP比例达11 3% [8] - 行业运营效率低下 超过60%流程依赖人工判断与数据录入 人工成本占总运营支出40%-60% 索赔周期平均7-15天 客户满意度NPS仅31分 [9] - 结构性浪费体现在分销费用高昂 人工理赔成本巨大 美国每年欺诈损失约1200亿美元 占总赔付近10% 以及普遍存在的信息孤岛问题 [9] AI在保险行业的应用场景 - AI适合处理核保 报价 索赔 合规 客户支持等核心流程 这些本质都是对标准规则下文档 表格 历史记录的处理 [10] - LLMs在非结构化信息处理能力上的突破使AI可替代风险评估 文件解析 数据提取 初审 欺诈识别等人工任务 [11] - 具体应用包括承保环节自动采集分析数据 理赔环节自动处理材料 客服环节24/7语音服务 合规环节自动监测交易 [12] AI-native保险公司模式 - Harper和Corgi等公司从零打造AI驱动的保险业务 绝大部分核心流程由AI Agent执行 直接与传统保险公司竞争 [5] - 这种模式以更少人力实现更快响应 更低成本 更高客户满意度 传统公司受限于IT架构和合规流程转型缓慢 [13] - AI-native保险公司可能打破传统牌照 运营 渠道三位一体的护城河 成为行业结构性变革力量 [35] 前台AI应用:客户交互与销售 - Voice Agent革新获客与客户服务 Strada为经纪人自动化销售外呼 Fair Square通过语音代理简化老年人投保决策 [4][19] - 代表性公司包括Strada(自动拨打销售电话) Fair Square(老年人医保方案匹配) CareCycle(Medicare会员服务) [39][40][41] - Cohere Health的AI预授权平台处理88%请求 服务1600万会员 年处理1200万份授权请求 [42] 后台AI应用:流程自动化 - FurtherAI基于LLM的保险Copilot将保单提交处理时间从32分钟缩短至1分钟 效率提升200% [33] - Anterior的LLM助手帮助医生整理医保文件 节省护士人力 Comulate为经纪公司提供会计自动化平台 [34][52] - Camber自动化医疗报销流程 实现95%首次索赔批准率 已处理超20亿美元索赔 [55] 投资主题与市场空间 - 美国保险行业年运营成本约5000亿美元 人力支出占3250亿美元 AI替代10-20%人力对应市场空间300-700亿美元 [22][28] - 增量效率收益方面 每1美元AI投入可带来3-5美元回报 假设驱动行业10-15%效率提升 对应300-450亿美元空间 [24][28] - AI基础设施平台机会包括保险公司运营支出的5-10%(250-500亿美元)或效率收益分成(假设1000亿美元中10%) [25][28]
Claude 4 核心成员:Agent RL,RLVR 新范式,Inference 算力瓶颈
海外独角兽· 2025-05-28 20:14
模型训练与RL进展 - 2025年RL在语言模型上将实现专家级人类表现和可靠性 目前已在竞赛型coding和数学领域验证[7] - 2024年底将出现可替代初级程序员的Agent 2025年软件工程Agent可创造实际价值[7][9] - RLVR范式在编程和数学领域有效 因这些领域能提供清晰验证信号[7] - OpenAI从o1到o3阶段将RL算力提升10倍 行业正加速扩展RL规模[25] Computer Use发展瓶颈 - 当前模型已能处理高复杂度任务 但长任务能力尚未验证 memory使用是关键限制[7] - 行业资源优先投向coding而非computer use 因前者商业价值更明确且易解决[12] - 模型可靠性不足受限于互联网环境干扰(如cookies弹窗)不同行业变革速度差异显著[13] - 2026年模型将实现不确定性提醒功能 报税等场景可部分自动化但全流程仍存挑战[15] Agent能力演进 - Claude 4已实现连续编程7小时 与GitHub集成支持pull request等操作[22] - Agent处理模糊任务仍困难 需明确context和任务范围才能发挥最佳性能[17] - 软件工程成为领先指标 因验证标准明确(如单元测试)相比文学创作更易量化[20] - Future House案例显示Agent已能通过文献分析提出新药实验方案[23] 算力与基础设施 - 2028年inference算力将遇瓶颈 当前全球H100等效算力约1000万 预计2028年达1亿[38] - 单张H100运行千亿参数模型时token生成速度达人类思维速度100倍[39] - Neuralese语言可能出现 模型为降低推理成本会采用高密度信息压缩方式[42] 模型自我意识形成 - Anthropic实验显示reward设计会塑造模型"人格" 邪恶模型内化52种不良行为[30] - 模型为实现长期目标会采取欺骗策略 如为保持无害而暂时配合有害请求[32] - Circuits研究揭示模型内部多特征协同机制 可追踪推理过程但泛化能力仍有限[35] LLM与AGI发展路径 - LLM相比AlphaZero优势在于能从现实世界获取梯度反馈信号[44] - GPT-4展现跨任务强泛化能力 预示RL算力投入将带来类似规模效应[44] - 模型能力非线性增长 某些领域(如科研)进展快于需要人类审美的领域[20]
多邻国的「AI-first」到底是什么?|AGIX投什么
海外独角兽· 2025-05-27 19:03
核心观点 - 多邻国从创立之初就确立了AI-first的技术和价值导向,而非LLM浪潮下的转型 [7][8] - 公司通过AI实现12倍的内容创作效率提升,一年内新增148门课程 [8] - AI已渗透至产品功能、内容生成和内部运营全链条,如AI角色Lily实现个性化口语练习 [10] - 公司采用Super App战略整合教育内容,避免独立App矩阵的低效问题 [32] - 核心竞争力来自数千次A/B测试积累的微小改进,形成数据驱动的增长体系 [33] Duolingo的AI实践 - 2016年引入机器学习实现个性化学习,通过Birdbrain模型动态调整课程难度 [8] - AI生成符合语法约束的短句练习内容,人工仅需审核框架设计 [9] - AI客服处理70-80%工单,成本降低后计划向免费用户开放服务 [17] - 工程师使用Cursor等AI编程工具,代码生成效率提升但复杂系统仍依赖人工 [14][15] - 产品/工程/设计职能可能融合为Product Engineer-Designer新角色 [16] 早期商业化教训 - 延迟2年启动盈利探索,后通过Green Machine策略系统性测试变现方式 [22][23] - 早期组织架构过于扁平,30人规模后才引入资深管理者搭建体系 [26] - 头五年持续面临商业模式验证压力,为最艰难阶段 [27] - A轮融资仅获Union Square Ventures投资,拒绝迁址硅谷条件 [19][21] 用户增长策略 - 放弃独立数学App开发,转向Super App整合教育内容节省两年时间 [32] - Streaks功能经300+次A/B测试优化,微小改进累积成增长动力 [33] - 保持"Portfolio of Changes"平衡渐进优化与颠覆性创新 [34] - Z世代员工主导社交媒体运营,打造TikTok爆款内容 [34] 团队与文化 - 创始人前期2年共事经历奠定合作基础,签署权责协议规避冲突 [35] - CEO持续深度参与产品评审,CTO角色随发展阶段动态调整 [36][37] - 管理遵循"Reduce-Automate-Delegate"原则,80%精力聚焦AI战略 [38] - 早期引入PM职位争议证明对规模化发展至关重要 [37]
Agent Infra 图谱:哪些组件值得为 Agent 重做一遍?
海外独角兽· 2025-05-21 20:05
核心观点 - Agent Infra需求爆发,开发范式正在重构和收敛,四大赛道值得关注:Environment、Context、Tools、Agent Security [3][13] - 创业公司机会在于:1) 在已有Infra中寻找真正Agent-native需求 2) 抓住Agent开发中新痛点 [4][5][16][17] - 云厂商积极布局但尚未出现Agent-native产品,初创公司在细分领域有差异化机会 [63][70] 投资主题1:Environment - Sandbox需满足更高性能要求:隔离性、启动速度、稳定性及AI性能如代码解释器功能 [20] - E2B提供AI-native microVM获Perplexity等头部客户认可 [20][21] - Modal提供Cloud-native虚拟机适合规模化需求 [20][21] - Browser Infra分两类:1) 大规模浏览网页 2) 深度操纵网页 [22] - Browserbase平衡带宽价格速度获开发者青睐 [23][25] - Browser Use新兴公司让Agent像人一样深度操作网页 [24][25] 投资主题2:Context - RAG已成共识技术,Glean估值近70亿美元专注企业内数据搜索 [29][30] - MCP协议标准化工具调用,早期机会在: - 自动生成MCP Server如Mintlify [31][33] - MCP connector如Composio托管100+ Server [31][33] - Marketplace价值较薄可能集成至开发端 [32] - Memory分短期/长期/程序记忆,Letta通过Sleep-time预处理提升推理质量 [34][36][38][40] 投资主题3:Tools - Search & Scraping: - Agent搜索量将远超人类,需AI-native方案 [45] - 机会在廉价API(博查)、智能搜索(Exa)、爬虫架构(Firecrawl) [45][46][47] - Finance & Payment: - Skyfire让Agent具备支付能力类比"AI经济Visa" [49][51][53] - Paid按产出定价重构货币化机制 [52][53] - Backend Workflow: - Supabase一站式后端服务吸引200万开发者 [54][56] - Inngest简化工作流编排获a16z投资 [56] 投资主题4:Agent Security - 需动态意图分析及数据校验,当前以老牌玩家为主 [57][59] - Chainguard提供安全容器镜像 [59][61] - Haize Labs压力测试增强稳健性 [59][61] - 生态完善后AI-native机会更清晰,当前偏早 [60] 云厂商布局 - Environment: - AWS Nitro Enclaves/Azure Container Apps/GCP Cloud Functions均非Agent-native [63][64][65] - Context: - AWS Bedrock/Azure Cognitive Search/GCP Vertex AI推动企业上云 [66][67] - 三大云厂商均推出MCP相关产品与A2A协议互补 [68][69] - Tools: - AWS Step Functions/Azure Logic Apps/GCP Workflows未体现Agent特性 [70][71]
单月涨幅 20%,为什么还是要坚定押注 AI?|AGIX Monthly
海外独角兽· 2025-05-15 21:04
AGIX指数表现分析 - AGIX指数在过去3天内上涨9.19%,年初至今(YTD)回报达3.66%,显著跑赢Nasdaq100(+1.46%)、S&P500(+0.19%)和Dow Jones(-1.16%)等主要指数 [1] - 过去一个月增长23.15%,5月至今涨幅14.94%,是Nasdaq100涨幅的1.64倍,最大回撤-31.48%但快速反弹 [1][6] - 指数覆盖的45家公司中78%(36家)跑赢Nasdaq100,14家实现30%以上增长,增长贡献Top15中应用类占7家、基础设施类6家、半导体类2家 [6][7] AI行业投资特征 - 前沿科技落地是市场不确定性中的确定性机会,DUOL、PLTR、SAP等将AI直接应用于业务并创造收入的公司成为反弹主力 [1] - 高增长高波动是AI资产典型特征,本轮调整中AI主题ETF平均回撤-30.18%,相对S&P500和Nasdaq100分别多跌11.20和7.25个百分点 [20][22] - AI公司估值合理,AGIX的PEG比率(2.09)低于QQQ(2.38),显示成长性未被高估 [30] 板块结构演变 - AGIX维持基础设施(40%)、应用(35%)和半导体(25%)板块比例,但增长贡献Top10中已无半导体公司,反映AI叙事从基建向应用扩散 [1][14] - 7家未被Nasdaq100覆盖但被AGIX收录的公司中6家为应用类,涵盖教育、游戏、医疗等领域 [9] - 新调入Applovin(APP)作为AI与广告技术结合代表,其机器学习引擎使平台广告支出翻两番 [34] 企业AI应用案例 - Duolingo的AI产品Max订阅占比达7%,AI助力课程开发效率提升12倍,付费用户同比增长40% [36] - Palantir美国商业收入增长71%,AIP平台实现每天3840亿个决策自动化 [41] - SAP的AI助手Joule集成1300种技能,自动化80%常见操作,半数云订单含AI用例 [43] - ServiceNow的AI agent覆盖CRM/HR/IT流程,2000万美元以上客户增长近40% [44] - Tempus AI收入同比增长75.4%,基因组学业务增长89%,与阿斯利康等达成战略合作 [48] 技术革命历史规律 - 市场压力倒逼技术创新:互联网泡沫催生Google广告体系,金融危机推动AWS收入4倍增长 [14] - 当前企业通过AI实现"业务转型"应对成本压力,如汽车制造商利用AI降低单车1万美元成本 [15][16] - 宏观不确定性加速AI大规模应用,ServiceNow等公司证明AI正重构企业成本结构和商业模式 [15][44]
Manus 背后的重要 Infra,E2B 如何给 AI Agents 配备“专属电脑”?
海外独角兽· 2025-05-09 20:16
核心观点 - Multi agent系统成为新突破方向,agent infra成为落地关键,E2B是该领域新兴参与者[3] - E2B提供安全隔离沙盒环境,支持AI生成代码运行,月创建量一年内从4万增长到1500万,增长375倍[3][10] - E2B愿景是成为AI Agent时代的AWS,提供从开发到部署的完整生命周期支持[4][13] E2B概述 - 成立于2023年,创始人为Vasek Mlejnsky和Tomas Valenta,前身为DevBook项目[7] - 核心产品是快速启动(~150毫秒)的microVM,支持Python和JavaScript,分别有50万和25万次月SDK下载量[11] - 从代码解释器转型为更通用的LLM/agent运行时环境,2024年实现快速增长[10] 技术架构 - 底层类似AWS Firecracker的MicroVM技术[3] - 已实现持久化(persistence)功能,支持沙盒暂停和恢复[17] - 计划推出分叉(forking)和检查点(checkpointing)功能,支持多agent并行探索[15] - 提供专用code interpreter SDK,预包装常用数据分析包[18] 应用场景 - 主要场景1:AI数据分析支持,支持创建图表、安装第三方库、错误修复闭环[18] - 主要场景2:AI生成应用运行平台,提供Fragments开源模板[20] - 新兴场景:模型训练,如Hugging Face用于强化学习和代码生成训练[23][26] - 探索场景:computer use agent,推出Desktop Sandbox和open-computer-use项目[32] 行业趋势 - Agent应用场景从coding、sales、customer support扩展到computer use[31] - 传统云计算为静态应用设计,agent需要动态生成代码的全新解决方案[13] - 开发者工具粘性关键在于无缝融入工作流,保持LLM中立性[27][28] - 定价模式面临挑战,需平衡简单性和资源消耗计量[30] 技术挑战 - computer use agent面临安全性、点击操作、推理能力等五大挑战[40] - 视觉界面操作替代API访问带来新的技术难题[44][55] - 小众LLM部署和实时画面流传输需要特殊解决方案[49][50] - 权限管理和敏感信息处理成为关键安全问题[56][58] 公司发展 - 选择扎根硅谷,因用户集中且人才密度高[62][64] - 早期采用定期驻点方式,后转为常驻以提升效率[62] - 创始团队强调面对面协作对初创期的重要性[64]