海外独角兽

搜索文档
OpenAI 研究员 Noam Brown:Mid-training 是新的 pre-training
海外独角兽· 2025-07-02 19:03
AI推理能力的发展与演进 核心观点 - AI行业进入新范式,推理能力成为智能下半场的关键驱动力,模型从表层关联跃升至复杂认知[4] - 推理是涌现能力,需pre-training达到阈值后才有效,小模型无法受益[11] - 未来数据将比算力更稀缺,强化学习可提升数据利用效率[5][25] - Multi-agent长期互动或催生"AI文明",规模扩大自然涌现复杂隐式模型[44][46] 推理能力的本质与演进 01 推理是涌现出来的能力 - 类比人类"系统一/系统二"思维:系统一为直觉快速反应,系统二为慢速深度推理[8] - GPT-2级小模型使用思维链无效,大模型才能展现推理增益,类似大脑皮层进化[11] - 多模态任务中,空间推理/多步整合需系统二,图像识别等依赖系统一[12] 02 超级智能的推理范式 - 仅靠pre-training scaling无法实现超级智能,需通用推理范式[20] - OpenAI内部曾分歧,领导层前瞻性押注推理与强化学习,放弃部分其他方向投入[21] - 决策关键:2016年押注scaling,2021年与Ilya共识需推理范式[22][23] 数据效率与训练方法革新 03 RL高效数据利用 - 人类5样本学会概念,模型需上百样本,强化学习可弥补效率差距[25] - 扑克AI依赖GTO策略效率低,人类能快速识别对手漏洞(剥削性策略)[26] - Diplomacy项目突破:AI需建模玩家行为动态调整,非固定策略[28][31] 06 Mid-training新范式 - Mid-training介于pre-training与post-training间,通过RLHF等干预模型内部表征[40] - 三阶段流程:pre-training半成品→mid-training能力拓展→post-tuning优化体验[42] - 直接交互pre-training模型体验差,mid-training后实用性显著提升[42] 技术瓶颈与未来方向 05 Test-time compute瓶颈 - 成本指数上升:思考时间从分钟延长至周,需提升单位计算质量非单纯延长时间[36] - Wall-clock时间限制:串行实验流程拖累研发效率,药物研发领域尤为突出[37][39] 07 Multi-agent与文明演化 - OpenAI团队探索multi-agent长期协作竞争,类比人类文明积累知识[44] - 反对人工启发式规则,主张规模化训练自然涌现心智理论[45][46] - 自博弈范式局限:非零和博弈缺乏明确目标,万智牌等复杂游戏需无模型强化学习[48][50] AI应用实践与挑战 Noam的AI编程实践 - 日常依赖Codex/Windsurf处理核心开发,模型独立完成PR生成[52][53] - 当前缺陷:无法积累任务经验,PR评审仍依赖人工,环境配置自动化待突破[54] - Sora多模态进展迅速,但推理速度限制即时响应场景适用性[53] 非共识观点与对齐 04 推理能力边界拓展 - 推理不仅限于可验证领域,Deep Research等主观任务仍可形成反馈闭环[33] - 推理助力AI对齐:Cicero案例显示可控推理系统可提升安全性[34][35] 注:所有数据与案例均来自OpenAI研究员Noam Brown的前沿实践,涉及GPT系列、Diplomacy AI Cicero等关键项目[4][20][29][31]
从 Co-pilot 到 Agentic AI,Sierra 如何改变客服的游戏规则
海外独角兽· 2025-07-01 15:26
AI Agent行业核心价值 - AI Agent最核心价值在于解决必须由人类处理的复杂业务问题,客户服务场景是其价值最直接试金石[3] - 当前市场多数产品为标准化工具,难以应对真实世界复杂对话场景,导致同质化严重[3] - Sierra AI提出"公司智能体"概念,深度融入企业流程并自主执行任务,成为企业新劳动力[4] Sierra AI核心竞争力 - 行业化定制能力:可深入调整流程配置、语音参数、数据字段,远超"开箱即用"平台[11] - 革命性噪声抑制技术:专有语音活动检测系统性能超越所有其他模型,实现超快速反应[15] - 多任务处理能力:同时进行思考、聆听、对话和反思,确保对话连贯性和准确性[17][18] - 深度系统集成:灵活模块化架构可无缝对接CRM、ERP等各类第三方系统[22] - 混合开发平台:唯一支持无代码与编程式开发的AI Agent平台[23] 商业模式创新 - 基于成果定价:客户仅在AI成功完成任务时付费,与传统技术收费模式形成鲜明对比[30] - 两种主流营销策略:通过成本节省或增量收入增长提成满足不同企业需求[28] - 商业模式本质是与客户商业目标对接,提供"完成工作"的服务[30] - 横向对比显示基于成果模式可最大限度降低客户浪费支出风险[33] 典型客户案例 - SiriusXM案例:定制AI助手Harmony实现高频场景自动化交互,封闭率显著提升[36][37] - Minted案例:节日旺季实现65%案例解决率和95%客户满意度[5][40] - 客户覆盖零售、媒体、健康、金融和电信等需增强客户互动的行业[35] 行业发展趋势 - 未来竞争将围绕具体业务解决方案而非单纯技术[43] - 创业公司焦点从基础建设转向创新和市场差异化[45] - 基础模型市场将形成寡头格局,应用层公司机遇在定制化AI Agent[47][48] - 垂直行业AI Agent潜力大于通用平台,需专注特定行业核心工作流[50] 创始人战略视角 - 技术创新的同时需深刻理解市场需求建立独特价值主张[44] - 创业公司应高度自律,将资源集中于真正具有市场价值的创新[46] - AI Agent将改变软件市场范围,从辅助工具转变为实际劳动力市场参与者[34] - 未来可能出现首个万亿美元级别应用型企业软件公司[49]
FutureHouse 联合创始人:AI Scientist 不是“全自动化科研”
海外独角兽· 2025-06-26 20:25
核心观点 - FutureHouse是由Google前CEO Eric Schmidt资助创立的AI Lab,专注于AI for Science方向,目标是打造可自主提出问题、规划实验、迭代假设的AI科学家体系 [3] - 公司推出了四个AI科研agent:Crow(通用智能体)、Falcon(自动化文献综述智能体)、Owl(调研智能体)以及Phoenix(实验智能体),这些agent可访问完整科学文献全文并具备信息质量评估能力 [3] - AI系统Robin成功发现新药,展示了AI在科研自动化领域的潜力 [3] - AI推动生物科学分为两层视角:以AlphaFold 3等模型为代表的分子设计空间打开,以及FutureHouse探索的科研自动化agent系统构成的AI Scientist [4] 生物比化学更具"平台化"潜力 - 生物学比化学更具平台化特征,更适合作为科学自动化的起点 [14] - 蛋白质设计流程相对标准化,可以选择克隆、细胞表达或直接机器合成,而化学每个分子几乎都是"定制品" [15] - 生物学平台化程度高,测序几乎免费,合成成本低,适合做验证假设 [15] - 生物学研究任务具备高度开放性,总有新的生物基因组需要探索和功能注释 [15] - 生物学已经具备进化论基础理论,更侧重研究复杂系统在既定规则下的演化与调控 [15] FutureHouse是在构建科研API - FutureHouse延续了FRO的基本规模和运行周期,聚焦"Moonshot"级别挑战,可能需要5年以上持续投入 [22] - 公司开发了论文问答系统PaperQA,基于RAG思路构建但做了改进,系统表现已超过人类 [24] - WikiCrow系统将人类基因组相关维基百科内容从2500个基因介绍扩展到近1.8万篇文章 [25] - 开发了矛盾检测系统,能在超过两亿篇论文里查找和任意陈述相冲突的信息 [26] - 实质上正在构建一个科研API,通过整合多种功能如查找矛盾、文献研究、分子设计等 [28] FutureHouse科研Agent开发思路 - 将所有需要训练的部分称为agent,未训练的部分叫environment,agent通过语言、观测和动作与环境交互 [29] - 把memory从environment移到agent,尝试过多种记忆形式如简单追加消息、压缩、保留最近几条等 [29] - 框架主要目标是突破零样本的限制,关注可训练性,支持在线RL [30] - 使用语言模型过滤和识别相关性,而不是只靠embedding,虽然带来更高成本和更长响应时间但更注重性能 [31] - 搭建了全文检索系统,把相关代码开源在PaperQA2里,技术上可以用Postgres或Elastic Search [32] "科研自动化"不是100%替代人类 - 对实验室机器人前景持谨慎态度,认为10年后不会出现完全自主的科研系统 [46] - 更可行的情景是系统辅助判断和生成方案,人类提供明确的问题和研究框架并和系统反复协作 [47] - 生物学本质上受限于观测和经验数据,无法简单指令系统完成实验任务,需要人类深度参与 [47] - 实现真正意义上的100%自动化非常困难,越接近完全自动化所需投入越高而边际收益减小 [49] - 探索将人类资源嵌入科研流程的可能性,用可编程工具推进科研但背后执行的是人 [51] AI是如何影响科学研究的 - 用云计算计算分子和蛋白结合的自由能成本约十几美元,有机合成和实验验证成本也差不多 [53] - 分子动力学不能模拟化学反应,而生物过程大量依赖酸碱反应,单纯原子运动模拟无法描述细胞功能 [54] - 有虚拟分子库如Zinc收录数百亿种理论上可合成的分子,研究者可直接从中筛选 [55] - 药物开发从发现机制到推进到二期临床通常要7年,反馈周期太长是主要瓶颈 [59] - 建议政府公开所有已获批药物的IND资料包,这些数据能提供丰富的训练资源 [60]
对谈斯坦福 Biomni 作者黄柯鑫:AI Scientist 领域将出现 Cursor 级别的机会|Best Minds
海外独角兽· 2025-06-20 19:18
AI+生物领域发展现状 - 语言模型和agent技术正在从通用领域快速渗透到生物医药等高价值垂直领域 [3] - AI scientist agent能够自主提出假设、设计实验并循环修正,正在改写科研和药物开发范式 [3][19] - 前谷歌CEO投资的FutureHouse推出四款AI scientist agent,并宣称其AI系统Robin成功发现新药 [3][25] - OpenAI近期强调AI在生物学领域能力不断增强 [3] AI scientist的本质与特点 - AI scientist本质是agentic system,能够模拟人类科学家的"假设-实验-观察"循环 [19][21] - 与通用agent相比,AI scientist需要专业环境和专家know-how支持 [28] - 当前阶段AI scientist主要实现任务自动化,未来目标是实现完全自主的科学发现 [21][29] - AI scientist可以使用AlphaFold等工具完成任务,两者是互补关系 [53] 通用agent的局限性 - 通用agent缺乏生物学专业环境和工具整合 [28] - 生物学领域存在大量未记录的专家隐性知识 [28] - 科研探索需要严谨性、创造力和长期规划能力,这些都是当前agent的短板 [28] - 生物研究任务高度分散,需要跨学科交叉研究能力 [37] Biomni系统的创新 - Biomni构建了集成数百种专业工具、数据库与软件的开放环境 [34][38] - 通过文献挖掘和Action Discovery agent发现新工具资源 [38] - 采用code as action设计,使agent能够灵活处理复杂任务 [38] - 在湿实验protocol设计和数据分析等任务上显著提升效率 [39] - 未来计划引入强化学习让agent自主学习和优化解决方案 [48] AI for Science的商业机会 - 生物医药研发存在数千亿美元市场,AI可大幅提升效率 [77] - AI scientist可能带来类似Cursor或Devin的创业机会 [77] - 未来可能出现"一人+多个agent"运营的虚拟药企模式 [79] - 药企对AI接受度提高,开始使用ChatGPT等工具辅助工作 [81] 行业挑战与未来方向 - 生物学数据获取成本高,是主要瓶颈 [62] - 需要设计适合生物学特点的benchmark评估体系 [70] - 强化学习在生物学应用需要明确定义的reward系统 [50] - 终极目标是AI scientist实现诺贝尔奖级别的科学发现 [90]
AI4Science 图谱,如何颠覆10年 x 20亿美金成本的药物研发模式
海外独角兽· 2025-06-18 20:27
核心观点 - AI for Science 正在将生命科学与数字互联网两大科技树交汇并加速,大模型对生物系统等复杂系统具有前所未有的理解和生成能力,有望成为加速科学发现的关键引擎 [3] - Foundation Model + AI Agent 正在颠覆传统高成本、慢速的试错式科研流程,将药物研发从平均10年、20亿美元的成本重新压缩与重构 [3][7] - 行业采用「Tech/Bio × Generalist/Specialist」四象限框架梳理玩家,包括Biology Foundation Model、AI Scientist、AI-Native Therapeutics和AI-empowered solution四大类 [4] 研究框架 - 横轴:Generalist vs Specialist,评估公司在生物医药研发流程中的广度和深度,左侧偏单点聚焦,右侧偏全流程技术平台 [8] - 纵轴:Tech vs Bio,评估企业产品侧重平台技术能力还是直接解决生物/临床问题,上方接近技术方案交付,下方需完整开发药物/疗法 [9] Tech × Specialist:Biology foundation model - AlphaFold 3 解决了蛋白质三维结构预测难题,将数月甚至数年的实验缩短为计算机快速预测,并扩展到预测蛋白质与DNA、RNA、小分子等的复合物结构与相互作用 [14] - Isomorphic Labs 由DeepMind分拆成立,已与礼来和诺华签署总里程碑达26.5亿欧元的合作协议,定位为技术平台提供方 [15] - ESM3 旨在打造通用生物基础模型,整合序列、结构、功能三个模态,存在1.4B、7B、98B三种尺寸,展现明显Scaling Law [17][18] - Evo2 是基因组语言模型,在超9万亿碱基序列上训练,拥有100万碱基的超长上下文窗口,能预测变异功能和设计生物序列 [22][23] Tech × Biologist:自动化科研平台 - AI Scientist 通过LLM的推理、规划、工具使用能力,整合文献检索、实验设计、数据分析、机器人控制等环节,将科研从劳动密集型转变为知识和算力密集型 [24][25] - Future House 发布Crow、Falcon、Owl、Phoenix四款Agent,组成多智能体系统Robin,在2.5个月内完成端到端科研循环,发现治疗干性年龄相关性黄斑变性的全新药物方案 [26][34][35][36][37] - Lila Sciences 构建"科学超级智能平台",已在基因药物设计、新型治疗分子发现、绿色能源技术创新、碳捕获材料设计等方面取得进展 [39] Bio × Generalist:AI-native Therapeutics - AI-native制药公司构建以AI为核心的整合平台,自主研发创新疗法管线,AI不仅仅是工具而是研发范式的基础和引擎 [40] - Xaira Therapeutics 募集约10亿美元启动资金,重点方向包括蛋白质生成式模型、多模态数据工厂和端到端推进管线 [49][50] - Generate Biomedicines 采用"生成生物学"方法,已与安进、诺华签订潜在里程碑超过10亿美元的合作协议,累计融资超过7亿美元 [51][52][53] - Somite AI 聚焦"可编程细胞疗法",完成4700万美元A轮融资,开发DeltaStem基座模型预测细胞命运转变路径 [54][55][56] - Moonwalk Bio 专注"精准表观遗传编辑",种子+A轮总融资约5700万美元,开发EpiRead和EpiWrite技术 [57][58][59] Bio × Specialist:AI赋能解决方案 - 实验数据平台批量生成并开源稀缺实验数据,降低AI4sci模型训练门槛,如Tahoe Therapeutics发布的单细胞扰动数据集涵盖1亿细胞/6万次化学-生物扰动 [63][64] - 多组学靶点发现整合DNA、蛋白、显微图像和临床表型等多模态数据,训练跨尺度Foundation Model直接输出新靶点与作用机制假设 [65][66] - 药物重定位将已上市或临床搁浅的药物与新疾病通路快速匹配,可跳过毒理与I期,如Healx的候选药HLX-1502已进入NF-1 II期 [68][69][70][73] - 临床试验加速用AI优化患者匹配,如Unlearn AI的数字孪生技术可将招募期缩短30-50% [75][76] 行业趋势 - 价值正在从传统CRO与药企的"手工试错"转移到掌握数据、模型飞轮与自动化实验室的AI原生公司手中 [78] - 行业进入"算力-数据-算法"驱动的指数级进步时代,四类玩家分别在单点突破、科研流程产品化、新疗法开发和关键环节优化方面推动变革 [78]
Granola:ChatGPT、Notion 都入场的 AI 纪要,能真正沉淀工作流吗?
海外独角兽· 2025-06-17 20:03
Granola 为什么值得被关注 - 纪要工具沉淀了大量用户工作和生活中的 context,这些 context 是 LLM 和 agent 精准完成任务的关键前提 [9] - Granola 提供了 AI 补充人工笔记的差异化功能,赋予用户更强掌控力,区别于市场上主流的 AI 直接生成纪要方式 [11][51] - 团队对 AI 产品有深刻思考,认为 AI 应增强人类而非替代人类,并专注细分领域以打造极致用户体验 [13][65][68] - 早期用户聚焦 VC 和企业高管,通过口碑扩散有效推动用户增长和融资 [14][71][72] AI 纪要工具行业总览 - 2020 年美国 transcription 市场规模达 216 亿美元,2021 年增长至 238 亿美元,医疗、政府、法律是主要应用领域 [21] - AI 纪要工具功能分为基础(转录、翻译、总结)、协作(与上下游软件集成)、分析(会议质量评分、情绪分析)三类,仅部分产品具备分析功能 [23][25][26] - 用户最关注工具集成性和纪要准确性,企业客户尤其重视与现有工作流(如 CRM)的深度集成 [27][28][37] - 市场竞争者可分为四类:公司自建工具(功能有限)、上下游软件内置工具(集成性强但功能单一)、第三方软件(同质化严重)、第三方硬件(取代录音笔场景) [30][32][42] Granola 凭什么值 2.5 亿美元 - 创新性提出"AI 补充人工笔记"模式,解决 AI 直接生成纪要的痛点(如偏离用户意图、交互打断会议连贯性) [48][49][50] - 产品定位为"第二大脑",通过三类功能增强用户工作流:基础(模板化补充笔记)、协作(跨平台集成)、分析(跨会议洞察挖掘) [51][53][55] - 创始人团队具备产品设计优势,核心成员 Chris Pedregal 曾创立 Socratic 并被 Google 收购,Sam Stephenson 专注用户体验设计 [62][63] - 2025 年 5 月完成 4300 万美元 B 轮融资,估值 2.5 亿美元,用户数达 5 万且周留存率超 50% [4][75][76]
巨头博弈下,Agent 的机会和价值究竟在哪里?
海外独角兽· 2025-06-14 19:42
核心观点 - 2025年是Agent技术加速发展的关键年份,但真正实现用户价值闭环的产品仍稀缺 [6] - Agent的真正门槛在于基础设施而非模型能力,包括记忆系统、上下文感知、工具调用和可控环境等模块 [6] - Coding被视为衡量AGI最关键的先验指标,可能占据大模型产业阶段性90%的价值 [6][45] - AI Native产品需要构建同时服务于AI和人类的双向机制 [34] - Agent商业模式正从按token/调用次数计费向按结果/工作流计费演进,未来可能出现直接雇佣Agent的模式 [6][39] 01 通用Agent是大模型公司主战场 - 通用Agent领域表现最佳的是"模型即Agent"(Model as Agent)模式,如OpenAI的Deep Research和o3模型 [12] - 通用Agent市场已成为大模型公司的主战场,创业公司难以仅靠通用需求做大 [13] - 垂直领域Agent分为前台(与人交互)和后台(重复性工作)两类,典型案例包括HappyRobot(物流沟通)和AI for Science创业公司 [14][15] 02 Cursor是从Copilot发展到Agent - Cursor通过三个阶段完成从Copilot到Agent的转型:自动补全→代码重构→后台异步执行 [22][23] - 关键策略是先从Copilot切入收集用户数据,逐步过渡到Agent形态,而非一开始就追求完全自动化 [18] - 产品设计注重用户交互心智,通过同步交互收集反馈数据,为后续Agent能力奠定基础 [23] 03 Coding是衡量AGI最关键的先验指标 - Coding数据具有干净、可验证、易闭环的特性,最可能率先实现数据飞轮 [24] - 数字世界是实现AGI的第一环境,Coding能力提升将带动指令遵循等核心能力 [25] - 若AI无法规模化完成端到端应用开发,在其他领域进展会更缓慢 [25] 04 做一个好的Agent需要什么条件 - 需要构建可验证的反馈机制和数据飞轮环境,如代码和数学领域 [26] - 产品需同时考虑人和Agent的需求,实现AI Native设计 [28] - 评估标准包括任务完成率(行业及格线约50%)、成本效率(计算/时间成本)和用户指标(留存/付费率) [30][32][33] 05 Agent定价会从基于成本转向基于价值 - 商业模式演进路径:按成本→按动作→按工作流→按结果→按Agent本身 [39] - 典型案例Hippocratic AI的AI护士成本仅为人类护士的1/4 [39] - 未来可能出现智能合约模式,通过Crypto技术实现Agent经济价值分配 [40] 06 人与Agent该如何交互协作 - 交互模式分为Human in the loop(持续参与)和Human on the loop(关键节点介入) [41] - 未来高重复性任务将实现高度自动化,人类仅需复核摘要 [42] - 新的异步协同方式将出现,需要探索Agent与Agent之间的交互机制 [43] 07 Agent爆发离不开Infra - 环境(虚拟机/浏览器)是Agent开发早期80%问题的根源 [55] - 关键基础设施包括上下文管理(记忆/检索)、工具发现平台和安全机制 [57][58] - 未来机器搜索需求可能达万亿次/天,远超人类搜索规模(200亿次/天) [59] - 大厂分化明显:Anthropic专注Coding,OpenAI布局多方向,Google具备端到端能力 [52][53]
从 AI 招聘到数据标注,Mercor 能否打造下一个 Scale AI?
海外独角兽· 2025-06-13 18:56
赛道定位与商业模式 - Mercor所处赛道为AI领域关键供需交叉点:下一代AI模型对高质量垂直领域专家级Human Data的需求与人才稀缺性之间的不平衡[3] - 合成数据无法完全替代Human Data,尤其在特定领域知识和复杂判断方面,AI模型突破性进展依赖垂直领域专家的"人类智能输入"[3] - 公司从AI招聘平台转型为直接向AI Labs提供人力数据创建服务,从Scale AI上游劳务供应商转变为数据标注市场直接竞争者[3][35] - 2025年初ARR达7500万美元,B轮融资1亿美元估值20亿美元,仅稀释5%股权[4][5][77] 投资逻辑 - 商业模式演进为人力数据标注市场直接竞争者,瞄准中小型高难度项目(预算低于5万美元)的市场空白[12] - 核心优势在于为复杂快速迭代任务迅速部署专家级人力资源,交付速度评分8分(Scale AI为6分)[17][50] - 数据质量当前评分6-7分,落后于Scale AI的8-9分,需弥补质量短板以扩大市场[17][23] - 创始团队平均年龄不到21岁,展现超强执行力,从宿舍创业到千万美元收入仅用两年[19][70] 市场机会 - 全球数据标注市场2023年37亿美元,预计2030年达171亿美元(CAGR 23.5%),其中20-30%为高复杂度专家标注[31] - LLM驱动的高价值子市场2024年规模5-7亿美元,预计以50-80% CAGR增长[32] - 前10大AI实验室每年在人类评估和模型对齐环节预算合计超1-2亿美元[33] - 高端Human Data市场呈现两大趋势:长尾项目高价值(5万美元以下)和专业垂直任务爆发(医疗/法律/金融)[14][28] 业务演进 - 两大核心业务线:AI招聘与人才派遣(30%佣金率)和Human Data Services(核心增长引擎)[36][37] - 构建端到端专家数据交付系统:30万专家人才库、灵活工作流整合(支持轻量接入或完整方案)、结构化质量与激励框架(按小时付费)[38][40] - 技术路线采用分层AI架构:通用基础模型+垂直领域模型,核心IP为基于10万份反馈的岗位胜任力预测模型[47][48] 差异化竞争 - 与Scale AI对比:Mercor专注长尾市场(5万美元以下项目)、按工时计费、交付速度快但质量中等;Scale AI专注大型项目、按任务计费、质量高但速度慢[17][50] - 主要竞争对手包括Scale AI(估值138亿美元)、Surge AI(RLHF专家)、Turing(代码领域专家)和Labelbox(CV工具)[58][60][64][67] - 当前占据高端Human Data市场10-15%份额,若维持50%增速未来两年收入可达2.5-3亿美元[34] 核心客户与反馈 - 头部客户包括OpenAI等五大AI Labs,用于模型微调和RLHF阶段的专家评估[53] - Google横向对比显示Mercor标注量较小但交付速度最快,医疗等垂直领域需扩充专业人才池[55] - 自由职业者反馈时薪吸引力强(本科50美元/小时,硕博100-200美元/小时),但存在任务量不稳定问题[56] 团队与融资 - 创始团队三人平均年龄20岁,CEO Brendan Foody高中时期即展现创业天赋[70] - 关键高管来自OpenAI和Scale AI,补齐企业运营短板[71][72] - 非典型融资路径:种子轮360万美元(General Catalyst)→A轮3000万美元估值2.5亿(Benchmark)→B轮1亿美元估值20亿(Felicis)[74][76][77]
对谈 DeepSeek-Prover 核心作者辛华剑:Multi Agent 天然适合形式化数学 |Best Minds
海外独角兽· 2025-06-12 21:27
AGI与强化学习 - 实现AGI需借助"经验"媒介,即强化学习过程中积累的高质量数据,突破人类数据集限制[3] - 强化学习是AGI关键解法,AlphaProof通过RL自行"做题"积累经验,在IMO获奖,展示RL在数学等人类知识接近极限领域的突破潜力[3] - 数学证明领域半年内密集突破:AlphaProof、OpenAI o1模型、DeepSeek-Prover三部曲均展现RL在数学推理上的惊人表现[3] 形式化数学与Agent - 形式化数学用符号化方法建模和验证数学推理,将数学正确性归结为代码编译正确性[20][23] - 当代数学面临"分布式挑战",研究者间沟通成本高导致工程瓶颈,形式化数学可构建统一知识库实现中心化研究[26][30] - Lean因对前沿数学支持良好、社区活跃成为主流形式化语言,DeepSeek Prover采用后引领领域命名范式[30][34] - 形式化数学天然适配Multi-Agent,Proof Engineering Agent需具备自我规划、修复和知识积累能力,类似软件工程但更抽象[51][52] DeepSeek Prover技术演进 - Prover三部曲进展:V1验证合成数据Scaling效果,V1.5实现自然语言推理引导形式化代码,V2在671B规模实现高层次数学规划[35][37][38] - 数学RL动作空间开放无界,传统RL难以应对,LLM+RL可完成代码/数学等复杂任务[40] - 思维链扩展模型规模效应,Test Time Scaling成为可靠方向,如GPT-o系列投入更多推理预算提升结果[41] 评估与训练范式 - RL有效工作关键在Verification设定,需任务难度略高于模型当前能力,Evaluation比Training更重要[59][60] - APE-Bench基准设计聚焦Proof Engineering,要求模型处理大规模文本修改并与验证系统交互,推动从单任务向工程级能力跨越[62][63] - 合成数据在形式化数学中密集使用,AlphaProof通过问题变形/拆解从100万题扩展到1亿题,Test Time Training接近Online Learning[43][45] Certified AI与泛化 - Certified AI强调生成质量控制,通过形式化验证确保结果可靠性,数学需每一步正确,代码需通过安全性等检测[68][69] - 数学能力泛化依赖领域间共同推理模式,pre-training阶段数据配比和规则筛选是关键,如GPT-3.5因高比例代码数据提升推理[72] - 形式化方法可推广至化学、生物等依赖数理结构的领域,但需补充物理世界交互[73] 未来技术方向 - 下一个GPT-4级跨越将是具备自主规划、执行和反思能力的Agent,结合Online Learning可实现能力持续优化[80] - Reward Model演进为Reward Agent,动态收集信息判断生成正确性,解决复杂评估问题[76][77] - Pre-training仍为技术基础,虽Scaling单独难支撑跨越,但需持续融入Agent等新方法[83][84] 行业竞争格局 - AGI实现者大概率来自现有头部企业(Google/OpenAI/DeepSeek等),因需补足技术/Infra/人才积累,新入局者困难[81] - 技术发展进入积累期,o1模型与4o形成互补而非代际替代,pre-training瓶颈指单独Scaling不足,非整体重要性下降[82][83]
押中 Figma、Scale AI 的 Thiel Fellowship, 今年下注哪些 AI 方向?
海外独角兽· 2025-06-10 20:22
Thiel Fellowship 2025 年趋势 - 地域分布从传统湾区、东北部高校扩展到德国、以色列、拉美等新兴技术生态 [7] - AI 占据主导方向,高频主题包括 AI infrastructure、Digital Human、Human-Computer Interaction [7] - 融资阶段显示成熟度,多个项目在 Fellowship 公布前已完成由 a16z、Sequoia 等领投的种子轮 [7] 三大热门创业方向 AI Infra - Canopy Labs 和 Intempus 围绕数字人构建、低延迟推理、多模态建模展开 [7] - 强调实时性、开放性与嵌入式体验,面向教育、心理治疗、内容创作等场景 [7] - 延迟低至 200ms,采用 CNN-based 非流式 tokenizer 避免 token popping [14] 新一代金融基础设施 - Ivy 试图成为 A2A 支付的全球标准层,打通国家间金融断层 [8] - 强调"监管适配性"与"轻资产合规",获 Valar、Creandum 等基金支持 [8] - 通过 API 接入全球 60+ 国家的本地实时支付系统,手续费低于 0.5% [62] Health Tech & Biocomputation - Phase Labs 和 Orbit 聚焦生物系统建模、神经调节设备、可再生器官 [9] - 从系统建模与生物电信号入手,提出比干细胞、CRISPR 更具想象力的路径 [9] - Orbit 研发耳后佩戴式非侵入式神经调节器,刺激前庭系统模拟运动感知 [39] 创始人群体特征 - 年龄集中在 17-21 岁,普遍具备跨学科背景如生物+计算、神经科学+工程 [9] - 从 14 岁起积累项目经验,如 Innerphases 创始人 16 岁参与 Chess.com 产品开发 [10] - 关注"结构层"问题,希望定义"未来 AI 应该长成什么样"而非简单优化 LLM [10] 代表性项目分析 Canopy Labs - 定位为"human-as-a-service"底层基础设施提供商 [13] - 开源模型 Orpheus 专注人类级别语音生成,未来扩展至全栈式虚拟人建模 [14] - 采用 Infra-as-a-Service 商业模式,面向 B2B 客户提供拟人化交互模块 API [19] Intempus - 通过给机器人增添情感表达功能解决人机协作效率问题 [23] - 已签约 7 家企业级机器人合作伙伴,聚焦工业、教育、医疗场景 [26] - 创始人曾参与 Midjourney 硬件团队,观察到机器人缺乏空间推理能力 [25] Phase Labs - 融合发育生物学、生物电信号与机器学习构建器官再生模型 [32] - Dry lab 构建基因调控网络几何模型,Wet lab 研究肾脏再生机制 [33] - 创始人 Juan 曾创办抗通胀产品 Macondo,服务 20 多国超 2 万用户 [34] Ivy - 技术架构包含统一 API 层和合规中间件,支持每秒 10 万笔交易处理 [62] - 商业模式结合 B2B SaaS 与交易抽成,客户留存率高达 92% [67] - 已获 3000 万美元 A+轮融资,由 Creandum 和 Valar Ventures 领投 [66] Fizz - 为 Gen Z 提供信用借记卡+AI 财务助手+教育游戏化模块 [73] - 用户通过日常消费积累信用,平台用户量同比增长 400% [77] - 与 50 余家品牌达成返佣合作,"Fizz Friday"单日促成 1.2 万笔交易 [77]