Workflow
Deep Research
icon
搜索文档
超越 Chatbot:Long-horizon Agent 如何重新定义 AI 产品形态|Jinqiu Select
锦秋集· 2026-02-05 19:40
AI Agent产品形态的范式转移 - Chatbot作为主流AI产品形态已显疲态,其“一问一答”的即时响应模式难以解决复杂问题,本质是产品形态而非模型能力的问题 [3][4] - 真正有价值的日常工作需要“长程执行者”,即能够自主进行多步骤决策、调整策略并花费时间完成任务的AI Agent [5] - 行业转折点出现在2025年年中,标志是Claude Code爆发式增长、Deep Research类产品涌现以及Manus等SuperAgent流行,AI从“聊天框里的打字机”转变为“能够独立作业的数字员工” [7] Long-horizon Agent(长程智能体)的核心与应用 - Long-horizon Agent定义为能在数分钟至数小时内自主运行的智能体,其核心是让大语言模型在循环中自主决定下一步行动 [16][17] - 该类型智能体具备三个核心特征:运行时间更长、拥有自主决策能力、产出“初稿”而非最终产品 [20] - 当前典型应用场景包括:Coding(如Claude Code、Cursor)、AI SRE(如Traversal的AI SRE Agent)、研究与报告生成(如Deep Research类产品)、高级客户支持 [20] AI Agent技术栈的演进:从Model到Harness - 技术栈分为三层:最底层是Model(模型),由OpenAI、Anthropic等厂商提供;中间层是Framework(框架),如LangChain,提供对工具、记忆等组件的抽象;最上层是Harness(运行时套件) [22][23] - Harness是“开箱即用”的Agent运行时环境,内置了构建Long-horizon Agent所需的最佳实践,如规划能力、上下文压缩、记忆管理、子任务协调和预设提示词模板 [11][23] - 行业竞争重心正从Framework转向Harness,因为当模型能力跨越关键阈值后,真正的竞争在于谁能提供更好的、内置最佳实践的运行时环境 [11][24] AI Agent发展的三个阶段 - 第一阶段为简单的Prompting和Chaining时代,模型仅有基础的文本输入输出能力 [28] - 第二阶段为Cognitive Architecture时代,模型开始具备工具调用和一定规划能力,开发者需构建复杂的“脚手架”来支撑 [30] - 第三阶段为Long-horizon Agent时代(2025年中至今),模型能力足够强大,行业焦点从构建“脚手架”转向提供“Harness”,以优化上下文工程 [31][32] 2026年关键技术方向与核心竞争力 - 模型能力已跨越关键阈值,推理、工具调用和长上下文处理能力使Long-horizon Agent从演示变为实用工具 [33] - Context Engineering(上下文工程)成为核心竞争力,其本质是构建动态系统,在正确时机以正确格式向模型提供正确的信息和工具 [29][34] - 在Agent开发中,Trace(运行完整记录)取代代码成为新的“真相来源”,这使得可观测性工具变得至关重要 [36][41] - Memory(记忆)能力可能成为产品的关键护城河,能够从运行记录中学习并自动更新指令的Agent将具备巨大优势 [42][43] - 文件系统访问能力是Long-horizon Agent的标配,对上下文管理有巨大帮助,且未来的通用Agent很可能都具备强大的编码能力 [44][46][47]
老板说“分析一下竞品的Deep Research”,我交出了这份报告
36氪· 2026-01-30 08:25
行业分析:AI Deep Research功能竞品分析方法论 - 文章核心观点:系统性地拆解了如何完成一份关于AI“Deep Research”功能的竞品分析报告,旨在将战略洞察转化为可执行建议,其完整流程包括明确目的、选对竞品、定好维度、收集资料、整理分析和输出报告[1][21] 竞品分析流程 - 第一步:明确需求与范围。在开始分析前,需明确报告受众(如管理层)及其核心关切(战略方向、跟进策略),并准确定义所分析的功能。Deep Research功能由OpenAI于2025年2月首次推出,其核心是AI能自主进行多轮网络搜索、整合信息并生成深度研究报告,实现了从“问答助手”到“智能研究员”的升级[4][5][6] - 第二步:选定竞品与市场格局。竞品选择分为直接竞品、间接竞品和潜在竞品。直接竞品包括智谱AutoGLM沉思、百度心想、字节扣子空间、GenSpark和纳米搜索;间接竞品包括Google的Gemini和OpenAI的ChatGPT;潜在竞品如Manus。可通过绘制以“研究能力”和“需求难度”为轴的市场格局图来直观展示竞争位置[10] - 第三步:系统收集资料与体验。资料收集渠道包括公开信息检索(官网、新闻、行业报告)、深度产品体验以及用户调研(如社交媒体评价)。产品体验时,需使用统一测试任务(如研究2025年中国AI大模型市场竞争格局),并记录耗时、过程可视性、输出结构、引用标注等关键指标[11][12] - 第四步:整理分析与提炼洞察。分析阶段需构建详细的功能矩阵对比表,横轴为各竞品,纵轴为搜索来源范围、研究过程可视、输出格式等核心功能点。同时,需对输出内容质量进行多维度(准确性、完整性、深度、结构、可用性)的量化评分(1-5分),并提炼出关键差异点、领先优势及普遍短板[14][15][16] - 第五步:撰写结构化报告。报告应采用结论前置的结构,首先用2-3句话给出整体判断、标杆分析及差异化机会。后续部分依次呈现竞品概览、功能矩阵对比、内容质量评测结果、典型案例(最佳实践、典型问题、边界情况)分析,并最终落脚于具体的、可执行的建议与下一步行动计划[17][18][19][20][21]
老板说"去分析一下竞品",90%的人第一步就做错了
36氪· 2026-01-20 08:23
AI行业竞品分析的重要性 - AI产品迭代速度极快,传统软件一年发布几个大版本,而AI产品可能每周都在更新,市场格局变化迅速,上个月的结论本月可能就已过时[3] - AI行业赛道虽拥挤但分化明显,例如同为AI聊天产品,ChatGPT强调通用能力,Perplexity主打搜索,Character.AI专注角色扮演,服务不同人群,解决不同问题,不研究竞品则难以找到差异化空间[4] - AI产品用户迁移成本极低,注册新账号甚至无需注册即可切换,竞品推出新功能可能导致用户迅速流失[5] 竞品分析的核心价值 - 第一层价值是看清市场格局并找到自身定位,通过分析不同玩家的目标用户和商业模式,判断市场饱和度和差异化机会,例如在AI写作工具市场,Jasper定位企业营销,Copy.ai服务个人创作者,Notion AI绑定文档场景,秘塔写作猫主打中文纠错[7] - 第二层价值是识别自身优势与短板以指导产品迭代,通过对比发现竞品的优点、不足以及未涉足领域,从而明确产品优化方向和资源投入重点[7][8] - 第三层价值是辅助公司战略决策,帮助管理层预判竞争对手的押注方向、行业趋势以及潜在威胁,从而进行战略选择和资源分配[8] 定制化竞品报告的方法 - 针对公司管理层,报告应关注竞争对手的战略方向、公司自身市场位置以及宏观的机会与风险,而非功能细节[9] - 针对产品团队,报告应提供可落地的优化方向,包括竞品具备而自身缺失的功能、竞品的优势以及用户评价[9] - 针对研发团队,报告应提供技术参考,分析竞品功能的实现方式、所用模型和架构,以评估技术难度[10] - 针对运营团队,报告应提供推广策略参考,包括竞品的定价策略、推广渠道以及用户好评与差评的集中点[10] - 同一竞品分析项目可能需要产出不同版本的报告,或在报告中分模块呈现不同角色关心的内容[10]
收购“Manus”也治不好大厂的焦虑症
36氪· 2026-01-05 19:24
Meta收购Manus的交易概况 - Meta于2025年最后一天宣布收购AI Agent创业公司Manus,交易金额约20亿美元,几乎是“闪电成交”[1] - 被收购方Manus总部位于新加坡,由几位中国创业者创立,成立仅三年,专注于Agent层,不做基座模型[1] - Manus于2025年3月发布产品,在8个月内实现了1.25亿美元的年化收入,年度经常性收入突破1亿美元[1][6] Meta收购的背景与动机 - Meta的焦虑源于其基座模型能力落后,2025年4月发布的Llama 4系列模型(最高参数量2万亿)在发布72小时后即因实际表现与基准测试不符而引发“翻车”争议[2] - 竞争对手如Anthropic的Claude、Google的Gemini、OpenAI的GPT系列在模型迭代、多模态能力及Agent产品上持续领先,而Meta的“个人超级智能助手”愿景仍停留在PPT阶段[3] - Meta的收入高度依赖广告,而AI Agent可能改变用户意图的解释权和注意力捕获模式,对传统广告构成威胁[5] - 为弥补能力短板,Meta于2025年6月以143亿美元战略投资Scale AI并挖来其创始人担任首席AI官,但后续出现高管摩擦、核心人员离职等整合问题[3][14] Manus被收购的考量与机遇 - Manus自身不研发底层大模型,产品体验依赖调用Anthropic的Claude等第三方API,面临可变成本和供应链风险[5] - 作为创始团队和早期研发在中国的公司,即便迁至新加坡并清退中国业务,在美国市场获得完全信任仍异常艰难,被收购是规避地缘博弈风险的路径[5] - 收购使Manus团队实现财富自由,其产品有机会深度集成至Meta旗下Facebook、Instagram、WhatsApp等每日数十亿用户活跃的平台中[7] - Meta主导的Llama开源大模型生态可为Manus提供稳定、可控且低成本的底层技术支撑[7] 资本市场与行业反应 - 收购消息公布后,Meta股价连续两个交易日下跌,表明资本市场对该交易能否为公司带来改变持怀疑态度[1] - 交易在创投圈引发震动,促使多家VC在元旦假期加班研究其投资组合中是否有可被大厂收购的AI Agent公司[1] - 此次收购为国内科技大厂提供了定价参考,可能推高类似AI Agent创业公司的收购价码[1] 科技巨头的“焦虑”与不同应对策略 - 科技巨头普遍面临AI时代底层能力建设跟不上产品化需求的困惑,纷纷采取“买人、买团队、买时间”的策略[9] - 腾讯采取“守”势,于2025年12月高价从OpenAI挖来首席AI科学家,并整合分散的大模型研发力量以求突破[10] - 阿里面临B端(云份额)和C端(AI应用)两线作战,选择“内部封闭研发+投资初创”的组合拳,于2025年11月密集推出两款杀入App Store免费榜前六的AI应用[10] - 字节表现从容,其豆包App日活跃用户破亿,火山引擎日均处理50万亿token,并挖来谷歌DeepMind副总裁专注长期基础研究,应用层与模型层团队并行推进[10] - 字节与Meta最为相似,核心命脉均为流量和广告,但字节更清醒,未陷入“大模型竞赛”执念,而是聚焦模型能力的产品化变现和分发渠道优势[10][11] 历史收购案例的启示与风险 - 成功的收购案例如Google在2014年以约5亿美元收购DeepMind,关键因素包括给予高度自治权、长期稳定资源投入及共同的技术愿景[12] - 失败的收购案例众多,如微软2007年以63亿美元收购aQuantive,五年后确认62亿美元资产减值;苹果收购多家AI初创公司后,相关团队销声匿迹,Siri进展缓慢[13] - Meta当前困境类似失败案例,其控制欲强的管理风格导致新收购团队(如Scale AI创始人团队)整合困难、内耗严重、高管离职[14] - 英伟达2019年以69亿美元收购Mellanox,以及特斯拉2016年收购SolarCity、2019年收购Maxwell的成功案例表明,收购成功需有清晰战略主线、尊重被收购方核心能力、并以“共生”而非“控制”为目标进行整合[16] 对Meta收购Manus前景的质疑 - 市场观点认为该交易更像是掩盖失利的“止痛药”,而非深思熟虑的战略布局[1][8] - Meta被指将发展顺序搞反,先高调画饼再补课,在技术迭代不确定的AI时代容易碰壁[11] - 分析认为Meta的组织能力(“腿部肌肉”)可能已“萎缩”,存在文化冲突风险,Manus团队在Meta“板结”的土壤中能否成功成长存疑[17] - 核心观点指出,真正的能力是长出来的,不是买回来的[18]
“姚顺雨在 OpenAI 不到一年就跳槽到腾讯,是不是说明他缺乏稳定性?”
程序员的那些事· 2026-01-03 08:49
核心观点 - 文章通过对比高价值人才与普通职场人的跳槽案例 指出职场规则与评价标准存在双重标准 高价值人才的职业流动被赋予积极意义 而普通人的类似行为则可能面临负面标签与职业发展限制 [4][5][6][7][8] 人才流动与市场评价 - 前OpenAI研究员姚顺雨于2024年8月加入OpenAI 参与Operator、Deep Research等核心项目 于2025年9月离职 同年12月宣布加入鹅厂 其在OpenAI任职时间不足一年 [4] - 对于姚顺雨此类高价值人才的短期跳槽 市场舆论倾向于解读为“人往高处走”的积极职业选择 而非稳定性不足 [5][7] - 相比之下 普通职场人的频繁跳槽则容易被企业或HR贴上“缺乏稳定性”或“能力不行”的标签 可能在简历筛选阶段就被淘汰 [6][8] - 部分大型科技公司在招聘中存在明确的筛选规则 例如有评论指出阿里可能因“三年跳槽两次”的履历而过滤掉候选人简历 [9] 行业规则与双重标准 - 文章观点认为 职场中的许多规则更像是针对普通人的枷锁 而强者的职业选择往往不受同一套标准限制 [8] - 相关评论进一步指出 “所有规则只适用于普通人” 而“所有规则的解释权在于强者” 这反映了职场评价体系中的权力不对等现象 [9]
人人拥有AI科学家,一文读懂Deep Research的今生与未来
36氪· 2025-12-15 11:24
深度研究(Deep Research)概述 - 深度研究是让人工智能系统从“生成文本”进化为“发现知识”并完成复杂开放式任务的前沿领域 [1] - 该领域赋予大语言模型端到端研究工作流程,使其能作为智能代理在最少人工干预下生成有明确来源依据的研究报告 [4] - 目前深度研究已被广泛应用于文本生成、科研、软件工程、地球观测等领域 [1] 深度研究的能力演进三阶段 - **第一阶段:自主搜索** 专注自主寻找正确信息来源,生成简明且引用明确的答案,强调检索的准确性和效率 [4] - **第二阶段:整合研究** 将多源证据综合为连贯、结构化的报告,同时处理冲突和不确定性,以支持长周期任务和决策 [5] - **第三阶段:全栈AI科学家** 不仅能整合证据,还能生成假设、进行实验验证、批判现有观点并提出新视角,追求科学发现的新颖性、洞察力和结论可复现性 [5] - 整体体现了从简单信息检索到复杂分析,再到前沿科学研究的能力演进路径 [5] 深度研究系统的关键组成部分 - 系统是一个接收复杂问题并通过分析、检索、整理信息最终输出结构化答案的闭环工作流 [6] - **查询规划** 将复杂问题转化为一系列结构化、可执行的子任务,包括并行规划、顺序规划和树状规划三种策略 [8] - **知识检索** 已从传统文本搜索发展为利用实时网络搜索引擎获取最新信息,并涉及多模态检索 [9] - **记忆管理** 负责管理复杂长周期任务中上下文的动态生命周期,包括整合、索引、更新和遗忘四个环节 [10] - **答案生成** 需要应对调和矛盾证据、保持长周期一致性、展示透明推理过程和恰当引用等挑战,过程包括整合信息源、综合证据、构建推理框架及跨模态生成 [12] 深度研究面临的未来挑战 - **检索时机** 当前系统缺乏对检索时机的细粒度判断,易导致过度检索或检索不足,并在无相关证据时可能强行作答 [14] - **记忆进化** 当前主流的扁平化记忆架构无法捕捉知识元素间深层次的逻辑关系,限制了系统的复杂推理能力 [15] - **训练算法** 在多轮交互设置中,PPO和GRPO等强化学习算法会出现不稳定性,表现为奖励下降、生成无效响应及熵崩塌等现象 [16] - **评估体系** 主流的大模型作为评估者方法存在偏差和效率问题,可能偏好更长或更相似的回答,且大规模评估成本高昂 [17] 深度研究的未来发展方向 - 需要发展更强的统一推理范式来适配多种大语言模型,并具备无缝适应不同底层模型、任务风格与用户偏好的能力 [17] - 需要一种标准化、泛化能力强的记忆系统,以确保能正确存储、追踪和引用研究过程中发现的证据 [17] - 需要通用、模块化、可扩展的框架,使其能在不同环境与工具集之间自由切换 [17] - 总体目标是推动大语言模型从被动回答者向自主研究者转变,进行迭代式推理、证据综合及可验证的知识生成 [17] - 未来将加速推动深度研究系统向更通用、更可靠、更具可解释性的智能体形态演进 [17]
AI周观察:GPT5.2发布,Oracle收入良好但现金流存隐患
国金证券· 2025-12-14 16:36
行业投资评级 * 报告未明确给出整体行业投资评级 [1][2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18][19][20][21][22][23][24][25][26] 核心观点 * 海外AI行业正加速向深度推理、生产力工具及硬件生态延伸 [2] * Oracle在2025年第三季度(FY2026Q2)收入、云业务与订单积压全面加速,但市场越来越关注其巨额订单(RPO)向实际收入和现金流的转化能力 [4][13][14][17] 海外市场行情回顾 * 截至12月12日当周,海外AI相关个股表现分化,云服务、芯片设计等板块个股涨跌互现 [6] * 部分云服务公司如Gitlab(周涨跌幅5.81%)、Mongodb(2.29%)录得上涨,而芯片设计公司如英伟达(-4.05%)、超威半导体(-3.3%)以及网络安全公司如Palo Alto Networks(-3.6%)、Zscaler(-2.64%)等出现下跌 [6] AI应用与技术动态 * **应用活跃度**:本周海外聊天助手类AI应用活跃度整体回升,其中Gemini活跃度持续上升,Claude、ChatGPT和Perplexity小幅回升,国内应用活跃度保持平稳 [2][9][11] * **OpenAI**:正式发布GPT-5.2系列,分为Instant、Thinking及Pro版本,重点优化Agent工作流与深度推理能力 [2][12] * **谷歌**:多线并进,大幅升级NotebookLM的生产力属性,生成限额提升50倍并接入顶级Gemini模型,支持多达600个来源;上线基于Gemini 3 Pro的Deep Research研究代理以降低幻觉率;确认将于2026年发布基于Android XR的AI眼镜 [2][12] * **Runway**:发布首个通用世界模型GWM-1,布局具身智能领域,同时Gen4.5模型升级支持原生音频与一分钟长视频 [2][12] * **Mistral AI**:推出Devstral2开源编码模型家族,并配套推出Vibe命令行工具 [2][12] Oracle公司业绩深度分析 * **总体财务表现**:2025年第三季度(FY2026Q2)总收入161亿美元,同比增长13%,连续三个季度保持双位数增长 [2][13] * **云业务表现**:云总收入达80亿美元,同比增长33%,占公司总收入的一半 [2][13] * 云基础设施(OCI)收入41亿美元,同比增长66%,其中GPU相关收入同比增长177% [2][13] * 云数据库服务收入同比增长30%,Autonomous Database增长43%,多云数据库消费同比大增817% [13] * 云应用收入39亿美元,同比增长11% [13] * **订单积压(RPO)**:达到5233亿美元,同比激增433%,较上一季度新增680亿美元,其中未来12个月可确认部分同比增长40% [2][14] * **盈利指标**:营业利润67亿美元,同比增长8% [2][14] * Non-GAAP每股收益(EPS)为2.26美元,同比增长51% [2][14] * GAAP每股收益(EPS)为2.10美元,同比增长86%,其中包含出售Ampere股权带来的27亿美元税前收益 [2][14] * **现金流与资本开支**:当季经营现金流21亿美元,自由现金流为-100亿美元,主要受大规模资本开支影响,当季资本开支达120亿美元 [2][14] * 公司上调2026财年(FY26)全年资本开支预期,较上一季度预测增加约150亿美元 [14] * **业绩展望**:公司预计FY27将新增约40亿美元收入,但FY26全年收入指引仍维持670亿美元不变 [14] * **核心关注点**:报告认为,Oracle面临现金流压力,如何将巨额RPO加速转化为实际收入与现金流,是其后续经营与估值修复的关键,也是判断其AI投入可持续性的重要观察点 [17]
Agnes:不做通用型智能体丨对话全民AI应用平台Agnes AI
量子位· 2025-10-30 16:39
多智能体技术趋势与产品应用 - 多智能体成为AI领域最热门的话题之一,被视为提升AI系统效果的新解法,与基础大模型能力升级并行 [2][3] - 多家公司推出多智能体AI产品,例如Manus的「Wide Research」支持上百个Agent同时工作,纳米AI的「多智能体蜂群」支持灵活拉群与组队协作,快手的「Kwali」可将视频生成需求拆解分配给不同Agent [4] - Agnes AI作为以多智能体架构为核心的AI应用,上线四个月日活用户突破20万,海外注册用户数超过300万 [4][7] Agnes AI核心功能与场景 - 深度研究通过多轮迭代、自我评估与优化,结合多模态数据生成详细内容,适合复杂问题的系统性研究;广度研究基于自研CodeAgents框架,可调度上百个智能体并行工作,擅长处理多维度大规模任务 [8][14] - AI设计提供图像、视频生成能力,支持深度设计模式,通过多轮迭代优化提升作品质量;AI幻灯片可在2分钟左右生成专业PPT,支持多人实时协作;AI表格支持数据处理、公式运算与深度分析 [8][17] - 功能选择基于用户意图和任务复杂度自动路由,深度研究追求精准与深度,广度研究追求速度与广度,单纯Research功能时长控制在一分钟内 [14][16][18] 多智能体与单智能体性能对比 - 多智能体框架通过分工协作提升效率,单智能体串行执行任务可能导致速度下降,而多智能体支持并行探索,尤其在非关键任务中能收拢更多信息 [25][27] - 多智能体将任务分配给专家模型,在特定工作中表现优于通才型单智能体,单智能体需高算力支撑才能达到类似效果,多智能体与模型能力提升相辅相成 [25][31][32] - 以海报生成为例,多智能体通过Prompt Agent、Image Generating Agent和Evaluating Agent分工协作,整合不同模型优势,解决单模型在意图理解和生成细节上的局限 [28][30][33] 多智能体产品评估与工程优化 - 评估维度包括任务完整度、效率等,公司重点关注效率指标,通过提升速度降低Token消耗和迭代次数,从而控制成本 [34][35] - 采用代码化通信框架,将多智能体间沟通从自然语言转为代码形式,在论文实验中实现Token消耗下降40%到70%,速度与准确性提升 [36] - 框架设计采用大框架加自由角色,智能体不与特定角色强绑定,支持任务间自由编排与记忆,保障功能稳定与上线速度 [38] 产品定位与市场策略 - 目标用户包括白领、大学生及行研从业者,聚焦移动端年轻用户和WebWork轻量化办公场景,差异化优势在于场景聚焦与体验丝滑 [39][41] - 通过提供高免费额度吸引用户,免费Quota每月支持10到20次PPT生成,核心逻辑为抢占免费用户心智,利用低成本获客占据未开发市场 [40][53][56] - 产品定位为有Agent能力的主流全民应用,旨在覆盖ChatGPT和Perplexity能力并附加优势,目标成为全球前五的AI消费级应用 [63][64] 市场规模与行业展望 - AI办公市场潜力巨大,传统Office产品季度毛利达几百亿美元,而百万日活的AI Native产品估值可能达100亿美元,全球仅少数产品达到主流应用规模 [42][43][45] - AI Native产品被视为革命派路线,认为将颠覆传统使用习惯,传统办公产品则属于改良派,在现有产品中叠加AI能力 [44][46] - 市场机会包括拓展AI至社交、智能硬件等更广泛场景,成功需产品与市场双驱动,快速进入主流应用而非细分尝试 [47][49]
国诚投顾:OpenAI转型平台化,生态协作成AI产业发展新引擎
搜狐财经· 2025-10-23 16:51
OpenAI发展态势 - OpenAI代表闭源生态的技术中心主义 通过技术爆品实现用户脉冲式增长 MAU突破10亿[1] - ChatGPT自2022年11月问世 通过提升模型能力和创新玩法打造爆品 如2024年GPT-4o 2025年Deep Research等产品加速用户增长[1] - 从发布至2025年9月 用户发送消息数量增长超7倍 2024年7月到2025年7月增长超5倍 token增长体现高粘性 强付费意愿和长使用时间[1] - OpenAI定位从产品型公司转型为AI时代的Windows平台型公司 用户积累形成强大护城河 营收有望高速增长[1] - 公司绑定半导体产业链关键环节 构建操作系统级垄断 商业模型升维 除过往收入还将加大外部合作实现toB平台价值变现[1] - 预计2030年收入达2000亿美元 2024至2030年复合年增长率为92%[1] 中国AI应用竞争格局 - 在用户争夺中 字节豆包和腾讯元宝各有发展 2024年5月豆包大模型家族推出 以低价打响知名度后投流打造明星产品[1] - 2025年9月 豆包APP端MAU达1.50亿 网页端MAU达0.86亿 环比增长 处国产原生AI应用第一梯队[1] - 2024年腾讯元宝推广克制 MAU落后 2025年借力DS爆火推动其发展 MAU实现跨越式增长[1] - 国内AI入口或回归软件生态 腾讯与字节生态各有优势 中国超级APP强渗透率卡位AI入口[2] - 腾讯系和字节系占中国互联网用户使用时长近六成 腾讯微信握社交入口 字节抖音占内容入口 助元宝 豆包平台化转型[2] - 平台化转型有助于通过toB/toG提高商业天花板[2] 行业发展趋势与竞争核心 - 大模型核心价值从颠覆者转向赋能者 共生协作是平台化演进最优路径[2] - OpenAI等头部厂商开放生态实现技术外溢 AI应用公司承接落地 双方互补赋能推动AI市场扩容[2] - 大模型价值从单点技术突破升级为产业生态重构 未来竞争核心转向强生态 AI产业迈入生态驱动新阶段[2] - OpenAI与外部厂商合作的股价表现 印证投资者对协同共赢模式的信心 凸显生态协作路径商业价值认可度[2] - ToC做品牌 ToB做商业的双轮驱动或为行业共识 核心前提是ToC打响品牌声誉 获取和留存用户[3] - 平台化转型可推动大模型厂商从订阅+API向平台分成拓展增长曲线 下一轮竞争核心将聚焦用户积累与平台化转型能力[3]
o1 核心作者 Jason Wei:理解 2025 年 AI 进展的三种关键思路
Founder Park· 2025-10-21 21:49
智能商品化 - AI发展分为两个阶段:推动前沿阶段(研究人员努力解锁新能力)和商品化阶段(能力被规模化与降本)[11] - 在MMLU基准测试中,达到特定性能水平所需的成本呈现每年下降趋势[11] - 自适应计算时代允许根据任务难度调整计算量,从而持续降低智能成本,无需持续扩大模型规模[13] - 自适应计算的技术突破源于o1模型,证明在测试阶段投入更多计算资源可提升模型在基准测试上的表现[13] - 信息检索效率经历了四个时代的演变:前互联网时代(耗时数小时)、互联网时代(耗时数分钟)、聊天机器人时代(效率提升)和智能Agent时代(耗时几分钟甚至几小时),获取公共信息的时间急剧缩短[16][17] - 例如,回答“1983年釜山有多少对夫妇结婚”这一问题,在智能Agent时代仅需几分钟,而在前互联网时代可能需要飞到韩国并翻阅大量书籍[16] - OpenAI的BrowseComp基准测试显示,人类平均需要两个多小时解决的复杂问题,Deep Research模型可解决约一半[17] - 智能商品化将带来领域民主化,例如编程和个人健康等领域因知识门槛降低而更加开放[20] - 公共信息成本降低使得私有信息(如非市场挂牌的房屋信息)的相对价值提升[20] - 最终信息获取将变得无摩擦,形成高度个性化的信息流,而非公共互联网[20] - 任何公开可用的信息都能立刻获取,形成即时知识[22] 验证者定律 - 验证者定律的核心是:训练AI解决特定任务的能力,与验证该任务完成情况的难易程度成正比[14][26] - 任何可解决且易于验证的任务,最终都会被AI攻克[3][26] - 验证的不对称性指对于某些任务,验证解决方案比找到解决方案更容易[21] - 例如,解数独困难但验证容易,编写Twitter代码困难但验证容易,而设计饮食方案则生成容易验证困难[23][28] - 可通过提供特权信息(如答案或测试用例)来改变任务的验证不对称性,增加验证的容易度[26] - 任务的可验证性体现在五个方面:客观性(有明确对错标准)、验证速度(检查快慢)、可批量验证(一次性检查大量方案)、低噪音(验证结果稳定)和连续反馈(能给出具体质量分数)[29] - DeepMind的AlphaDev项目是利用验证不对称性的绝佳例子,通过进化式搜索算法(生成候选方案、自动评估打分、迭代优化)解决高度可验证的任务[31][32][33][34] - AlphaDev的成功在于其专注于解决单一具体问题,避开了深度学习中的泛化难题[35] - 验证者定律的启示是,首先被自动化的将是那些非常容易验证的任务[38] - 未来重要的领域包括发明衡量事物的方法,为难以衡量的领域(如创造力)设计快速、客观、可扩展的评估体系,从而利用AI进行大规模优化[38] 智能的锯齿状边缘 - 智能的边缘是锯齿状的,意味着AI在不同任务上的能力水平和进步速度因任务特性而异,发展不均衡[14][37][42] - “快速起飞”的假说(即AI在某一领域超越人类后智能会爆炸式增长)可能过于简单化,更现实的场景是自我改进能力存在一个“光谱”,而非二元突破[39][41][42] - 自我改进的速度应按每个具体任务来考量,各项任务会有不同的改进速度[42][44] - 例如,AI在复杂数学题、编程竞赛等“高峰”任务表现出色,但在判断9.11与9.9大小或处理特林吉特语等“低谷”任务上表现不佳[42] - 预测AI改进速度的几个窍门包括:AI擅长数字任务(因迭代速度快,扩展计算资源容易)[47]、对人类越容易的任务AI往往也觉得越容易[47]、AI可能完成人类因生理限制无法完成的任务(如分析1000万张乳腺癌图像)[47]、数据越充足AI表现越好(如语言模型在不同语言中的数学表现与数据量正相关)[47]、存在明确客观评估指标的任务可通过强化学习生成假数据实现自我训练[47] - 基于上述标准,可预测不同任务的自动化时间点:翻译(前50种语言)和调试基础代码已完成,竞赛数学在2024年完成,AI研究可能到2027年,化学研究更晚,拍电影可能在2029年,预测股市不确定,翻译特林吉特语可能性低,修水管和理发等非数字任务AI短期内难搞定,带女朋友约会让她开心AI永远搞不定[48][50] - 启示是AI影响最大的是那些符合数字任务、对人类不难且数据丰富的领域(如软件开发将极大加速),而另一些领域(如理发)可能保持不变[50]