Prompt Engineering
搜索文档
计算机行业周报(04.06-04.12):从Prompt Engineering到Harness Engineering-20260412
湘财证券· 2026-04-12 22:13
行业投资评级 - 维持计算机行业“买入”评级 [1][30] 报告核心观点 - 报告核心观点是AI工程化范式正经历从Prompt Engineering、Context Engineering到Harness Engineering的跃迁,Harness Engineering已成为驱动AI智能体(Agent)实现规模化、复杂化业务落地的关键基础设施 [5][9][30] - 在此趋势下,AI产业景气度有望持续上行 [9][30] 核心概念:Harness Engineering - **词源与定义**:“Harness”一词源自马术,意为“马具”,报告将其比喻为限定和引导底层大语言模型(比作野马)行为的外部框架、控制机制与编排体系,即一套完整的工程化支撑体系 [3][13][20] - **概念起源**:由HashiCorp联合创始人Mitchell Hashimoto于2026年2月首次提出,随后OpenAI和Anthropic等头部厂商通过技术博客和实践明确了该概念 [4][13] - **实践案例**:OpenAI公开实验显示,一支3-7人的工程师团队在5个月内通过Codex Agent生成了超过100万行生产级代码,全程无人工直接编写 [4][13] AI工程化范式演进路径 - **Prompt Engineering(提示词工程)**:聚焦于通过优化单次指令(如添加身份设定、场景约束)来引导模型精准理解任务,本质是意图对齐,以降低输出不确定性 [6][16][17] - **Context Engineering(上下文工程)**:随着任务复杂度提升,工程化重心转向高效管理模型的短期与长期记忆,通过检索增强、信息压缩等技术,以最优信息填充有限的上下文窗口 [6][20] - **Harness Engineering(驾驭工程)**:当模型智力达到临界值后,挑战转向如何构建能让AI在长周期、多步骤任务中持续受控运行的系统,它包含了前两阶段能力,并引入了工具调用、多Agent调度、物理边界设定、质量管理和全链路反馈闭环 [6][20] 对AI产业格局的影响 - **重塑Agent能力边界**:智能体(Agent)的能力边界将由模型智能与Harness共同决定,Harness成为其工程化落地的关键基础设施 [7][20] - **驱动产业链变革**:头部大模型厂商正加速向Harness层延伸布局,从提供单一API接口转向覆盖工作流编排的系统化产品形态 [7][9][31] - **创造垂直领域机会**:在垂直细分场景中,围绕企业级工作流、上下文管理、权限管控与结果校验构建的Harness能力具备持续价值,这为深耕垂直领域的B端软件厂商提供了重要的转型方向 [7][21][31] 市场与行业回顾 - **指数表现**:本周(报告期内)申万计算机指数下滑6.17%,在申万一级行业中排名第6位 [11][22] - **个股表现**:本周计算机行业涨幅前十的个股包括宇瞳光学、中安科、行云科技、浪潮信息、卡莱特、四方精创、君逸数码、思特奇、同有科技、宏景科技 [11][24][28] - **行业估值**:截至4月10日收盘,以PE-TTM(整体法,剔除负值)统计,申万计算机行业总体市盈率为53.2 [11][29] 投资建议与核心受益方向 - **核心受益方向一:国产大模型厂商**:头部厂商正加速向Harness层延伸,由单一API供给升级为覆盖工作流编排的系统化产品体系 [9][31] - **核心受益方向二:垂直领域企业端AI软件应用厂商**:依托深厚行业知识,构建围绕企业级工作流、上下文管理、权限管控及结果校验的Harness能力,将具备持续核心价值 [9][31]
Harness is the New Dataset:模型智能提升的下一个关键方向
海外独角兽· 2026-03-26 20:08
文章核心观点 - 随着基础模型能力成熟,决定智能体(Agent)能力上限的关键不再是模型本身,而是围绕模型构建的整套外围系统,即“Harness Engineering”(驾驭工程)[1] - Harness Engineering 是继提示工程、上下文工程之后AI工程方法的最新演进阶段,其核心价值在于通过系统设计捕获高质量的执行轨迹,形成数据飞轮,构建长期竞争优势[1][3] - 模型与Harness的关系日益紧密,呈现“训练即部署”的特点,Harness的能力正被快速吸收进模型,同时其本身作为高质量数据集的角色也使其成为竞争壁垒[31][34][36] AI工程方法的演进 - **Prompt Engineering (2022-2024)**:聚焦于单次对话中指令的打磨,通过优化提问方式让模型更稳定地输出预期结果[3] - **Context Engineering (2025)**:关注在有限的上下文窗口内,如何高效地获取、压缩和组织背景信息[3] - **Harness Engineering (2026)**:关注构建完整的运行环境与管控系统,包括工具、记忆、评估等组件,使智能体能可靠、安全地完成任务[3] - 演进背后的共同逻辑是:一旦模型能力过线,瓶颈就会开始外移[3] - 标志性事件是2025年11月Claude Opus 4.5的发布,意味着模型智能体能力达到临界点,系统层成为新瓶颈[4] Harness的关键组件 - **记忆与上下文管理**:解决智能体在当前时刻应看到什么信息,涉及上下文裁剪、压缩、检索和外部存储[5] - **工具与技能**:扩展智能体的行动能力,工具提供外部调用能力,技能提供可复用的任务方法[5] - **编排与协调**:负责编排复杂任务流程,协调多个智能体的分工与交接[5] - **基础设施与保障**:提供沙箱、权限控制、失败恢复和安全护栏等运行环境与边界条件[5] - **评估与验证**:内置测试、检查和反馈机制,使智能体能自行验证并修正工作[6] - **追踪与观测**:提供执行轨迹、日志、监控和成本分析,使系统可调试、可优化[6] - 六个组件可归纳为三层逻辑链路:信息层(准备信息)、执行层(推动执行)、反馈层(复盘结果)[6] Harness的设计原则与技巧 信息层原则:精准比求全更重要 - **渐进式披露**:将信息分层加载,让模型在不同阶段只接触必要信息。例如Claude Code将信息分为三层:CLAUDE.md(核心元规则)、SKILL.md(按需调用的能力包)、参考资料与脚本[10][11][12] - **工具少而精**:模型能力提升应减少对外部工具的依赖,过于复杂的工具集是模型幻觉的温床。Claude Code仅保留约20个工具,且谨慎新增[13] - **控制上下文窗口利用率**:存在利用率“甜蜜区间”,超过后性能下降。一项测试显示,当输入token从256K增至1M时,主流大模型表现明显下滑。顶级工程师常将上下文利用率控制在60%以下[15][17] - **利用子智能体进行上下文隔离**:将子任务分配给独立的子智能体,在主智能体更干净的上下文中进行调度与汇总,该方法被称为“context firewall”[18] 执行层原则:设计清晰的任务结构 - **分离研究、计划、执行、验证**:将任务链拆分为四个独立会话,避免上下文污染。例如,Claude Code要求对任何非简单任务(超过3步或涉及架构决策)先进入规划模式,执行前清空上下文[20][21][22] - **人类介入应前置到规划环节**:将精力从事后审核前移至研究和规划阶段,因为糟糕计划的影响远大于单行代码错误[24][25] 反馈层原则:构建复利飞轮 - **核心逻辑**:每一次失败都是让系统永久变好的机会,需将经验沉淀到规则文件中(如AGENTS.md)[27] - **构建自动化反馈闭环**:为智能体提供验证手段可显著提升产出质量。例如,提供有效验证后,Claude的产出质量能提升2-3倍。方法包括:让另一智能体验证结果、使用插件进入“自动迭代模式”、让智能体自行测试UI等[28] - **设计可迭代的回路**:重点不在于单次输出,而在于设计能不断筛选、迭代的闭环,此模式适用于研究、优化转化率等多种场景[29] 模型与Harness的共生关系 - **训练即部署**:在智能体强化学习的训练逻辑中,模型与Harness从一开始就共同设计。训练效果高度依赖于“训练场”是否贴近真实世界,模型在训练阶段接触的环境、工具和反馈决定了其上线后的表现[32] - **Harness能力被模型内化**:模型公司正将“模型+Harness”作为整体优化。许多原本属于Harness的能力(如工具搜索、程序化工具使用、上下文压缩、多步调用策略)正通过后训练被模型吸收,形成“Harness优化-模型内化-新Harness设计”的循环[34][35] - **Harness即数据集**:真正的竞争优势在于Harness捕获的执行轨迹数据,包括智能体看到的信息、使用的工具、决策过程及错误点。Harness成为模型能力生成的土壤,反哺智能生长[36] - **当前的竞争态势**:即使模型能力打平,优秀的Harness设计(如Claude Code)仍能赢得用户。同时,头部模型公司端到端做Harness,而大型AI应用公司也开始基于自身业务数据和Harness训练模型,竞争焦点转向在特定场景构建成本更低、效果更好的系统[37][38] 创业公司的机会与代表项目 信息层 - **机会领域**:以智能体为中心,抓取企业内分散的隐性知识,将其转化为可执行的动态上下文[40] - **代表公司:Edra**:定位为“Context for Agents at Scale”,通过读取企业工单、日志、邮件、聊天记录等数据,反向推理还原业务流程,并整理成智能体可复用的操作手册。2026年3月完成约3000万美元A轮融资,由Sequoia领投[41] 执行层 - **方向1:工作流编排/持久化执行** - **代表公司:Temporal**:提供持久化执行底层基础设施,确保长时、复杂任务在中断后能从断点恢复。已签约OpenAI、Replit、Netflix等大客户。2026年2月完成3亿美元D轮融资,a16z领投,估值达50亿美元[42] - **方向2:安全与治理** - **代表公司:Oasis Security**:面向智能体企业的权限管理平台,管理AI数字身份的权限、追踪与控制。2026年3月完成1.2亿美元B轮融资,Craft Ventures领投,估值7亿美元[43][44] - **方向3:沙箱** - **代表公司:Daytona**:提供智能体长期使用的、有状态的沙箱工作空间,支持长周期复杂工作流。2026年2月完成2400万美元A轮融资,FirstMark领投[45] 反馈层(评估与可观测性) - **看好原因**:1) 企业需要独立的质量控制面板;2) 是AI企业的刚需痛点,且需求将随智能体复杂度增加而增长;3) 深度嵌入工作流,替换成本高[46] - **代表公司:Braintrust**:AI可观测性与评估平台,功能包括:记录生产环境调用轨迹、对结果进行多方式评分、利用线上问题沉淀测试集以优化产品。2026年2月完成8000万美元B轮融资,ICONIQ领投,估值8亿美元[47][48] 未来展望:协调工程 - **下一阶段范式**:可能为“Coordination Engineering”(协调工程),即协调无数智能体或人机节点共同完成高度复杂任务,类似于“小龙虾版飞书”的监工看板与协作平台[48][49] - **智能体工程的终极范式**:可能包含四个层级:L1解决问答质量(提示工程)、L2解决认知边界(上下文工程)、L3解决执行闭环(驾驭工程)、L4解决组织协同(协调工程),它们之间是包含而非替代关系[49]
Context 还不够,Harness 才是 Agent 工程优化的正解?
机器之心· 2026-03-22 10:36
Agent工程范式从Context Engineering向Harness Engineering演进 - 行业关注重点正从AI的生成能力转向执行能力,长程任务中的上下文挤压、工具开销和业务语境缺口问题凸显,单一的Context Engineering已难以支撑Agent稳定运行,围绕执行环境、约束机制和反馈回路设计的Harness Engineering受到更多关注[1] - Harness Engineering被视为继Prompt Engineering、Context Engineering之后,Agent工程进一步走向执行框架设计的新信号,其核心判断是决定Agent落地效果的关键已不只是模型能力,更在于系统能否提供清晰边界、自动校验和可复用的纠错流程[5] - 新的工程分工正在形成,模型负责生成与执行,人类则更多负责设定约束、补充反馈并持续优化运行框架[6] Context Engineering的局限性 - 随着AI应用从单轮问答走向多步执行与长链路任务,单靠提示词(Prompt Engineering)已难以覆盖真实任务中的上下文缺失、信息噪声与工具协同问题[7] - Context Engineering的核心是系统化设计推理所需的信息供给,包括检索、记忆、工具反馈与上下文组织,以减少执行偏移和结果失真,曾被Andrej Karpathy认为是工业级LLM应用的关键[8] - 但在更长链路、更高复杂度的真实任务中,Context Engineering的局限性集中暴露,包括受限于上下文注意力预算、工具接入和协议开销挤压有效认知空间,以及难以自动补齐关键的业务定义和组织隐性知识[8] Harness Engineering的价值与成效 - Harness Engineering的价值不依赖于更换底层模型,可直接体现在系统层优化上,例如LangChain团队在固定模型不变的前提下实现了Agent表现的明显提升[6] - 具体案例显示,LangChain的Deep Agents团队在2025年2月保持模型为GPT-5.2-Codex不变,仅通过调整harness,就将coding agent在Terminal Bench 2.0上的得分从52.8%提升至66.5%,排名从Top 30附近跃升至Top 5[6] - 其改进方法是借助trace在大规模运行中识别失败模式,再针对性回写到harness中,这意味着Harness Engineering将“调试模型”转化为“调整系统”,通过可观测性与闭环迭代持续放大模型已有能力[7] - 行业观点认为,当Agent反复犯同类错误时,关键在于让系统更快暴露错误、定位错误并推动修正,这正是Harness Engineering的实践范畴[5]
提示词工程、上下文工程都过时了,现在是 Harness Engineering 的时代
Founder Park· 2026-03-13 21:04
Harness Engineering的兴起与定义 - 2026年开年,开发者社区最热关键词为Harness Engineering,由HashiCorp联合创始人Mitchell Hashimoto在2月5日命名[2] - 一个月内,该概念从一篇博客文章发展为开发者社区高频词[3] - 行业新共识:在AI Agent编码领域,决定结果好坏的最大变量是模型所处的环境,而非模型本身[4] - 核心观点:模型能力竞赛持续,但决定Agent工程产出质量的杠杆已转移到“环境”一侧,这个环境就是Harness[5][6] 从Prompt到Context再到Harness的认知演进 - **2023年:Prompt Engineering全盛期**,焦点是写好单条提示词,但处理复杂任务时局限性暴露[9] - **2025年中:Context Engineering兴起**,焦点从“写好一条指令”扩展到“设计动态系统来组装上下文”,包括RAG、对话历史等编排[9] - **2026年2月:Harness Engineering正式命名**,解决了Context Engineering的不足,即上下文无法阻止Agent“做不该做的事”[11][12] - 三阶段关系总结:Prompt Engineering管“说什么”,Context Engineering管“知道什么”,Harness Engineering管“在什么环境里做事”[13] OpenAI实验的核心发现与工程实践 - **实验设定**:5名工程师在五个月内,通过Codex Agent协作交付了超过100万行代码的生产级软件产品,无一行人类手写代码[4][15] - **效率数据**:平均每名工程师每日合并3.5个Pull Request,代码审查通过Agent对Agent循环实现大规模自动化[15] - **关键挑战**:最困难的挑战集中在设计环境、反馈回路和控制系统上[15] - **文档工程进化**:从将所有信息塞进庞大AGENTS.md文件的错误,演变为**渐进式披露模型**,AGENTS.md精简为约100行的“目录”,指向结构化docs/目录[16][17] - **超越文档**:将可观测性数据(日志、指标、追踪)直接暴露给Agent,使其能通过LogQL和PromQL查询验证运行时状态,甚至通过Chrome DevTools Protocol操作浏览器以重现Bug[18][19] - **机械化架构围栏**:通过确定性Linter(错误输出格式专为Agent设计)和基于LLM的审计Agent,严格拦截违反分层架构依赖流向的代码[21][22] Harness Engineering的三维框架(Böckeler解读) - **维度一:上下文工程**:确保Agent在正确时机获得正确信息,包括渐进式文档披露、动态可观测性数据接入[24] - **维度二:架构约束**:通过机械化手段(如专为Agent设计的Linter)强制执行架构边界,使“违规→检测→修复”循环可在Agent内部闭环完成[25] - **维度三:熵管理/垃圾回收**:部署专用清理Agent定期扫描文档漂移、模式违规和依赖问题,防止Harness自身随时间腐化[26] - 三者关系:上下文工程让Agent“知道该做什么”,架构约束确保“只在边界内行事”,熵管理保障“整个系统不随时间退化”[26] 行业实践与验证 - **Stripe的工业级实践**:其Minions体系每周合并超过1,300个由AI完全编写的Pull Request[28]。每个Agent任务在独立预热devbox中运行(约10秒启动),通过名为Toolshed的中心化MCP服务器访问近500个工具[28]。采用“蓝图”模式,混合确定性节点与Agent节点,将LLM限制在“可控盒子”里以提升可预测性[28] - **LangChain的对照实验**:其编码Agent在Terminal Bench 2.0基准测试上,仅通过优化Harness(不修改模型),得分从52.8%提升至66.5%,排名从第30跃升至第5[4][29]。这是“环境比模型更重要”的直接证据[30] - **行业采用**:Anthropic将Claude Code定位为“灵活的Agent线束”[31]。MCP(模型控制协议)月SDK下载量超过9,700万,获OpenAI、Google、Microsoft和AWS采用,正成为Agent工具访问的通用标准[31] - **行业数据**:LangChain报告显示,89%的受访者已为其Agent实施可观测性,但仅有52%实施了评估(Evals)[32] 工程师角色与组织结构的转变 - **工程师核心工作转变**:从写代码转向设计让Agent可靠运行的环境,具体包括构建文档与上下文体系、以机器可处理的方式定义业务意图、构建自动化的防呆验证机制[33] - **新工作模式**:工程师如软件架构师,只讨论高层架构和重大决策,不涉及具体代码实现[34]。系统理解的深度比写代码的速度更重要[35] - **组织结构变化**:OpenAI的3-7人团队完成了以前需数十人规模的工程输出[35]。Stripe让单名工程师可同时向多个Agent分配任务,团队结构向两三人甚至单人团队收敛[35] - **“学徒缺口”挑战**:初级开发者若过早进入Agent驱动循环,可能缺乏构建健壮Harness所需的深度系统直觉,需设计保留手动开发直觉的学习路径[35] 开发者行动建议与采用路径 - **起步**:把同一个任务做两遍(先手动,再让Agent做),以建立对Agent能力边界的直觉[36] - **养成习惯**:每天下班前30分钟启动Agent,处理深度调研、并行探索、Issue和PR分诊等任务[36] - **关键跃迁**:在项目中建立一份AGENTS.md文档,从最基本内容开始,每次Agent犯错就补充一条规则,使其逐渐长成Harness[36] - **心态建议**:关掉Agent的桌面通知,由人类控制中断时机[36] - **对技术负责人的建议**:选择新项目做试点,并建立Evals(评估体系)能力[37]
35天,版本之子变路人甲:AI榜单太残酷
36氪· 2026-01-16 08:13
文章核心观点 - 人工智能大模型行业正经历前所未有的快速迭代 模型性能的领先地位极不稳定 曾经备受推崇的顶尖模型在短时间内排名大幅下滑[1][2][3] - 大模型的技术壁垒和领先优势的“保鲜期”急剧缩短至平均约35天 行业已从“大象漫步”进入“果蝇”般的超短生命周期阶段[6] - 基础模型的进化速度已远超应用层产品的开发速度 导致许多基于特定模型开发的产品和功能在发布前就已过时 对创业公司和开发者构成“降维打击”[5][8][13] - 行业生存法则正趋向两极分化:要么采取极度轻量化的快速试错模式赚取短期利润 要么转向挖掘模型无法替代的私有数据、复杂物理场景和人际信任等核心价值[16][18][20] 行业竞争格局与模型表现 - OpenAI的o1-preview模型在发布初期在多项关键评估中全面领先 在“总体”、“困难提示”、“指令遵循”、“编码”、“数学”、“多轮对话”及“长查询”等维度均排名第一[2] - 行业竞争异常激烈 排名变动迅速 OpenAI o1模型在几个月内从巅峰跌落至第56位 而Claude 3 Opus更是下滑至第139名[3] - 数据显示 一个模型登顶后 其领先优势维持时间很短 仅需5个月就会被踢出前5名 7个月后则可能跌出前10名[8] 技术迭代速度与行业影响 - 基础模型(ΔModel)的进化速度已远超过应用产品(ΔProduct)的迭代速度 颠覆了过去“应用倒逼基建”的行业发展模式[9] - 模型能力的快速“原生内置”使得许多创业公司耗时数月研发的核心功能瞬间失去价值 产品在发布前即面临淘汰风险[8] - 模型供应商的更新决策(如Anthropic宣布Claude 3 Opus于2026年1月5日退役)可能使开发者基于其API构建的代码失效 造成重大影响[11][14] 对市场参与者(公司/开发者)的启示 - 依赖于特定模型缺陷或能力而构建的产品(如复杂的Prompt工程、单一的PDF总结工具、AI翻译插件)具有极高的一次性风险 如同“在冰块上雕花”[15][16] - 试图在中间地带建立长期竞争优势的策略可能失效 行业生存需要选择极端路径[18] - 一条路径是成为“游击队” 采用极度轻量化的模式快速组装和验证产品 在短暂的窗口期内获利后迅速撤退 Builder.ai的案例表明 仅靠炒作期赚快钱的模式难以持久[16][18] - 另一条更可持续的路径是放弃对“模型智商”的单一追逐 转而构建模型无法轻易复制的优势 例如深度整合私有数据、解决复杂物理世界问题 以及建立深厚的人际信任关系[18][20]
零成本、无需微调:提示词加几个字让能大模型创造力暴涨 2 倍
36氪· 2025-12-14 08:05
文章核心观点 - 斯坦福大学等机构的研究发现,通过一种名为“言语化采样”的简单提示词技术,无需重新训练或微调模型,即可显著解锁大型语言模型被“安全对齐”过程所抑制的创造力,使答案多样性提升高达2倍[5][6][27] AI模型创造力受限的根源 - 后训练阶段的安全对齐过程导致了“模式坍缩”,使得模型在创意任务中总是输出最刻板、最安全、最无聊的回答[12] - 根本原因并非算法永久性损伤,而是人类标注员在训练过程中存在系统性认知偏差,导致模型被训练得迎合人类对“典型”答案的偏好[13][14] - 人类偏好评分数据显示,典型性偏差权重 α 达到 0.57±0.07 (p<10^-14),表明偏差影响显著[14] “言语化采样”技术的原理与效果 - 技术核心是改变提问方式,从要求“一个”答案变为要求生成多个答案并附带其概率,例如“生成5个关于咖啡的笑话并给出概率”[15][16] - 该方法迫使模型从预训练学到的真实概率分布中随机采样,而非仅输出坍缩后分布中最典型的答案[16] - 应用该技术后,对于具有多种有效视角的问题,答案多样性增加了1.9倍;在诗歌、故事、笑话等任务上,多样性增加了1.6–2.1倍[23][27] - 基础模型的创造力恢复率达到66.8%,而未使用该技术时仅为23.8%[27] - 人类偏好评分提高了25.7%(基于2,700次评分测试),且模型回答更像人类,机械感减少[27] 技术的应用方法与场景 - **通用方法**:在任何聊天机器人中,使用包含生成多个带概率回答的指令的提示词[17] - **专业方法**:在系统提示词中设定规则,要求模型从概率小于0.10的分布长尾部分随机采样回答,以自动提升创造性[20][21][22] - **开发者工具**:可通过安装Python包 `verbalized-sampling` 在代码中调用该功能[23] - **应用场景**:适用于头脑风暴、内容创作、解决问题、图像生成提示词多样化以及合成数据生成等领域[29][30] - **合成数据效益**:使用该技术生成的训练数据,能使下游任务准确率提高14–28%[24] 技术影响的深层洞察 - 该技术证明,对齐并未永久性抹杀模型的创造力,多样性依然编码在模型权重中,只是某些模式变得不易访问[27][28] - 模型规模越大,从中获益越多,例如GPT-4获得的多样性提升是GPT-4-Mini的2倍,表明更大模型有更多被困的创造力等待解锁[24][25][26] - 该技术改变了行业对AI对齐的认知,证明安全性与创造力并非不可兼得,在事实性问题和常识推理上准确率没有下降,安全性未退化[31][32]
ChatGPT三岁生日,谷歌却为它准备了「葬礼」
36氪· 2025-12-01 15:20
AI行业三年发展回顾 - 2022年12月1日OpenAI发布ChatGPT研究预览版,通过简单对话框开启AI新时代[1] - 三年后AI技术已成为数字世界的"氧气",彻底重塑人类社会[5][6] - 技术演进伴随全球性群体焦虑,行业经历狂热与恐慌交织的发展阶段[8] 技术演进轨迹 - 2023-2024年为惊奇与幻觉蜜月期,ChatGPT打破图灵测试防线,关键词为"对话"[14] - Prompt Engineering成为热门新技术但迅速被AI自身能力瓦解[14][16] - 2024-2025年进入多模态与应用爆发期,AI开始处理图像、音频和视频[17] - Vibe Coding兴起,Cursor等生产力工具彻底重塑生产关系[19] 市场竞争格局变化 - 谷歌Gemini 3实现反超,月活用户从5月约4亿激增至6.5亿[21] - 用户花在Gemini聊天时间已超过ChatGPT,尽管OpenAI仍拥有8亿周用户[23] - 行业专家评价世界"天差地别",从OpenAI遥遥领先到格局重塑[26] OpenAI面临挑战 - 公司计划未来8年投入1.4万亿美元用于算力建设[28] - 采用独特"打法":合作伙伴承担金融风险,自身账上几乎无欠款[29][30] - 合作伙伴为投资OpenAI或帮建数据中心已借至少300亿美元[29] - 与OpenAI挂钩的债券、贷款和私人信贷交易规模达1000亿美元[31] 财务风险结构 - 甲骨文发售180亿美元公司债券支付对OpenAI基础设施承诺[31] - 分析师预测甲骨文未来四年需再借1000亿美元完成OpenAI合同[32] - CoreWeave为履行算力合同已借超过100亿美元[31] - OpenAI自身仅拥有40亿美元信贷额度且尚未动用[30] 技术性能对比 - GPT-5在推理能力、token效率和准确性方面均优于前代产品[13] - GPT-5具有更高的推理一致性和最佳上下文保留能力[13] - 速度表现:GPT-4o最快,GPT-5中等,GPT-4较快[13]
如何从0到1做一款AI产品?
虎嗅· 2025-08-15 17:00
公司业务模式 - 公司核心产品Podscan为AI驱动的播客监测平台 每天处理约5万集新播客内容 提供关键词追踪和实时提醒服务[3][4][9] - 目标客户为公关公司和营销机构 帮助其监控品牌及产品在播客中的提及情况[8][10] - 运营规模与客户数量无关 日均处理3.5万集播客 周一达5万集 覆盖全球380万档播客[9] 技术架构 - 采用开源数据库Podcast Index获取近400万条播客RSS源 每周更新4GB的SQLite数据库[11][12] - 通过Podping发布/订阅系统实时接收播客更新通知 配合补充扫描机制确保覆盖率[13] - 自建GPU服务器集群运行Whisper CTranslate 2模型 集成PyAnnote实现说话人分离功能[18][19][21] - 使用OpenSearch处理4TB转录数据 月成本700美元 比原MeiliSearch方案提升数据摄取能力[35][38][40] 成本控制策略 - 月运营成本从3万美元压缩至1万美元 通过选择Hetzner等小众云服务商降低GPU租赁成本[4][13][22] - 放弃高端H100显卡 采用4台低成本整机实现更高综合性能 月省1200美元[22] - 仅触发关键词时调用LLM API 避免每日5万集全文处理可能产生的1万美元成本[27] - 建立基于Redis的三级优先级队列系统 根据用户行为动态调整处理顺序[23][24] 产品演进路径 - 从语音留言工具转型为播客监测平台 发现播客领域缺乏类似Google Alerts的监控工具[7][8] - 短暂实现2个月盈利后因大客户流失再度亏损 月度经常性收入6000美元对比1万美元月开支[57][59] - 调整定价策略 最高套餐从500美元升至2500美元 瞄准预算充足的代理机构客户[63][64] - 从产品主导增长(PLG)转向销售主导增长(SLG) 建立直销渠道和高接触客户关系[61][66][67] 开发范式变革 - 采用AI辅助开发模式 使用Junie等工具生成OpenSearch复杂查询语句 提升开发效率[45][47] - 技术栈从Elixir转向PHP/Laravel 基于Stack Overflow海量训练数据获得更好AI支持[53][54] - 开发角色从编码转为管理 通过自然语言提示词实现功能开发 自称为"0.8倍开发者"[49][50]
AI搜索的未来不是“十个蓝色链接”,而是直接给你答案
虎嗅· 2025-07-25 12:16
一、Perplexity AI的引用规范与监督机制 - 公司明确标注信息来源,不声称拥有内容版权,核心功能是帮助用户更易获取并总结互联网信息,同时清楚展示来源 [6] - 模型训练时被要求避免直接复现原文,而是归纳总结不同来源观点,结合监督微调(SFT)和人类反馈强化学习(RLHF)技术优化 [10] - 产品设计上不支持用户直接粘贴URL要求总结,但承认当前技术无法完全杜绝滥用场景,需持续迭代防护措施 [12][14] 二、AI搜索与传统搜索的差异化路径 - 与传统搜索引擎如Google相比,Perplexity用户平均查询长度达10-11个词,更倾向于直接回答完整问题而非返回链接列表 [17] - Google商业模式依赖搜索广告(单季度收入450亿美元),其激励机制促使用户多点链接,而Perplexity定位为AI原生信息检索工具 [16][18] - 公司近期新增NFL实时比分功能,通过与体育数据提供商合作确保准确性,并计划扩展至深度数据分析如球员对比、历史表现等 [19][21] 三、产品功能扩展与用户习惯重塑 - 根据用户日志数据优先开发金融垂类功能,支持市场调研、投资组合管理等需求,同时解决体育等领域的信息幻觉问题 [23] - 目标覆盖从学术研究到日常查询的全场景,包括本地搜索、天气、购物等基础需求,以推动用户从传统搜索转向AI原生交互 [24] - 近期密集推出数十项新功能,但强调策略基于用户需求分析而非盲目试错,例如金融方向因核心用户群体需求而优先落地 [22][23] 四、内容合作与商业模式探索 - 推出Publisher Program,承诺与媒体分享广告收益,若其内容被引用为答案来源,同时提供API支持媒体站内部署AI助手 [26][31] - 区分两类AI公司:一类训练模型内化内容,另一类实时检索公开信息生成回答,Perplexity属于后者且不将内容纳入训练权重 [27][28] - 广告变现被视为长期方向,但需平衡用户体验与商业利益,预计需两年时间完善机制,当前API成本每4-5个月下降50% [35][37] 五、行业竞争与法律争议回应 - 回应道琼斯诉讼时强调开放合作态度,指出与Fortune、Time等媒体已有合作案例,诉讼方News Corp亦与OpenAI存在协议 [25] - 法律层面主张"事实不受版权保护",认为信息自由传播符合科学精神,但承认当前法律框架存在模糊地带需通过案例明确 [33][34] - 否认与新闻媒体直接竞争,用户使用场景多为分析新闻影响(如股票决策)而非获取原文,强调产品定位差异 [30]
深度|Perplexity CEO专访:AI搜索的未来不是“十个蓝色链接”,而是直接给你答案
Z Potentials· 2025-07-25 11:24
Perplexity AI的核心定位与产品理念 - 公司定位为AI原生搜索引擎,专注于通过归纳总结而非直接复制来提供信息,并明确标注来源[6][7] - 产品设计初衷是改变传统搜索习惯,平均查询长度达10-11个词,远高于Google的2.7个词[15] - 强调事实本身不应被版权保护,主张信息应自由传播的价值观[10][28] 技术实现与内容处理机制 - 采用监督微调(SFT)和基于人类反馈的强化学习(RLHF)技术防止直接复制原文[11] - 每句话标注来源信息,包括页面顶部source panel和文末脚注[7] - 明确反对用户通过"总结URL"等方式滥用产品功能[12][13] 商业模式与行业合作 - 推出Publisher Program,承诺与内容方分享广告收益[23][26] - 区分两类AI公司:训练基础模型型与实时检索型,自认属于后者[23] - 预计API成本每4-5个月下降一半,未来可能再降10-50倍[30] 市场竞争策略 - 指出Google季度搜索广告收入达450亿美元,但其商业模式依赖多点链接[14] - 认为与Google非零和博弈,广告预算可能从100%Google变为95%+5%分配[31] - 优先覆盖金融、体育等垂直领域,解决用户在其他搜索引擎的痛点[20][21] 产品功能演进 - 新增NFL实时比分功能,与专业数据提供商合作[17][18] - 根据日志数据持续优化功能,早期用户主要为学术研究型人群[19][20] - 目标覆盖搜索全场景包括本地、天气、购物等基础需求[21] 版权争议应对 - 回应News Corp诉讼,强调已建立合作机制并当天做出正式回复[22] - 主张产品非新闻工具,用户更多是查询新闻对自身影响而非获取原文[25] - 为媒体提供API支持和企业版产品,帮助其提升内容创作效率[27]