Workflow
Founder Park
icon
搜索文档
给 Agent 接搜索功能,有哪些「坑」需要特别注意?
Founder Park· 2025-10-26 10:33
文章核心观点 - 为AI Agent构建高效可靠的搜索系统面临显著挑战,其交互逻辑、内容呈现和接口配置均与传统人类搜索引擎有本质区别[2] - 信息检索的质量是决定Agent推理能力和任务完成度的关键因素[3] - 行业正积极探索在检索深度与调用成本之间找到最佳平衡点,并关注搜索结果的精准度和实时性[3] AI搜索与传统搜索的差异 - 人类单次搜索动作未来可能演变为Agent的10次搜索,AI会将复杂指令拆解为多个子问题进行多轮迭代式检索[2] - 给人用的搜索和给AI用的搜索在交互逻辑、内容呈现、接口配置等方面完全不同[2] - 行业需明确区分“AI搜索”和“给AI用的搜索”这两个概念[6][8] 行业面临的挑战与关注点 - 构建靠谱高效的Agent搜索系统存在技术难点,实际接入外部搜索API时存在需要特别注意的潜在问题[3][6] - 行业重点关注如何保证搜索结果的精准度和实时性[3] - 行业探讨Agent接入搜索的具体技术挑战与解决方案[8]
Stripe 闭门分享:税务合规、定价模式,AI 创企如何快速搞定跨境支付?
Founder Park· 2025-10-23 17:03
AI产品出海支付挑战 - 支付问题是每个AI产品出海需要解决的核心问题,涉及账户资格、全球收款、地区税率和合规性等实际难题[2] - 税务合规难度高、费率成本高是出海生意中的主要隐藏成本[7][8] - 定价模式选择是需要面对的关键决策,包括按量定价和混合订阅等不同方案[7][8] Stripe支付解决方案 - Stripe被Lovart、Manus等知名AI产品选为支付平台,为AI产品出海提供专业服务[3] - Stripe大中华区团队将分享AI产品如何简单快速集成支付功能的真实案例[7][8] - 公司专注于解决跨境支付的落地难题,帮助企业更快实现全球化支付能力[3] 行业交流活动信息 - 将于10月28日晚20点举办线上闭门交流活动,聚焦AI产品支付集成话题[5] - 活动由Stripe大中华区企业客户总监Pamela Chung和解决方案架构师Stan Wang主讲[8] - 活动名额有限,采用线上闭门形式进行深度交流[5]
Agent 一年半开发复盘:大家对 Agent 的理解有错位,有效的「认知流程」很关键
Founder Park· 2025-10-22 20:46
AI Agent核心观点 - AI Agent能力的质变关键不在于大模型智力增长,而在于围绕模型设计的认知流程[2] - 从Chatbot到Agent的进化本质是从静态生成转向动态执行流程[33] - 行业竞争核心已从模型参数转向智能流程设计优劣[62] Agent能力演进路径 - 学霸成长比喻展示Agent五阶段演进:原生天才→思考者→细心人→战略家→学者[15] - 思维链(CoT)强制模型分解复杂任务为线性推理子任务,降低幻觉概率[18] - 自我反思(Reflexion)框架引入"先行动-再复盘-后修正"迭代流程,HumanEval代码任务准确率达91%超越GPT-4的80%[20] - 规划能力将宏大目标分解为逻辑清晰子任务清单,提升执行确定性[22] - ReAct框架通过思考→行动→观察循环将AI从封闭大脑变为现实世界行动者[26] 流程设计三重价值 - 结构价值:规划流程在宏观层面建立逻辑脚手架,思维链在微观层面确保推理严谨[36][37] - 迭代价值:反思流程对记忆进行高效压缩,用极小上下文空间保留关键决策信息[42] - 交互价值:工具作为流程神经触手,通过ReAct框架确保AI获取真实世界信息[46][47] 科学理论基础 - 控制论视角:Agent实现从开环系统到闭环系统进化,通过反馈机制持续逼近目标[53][54] - 信息论视角:Agent工作本质是熵减过程,通过行动获取信息消除不确定性[59][60] 开发者角色转变 - 提示词工程师角色正成为历史,新兴角色是Agent流程架构师[64][65] - 新角色三大核心职责:设计AI思考流程、赋能行动工具、构建决策上下文[66][68][69] - 基础Think-Act-Observe循环是Agent心跳,架构师需在此基础上构建大脑与神经系统[70] 性能工程优化 - 架构剪枝:简单场景使用LLM内置工具调用范式降低延迟[70] - 并行化执行:对无依赖子任务实施并行工具调用,将总耗时缩短为最长任务耗时[71] - 模型路由:轻量模型处理高频任务,重量模型仅用于复杂推理节点[71] - 记忆架构:高效检索机制精准提取关键时刻所需知识[72] 前沿架构方向 - 认知调度中心:Anthropic Skills功能实现智能工作流编排,模型自主规划多工具协作[73] - 规约驱动分层:规划Agent生成技术规约作为执行Agent工作契约[74] - 即时代码生成:CodeAct框架让Agent动态创建工具,实现能力边界动态扩展[75]
给 Agent 做一个靠谱且高效的「搜索系统」,难在哪?
Founder Park· 2025-10-22 20:46
AI搜索系统的重要性 - 信息检索质量决定Agent推理能力和任务完成度[3] - 过去人类一次搜索动作未来可能变成Agent的10次搜索[2] - 复杂指令会被拆分成多个子问题进行多轮迭代式检索[2] 人机搜索差异 - 给人用搜索和给AI用搜索在交互逻辑、内容呈现、接口配置等方面完全不同[2] - 需要专门探讨"AI搜索"与"给AI用的搜索"之间的区别[6][8] 技术挑战与解决方案 - 保证搜索结果精准度和实时性面临重大挑战[3] - 需要在检索深度与调用成本之间找到最佳平衡点[3] - 实际接入外部搜索API时存在多个需要特别注意的"坑"[3][6] 行业活动信息 - 小宿科技联合创始人兼CEO William杜知恒和智能搜索产品经理杨政骥将分享AI搜索实践经验[3] - 活动时间为10月30日20:00-21:30线上举行[4][7] - 活动主题聚焦给Agent构建靠谱高效搜索系统的技术难题[6][8]
热闹了!OpenAI 前脚发完 ChatGPT 浏览器,Anthropic 随后推出 Claude 桌面端
Founder Park· 2025-10-22 14:04
新产品发布动态 - OpenAI发布全新浏览器ChatGPT Atlas,深度集成ChatGPT功能[2][3] - Anthropic正式发布Claude Desktop桌面端,主打随时随地召唤AI助手[3] - 两家公司产品思路不同:OpenAI通过浏览器深度集成AI到网页操作,Anthropic让AI在电脑全局待命[5] ChatGPT Atlas核心功能 - 内置ChatGPT侧边栏,可在任意页面直接调用AI助手查看页面内容[3] - 具备浏览器记忆功能,能记住浏览历史并用自然语言查询历史记录[3][19] - AI智能体模式可在页面上执行点击、输入、跳转等操作,目前仅限付费用户使用[3][22] - 通过全局快捷键和屏幕共享功能提升使用便捷性[4][7] 产品可用性与商业模式 - ChatGPT Atlas目前向所有macOS用户开放,包括免费、Plus、Pro及Go用户[10] - Windows、iOS和Android版本即将推出[10] - 智能体模式以预览版形式向Plus、Pro和Business用户开放,实行付费模式[13] - 设为默认浏览器可获赠7天会员服务[12] 技术特点与用户体验 - Atlas基于谷歌Chromium内核打造[25] - 新标签页作为起点,整合提问和网址输入功能[31] - 支持语音输入按Caps Lock键说话,边想边聊[7] - 个性化建议功能可根据浏览历史推荐下一步行动[38][41] - 家长控制功能新增关闭浏览器记忆和智能体模式选项[52] 智能体能力与限制 - 智能体可自动执行任务如研究分析、任务自动化、规划活动或预订约会[22][54] - 无法在浏览器中运行代码、下载文件或安装扩展程序[60] - 在金融机构等敏感网站会暂停操作,确保用户监督[60] - 存在被恶意指令操纵风险,可能导致数据窃取或非预期操作[57] 团队背景与行业竞争 - Atlas项目由前谷歌Chrome核心开发者Ben Goodger领导[65][68] - AI浏览器成为新竞争前线,Perplexity推出Comet浏览器提供答案引擎功能[78][79] - 谷歌计划将Gemini AI助手深度集成进Chrome浏览器[82] - 全球Chrome浏览器用户超30亿,OpenAI能否撼动市场地位尚待观察[88] 产品发展路线 - 后续版本将支持多用户配置文件,提升开发者工具体验[63] - 为使用Apps SDK的开发者提供更多方法提升应用可发现性[63] - 标志网络活动将通过智能体系统完成的新趋势[58]
o1 核心作者 Jason Wei:理解 2025 年 AI 进展的三种关键思路
Founder Park· 2025-10-21 21:49
智能商品化 - AI发展分为两个阶段:推动前沿阶段(研究人员努力解锁新能力)和商品化阶段(能力被规模化与降本)[11] - 在MMLU基准测试中,达到特定性能水平所需的成本呈现每年下降趋势[11] - 自适应计算时代允许根据任务难度调整计算量,从而持续降低智能成本,无需持续扩大模型规模[13] - 自适应计算的技术突破源于o1模型,证明在测试阶段投入更多计算资源可提升模型在基准测试上的表现[13] - 信息检索效率经历了四个时代的演变:前互联网时代(耗时数小时)、互联网时代(耗时数分钟)、聊天机器人时代(效率提升)和智能Agent时代(耗时几分钟甚至几小时),获取公共信息的时间急剧缩短[16][17] - 例如,回答“1983年釜山有多少对夫妇结婚”这一问题,在智能Agent时代仅需几分钟,而在前互联网时代可能需要飞到韩国并翻阅大量书籍[16] - OpenAI的BrowseComp基准测试显示,人类平均需要两个多小时解决的复杂问题,Deep Research模型可解决约一半[17] - 智能商品化将带来领域民主化,例如编程和个人健康等领域因知识门槛降低而更加开放[20] - 公共信息成本降低使得私有信息(如非市场挂牌的房屋信息)的相对价值提升[20] - 最终信息获取将变得无摩擦,形成高度个性化的信息流,而非公共互联网[20] - 任何公开可用的信息都能立刻获取,形成即时知识[22] 验证者定律 - 验证者定律的核心是:训练AI解决特定任务的能力,与验证该任务完成情况的难易程度成正比[14][26] - 任何可解决且易于验证的任务,最终都会被AI攻克[3][26] - 验证的不对称性指对于某些任务,验证解决方案比找到解决方案更容易[21] - 例如,解数独困难但验证容易,编写Twitter代码困难但验证容易,而设计饮食方案则生成容易验证困难[23][28] - 可通过提供特权信息(如答案或测试用例)来改变任务的验证不对称性,增加验证的容易度[26] - 任务的可验证性体现在五个方面:客观性(有明确对错标准)、验证速度(检查快慢)、可批量验证(一次性检查大量方案)、低噪音(验证结果稳定)和连续反馈(能给出具体质量分数)[29] - DeepMind的AlphaDev项目是利用验证不对称性的绝佳例子,通过进化式搜索算法(生成候选方案、自动评估打分、迭代优化)解决高度可验证的任务[31][32][33][34] - AlphaDev的成功在于其专注于解决单一具体问题,避开了深度学习中的泛化难题[35] - 验证者定律的启示是,首先被自动化的将是那些非常容易验证的任务[38] - 未来重要的领域包括发明衡量事物的方法,为难以衡量的领域(如创造力)设计快速、客观、可扩展的评估体系,从而利用AI进行大规模优化[38] 智能的锯齿状边缘 - 智能的边缘是锯齿状的,意味着AI在不同任务上的能力水平和进步速度因任务特性而异,发展不均衡[14][37][42] - “快速起飞”的假说(即AI在某一领域超越人类后智能会爆炸式增长)可能过于简单化,更现实的场景是自我改进能力存在一个“光谱”,而非二元突破[39][41][42] - 自我改进的速度应按每个具体任务来考量,各项任务会有不同的改进速度[42][44] - 例如,AI在复杂数学题、编程竞赛等“高峰”任务表现出色,但在判断9.11与9.9大小或处理特林吉特语等“低谷”任务上表现不佳[42] - 预测AI改进速度的几个窍门包括:AI擅长数字任务(因迭代速度快,扩展计算资源容易)[47]、对人类越容易的任务AI往往也觉得越容易[47]、AI可能完成人类因生理限制无法完成的任务(如分析1000万张乳腺癌图像)[47]、数据越充足AI表现越好(如语言模型在不同语言中的数学表现与数据量正相关)[47]、存在明确客观评估指标的任务可通过强化学习生成假数据实现自我训练[47] - 基于上述标准,可预测不同任务的自动化时间点:翻译(前50种语言)和调试基础代码已完成,竞赛数学在2024年完成,AI研究可能到2027年,化学研究更晚,拍电影可能在2029年,预测股市不确定,翻译特林吉特语可能性低,修水管和理发等非数字任务AI短期内难搞定,带女朋友约会让她开心AI永远搞不定[48][50] - 启示是AI影响最大的是那些符合数字任务、对人类不难且数据丰富的领域(如软件开发将极大加速),而另一些领域(如理发)可能保持不变[50]
Stripe 闭门分享、NVIDIA 创企展示,近期优质 AI 活动都在这里
Founder Park· 2025-10-21 21:49
AI行业活动概览 - Stripe将于10月28日举办线上闭门分享 主题为AI应用出海如何高效搞定跨境支付 分享嘉宾包括其大中华区企业客户总监和解决方案架构师 [7][9] - Founder Park将于10月30日举办线上活动 主题为AI搜索与给AI用的搜索的区别 分享嘉宾为小宿科技联合创始人及智能搜索产品经理 [9] - Abaka AI将于10月22日在杭州国际博览中心举办Embodied Intelligence After Dark活动 以夜话形式探讨具身智能领域难题 面向AI工程师创业者投资家及科研学者 [4][5] 创业与投资活动 - 九坤创投将于10月25日在北京举办线上线下混合活动AI创业引力场 聚焦AI创业者开发者及技术人员 活动包括从代码到落地的实干经验分享及投资专家对具身智能赛道的预判 [5][6] - NVIDIA将于2025年11月14日在苏州金鸡湖举办创业企业展示 活动亮点包括NVIDIA全球技术专家分享生成式AI及物理AI主题 30余家NVIDIA初创加速计划会员企业将进行半程展示和路演 [10][12] 大型行业峰会 - 柴火社区将于11月15-16日在深圳举办大湾区国际创客峰会暨Maker Faire Shenzhen 活动将集合世界各地maker展示最新AI硬件项目 并邀请100位海内外影响者及社区领袖作为创新大使 [12][13]
DeepSeek OCR:醉翁之意不在酒
Founder Park· 2025-10-21 15:46
DeepSeek-OCR模型的技术特点 - 模型采用新颖思路,将文字当作图片处理和压缩,作为一个超级高效的“视觉压缩器”[7] - 能够将一篇1000字的文章压缩成100个视觉token,实现十倍压缩,识别准确率达到96.5%[7] - 提供多个分辨率选项,512 x 512图片仅需64个token,1024 x 1024图片需256个token,复杂版面组合使用多种分辨率[13] 行业专家评价与定位 - Karpathy认为未来所有输入大模型的信息都应该是图像形式,哪怕是纯文本也应先渲染成图片再喂给模型[7][11] - 模型性能和思路在学术界不算是重大突破,但产品化贡献值得肯定[13] - 研究思路可能受到字节跳动NeurIPS最佳论文和豆包团队论文启发,DeepSeek团队擅长将实验室研究成果进一步做扎实并产品化[14] 潜在应用方向与发展前景 - 该技术有望优化图文表混排场景处理,大量网页、文档、SaaS软件Dashboard和PPT都包含有效视觉信息,强行转文本会导致信息损失[15] - 如果技术成熟,将推动业界对图文表混排场景优化的研究热潮,提升效果并降低成本[15] - DeepSeek团队提出的用分辨率模拟遗忘机制的假想存在争议,可能更适合描述为“高度近视”而非有效遗忘机制[15]
跟 Stripe 聊聊:AI 应用出海,如何高效搞定跨境支付?
Founder Park· 2025-10-20 20:45
AI产品出海支付挑战 - 支付问题是每个AI产品出海需要解决的核心问题[2] - 账户资格、全球收款、不同地区税率和合规问题都是实际难题[2] - 定价模式选择是需要面对的实际挑战[2] 支付服务商解决方案 - 靠谱的支付服务商对AI产品出海尤为重要[3] - Lovart、Manus等知名AI产品使用Stripe支付平台[3] - Stripe大中华区专家将分享跨境支付落地经验[3] 支付集成与合规优化 - 关注AI产品如何简单快速集成支付功能[7][8] - 解决出海生意中税务合规难、费率高等隐藏成本问题[7][8] - 探讨按量定价与混合订阅等不同业务的定价模式[7][8] 行业案例与增长洞察 - Heygen公司ARR突破1亿美元,分享内部增长手册[10] - 硅谷一线创业者研讨仅5%的AI Agent成功落地的原因[10] - Figma创始人认为当前处于AI交互的MS-DOS时代,是设计师创业最佳时机[10]
Karpathy 回应争议:RL 不是真的不行,Agent 还需要十年的预测其实很乐观
Founder Park· 2025-10-20 20:45
AGI发展时间线 - AGI实现仍需约十年时间,与硅谷AI圈普遍乐观情绪相比预测保守5-10倍[10] - 2025年可能是智能体元年,但接下来的十年都将属于"智能体时代"[10] - 当前LLM虽取得巨大进展,但距离实现"在任意岗位都比人类更值得雇佣"的实体仍有大量基础工作需完成[11][12] LLM认知缺陷与改进方向 - 当前LLM过度依赖记忆,人类记忆能力差反而可能是有益的正则化特性[19][70] - 模型需要先变大以承载能力,再通过架构、训练范式和数据蒸馏向更小、更专注的认知内核收敛[19] - 未来认知核心可能精简至十亿参数级别,专注于思考算法而非记忆知识[76][78] 强化学习局限性 - 强化学习像"通过吸管获取监督信号",信号/计算量比非常糟糕[15] - RL过程噪声大,信噪比低且易受干扰,正确步骤可能被抑制而错误步骤可能被鼓励[15] - 未来可能出现替代学习范式,智能体交互和系统提示学习是更有前景的方向[15] 智能体发展现状 - 当前智能体存在认知缺陷,缺乏多模态能力、持续学习能力和计算机操作能力[23] - 过度追求完全自主智能体可能导致软件质量下降、漏洞增多和安全风险[20] - 更现实的协作模式是LLM分块工作,解释代码,证明正确性,在不确定时与人类协作[20] 训练范式演进 - 完整训练流程包含基础模型自动补全、指令微调和强化学习三个层次,但需要第四、五层等新机制[16][18] - 预训练通过预测互联网下一个token来"预装"智能,类似于糟糕的进化过程[13][31] - 动物通过进化预装大量智能,与LLM训练方式存在本质区别[13][28] 技术发展路径 - AI发展是计算的延伸,所有方面包括算法、数据、硬件都需要全面改进[42][43] - Transformer架构可能持续存在,但会有更多注意力机制和稀疏MLP等改进[42] - 数据集质量将大幅提升,当前互联网训练数据包含大量垃圾内容[77][82] 经济影响 - AGI定义是可完成任何具有经济价值任务且性能达到或超过人类的系统[85] - 知识型工作约占经济10%-20%,是AI替代的首要目标[86] - 呼叫中心等标准化任务可能最先实现80%自动化,人类负责监督和剩余20%工作[87]