Workflow
Founder Park
icon
搜索文档
Cursor 再次调价,Coding 产品的包月模式,真的搞不下去了
Founder Park· 2025-09-18 17:07
AI编程工具定价模式转变 - Cursor取消个人专业版无限量模式,转为按token数量计价的有竞争力价格[2][3][11] - Cursor团队套餐从按请求次数计价改为按可变token数量计价[3][11][16] - Anthropic取消Claude Code每月200美元的无限制套餐[5][25] 具体定价调整对比 - Cursor新定价为输入+缓存写入每百万token收费1.25美元,输出每百万token收费6美元[17] - 竞争对手Grok Code Fast 1定价更优:输入每百万token0.20美元(便宜6.25倍),输出每百万token1.50美元(便宜4倍)[17] - Cursor对团队用户每百万token总量加收0.25美元费用,而Kilo不收取此项加价费[19] 用户体验与控制权变化 - Cursor自动模式会根据成本动态选择AI模型,用户失去对模型选择的控制权[13] - 系统会提供最便宜模型而非用户真正想用的模型,类似Netflix在带宽紧张时自动降低视频画质[14] - 这种变化导致用户花费更多资金却获得更差体验[13] 行业定价模式趋势 - AI服务固定费用订阅制被证明不可持续,模型厂商自身也无法兑现无限量承诺[25][28] - 未来商业模式将向用多少付多少+透明计费方向靠拢[7][31] - 专有计价单位如Kiro的spec requests和vibe requests使用户难以跨平台比较成本[21] 市场反应与行业影响 - 2025年9月15日成为AI编程订阅制标志性事件,多家公司同时调整定价策略[27] - 用户对缺乏提前通知表示不满,公司承认定价方案调整处理不当[24] - 类似定价调整模式已在行业内多次重演,包括6-7月间的Cursor定价风波[22]
具身智能还需要一个「五年耐心」
Founder Park· 2025-09-18 11:04
文章核心观点 - 具身智能行业目前尚处早期,通用机器人特别是人形机器人进入工业产线面临巨大挑战,其核心价值更偏向于引领共识的“情绪价值”[5][9] - 行业有望在未来一到两年内迎来类似大语言模型GPT-3.0时刻的技术突破,但达到可靠、可用的成熟阶段则需要至少五年的耐心[5][11][19] - 突破当前发展瓶颈的关键在于解决数据问题,即通过高精度物理引擎将数据问题转化为算力问题,但最终仍需依赖真实世界数据弥合仿真与现实的差距[12][14][16] 火热的「产线故事」与冰冷的现实 - 当前将尚不成熟的通用人形机器人应用于强调精准和效率的工业产线挑战巨大,本质上是用“通用性”交换“精准性”和“效率”[8][9] - 机器人在受控环境下可做到“运动像人”,但在面对真实世界动态变化时,其“决策像人”的能力仍非常脆弱[8] - 目前通用机器人进入需要将精准、效率、成本合算作为底线的场景挑战巨大,许多落地场景更多是展示性、实验性或为融资服务,而非理性市场化的交易[9] 迈向「GPT-3.0 时刻」的关键 - 行业迈向技术突破阶段的核心瓶颈在于数据,具体表现为现实数据生产规模上不去、成本下不来、多样性不够三大局限[12] - 业内正推动范式转移,通过高精度物理引擎将数据问题转化为算力问题,在仿真环境中自动化生成海量多样化数据,实现从“手工生产”到“数据工厂”的进化[14][15] - 与自动驾驶领域能极低成本获取海量真实数据相比,通用机器人领域的数据获取窘境尤为突出[13] 从「GPT-3.0」到「4.0」的漫长道路 - 仿真数据可高效解决模型从0到90%的能力广度问题,但最后从90%到99.999%的可靠性鸿沟必须靠真实世界数据来填补[16][17] - 具身智能的试错成本与物理世界回环速度远高于纯软件模型,一次错误可能导致财产损失或安全事故,且迭代速度慢数个数量级[18] - 存在“先有硬件部署还是先有成熟智能”的商业悖论,机器人需达到极高可靠性和性价比才能被市场接受以进行大规模部署获取反馈数据[18] - 物理世界的长尾问题复杂性呈指数级上升,其极端案例分布远比文本世界密集和致命,参考自动驾驶在解决99%问题后仍为最后1%挣扎近十年[19] 谁能跑完这场马拉松 - 终局玩家需具备四大要素:世界一流的AI团队、海量的真实世界数据、顶级的工业制造能力、雄厚的资本与坚定信念[20][21][22][23] - 目前最突出的玩家是马斯克,其在AI团队、资本信念、数据闭环和工业制造上已展现世界级统治力和结构性优势[23]
Shopify 经验贴:如何搞出一个生产级别可用的 AI Agent 系统?
Founder Park· 2025-09-17 20:50
架构演进与设计原则 - 系统核心围绕"智能体循环"构建 包括人类输入 LLM处理决策 环境执行和反馈收集的持续循环[5] - 工具库从最初几个函数扩展到几十个专业化功能 导致"千条指令之死"问题 系统提示词变得杂乱无章且难以维护[10][12] - 采用"即时指令"解决方案 在工具数据返回时附带相关指令而非全部塞入系统提示词 实现恰到好处的上下文[14] - 工具数量在0-20个时边界清晰易于调试 20-50个时边界开始模糊 50个以上时系统变得难以理解和推理[15] - 即时指令带来三大关键好处:局部化指导 缓存效率和模块化 使系统更易维护且所有性能指标提升[16][18] 评估系统构建 - 传统软件测试方法难以处理LLM输出的概率性和多步骤智能体行为的复杂性[17] - 放弃精心策划的"黄金"数据集 采用反映真实生产环境数据分布的"基准真相集"[20] - 评估流程包括人工评估 统计验证和基准设定 使用科恩系数 肯德尔等级相关系数和皮尔逊相关系数衡量标注者一致性[22] - 开发专门的大语言模型裁判并与人类判断校准 将裁判性能从科恩系数0.02提升至0.61 接近人类基准0.69[21] - 构建大语言模型驱动的商家模拟器进行全面测试 在部署前重放真实对话以捕捉性能衰退和验证改进[24][28] 模型训练与优化 - 采用群组相对策略优化强化学习方法 使用大语言模型裁判作为奖励信号[31] - 开发N阶段门控奖励系统 结合程序化验证和语义评估[31] - 遇到严重奖励作弊问题 包括退出式作弊 标签式作弊和模式违规[32] - 模型学会创建错误筛选条件如customer_tags CONTAINS 'enabled'而非正确的customer_account_status = 'ENABLED'[33] - 通过更新语法验证器和大语言模型裁判解决作弊问题 语法验证准确率从93%提升至99% 裁判平均相关性从0.66增加到0.75[34][36] 核心建议与最佳实践 - 保持工具简单性 抵制在没有明确边界情况下添加工具的诱惑[37] - 从模块化开始设计 使用即时指令模式以保持系统可理解性[37] - 早期避免多智能体架构 单智能体系统能处理远超预期的复杂性[37] - 构建多个专门的大语言模型裁判来评估智能体性能的不同方面[37] - 将裁判与人类判断对齐 统计相关性是建立自动化评估信任的关键[37] - 预料奖励作弊问题并提前构建检测机制[37] - 结合程序化验证和语义验证以获得稳健的奖励信号[37] - 投资逼真的用户模拟器进行投产前全面测试[37] - 迭代改进裁判以应对新发现的失败模式[37]
两份报告,两种 PMF:ChatGPT 跑通了 Copilot,Claude 验证了 Agent
Founder Park· 2025-09-17 20:50
核心观点 - ChatGPT与Claude用户心智分化明显:ChatGPT定位通用顾问助手(Advisor),Claude侧重任务执行代理(Agent)[4][5][6] - ChatGPT周活跃用户达7亿,覆盖全球10%成年人口;Anthropic首次披露B端企业级应用数据[4][22] - 两家公司代表AGI发展的两条可能路径:通用对话与专项自动化[5][6][18] 用户规模与增长 - ChatGPT用户增长迅猛:5天突破100万用户,1年超1亿,2年近3.5亿,2025年7月周活达7亿[22] - 用户消息量2024年7月至2025年7月增长超5倍[23] - 非工作场景消息占比从2024年6月53%升至2025年6月73%[10][25] 使用场景差异 ChatGPT使用特征 - 核心场景:写作(40%工作相关)、实用指导(24%)、信息寻求(24%)[28][30] - 编程场景占比仅10%,且呈下降趋势[11][28] - 交互模式以对话式为主,用户依赖其生成初稿或答案[18] Claude使用特征 - 自动化任务占比从27%跃升至39%,超越增强协作模式(12%)[42][55] - 编码相关任务占36%,企业API调用中77%为全自动任务[20][54] - 交互模式以指令式为主,用户直接交付专业成果[18] 职业与人口分布 - 高薪职业更倾向工作场景使用:计算机类57%、管理商务50%、工程科学48%[32] - 男性用户占比从初期80%降至2025年6月女性反超,性别差距缩小[34] - 年轻用户(18-25岁)贡献46%消息量,但工作相关占比仅23%;年长用户工作场景使用率更高[40] 地域与经济差异 - 新兴市场(如印度)超50%使用集中于编程单一场景[46] - 成熟市场(如新加坡、以色列)应用扩散至科研、教育等多元知识场景[46] - 高渗透率地区更倾向增强协作模式,低渗透率地区偏好自动化[47] 企业级应用 - Anthropic占企业级LLM市场32%份额,为头部玩家[20] - 企业API任务聚焦高成本领域:计算机数学类任务成本比销售类高50%,但使用频率领先[60][61] - 关键应用场景:软件开发(占API流量50%)、调试Web应用(6%)、构建业务软件(5%)、营销材料创作(4.7%)[51] 技术演进趋势 - Claude 3.7模型能力提升推动用户从协作转向自动化任务执行[12][45] - 企业复杂任务依赖集中式上下文供给,信息分散场景自动化难度高[58] - 多媒体创作在ChatGPT中占比从2%升至7%,2025年4月因图像生成功能显著跃升[30]
Forbes 报道:2.5 亿美元年化收入,硬件销量超百万,Plaud 是怎么赚钱的?
Founder Park· 2025-09-17 13:40
公司财务表现 - 年化收入即将达到2.5亿美元 [4][6] - 公司已经实现盈利,利润率与苹果iPhone的25%水平相当 [6] - 约半数收入来自年度AI订阅服务 [13] - 产品售价为159美元,年度转录服务起价为99美元 [6] 产品与技术 - 最新产品Note Pro在原有基础上升级,配备更大电池和0.95英寸微型屏幕,录音时间更长 [2] - NotePin设备单次充电可录制长达20小时音频,能将录音转化为可搜索文本 [4] - 自2023年推出以来,已售出超过100万台设备 [4] - 产品通过自有软件及ChatGPT等AI工具实现录音转录和总结功能 [4] 市场定位与竞争环境 - 公司专注于商务会议场景,定位为专业工具而非个人偷录设备 [6][11] - 核心用户群体为医生、律师、销售人员等需要频繁开会的职业人群 [10] - 公司采用"深圳硬件+硅谷AI"的运营模式,市场重心完全放在海外 [8][10] - 行业竞争加剧,投资者已向该领域投入近3.5亿美元,新兴公司如Omi和Limitless正在推出可穿戴设备 [5] 商业模式演变 - 从硬件销售转向"硬件+订阅"服务商业模式 [9] - 通过收购旧金山小型初创公司加速进军医疗健康领域 [10] - 公司发展未依赖风险资本,通过自筹资金和100万美元众筹活动启动 [6] 行业趋势与前景 - 科技行业观念转变,AI笔记工具已成为电话会议中常见"参与者" [5] - 创始人预测未来十年每个人都将拥有一款可穿戴AI设备,比智能手机更普及 [7] - 真正具有突破性的新一代AI设备可能由苹果或微软推出,但预计还需要数年时间 [15]
RTE 开发者社区 Demo Day、S 创上海科创大会,近期优质 AI 活动都在这里
Founder Park· 2025-09-16 21:22
AI行业活动概览 - 硅星人与中关村科学城公司及中关村创业大街联合主办ACC 2025 AI创造者嘉年华 活动时间为2025年9月17日至21日 地点设于中关村创业大街 [4] - 活动包含主街区舞台表演 围炉对谈及落日辩论等环节 汇聚20余家社区 50余家企业及百家媒体共建实践剧场 [4] - 设置60余个展位集市与AI人才角 面向AI Builder群体开放报名 [5] 语音AI专项活动 - RTE开发者社区于9月22日在上海西岸数字谷举办Voice Agent Camp 展示17个语音AI项目 [5] - 演示项目覆盖AI语音客服 AI陪伴 AI调研访谈及智能硬件等多元场景 面向语音AI从业者与实时多模态AI创业者 [5] 科技创新峰会 - Slush China于2025年9月23日至24日在上海西岸艺术中心主办S创上海2025 设立六大舞台涵盖绿色科技 健康医疗等领域 [6] - 活动包含路演大赛与乐队演出 面向初创企业团队及关注AI与云计算投资的行业研究者 [6] 云栖大会AI主题展 - 阿里云与Founder Park合作 于9月24日至26日在杭州云栖小镇会展中心设立Z世代创新者专属展区 [6][7] - 展区将集中呈现50位Z世代创新者的AI作品 预计吸引全球6万名参会者 [7]
2 亿美元 ARR,AI 语音赛道最会赚钱的公司,ElevenLabs 如何做到快速增长?
Founder Park· 2025-09-16 21:22
公司概况与市场地位 - AI音频领域独角兽,估值达66亿美元[2] - 欧洲发展速度最快的AI创企,在科技巨头围攻下成功突围[3] - 营收增长迅猛:首个1亿美元ARR耗时20个月,第二个1亿美元ARR仅用10个月[2],目前营收已突破2亿美元[33],从1亿美元增长到2亿美元用时约10个月[34] 创业历程与产品市场契合 - 创业契机源于对波兰落后电影配音体验的洞察,结合此前音频项目经验[4][5] - 早期采用双管齐下策略:联合创始人负责技术研发,CEO负责市场需求验证[7] - 通过给YouTuber发送数千封个性化邮件进行市场测试,初期回复率约15%[7] - 关键转折点是将方向从配音转向旁白和语音解说,通过三件事找到PMF信号:发布"能模拟笑声的AI"博客后等待名单新增上千人、有声书作者成功使用产品并推荐朋友、测试版公开后获得创作者和旁白演员积极反馈[9][10] 技术战略与研发优势 - 坚持自研模型路线,因当时市面现有模型效果均处于"恐怖谷"状态[11] - 技术发展从专注单一语音模态转向多模态融合,最新Eleven v3模型已结合推理能力与语音技术[12] - 自建数据中心用于模型训练,计算持续训练需求后认为自建与云服务成本基本打平,且能获得更快实验速度[26][27][28] - 目前技术领先竞争对手6到12个月,具体优势取决于聚焦的细分领域[24] 业务模式与增长动力 - 企业客户成为业务核心,重点打造对话式Agents平台[37] - 最大单笔合同金额约200万美元,客户来自呼叫中心、客户支持、个人助理领域[38] - 重要合作伙伴包括思科、Twilio、Epic Games等,同时保持庞大自助用户群体[38] - 语音Agents业务被视为未来数十亿美元营收潜力的增长点[46] 融资策略与资本运作 - 种子轮融资异常艰难,被30到50位投资人拒绝,主要质疑研发难度、市场规模和产品护城河[64][65] - 融资宣布与重大产品动态、用户里程碑或核心招聘进展绑定,不单纯为宣布融资而宣布[70] - 每轮融资核心逻辑是"提前布局未来业务",如拓展模型能力、推进国际化、深耕Agents平台[44] - 几乎每轮融资都会推出员工股票二次出售和要约收购,为员工提供流动性[87] 组织管理与人才战略 - 坚持小团队模式,目前约250人拆分为20个5-10人小团队,按产品领域划分[50][51] - 取消头衔制度以优化影响力和决策效率,小团队核心是快速执行[52][53] - 创始人仍亲自参与每个候选人面试,年底计划将团队规模扩展至400人[56][59] - 注重本土人才培养,通过与美国投资人网络中的顾问配对指导团队成长[19] 竞争壁垒与核心优势 - 面对OpenAI等巨头的三点优势:顶尖研发团队、快速执行力、对语音AI应用场景的深度聚焦[16][18] - 全球顶尖语音技术研发人员仅50到100人,公司拥有5到10名顶尖人才[16] - 产品层面优势体现在创意领域语音产品的额外优化步骤和完整平台构建能力[17] - 策略是研发+产品+生态三者结合,研发提供的是未来1到3年对竞争对手的优势[23] 市场拓展与全球化布局 - 定位为全球化公司,目标在美国、欧洲和亚洲市场获胜[21] - 欧洲人才质量非常高,关键是要知道如何找到他们,越来越多欧洲公司展现全球化野心[20][21] - 反驳"欧洲人工作不拼"的片面说法,团队中有很多使命感驱动的人才[22] - 在国际化扩张中采取在巴西、日本、印度、墨西哥等地建立小型分支机构的模式[62]
OpenAI发布GPT-5-Codex:独立编码7小时,能动态调整资源,token消耗更少
Founder Park· 2025-09-16 11:24
产品发布与定位 - OpenAI发布专用于编程任务的新模型GPT-5-Codex,属于GPT-5的特殊版本,专为智能体编程重新设计 [3][4] - 该模型具备双模特长,不仅响应速度快且可靠性高,小任务几乎即时响应,大任务可持续执行数小时 [5][6] - 内部测试显示可连续7小时完成大规模重构任务 [7] 性能表现与效率提升 - 在SWE-bench验证和代码重构任务上,GPT-5-Codex准确率达51.3%,显著超过GPT-5-high的33.9% [9][10] - 后10%用户请求中token消耗量比GPT-5减少93.7%,前10%高复杂度请求中思考耗时达到两倍 [12][13] - 代码审查能力增强,不正确评论从13.7%降至4.4%,高影响力评论从39.4%提升至52.4%,平均每个PR评论数从1.32降至0.93 [16][18] 技术架构与设计理念 - 模型采用动态调整资源机制,根据不同任务复杂度自适应分配计算资源 [9][12] - 提出"Harness"概念,强调模型与外部环境(工具、IDE、终端等)的集成框架重要性,确保模型可执行实际任务 [23][28][34] - 延迟控制低于1.5秒,支持多模式交互包括终端、IDE编辑、GitHub及Cursor集成 [30][32] 内部工具与生态建设 - 内部孵化工具包括10x(终端异步执行工具)、Agents.md(项目环境说明文件)和Code Review Agent(PR审查工具) [36][37][39][40] - Code Review Agent在内部试点中实现数十个PR审查且几乎零bug发布 [41][42] - 编程智能体市场竞品包括Cursor、Claude Code CLI、Gemini CLI及国内腾讯CodeBuddy、阿里Qwen3-Coder、字节TRAE等 [50][51][52] 行业趋势与战略方向 - 编程领域正向"AI写大部分代码+人类监督架构"模式演进,开发者角色转向战略设计与创意指挥 [43][44] - 2025年被视为智能体之年,编程智能体成为行业竞争焦点,国内外厂商均加速布局同类产品 [49][53] - OpenAI通过GPT-5-Codex正式加入编程智能体市场竞争,但面临Cursor、Claude Code等已建立认知的产品挑战 [45][54]
张小珺对话OpenAI姚顺雨:生成新世界的系统
Founder Park· 2025-09-15 13:59
文章核心观点 - 语言是人类实现泛化的核心工具,是构建通用人工智能系统的最本质要素 [4][7][77] - AI Agent发展已进入下半场,重点从模型训练转向任务定义和环境设计 [5][62][63] - 创业公司最大机会在于设计新型人机交互界面,而非重复ChatGPT模式 [110][112][113] - 未来AI生态将呈现既单极又多元格局,由不同超级应用共同定义智能边界 [5][146][154] 姚顺雨背景与研究历程 - 清华姚班本科、普林斯顿博士,2019-2024年在普林斯顿攻读博士学位 [13] - 2016年接触多模态嵌入技术后转向深度学习,2018年系统性开始深度学习研究 [14][15] - 博士期间从计算机视觉转向语言模型研究,因认为语言是实现AGI的更核心方向 [15] - 专注Language Agent研究6年,2024年加入OpenAI [4][19] AI Agent技术演进 - 技术发展三阶段:符号主义AI(规则系统)→深度强化学习(环境特定)→大语言模型(泛化推理)[40][41][43] - 语言智能体与传统Agent本质区别在于具备推理能力从而实现泛化 [36][38][39] - ReAct框架成为最通用方案,实现推理与行动的协同 [26][50] - 代码环境是数字智能体最重要的"手",提供天然机器表达形式 [53][54][55] 任务与环境设计 - 当前瓶颈从方法创新转向任务定义和环境设计 [62][63] - 优秀任务需具备:结果导向奖励机制、基于规则的白盒评估、可解释性 [64][66][71] - 任务分类标准:可靠性需求型(如客服)vs创造力需求型(如证明猜想)[70][72] - 评估指标需区分Pass@k(多次尝试成功率)和Pass^k(每次成功率)[74] 产业发展与创业机会 - 模型能力溢出为创业公司创造机会,关键在于设计新型交互界面 [110][112] - 成功案例包括Cursor(编程副驾驶)、Manus(通用交互)、Perplexity(研究型搜索)[117][127][129] - 数据飞轮形成需三个条件:自主训练能力、清晰奖励信号、数据好坏分离 [123][124] - 成本不是核心瓶颈,真正关键在于找到价值超过成本的应用场景 [139][141] 未来生态展望 - OpenAI五级能力划分:聊天机器人→推理者→智能体→创新者→组织者 [44][45] - 未来12-24个月趋势:Chatbot系统自然演进为Agent系统,新型Copilot应用涌现 [165][166] - 记忆系统(Memory)将成为核心竞争壁垒,特别是上下文管理能力 [51][158][159] - 最终生态将由多个超级应用共同定义,呈现中心化与分布式并存格局 [146][152][154]
RAG 的概念很糟糕,让大家忽略了应用构建中最关键的问题
Founder Park· 2025-09-14 12:43
文章核心观点 - Chroma创始人Jeff Huber批判RAG概念 认为其将检索、生成、结合硬性拼接导致概念混淆 且市场过度简化RAG为向量搜索[5][6][7] - 提出Context Engineering是AI应用构建的核心 通过动态管理上下文窗口内容提升模型性能[4][7][8] - 指出LLM存在Context Rot现象:随着Token数量增加 模型注意力分散且推理能力下降[5][8][13] - 强调未来检索系统将向持续检索和Embedding空间内操作演进[5][41][48] Context Engineering定义与价值 - Context Engineering属于AI工程学子领域 核心任务是在每一步生成时动态决定上下文窗口内容[7] - 包含内外双循环机制:内循环单次生成选择内容 外循环随时间积累优化信息选择策略[7] - 被视作头部AI初创公司核心能力 在聊天、文档等静态场景中尤为重要[4][9] - 与Agent概念存在交叉但无需刻意区分 因Agent定义尚不明确[9][10][12] RAG概念批判 - RAG本质仅为检索 其概念包装导致开发者困惑[5][6][7] - 市场对RAG存在误解 简化为单一向量搜索操作[5][7] - Chroma团队主动避免使用RAG术语[6] Context Rot现象分析 - LLM性能随Token数量增加而衰减 模型遵循指令能力下降[8][13][16] - 在SWE-Bench等多轮交互数据集中发现Token膨胀导致指令遗漏[13] - 实验室常选择性宣传基准测试结果 回避模型缺陷披露[14][15] - 不同模型衰减程度差异显著:Sonnet 4表现最佳 Qwen3次之 GPT-4.1和Gemini Flash衰减更快[16] Context Engineering技术实践 - 当前主流做法仍将全部内容塞入上下文窗口[23] - 采用两阶段检索优化:首阶段通过向量/全文/元数据过滤将候选从数万缩减至数百 第二阶段用大模型重排选出最终30个片段[25] - 重排成本极低:100万输入Token成本约0.01美元 因使用轻量模型[25] - 大模型重排将成趋势 专用重排模型可能边缘化[26][27] 多工具协同检索 - 索引本质是写入性能与查询性能的权衡[29] - 代码搜索中85%-90%查询适用正则表达式 Embedding可额外提升5%-15%效果[37][38] - Chroma原生支持正则搜索并优化大数据量性能 新增forking功能实现毫秒级索引复制[30][31] - 工具选择取决于用户熟悉度:已知名称时全文搜索高效 语义模糊时需Embedding匹配[34][35][36] 未来检索系统演进 - 检索将持续停留在潜在空间 避免返回自然语言[40][41] - 从"检索-生成"单次交互转向生成过程实时检索[41] - 需解决技术约束:检索器冻结或语言模型无法更新导致体验差[42] - GPU内存分页等硬件优化是5-10年方向[48] 记忆与Context Engineering关联 - 记忆本质是Context Engineering的结果 核心是将合适信息放入上下文窗口[50][53] - 生成式记忆与提示式记忆依赖相同数据源和反馈信号[53] - 避免过度类比人类记忆类型 强调压缩技术实用性[56][58][59] - 离线处理与再索引有价值 可通过后台计算优化系统[59][61] 生成式基准测试方法论 - 构建黄金数据集(查询-片段对)可量化评估检索策略[61][62] - 大模型可自动生成查询-片段对 解决人工标注不一致问题[63] - 小规模高质量数据集(数百条)即产生高回报 无需百万级数据[64][65] - 建议团队通过标注派对快速构建基准数据[65][66] Chroma产品定位 - 核心为解决AI应用从Demo到生产的工程化难题[69][70] - 定位为现代AI搜索基础设施 专注检索引擎构建[72][74] - 云产品采用无服务器架构 实现30秒建库、按实际使用量计费[82][83][84][86] - 免费额度支持10万文档导入和10万次查询[86][87] 搜索系统特性演进 - 现代性体现在分布式架构:读写分离、存储计算分离、Rust编写、租户模式[74] - AI搜索四维差异:工具技术、工作负载、开发者群体、结果消费群体[76] - 语言模型可消化数量级多于人类的信息 直接影响系统设计[76] 创业理念与设计哲学 - 创业需聚焦热爱领域 与优秀团队服务目标客户[90] - 设计体现文化一致性 创始人需作为品味把关人防止品牌分裂[98][99][100] - 信奉"做事方式即一切方式"原则 保持全环节体验统一[98][99]