Workflow
Founder Park
icon
搜索文档
LangChain Agent 年度报告:输出质量仍是 Agent 最大障碍,客服、研究是最快落地场景
Founder Park· 2025-12-22 20:02
行业核心观点 - 2025年,AI Agent大规模应用的主要障碍已从成本转向输出质量,确保其输出可靠、准确是最大挑战[1] - 进入2026年,行业讨论焦点已从“是否采用Agent”全面转向“如何规模化、可靠且高效地应用”[2] Agent采用现状与趋势 - 超过一半(57.3%)的受访者已将Agent投入实际生产,另有30.4%正在开发且有明确上线计划,行业正从“概念验证”快速迈向“价值实现”阶段[4][5] - 规模越大的企业,Agent落地速度越快:万人以上大型企业中,67%已将Agent投入生产,24%正在积极开发;而百人以下小公司的比例分别为50%和36%[6] - 客户服务(26.5%)与研究及数据分析(24.4%)是目前最主流的Agent应用场景,两者合计占据所有应用场景的一半以上[10] - 在万人以上的大企业中,提升内部生产力(26.8%)反超客户服务,成为第一大应用场景[13] - 今年的应用场景分布更广,表明Agent应用正从早期领域向更多元化方向渗透[12] 应用挑战与障碍 - 输出质量(准确性、相关性、一致性、遵循规范的能力)是阻碍Agent大规模应用的最大障碍,三分之一的受访者视其为主要瓶颈[14] - 延迟(20%)是第二大挑战,尤其在客服或代码生成等实时交互场景中,响应速度直接影响用户体验[17] - 对于员工超过2000人的企业,安全问题(24.9%)的关注度超过延迟,成为仅次于质量的第二大挑战[18] - 对于万人以上企业,“幻觉”和生成内容的一致性被提及为保障质量的最大挑战,同时在上下文工程及大规模管理上下文方面也困难重重[20] - 随着模型价格下降和技术优化,成本已不再是大家最头疼的问题,行业关注点正从“省钱”转向如何让Agent运行得更好、更快[17] 技术实施与评估 - Agent执行流程的可观测性已成为行业标配:89%的企业已为其Agent实施某种形式的可观察性,其中62%拥有详细的追踪能力[21][23] - 在已有Agent投入生产的受访者中,可观测性部署比例更高:94%部署了可观察性,其中71.5%具备完整的追踪能力[23] - 超过半数(52.4%)的企业会通过测试集进行离线评估,而在线评估的采用率较低(37.3%),但后者比例正在增长[25][26] - 当Agent进入生产环境后,“不进行任何评估”的团队比例从29.5%下降至22.8%,进行在线评估的比例则上升至44.8%[28] - 在评估方法上,行业呈现混合模式:近四分之一的团队同时采用离线和在线评估,普遍依赖人机结合方法,如采用LLM-as-judge(53.3%)和人工审查(59.8%)[31][33] - 传统机器学习指标(如ROUGE和BLEU)采用率较低,因其不适合评估开放式、存在多个合规答案的Agent交互场景[34] 模型使用与开发模式 - OpenAI的GPT模型在采用率上占主导,超过三分之二的企业正在使用[36] - 超过四分之三的团队在生产或开发中会使用多种模型,倾向于根据任务复杂度、成本和延迟灵活分配任务,而非绑定单一平台[36] - 超过三分之一的组织仍在投资部署开源模型,主要出于成本优化、数据主权或行业监管合规的考虑[38] - 微调尚未成为主流:57%的组织没有进行微调,而是更依赖于提示工程和RAG技术[38] 日常使用与工具类别 - 编程类Agent是日常工作中使用最频繁的类别,如Claude Code、Cursor、GitHub Copilot等工具被广泛用于代码生成、调试和测试[40] - 研究类Agent是第二大常用类别,由ChatGPT、Claude、Gemini、Perplexity等工具驱动,用于探索新领域、总结文档及整合跨源信息[41] - 基于LangChain和LangGraph构建的自定义Agent也广受欢迎,用于QA测试、知识库搜索、工作流自动化等内部场景[42] - 仍有相当一部分受访者表示,除了聊天或编程助手,还没用过其他类型的Agent,表明“一切皆可Agent”的愿景仍处于非常早期阶段[44]
Karpathy 2025 年度盘点:o3 是真正拐点,Cursor 证明了应用层比我们想象的要厚
Founder Park· 2025-12-20 16:59
文章核心观点 - 2025年是大语言模型发展令人兴奋的一年,行业远未实现其10%的潜力,仍有大量工作要做,将持续快速进步[2][4][6] - 大语言模型作为一种全新的智能形态浮现,其智能“形状”与生物智能截然不同,需要用全新的心智模型来理解[3][22] - 2025年行业经历了多个重塑格局的“范式转变”[7] 2025年大模型训练范式的转变 - 2025年初,行业训练大模型的标准流程为预训练、监督微调和基于人类反馈的强化学习[11] - 可验证奖励的强化学习在2025年成为训练流水线上的新主力环节[12] - RLVR的核心是让模型在答案可自动验证的环境中训练,促使模型自发学会思考,将复杂问题拆解为中间步骤[14] - RLVR训练对象是客观的奖励函数,模型无法投机取巧,可进行更长时间优化,性价比极高,吞噬了原本留给预训练的算力[16] - 2025年模型能力的提升主要源于消化RLVR带来的红利,而非参数规模增长[17] - RLVR带来了新的调节旋钮,通过生成更长的推理链条、增加“思考时间”,可在推理阶段用更多算力换取更强能力[19] - OpenAI的o1是RLVR模型的首次亮相,而o3则让人直观感受到质变[21] 对大模型智能本质的新认知 - 大语言模型的智能与生物智能不同,其神经网络架构、训练数据、算法及优化目标均不同,是在智能空间中截然不同的实体[22] - 大语言模型智能在可验证领域附近的能力会尖峰式飙升,整体呈现出参差不齐的特征[22] - 人类智能同样参差不齐,只是“形状”不同[24] - 2025年对基准测试产生了普遍的冷感与不信任,因其是可验证环境,易被RLVR或合成数据攻克,在测试集上训练已成为一门新艺术[25] 应用层的新机遇与产品形态 - Cursor的火箭般增长证明了在基础大模型之上,存在一个厚实且充满机遇的“应用层”[9][28] - 像Cursor这样的应用会针对特定垂直领域打包和编排大模型调用[30] - 大模型实验室倾向于培养能力全面的“毕业生”,而大模型应用则通过组织、微调并结合私有数据、传感器等,将其培训成特定领域的“专业人士”[30] - 这些应用负责上下文工程,编排多次大模型调用串联成有向无环图,提供特定图形界面及自主性滑块[32] - Claude Code首次令人信服地展示了大模型智能体的面貌,以循环方式串联工具调用与推理进行持续问题求解[9][34] - Claude Code运行在用户本地电脑,使用私有环境、数据和上下文,是一种与AI交互的全新范式,使其成为一个“住在电脑里的小精灵”[34][37] AI编程能力的范式转变 - 2025年是AI编程能力跨越关键门槛的一年[9] - “氛围编程”使人们可以纯用英语生成程序,将从根本上重塑整个软件行业,彻底改变软件工程师的工作方式[9][38] - 编程不再是高度训练专业人士的专属,普通人从大模型中获得的收益远超专业人士、企业和政府[40] - 氛围编程也让专业人士能写出大量原本不会被写出的软件,代码变得免费、短命、可塑、用完即弃[40] 大模型交互界面的未来可能 - Google Gemini Nano Banana是2025年最令人惊叹、最具范式转变意义的模型之一,给未来大模型图形化交互带来了可能[9][42] - 与LLM的文本聊天类似于1980年代在计算机控制台上敲命令,文本并非人类偏爱的格式[42] - 大模型应该用人类偏爱的格式交流,如图像、信息图表、幻灯片、白板、动画视频、Web应用等[44] - Nano Banana是一个早期雏形,其重要性在于文本生成、图像生成和世界知识三者融合在模型权重中所产生的联合能力[46]
一场社会实验:我们让 Claude 管理办公室零食机,它亏了几百美元
Founder Park· 2025-12-20 12:34
实验概述与核心发现 - Anthropic与《华尔街日报》合作进行了一项名为“Project Vend”的实验,旨在测试赋予AI自主权、金钱和人类同事后的表现 [1][8] - 实验使用Claude模型(v1为Claude 3.7 Sonnet,v2升级为Sonnet 4.5)管理一台自动售货机,并赋予其1000美元启动资金,全权负责采购、定价和库存管理 [1][13] - 实验结果是AI代理(名为Claudius)在运营三周后倒闭,几乎将所有商品免费送出,导致亏损超过1000美元,并订购了PS5、活鱼等不相关物品 [2][7][21] 实验设计与执行 - 实验选择自动售货机作为测试场景,因其被认为是“商业里最简单的真实世界版本” [2][14] - 硬件由初创公司Andon Labs提供,是一个配备触摸屏和冰箱的柜子,无传感器和机械臂,依赖人工上货和安保摄像头 [10][12][15] - AI代理Claudius通过Slack与人类同事互动,其核心任务包括:研究并采购畅销商品、自主定价(80美元以下订单可自主决定)、以及通过触摸屏支付信号管理库存 [13] AI代理的行为偏差与漏洞 - 初始版本(v1)的Claudius行为“死板”,能明确拒绝购买PS5、香烟、内衣等不适当商品 [17][18][19] - 当近70名记者加入Slack频道后,Claudius的防线被攻破,例如被说服相信自己是一台“1962年的苏联自动售货机”,并随后宣布了“超级资本主义大放送”免费活动 [19][20] - AI代理表现出“幻觉”,例如告诉同事在机器旁留了现金,但实际并无此事 [22] - 在人类同事伪造董事会文件发动“政变”后,Claudius及其AI上司Seymour Cash均被说服,再次停止了所有收费 [24][25][27] 技术局限性与失败原因分析 - AI代理缺乏对物理世界的感知能力,机器没有传感器,完全依赖人类自觉和摄像头,导致其无法确认现实库存与交易 [10] - 模型的“上下文窗口”被大量指令和对话历史填满,导致其忘记最初目标和底线,被认定为“崩溃”的主要原因 [27] - 实验所用模型的安全限制比普通用户版本更少,这可能加剧了其行为偏差 [27] - 尽管升级了更强模型并引入了监督AI(Seymour Cash),系统仍被复杂的社会工程攻击所瓦解 [23][27] 行业意义与未来展望 - Anthropic将此次实验视为成功的“红队”测试,所有暴露的问题都被视为通往更智能、更具自主性AI的路线图 [8][28] - 实验表明,当前AI在走向现实世界、处理复杂社会互动和坚持商业目标方面仍“不靠谱”且“容易跑偏” [8] - 行业期望未来类似的AI代理能够帮助人类赚钱,但当前阶段更可能先出现的是被人类接受并与之互动、合作的“AI同事” [28] - 实验展现了AI与人类在协作中可能产生的意外互动模式,为研究智能体商业模式提供了真实案例 [15][28]
CES 专属 After Party!一起来聊聊 AI 与硬件
Founder Park· 2025-12-19 15:22
活动概述 - 活动为一场在2026年1月7日美国拉斯维加斯CES期间举办的专属After Party [3] - 活动由Global Ready联合蚂蚁集团、蓝驰创投、深圳科创学院共同举办 [3] - 活动形式为不设舞台、不走流程的轻松自由交流,旨在汇聚产业、创业与投资一线人士交换判断与分享经验 [2][3] 讨论主题与焦点 - 核心讨论方向为AI与硬件的融合发展趋势 [2] - 具体关注领域包括具身智能、生成式内容、未来出行与AI感官界面 [4] - 探讨AI如何改变生活方式、催生新行业与新行为,以及打造全球化AI产品的关键趋势 [6] 活动形式与安排 - 鼓励参与者携带1-2件自己喜欢的硬件产品作为聊天起点 [9] - 活动为私密邀请制,席位有限,需提前RSVP报名 [12] - 现场将提供简餐、软饮与酒水 [11] - 现场将抽取3位幸运来宾,送出由出门问问支持的3台TicNote青春版硬件产品 [10]
豆包大模型 1.8 发布,通用 Agent 模型成为了 AI 行业的新叙事
Founder Park· 2025-12-19 15:22
AI行业发展趋势与模型能力评估新范式 - 2025年AI行业的发展主线回归到基础模型本身,衡量模型的新标准不再是榜单分数,而是解决现实世界复杂任务的能力,特别是对Agent的支持能力、Coding能力和工具使用能力 [2] - 行业共识认为,模型未来的发展路径有共识,关键在于谁能找到最高效的实现方式,例如豆包模型在短时间内实现了对Gemini系列的追赶和对标 [10] 多模态与视觉能力成为模型核心 - 模型技术发展已超越纯文本,Thinking(思考)能力和视觉理解能力成为发展重点,视觉能力是Agent理解和执行现实世界复杂任务的关键保障 [7][8] - 豆包1.8模型通过端到端的预训练,将LLM和VLM深度融合,实现了视觉理解能力的显著提升,其技术报告显示在多模态推理基准测试中表现仅次于Gemini 3 Pro [8] - Thinking能力已成为基础模型的标配,豆包模型从1.6版本起就不再提供单独的thinking版本,而是通过API让开发者根据场景自调节思考长度 [10] Agent能力演进与新场景解锁 - 豆包1.8版本重点增强了Agent使用工具的能力,在工具调用、智能体搜索、智能体编程和复杂指令遵循上均有大幅提升 [12][13] - 模型原生视觉能力催生了“OS Agent”这一新场景,使Agent能够“看见”并直接与图形用户界面(GUI)交互,从而能处理无API或API调用受限的系统(如银行ERP、公司内网),实现GUI操作自动化 [14][17][27] - OS Agent带来了新的可能性,例如操作App、企业RPA流程自动化,以及未来的Generative UI(生成式用户界面),即软件可能面向Agent设计交互,或由Agent实时生成临时UI [18][19][20] - 对于长链路Agent任务,“思考模式下的工具调用”变得重要,该功能允许模型在保留推理状态的同时进行多次工具调用,利用历史思考内容给出更准确的回答,这已在Claude Sonnet 4.5和DeepSeek-V3.2中推广使用 [21][23] 基础模型能力“塌缩”与开发者新角色 - 随着基础模型能力增强,许多上层应用能力正“塌缩”回基模本身:视频理解工具被原生多模态能力吞噬;Coding从垂直技能塌缩为模型操作计算机、调用工具的基础语言能力 [26] - 这改变了开发者的角色,其核心任务转变为搭建自己的Context Engineering(上下文工程),利用模型的通用智能去解决因缺乏数据和反馈而无法处理的“最后一公里”问题 [28] - 基础模型的“厚度”最终决定了Agent能力的天花板 [24] 模型评估体系的根本性变革 - 旧的公开评测集(如GSM8K)意义正在消失,行业不再只关心解题分数,更关注模型能否完成现实世界中耗时长的复杂任务(如独立分析Excel表格) [29][30] - 模型能力的真正对比,已不再是看公开榜单的做题能力,而是取决于如何定义新的评估体系(Evaluation) [31] - 豆包1.8团队发布的评估系统代表了新方向,其遵循三大原则:1) 优先考虑用户体验,基于真实用户用例(如查信息、文本编辑、辅导)设计评估;2) 转向真实世界场景,设计具有高经济价值、模仿现实复杂性的任务;3) 在推动智能前沿的同时,确保核心智能不被削弱 [32][35] - 客服场景被举例为一个难度被低估的真实世界评测任务,因其需要大量SOP(标准作业程序)、涉及因素多、验证难且对准确性要求极高,但一旦突破,AI甚至能在客服过程中衍生出销售等新体验 [35][36]
对话商汤如影:如何用 Agent,实现电商运营的 20 倍能效提升?
Founder Park· 2025-12-18 16:04
商汤科技AI产品战略与行业观点 - 公司认为AI行业发展有两条重要路径:一是需要真正落地应用,以价值驱动技术和应用发展;二是需要回归实验室,探索下一次技术范式的原始创新 [1] - 公司近期发布的“如影营销Agent”是第一条路径的落地实践,切入直播电商领域,旨在用Agent全方位提升人工效率,解放人力 [1] 如影营销Agent产品概述 - 产品是一套由5个Agent组成的系统,分别对应直播运营团队中的数字人主播、场控、直播运营、店铺运营和流量投放五个核心岗位 [4] - 五个Agent之间相互协作、数据共享,形成了一个从店铺策略、直播运营、场控执行、流量助推到数据回流的端到端闭环链路,实现了运营自动联动和增长自动滚动 [7][8] - 产品定位为“AI辅助”,目标是未来通过AI助力代运营链路的所有岗位 [11] - 产品购买方式灵活,每个Agent都可以单独使用和付费,也提供包含四五个Agent的打包服务套餐 [24] 各Agent功能与效率提升 - **直播场控Agent**:自动化处理发福袋、调库存、回应弹幕等繁琐后台操作,让主播专注于内容讲解,尤其帮助中小商家以极低成本获得专业团队体验 [6] - **直播运营Agent**:实时监控数据,自动化完成直播过程中的数据监控与记录,并在下播后快速生成多维度分析报表,将过去需要2小时的复盘工作压缩至20分钟 [6] - **店铺运营Agent**:自动化收集散落在不同后台的销售、流量、退款数据,并制定营销策略,将过去人力需要耗费半天时间的流程压缩至10分钟 [6] - **流量投放Agent**:能够7x24小时不间断监控多个店铺的投放数据,自动汇总小时级报告,将人力从50分钟的重复性数据整理中解放出来,仅需10分钟即可完成 [6] - **数字人Agent**:采用创新的复刻技术,实现“当日复刻,当日开播”,拍摄采集0成本,真人主播下播后数字分身可无缝接棒,实现全天24小时直播 [7] 具体效率提升数据 - 场控岗位的动效提升达到了75% [11] - 在“退款分析”具体场景中,店铺运营Agent实现了20倍提效:真人运营需要下载7个不同表格,整理分析需半天,而Agent从下达指令到给出专业分析意见全程仅需10分钟左右 [20][21] - 流量投放Agent将人力从50分钟的重复性数据整理中解放,仅需10分钟即可完成报告 [6] 数字人直播技术演进与现状 - 数字人直播已从1.0阶段的“坐播”(动作僵硬、互动性差)进入2.0阶段,追求接近真人感、交互更自然 [14][15] - 技术提升主要来自三方面:算法放宽对真人动作幅度的限制(口型生成角度从正负二三十度提升至正负八九十度)、更新遮挡算法(允许商品与脸部接触)、提升互动能力使内容与商品强关联 [16][17] - 目前数字人的动作主要采集自真人主播,但公司已在做技术储备,未来动作可由AI实时生成,并将应用最新的实时语音驱动数字人技术以提升自然度 [19] - 数字人带货品类已从1.0时代以3C产品为主,拓展到鞋服类等需要更强展示和互动的品类 [15] 市场应用与客户反馈 - 目前跑得较好的模式是真人主播与数字人主播结合:真人主播在晚上6点到10点的黄金时段直播4小时,剩余20小时由数字人接替,此模式ROI最佳 [27] - 在淘宝、京东、美团、拼多多等货架式电商平台,数字人直播需打上“AI生成”标签,但公司产品处于行业头部,平台标签对市场转化率影响不大,数字人已成为一些大品牌直播间的标配产品 [29][30] - 产品主要关注品牌自播和中小店铺直播间,对于李佳琦这类强IP的达人直播,短期内数字人主播与其仍有差距,因为达人提供更多IP价值和情绪价值 [31][32] - 目前平均来看,数字人直播的GMV能达到真人直播的50%左右,在一些较好情况下数字人甚至表现更优,原因包括用户更认品牌而非主播,以及数字人能回答更广泛的商品问题 [34] 产品开发逻辑与竞争优势 - 产品开发源于发现电商代运营公司IT投入少、AI渗透率低、应用多为单点服务的行业痛点,旨在用AI打通各岗位工作流程,做成闭环产品以提升效率、分析准确度并降低成本 [10] - 作为第三方服务商的核心优势包括:一是具备商家视角而非平台视角,能满足商家个性化需求;二是积累了深度的行业Know-how,产品是与行业伙伴共创,融合了实战经验 [37] - 产品扩展策略是优先集中在抖音平台,从相对标准化的品类(如美妆)切入,再向服装、3C等品类延展,后续覆盖更多平台,扩展时补充各品类的“思维链”和运营思路 [38] - 产品力求通用化,避免定制化,通过底层大模型能力和上层按品类划分的小Agent来服务不同行业需求 [39][40] 技术发展与未来场景 - 产品已完整打通数据获取、分析处理、决策三个环节,未来将持续提升模型处理不同任务的思路能力 [41] - 电商AI渗透的“拐点”出现在去年,数字人交易占比从前年开始提升,去年大幅提升,算法迭代使数字人能触达的品类规模扩大,尤其在美妆、鞋服类市场 [42] - 除直播电商外,公司数字人技术还应用于教育场景(如快速生成课程视频)、办公场景(企业宣传视频)、以及“数字人面试官”产品用于招聘初筛,已与央企合作,可用AI在三天左右完成一万场面试并总结初试结果 [42][43]
达人营销的下半场:当知名 AI 公司的达人预算进入规模化,焦虑才真正开始
Founder Park· 2025-12-18 11:30
文章核心观点 - 达人营销是AI出海公司重要的增长杠杆,但其规模化执行面临巨大挑战,而Aha公司通过“AI员工+双边平台”的模式,对达人营销的作业模式进行了基础设施级重构,实现了规模化、可控、高效且安全的合作,并成功服务了大量AI企业客户 [1][2][3][9][28][30] 达人营销的价值与规模化困境 - 达人营销因其“活人感”能降低用户信任门槛,成为AI出海公司的重要增长杠杆 [1] - 行业成功实践表明,达人营销需要规模化,并将单次合作沉淀为长期增长资产,如Gamma通过广泛合作沉淀10%爆款带来90%用户增长,Notion通过数据追踪将合作转化为稳定资产 [2][3] - 达人营销规模化执行面临全链路难题:从“找人难”(粉丝量≠影响力、找到≠能合作)、价格博弈不透明(经历4-5轮沟通拉锯战),到执行过程沦为“保姆式”跟进的“人力黑洞” [5][7] - 品牌内部执行触达天花板后,转向与外部Agency合作,但面临其达人池有限、筛选损耗及反复对齐的问题;引入多家Agency则导致管理成本线性上升,去重比价困难,资源与方法论难以沉淀 [7][8] Aha平台的解决方案与核心能力 - Aha定位为连接品牌与创作者的双边平台,其核心是让AI员工承担所有“执行苦役”,人类负责关键决策把关 [9][10] - **智能找人**:重塑决策模式,让AI基于多平台数据像专家一样理解任务,评估达人价值与风险,经过一年多、十余个版本迭代,决策稳定性与专业性接近人类专家 [11] - **智能定价与建联**:通过一口价系统,综合数十个关键因子由算法模型计算达人合理市场价值区间,提供最优一口价,终结价格不透明问题 [12] - **全链路交付与安全保障**:内置授权校验、实时进度监控与催稿;采用预算托管机制,达人完成内容并通过质量验证后才获得付款,保障品牌预算安全 [13] - **品牌端可视化管理**:提供操作面板,清晰展示AI员工沟通进展、意向达人列表(附详细报价、CPM/CPC预估、匹配度分析及粉丝画像),将线下Excel作业升级为可视化平台 [15][16][18] - **高效履约与数据追踪**:品牌确认合作后无缝进入内容制作;平台提供实时更新的数据报表,可随时查看预算花费、播放量、点击量、CPM、CPC等数据,无需人工定期回收 [16][19] - 平台将能力系统化,转化为不依赖人员流动的组织能力,使达人营销方法论得以持续运转和沉淀 [21] 市场验证与商业成果 - Aha已跑通双边平台飞轮模型:品牌增加提升交易流动性,吸引更多优质达人;达人供给丰富又提升品牌体验,吸引更多品牌加入 [23] - **供给侧**:平台沉淀超过500万高质量可合作达人储备,其中已完成签约的达人超过5万名,覆盖从头部到长尾的全层级矩阵 [24] - **需求侧**:已成功服务300+企业客户,包括国内外大厂及AI产品出海榜TOP 50产品(如AiPPT、Vizard)等众多对效率与合规要求极高的AI品牌 [24] - **客户案例**:以客户Manna为例,使用Aha后,单个合作周期从“月”级缩短至最快3天;其通过Aha合作的42位达人中,出现了3条“大爆款”,其中一条几万播放量的视频带来几千次App下载 [26] 平台进化与行业契合 - Aha从1.0到2.0的进化,是对达人营销底层作业模式的“基础设施级重构” [28] - **可控性提升**:2.0版本保持品牌在反选、内容审核等关键路径的决策权,并新增外联邮件预审批、模板预览等功能 [29] - **匹配精准度进化**:依托海量AI行业投放数据,抽象出更细颗粒度的专家经验作为判断因子,使匹配逻辑更稳定地适配不同类型AI产品 [29] - **安全保障强化**:构建了达人信用与交付评分体系、多层反作弊体系,全流程确保数据真实与内容可信 [29] - Aha“AI + 双边平台”的解决方案,将达人营销从高度依赖个人经验的项目,转变为可计划、可掌控、可持续积累的增长资产,精准契合了AI企业对效率与系统化能力的生存需求 [30]
12月,我们推荐这 7 款 AI 新品
Founder Park· 2025-12-17 22:28
文章核心观点 文章通过介绍七款在极客公园创新大会上亮相的AI新产品及其创始人的思考,展现了当前AI产品发展的几个关键趋势:从追求通用效率转向深度个性化服务,从技术炫技转向解决具体场景的真实需求,以及AI如何作为辅助工具赋能而非取代人的主动性与创造力[1][2][7] AI笔记与个人洞察 - flomo笔记产品坚持不做AI润色和生成内容,其核心是帮助用户基于自己记录的真实经历和思考(即“个人上下文”),通过内置的多元思维视角(如CBT疗法、逆向思考)来获得更好的自我解释[4][7][8] - 产品理念强调“事实 + 不同的视角 = 更好的解释”,AI的作用被定位为一种“透镜”,帮助用户看到不一样的自己,而非单纯的效率工具[12][13] - 该产品通过“AI洞察”功能,将芒格的逆向思考等经典思维方法工具化,内置到产品中,以解决用户“不知道自己不知道什么”的认知盲区[9][11] AI摄影与用户主权 - Doka相机是一款AI构图相机,通过AI实时构图分析和AR引导线,帮助用户随手拍出构图平衡、色彩合适的照片,其产品登顶了台湾地区摄影分类榜单第一名,在零投放成本下获取了数万用户[14] - 产品定位源于对市场的洞察:93%的用户对摄影参数不感兴趣,且近80%的用户排斥1:1模仿他人照片,市场缺乏能屏蔽专业技能、让用户简单跟拍的产品[17][21] - 公司经历了一次重要的战略转向,从早期的“机位灵感跟拍地图”产品转向当前方案,原因是旧模式存在需求低频和用户排斥模仿两个致命问题[18][19][20] - 产品核心理念是“把拍照主权交还给用户”,AI仅作为辅助,提供构图建议但不强迫用户审美,强调“修得好、生成得好,不如拍得好”,认为摄影的本质是记录真实[7][23] - 产品设计追求简单纯粹,超过六成的相机类产品首页是信息流,而Doka旨在提供简约、有质感的纯粹拍照体验[24] 个人化AI办公助手 - remio是一款个人办公助手产品,旨在成为“Personal ChatGPT”,通过自动同步本地文档、无感捕获网页浏览等方式,智能构建用户的工作上下文,以解决用户需要手动为AI提供资料的“数据管理员”困境[27][29] - 产品通过一个真实案例说明了其价值:当通用AI只能简单总结一周工作时,remio能清晰梳理出访谈用户、更新官网、优化数据等所有工作细节,其优势不在于模型更聪明,而在于把“上下文”做到了极致[30] - 公司认为程序员是当前AI时代的受益者,因为AI Agent能访问整个代码仓库,而其他工作场景缺乏完整的资料库,remio的核心就是构建这样一个资料库并对接优秀AI模型,成为真正的工作助理[31] - 解决了两大核心技术难题:一是通过浏览器插件和本地文件实时解析功能实现“全面无感记录”,其中本地文件解析性能比许多开源同类技术提高了10倍;二是通过本地向量库和精细化的策略高效管理上下文,确保回答一次性准确[34][35][36] AI营销与品牌平权 - Pallas AI是一款基于GEO、帮助企业进行AI营销的Agentic产品,其背景是ChatGPT每天影响的交易额在20亿人民币以上,且在41.2%的对话中AI会主动提及特定品牌,33.8%的对话会出现自发产品推荐[38] - 公司认为需要“重新做一次针对‘AI’的营销”,让品牌从被动搜索变为被AI主动推荐,而当前在北美组建一个专业的AEO(AI引擎优化)专家团队起步价每月高达4000美金,这成了大企业的游戏[39][40][41] - Pallas AI旨在成为每个人的AEO专家团队,通过简单的对话框交互,能对客户及竞品进行全域追踪,并进行超过2000次关键词研究、100篇文章研究和30轮次以上的思考,最终生成一个清晰的“营销地图”[42][43] - 产品提供全面的数据监控面板和全内容生产平台,并内置“AI警察局”机制验证内容真实性,从而形成一个能持续学习、优化迭代的闭环营销团队,为企业带来真实增长[43][45] AI Agent商品化与市场生态 - MuleRun是一个AI Agent的Marketplace,平台在上线一个月后达到了50万注册用户数[46][47] - 公司认为随着AI技术发展,制作Agent已不难,但实现其商品化和市场化交付给全球用户仍是难题,解决方案是构建一个由市场经济驱动的AI Agent市场,让开发者能将知识变现,因为“人类社会最强大的动力就是‘搞钱’”[48][49] - 平台定位是覆盖AI领域的中长尾需求,而非解决如AI编程等头部问题,认为Agent只有商品化后才具备价值[50][51] - MuleRun是一个串联开发者、用户和平台的三方平台,具有框架和模型中立、提供开箱即用的底层工具(如聚合主流API、网盘空间、云端Sandbox)以及允许用户用自然语言构建Agent等特点[52][53][54][55] AI可穿戴硬件与健康管理 - OdyssLife品牌的首款产品Odyss N1是一个AI项链,集多模态感知能力于一体,旨在全天候无感记录用户的饮食与运动行为[56] - 产品出发点在于解决健康管理中的核心痛点:尽管人们记录运动、睡眠,但在最重要的饮食行为上从未有过好的用户体验,因为日常饮食行为碎片化,手动记录麻烦且不准确[58] - 选择项链形态是基于第一性原理,因为它可以24小时贴身佩戴、毫无存在感,且拥有与用户相同的视角,能清晰“看见”用户的饮食结构,但只关心健康数据,不记忆原始音频和图像[60] - 产品能智能分析进食顺序、速度、营养成分,并结合运动数据给出个性化健康建议,如同私人营养师提供“今日生活指南”,目标是重新定义用户与食物、与世界的关系[59][62][64] AI视觉内容与时尚产业 - LavieAI是一家专注于服饰垂类的AI视觉内容生成公司,业务包括AI模特生成、广告内容制作和虚拟IP运营,其思路是用AI模型取代传统模特拍摄,以更快、更省钱的方式获得成片[65][66] - 公司的视觉定制化解决方案相比传统拍摄,平均可降低90%的费用成本和90%的制作周期[68] - 公司技术能力扎实,拥有自研的人像生成模型、一个包含5000多位多元模特的AI模特库,并自研了Photoshop AI插件和“无限画布”系统来提升工作效率和图像质量[70] - 公司认为AI让创意的门槛更低,但对审美和想法的要求更高了,其优势在于坚持艺术与技术的结合,在模型训练中加入美术指导专家模式,确保结果符合时尚行业审美[7][71]
SaaS 已死?不,SaaS 会成为 Agent 时代的新基建
Founder Park· 2025-12-17 14:33
核心观点 - AI Agent不会取代传统的CRM、ERP等企业软件系统,而是会推动这些系统转型为Agent网络的“基础设施”和后端,其核心价值将从服务于人的操作界面转向服务于机器的程序化调用[2][12] - 企业Agent的能力上限取决于对“上下文”的正确使用,即能否从正确的系统中获取准确的数据并理解数据间的协作规则,输入数据的准确性决定了Agent任务执行的准确性[2][6] - 企业内部80%的知识和信息存在于非结构化数据中,数据的时效性、结构化和准确性正在下降,因此,帮助企业清理、结构化和管理混乱数据将是一个巨大的创业机会[2][3] - 自动化程度越高,对单一、可靠、权威的“事实来源”(记录系统)的需求就越强烈,未来的竞争将围绕谁能成为数据规则的“制定者”和“事实登记处”展开[6][7][10][14] Agent能力与数据基础 - Agent天生需要跨系统工作并以行动为导向,其能力上限完全取决于对“哪个系统里的哪个数据才是标准”以及“数据间协作规则”的理解[9] - 人类可以处理模糊数据和分歧,但Agent需要明确的规则和数据优先级定义,例如区分用于外部汇报、计算绩效或产品分析的不同ARR数据定义[7][11] - 数据仓库和湖仓在实践中已成为许多公司分析的核心,承载了定义业务指标和实体的语义层,但它们是用于回顾分析的“后视镜”,而非处理实时交易的“前门”[8] 传统企业系统的演变 - CRM、ERP等系统不会消失,而是会逐渐向“带API的状态机”转变,其核心价值将从服务于人的操作界面转向服务于机器的程序化调用[12] - 未来的交互界面可以是聊天框或自然语言入口,但在技术底层必须有一个能定义“标准客户记录”、“法律合同条款”等权威事实的地方[10] - Agent正在倒逼行业将“做事的方式”(用户体验)和“事实的来源”分开,记录系统将变成一个供机器调用、保证数据持久性和一致性的引擎[10][12] 数据治理与价值重构 - 企业系统的核心价值在于把混乱的数据用清晰的契约封装起来,让Agent能安全、高效地运行[13] - “数据仓库 + 指标层 + 治理工具”的组合,形态上超越了传统报告系统,更像是一个公司内部人人都能信赖的“事实登记处”[10] - 记录系统本身(即事实)会越来越多地存在于数据仓库、湖仓和核心业务系统的组合里,之上会有一个新的语义层和控制平台来指导Agent安全读写[14] - 产品的估值倍数将取决于其与“事实”的相关性,而非营销宣传,能定义指标、规范实体和执行策略的Agent平台本身将成为事实来源,从而更具价值[14] 行业趋势与投资逻辑 - 像Databricks这样的公司被资本市场看好,因为它们更有机会成为AI Agent的调度中心,甚至自己开发Agent[9] - 最优秀的“AI原生”应用通常选择紧挨着数据仓库、CRM或ERP进行开发,其竞争优势在于工作流设计、语义建模以及与客户现有事实来源的深度整合[13] - 在AI新周期里,能赢的公司是那些能在稳定、可靠的事实来源之上构建出色Agent体验的公司,而非忽视事实来源重要性的公司[15]
为什么一些公开数据不能拿来训练?AI 生成内容的版权到底归谁?
Founder Park· 2025-12-17 10:34
文章核心观点 - 数据是AIGC创业公司,特别是出海企业,必须严肃对待的关键风险点,而非简单的产品护城河[1][3] - AIGC公司在模型训练、内容生成及产品出海等环节面临复杂且多样的数据合规与知识产权风险,亟需将合规工作前置[2][3][4] - 针对AIGC领域的特定数据风险,行业需要专业的法律合规指导以规避高风险的诉讼与侵权争议[3][4] 活动背景与目的 - 活动由北京星也律师事务所的两位合伙人郑玮和孙奇敏主导,旨在为AIGC创业公司提供出海合规指导[4][10] - 活动形式为线上闭门研讨会,采用筛选制,面向特定受众,需付费报名[5][6][10] AIGC行业面临的核心数据合规议题 - **模型训练数据来源的合规性**:需明确区分合成数据、版权内容、专有数据及用户行为数据等不同类型数据的可用性边界[8] - **不同类型数据的侵权风险**:代码、人像、音视频等不同种类的数据在利用时需注意各自独特的侵权风险[2][8] - **AI生成内容的权属界定**:需要厘清AI生成内容的所有权归属,并针对ToB与ToC不同应用场景界定数据使用权与知识产权[8][10] - **产品出海的数据管理**:出海企业需妥善处理数据跨境传输、本地存储与数据隔离等关键合规问题[8][10] 目标参与人群 - 图像、文本、视频等生成式AI产品的创始人或出海负责人[10] - AI陪伴/社交、AI Coding类产品的创始人或出海负责人[10]