Founder Park - 财报，业绩电话会，研报，新闻

Founder Park

搜索文档

阶跃星辰开源图像编辑模型Step1X-Edit：一键改图大师，性能达到开源SOTA

Founder Park· 2025-04-27 12:05

模型发布与性能 - 阶跃星辰发布开源图像编辑大模型Step1X-Edit，总参数量19B（7B MLLM + 12B DiT），具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力 [2] - 模型支持11类高频图像编辑任务，包括文字替换、风格迁移、材质变换、人物修图等，性能达到开源SOTA水平 [2][5] - Step1X-Edit在GEdit-Bench基准测试中，语义一致性、图像质量与综合得分三项指标全面领先开源模型，接近GPT-4o与Gemini 2.0 Flash [5][40] 核心技术架构 - 采用MLLM（多模态大语言模型）与DiT（Diffusion Transformer）解耦架构，分别负责自然语言理解与高保真图像生成 [29] - MLLM模块解析复杂指令生成latent控制信号，Diffusion模块执行图像重构与局部修改，提升指令泛化能力与图像可控性 [32] - 架构突破传统pipeline模型限制，实现"理解"与"生成"协同，复杂编辑任务准确性与控制力显著提升 [30] 训练数据与评测 - 构建2000万条图文指令三元组训练数据集，最终保留超100万高质量样本，覆盖11类核心任务且分布均衡 [34] - 在GEdit-Bench评测中，Step1X-Edit综合得分7.161（Intersection subset）和7.104（Full set），显著优于Instruct-Pix2Pix（4.655/4.576）等开源模型 [41] - 自研评测基准GEdit-Bench基于社区真实编辑请求设计，模型在11类细分任务中均保持高质量输出，通用性突出 [37][39] 应用场景与案例 - 支持自然语言驱动的复杂组合指令，如多轮编辑、文字识别重构，适用于虚拟人、电商模特等高一致性场景 [12] - 演示案例包括风格转换（如"戴珍珠耳环的少女"）、物体替换（月饼变包子）、海报文案修改（"GREEN"改"阶跃AI"）等 [16][18][22] - 已上线阶跃AI官网(stepfun.com)和App，提供网页端与移动端体验 [6][13] 开发者生态 - 通过GitHub、HuggingFace、ModelScope等平台开源模型，提供技术报告与体验地址 [4] - Founder Park搭建开发者社群，提供模型测试、资源对接及产品宣传支持 [9][11]

图像编辑大模型

Artificial Intelligence

Step1X-Edit

图像编辑大模型

Artificial Intelligence

Step1X-Edit

王登科：我的朋友谢扬，他的Fellou，以及这个时代的创业者

Founder Park· 2025-04-26 19:44

AI浏览器产品Fellou - Fellou定位为全球首个Agentic Browser，基于AI技术实现跨网页和系统的自动化操作，包括数据采集、表单填写和报告生成等一站式服务[5] - 创始人谢扬为95后连续创业者，曾创立身份云平台Authing并成功融资数亿元人民币，后转型AI领域[8][9] - 产品呼应创始人2019年创业初期对极致效率的追求，是其AI战略的首个落地项目[14][18] 创始人创业历程 - 谢扬2019年创立Authing初期融资困难，半年后获奇绩创坛投资，后续累计融资达数亿元人民币[8] - Authing在2B领域取得商业成功，但2022年面临业务转型压力，公司经历裁员和办公场地缩减[9][13] - 2023年大模型技术兴起后，创始人启动新AI项目Fellou，组建团队并频繁接触开发者资源[14] - 创始人展现出极强的执行力和目标导向，曾赴美寻求融资并保持高强度工作节奏[14] AI行业竞争格局 - Fellou面临与Manus等同类AI Agent产品的市场竞争，后者已率先获得市场认知度[18][25] - 行业涌现一批90后创业者转型AI领域，包括Fellou和Manus创始人，均经历过上轮互联网创业周期[25][27] - 新一代创业者普遍具备技术背景，注重产品创新与效率提升，形成差异化竞争策略[27] 技术发展趋势 - AI Agent技术成为行业热点，主要应用于提升人类工作效率的垂直场景[18][30] - 大模型技术推动传统业务转型，头部企业探索AI与传统业务结合的新模式[14] - 开发者生态建设成为竞争关键，企业通过社群运营获取早期用户和技术反馈[5][6]

Windsurf团队科普Agent：不是什么都叫智能体！

Founder Park· 2025-04-25 21:29

Agent核心概念解析 - Agent系统本质是「LLM+工具」的循环结构接收用户输入后交替调用推理模型和工具推理模型决定行动步骤工具执行具体操作并将结果反馈至信息流[5][6] - 推理模型的核心功能是选择工具和参数而非单纯生成内容其输出包含行动原因解释和结构化参数指令工具则独立于LLM 涵盖计算器系统时间等非文本功能[6][8] - 典型误用场景包括将思维链提示(CoT)等同于Agent推理或混淆AI工作流与Agent系统前者是LLM内部思考过程后者是预设流程缺乏实时工具决策能力[8] Agent系统优势与分类 - 协作式Agent通过人类实时干预降低可靠性门槛当前主流应用如Windsurf Cascade GitHub Copilot Workspaces均采用此模式与完全自主Agent形成技术路径差异[16][17] - 工具集成弥补LLM短板如数学计算实时数据获取等使系统能力突破文本生成限制同时支持状态改变类操作(如发送短信) 超越RAG系统的信息检索范畴[12] - 发展历程显示 Copilot式单次调用系统率先落地而AutoGPT(2023)和Devin等自主Agent受限于端到端可靠性尚未大规模普及[13][15] Agent系统构建关键问题 - 工具生态决定能力边界需评估工具独特性(如Windsurf网页解析技术)和扩展性同时数据访问需平衡范围与控制如代码库访问深度影响效果但增加权限复杂度[22][23] - 延迟优化涉及全技术栈包括模型推理加速提示工程缓存工具并行化等需权衡质量与响应速度高延迟会放大失败成本[26] - 用户体验设计包含意图捕捉(隐式信号利用) 改动可视化审查(如IDE多文件修改) 以及非Agent功能融合避免过度Agent化简单任务[24][27][29] 行业发展趋势 - 「苦涩的教训」警示过度依赖人工设计的风险算力增长可能使定制化提示工具选择等投入失效需保持技术路径灵活性[31] - 协作式Agent现阶段更符合商业落地需求因其降低了对LLM绝对可靠性的依赖通过人机协同实现可控产出[17][19]

Artificial Intelligence

Artificial Intelligence

OpenAI教你做Agent：2025年，评估标准和如何产品化是Agent的重点

Founder Park· 2025-04-25 21:29

AI Agent技术演进 - 2024年至2025年AI agent的行动能力和交互方式发生质变，头部模型厂商将agentic能力融入模型，成为模型竞赛重点之一 [2] - agent获取信息方式从单次搜索决策模式转变为完全自主的Deep Research模式，能同时打开多个网页节省时间 [3] - OpenAI判断agent可调用的工具数量将在几个月内从10个量级扩展到100个量级 [4] - multi agent系统具备更高可控性和优化潜力，通过任务分拆提升整体工作效率 [5] - vertical agent将直接受益于multi-agent系统发展 [6] 开发者工具与评估 - 开发者需要构建agent评估微调飞轮，通过强化微调能力让模型找到正确tool use路径 [7] - 评估器需能将模型输出与权威资料对比或执行代码验证数学正确性，而非简单字符串比对 [8] - 强化微调方法可推动模型在特定行业深入应用，实现专业化能力提升 [20] - 目前AI领域核心问题是评分机制，如何构建高质量任务和评分器成为重要课题 [21] Computer Use创新 - Computer Use处于早期阶段，VM(虚拟机)需要开发者填补空白，可能出现专门做iPhone VM的公司 [10] - computer use应用场景包括无API的传统软件系统自动化，如医疗行业手工操作和Google Maps街景分析 [22] - BrowserBase和Scrapybara等公司提供computer use模型托管服务，开发者可便捷访问底层控制 [25][26] - Arc浏览器开发的Dia项目将agent深度集成到浏览器中，成为浏览器本身的一部分 [29] 开发者实践与API设计 - multi agent系统通过任务分拆使调试更独立，降低修改风险 [31][33] - OpenAI采用"阶梯式API"设计理念，平衡易用性与可定制性，如向量搜索默认配置可逐步调整 [34] - Assistants API的tool use功能(如文件搜索)找到市场契合点，但使用门槛过高需优化 [36] - Responses API优化多轮交互体验，与MCP生态互补，需深入思考如何更好整合 [37] 行业应用与前景 - AI infra公司垂直化发展仍有市场需求，如Runloop AI为AI coding初创企业提供测试虚拟机 [38] - computer use在网络安全领域应用，如探测网站系统漏洞 [42] - 模型在科学研究领域应用被低估，可能加速科研进程 [53] - 旅游行业存在创新机会，期待AI agent打破传统格局 [56]

Artificial Intelligence

Artificial Intelligence

Responses API

外媒爆料：Manus完成7500万美元融资，估值近5亿美元、比上轮增长5倍

Founder Park· 2025-04-25 16:27

融资与估值 - Manus完成由Benchmark领投的7500万美元融资，估值增长约五倍至接近5亿美元[2][4][5] - 上一轮融资后估值约为1亿美元，由腾讯和红杉中国领投，真格基金为早期支持者[9] - 公司计划利用新资金扩展至美国、日本和中东市场[2][4] 产品与技术 - Manus是一款能操作电脑的AI Agent，可执行旅行预订、股票分析等任务，通过浏览多个网站完成[5] - 使用Anthropic的Claude AI模型，平均每个任务支付2美元，发布两周内花费超100万美元[3][9] - 公司还运营Monica.im产品，整合OpenAI、Anthropic、Google和DeepSeek的模型生成文本、图像和视频[9] 市场表现与需求 - Manus在美国迅速走红，beta版发布几天后吸引科技高管和AI开发者关注[5] - 超过260万人排队等待邀请码，服务器容量和运营成本限制用户增长[3][9] - 推出每月39美元订阅和199美元高级选项，定价与ChatGPT Pro相当[9] 战略与扩张 - 公司定位Manus为面向中国以外用户的产品，美国为主要目标市场[9] - 因中国用户需求增加，将与阿里巴巴合作使用国内AI模型提供本地服务[9] - 计划在东京设立首个海外办公室，员工不足80人，日本被视为关键市场[9] 行业背景 - DeepSeek的成功提升美国对中国AI产品的兴趣，其模型性能媲美OpenAI且成本更低[8][9] - 中美科技竞争背景下，美国对华AI投资受限，但公司因专注应用层可能不受影响[8]

人工智能

Artificial Intelligence

Artificial Intelligence

Manus

Monica.im

Claude AI 模型

扎克伯格：社交已死，Facebook是内容平台

Founder Park· 2025-04-25 13:31

社交媒体行业演变 - 社交媒体已从连接人与人演变为更类似传统媒体的形态充斥着名人推广视频新闻评论及流行文化聚合片段 [2][3] - Meta创始人提出社交媒体已变成「媒体」而非「社交」旨在削弱反垄断指控中对其垄断社交网络的定义 [2] - 公司数据显示用户浏览朋友内容的时间占比显著下降 Facebook从22%降至17% Instagram从11%降至7% [3] Meta反垄断诉讼核心争议 - FTC指控公司通过收购Instagram和WhatsApp非法垄断个人社交网络服务市场但2012-2014年的交易与当前行业格局存在差异 [5][6] - 公司辩称社交媒体功能已普遍化无法形成垄断并展示与TikTok YouTube等平台的相似性以证明市场竞争激烈 [5] - 反垄断律师需证明垄断损害消费者利益但Meta平台免费使用且收购标的早期发展阶段使损害界定困难 [6] 公司战略与监管应对 - 创始人2018年内部备忘录曾建议剥离Instagram 预见反垄断风险并认为独立运营可能更优 [7] - 当前行业面临TikTok竞争 AI技术颠覆等变数使FTC诉讼被质疑针对过时问题 [7] - 欧盟近期对Meta处以2亿欧元罚款美国诉讼结果可能受政治因素影响 [7] 行业竞争格局 - 应用功能同质化明显 Instagram与TikTok短视频相似私信功能与iMessage趋同 [5] - 分析师批评FTC市场定义狭隘若按此逻辑TikTok不被视为竞争对手将导致矛盾 [6] - OpenAI等新进入者计划开发社交网络可能进一步改变竞争生态 [7]

Meta Platforms(US:META)

OpenAI报价30亿，三个月实现收入翻倍，Windsurf做对了什么？

Founder Park· 2025-04-24 19:22

公司背景与转型 - 公司前身为Codeium，成立于2021年，最初是ToB的GPU虚拟化平台，已实现百万美元级别收入 [2] - 2022年年中公司管理上万台GPU，团队8人且实现正向现金流 [5] - 2023年转型为AI编程公司Windsurf，放弃原有业务方向 [5][7] - 2024年4月ARR达1亿美元，较1月4000万翻倍，估值28.5亿美元 [2] 产品与技术 - 产品从VS Code插件发展为独立IDE，支持VSCode、JetBrains等主流开发环境 [2][5] - 核心功能包括代码自动补全、重构、AI代码审查，用户采纳率提升3倍 [10][14] - 使用Claude-Sonnet作为规划模型，结合自研模型处理代码检索和编辑 [17][18] - 独特优势在于处理大型代码库，可并行分析上亿行代码 [16][20] - 收集用户实时操作数据训练模型，擅长处理不完整代码状态 [19] 市场与用户 - 产品发布4个月吸引超100万开发者试用，月活数十万 [12] - 企业客户包括戴尔、摩根大通等，支持FedRAMP认证的安全环境 [16][23] - 采用混合部署模式满足企业数据隐私需求 [16] - 目前160名员工，工程团队50多人，销售团队超80人 [26][27][31] 行业洞察 - AI将承担90%代码编写工作，开发者角色转向代码审查和调整 [3][10] - 未来工程师核心能力是识别商业问题和制定技术决策 [13] - 行业竞争关键在于对代码库的深入理解能力 [20][22] - 技术栈价值从基础设施层转向应用层，用户体验成为差异化重点 [7][8] 发展战略 - 每6-12个月对产品进行彻底革新，保持技术领先性 [24] - 同时维护"真实路线图"和"秘密路线图"平衡短期与长期发展 [24] - 不强制用户切换开发环境，支持JetBrains等现有工具 [16][23] - 早期创始人亲自负责销售验证商业模式可行性 [27][28] 产品使用建议 - 用户需明确指令并从小规模代码修改开始 [32] - 需要理解产品能力边界，建立使用直觉 [32] - 建议开发者尽快尝试AI工具以获得效率优势 [33][35]

PH最佳产品周榜（4.14-20），AI邮件营销最受欢迎

Founder Park· 2025-04-24 19:22

其中，多款 AI 营销与销售类工具上榜，如提升邮件营销送达率的 AI 自动化平台 Mailgo、AI 驱动的 LinkedIn 销售互动自动化工具 Extrovert、一键生成的 AI 语音销售助手 Omakase.ai Voice 等，基于 AI 技术来提升营销效率、优化销售流程。 4.14-4.20 TOP10 产品：以下文章来源于Z Potentials ，作者Z Potentials Z Potentials . 我们与Z Potentials同频共振 Product Hunt 是一个全球知名的创意产品展示与评选平台。Z Potentials 对其近一周的最佳产品 Top10 进行了盘点。 | | Best of the week of April 14, 2025 | Daily Weekly | Monthly | Yearly | Featured | All | | --- | --- | --- | --- | --- | --- | --- | | | 3月 31-4月 6 4月 7—13 4月 14-20 | | 4月 21—27 | | 4月 28-5月 4 | 1 | | Ma ...

Artificial Intelligence

Artificial Intelligence

Deep Research类产品深度测评：下一个大模型产品跃迁点到来了吗？

Founder Park· 2025-04-23 20:37

产品定义与特点 - Deep Research 产品是以大模型能力为基础、集合检索与报告生成的端到端系统，能迭代搜索和分析信息并生成详细报告[4] - 与传统 LLM Search 产品相比，Deep Research 是迈向 Agent 产品雏形的跃迁，可能成为经典产品形态[6] 产品测评情况 - 测评围绕 Tool Use、Instruction Following、报告输出能力对五家 Deep Research 产品评估，Memory 因自动联网检索难以有效评估[10] Tool Use 能力 - 在线检索中 OpenAI 表现出色，在冷门电影和最新书籍检索任务中唯一成功定位正确内容[20][31] - 数据分析任务里五家产品均未成功计算出正确数值，OpenAI 和 Manus 能力成熟度较高但有偏差[35][47] - 编程任务中 Manus 表现最佳，提供完整项目文件且网页功能和美观性达标，五家产品输出分层明显[57] Instruction Following 能力 - 文献分析任务中五家产品均无法完全遵循指令，存在“选择性执行”和“对牛弹琴”情况[72] - 旅游路线设计采用六维评估体系，Google、Manus、OpenAI 得分接近满分但交通可行性有不足[107][118][123][130] 报告输出能力 - 基于商业研报场景评估，各产品能力排序为 OpenAI > Manus > PPLX = xAI >> Google，OpenAI 兼顾深度与广度[136] 总结与展望 - Deep Research 产品打破外部工具调度和需求执行平均线，但消除短板、触及天花板需市场耐心，Agent 产品下一级阶梯或更快降临[162][164]

Agent

Tool Use

Instruction Following

Memory

Artificial Intelligence

Perplexity

Agent

Tool Use

Instruction Following

Memory

Artificial Intelligence

Perplexity

Harvey：ARR 1亿美元、估值30亿，用Agent思路解决法律场景AI落地难题

Founder Park· 2025-04-23 20:37

Harvey公司概况 - 成立于2022年，2024年客户数量从40家增长至235家，覆盖42个国家，美国前100家律所中有28家使用其服务 [2] - 2024年ARR达5000万美元，预计8个月内将达1亿美元，D轮融资3亿美元，估值30亿美元 [2] - 收入规模与AI搜索公司Perplexity相当，入选福布斯2025 AI 50榜单 [2] - 已实现从文件审查到客户沟通的全流程自动化，可替代初级律师团队 [2] 产品定位与核心竞争力 - 定位为法律行业的AI操作系统，而非GPT套壳，早期核心竞争力是精准的引用能力 [6] - 采用复合人工智能系统，由数百次模型调用组合生成输出，主要依赖OpenAI模型 [16] - 产品设计理念是让AI更像同事而非工具，强调人机协作和引导式交互 [8][9] - 构建垂直场景的Agentic workflow，将复杂法律流程分解为可执行模块 [12] 商业化策略 - 选择先攻克顶级律所再向下渗透行业的策略，通过高度个性化演示建立信任 [26] - 采用席位制销售模式，需平衡功能普适性与专业深度 [12] - 计划从法律领域自然扩展至税务、人力资源等关联领域 [27] - 与普华永道等专业机构合作开发定制系统，利用其领域专业知识 [28] 技术架构与创新 - 注重模块化设计便于模型切换，但评估环节需投入大量资源 [17] - 建立内部法律专家团队和外部评估体系，发布Big Law Bench基准测试 [18] - 采用AI Native用户体验设计，在现有律师工具(如Word、邮件)中集成 [7] - 应用宜家效应理念，让用户参与构建过程以增强信任 [9] 数据安全与隐私 - 实施严格的"禁止训练"政策和"不接触"原则，员工无权查看客户数据 [34] - 仅使用Azure部署的模型，建立严格的外部供应商白名单 [34] - 早期组建专业安全团队，安全负责人为公司第15号员工 [34] 行业认知与挑战 - 法律领域准确性至关重要，将"幻觉"视为必须消除的缺陷而非特性 [22] - 法律工作token价值极高，50页并购协议每个词都价值不菲 [14] - 行业流程知识多未公开，需聘请领域专家梳理定义操作步骤 [33] - 评估工作需中级以上法律专业人士参与，成本占行业收入20-30% [33]