Workflow
Founder Park
icon
搜索文档
阶跃星辰开源图像编辑模型Step1X-Edit:一键改图大师,性能达到开源SOTA
Founder Park· 2025-04-27 12:05
模型发布与性能 - 阶跃星辰发布开源图像编辑大模型Step1X-Edit,总参数量19B(7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力 [2] - 模型支持11类高频图像编辑任务,包括文字替换、风格迁移、材质变换、人物修图等,性能达到开源SOTA水平 [2][5] - Step1X-Edit在GEdit-Bench基准测试中,语义一致性、图像质量与综合得分三项指标全面领先开源模型,接近GPT-4o与Gemini 2.0 Flash [5][40] 核心技术架构 - 采用MLLM(多模态大语言模型)与DiT(Diffusion Transformer)解耦架构,分别负责自然语言理解与高保真图像生成 [29] - MLLM模块解析复杂指令生成latent控制信号,Diffusion模块执行图像重构与局部修改,提升指令泛化能力与图像可控性 [32] - 架构突破传统pipeline模型限制,实现"理解"与"生成"协同,复杂编辑任务准确性与控制力显著提升 [30] 训练数据与评测 - 构建2000万条图文指令三元组训练数据集,最终保留超100万高质量样本,覆盖11类核心任务且分布均衡 [34] - 在GEdit-Bench评测中,Step1X-Edit综合得分7.161(Intersection subset)和7.104(Full set),显著优于Instruct-Pix2Pix(4.655/4.576)等开源模型 [41] - 自研评测基准GEdit-Bench基于社区真实编辑请求设计,模型在11类细分任务中均保持高质量输出,通用性突出 [37][39] 应用场景与案例 - 支持自然语言驱动的复杂组合指令,如多轮编辑、文字识别重构,适用于虚拟人、电商模特等高一致性场景 [12] - 演示案例包括风格转换(如"戴珍珠耳环的少女")、物体替换(月饼变包子)、海报文案修改("GREEN"改"阶跃AI")等 [16][18][22] - 已上线阶跃AI官网(stepfun.com)和App,提供网页端与移动端体验 [6][13] 开发者生态 - 通过GitHub、HuggingFace、ModelScope等平台开源模型,提供技术报告与体验地址 [4] - Founder Park搭建开发者社群,提供模型测试、资源对接及产品宣传支持 [9][11]
王登科:我的朋友谢扬,他的Fellou,以及这个时代的创业者
Founder Park· 2025-04-26 19:44
AI浏览器产品Fellou - Fellou定位为全球首个Agentic Browser,基于AI技术实现跨网页和系统的自动化操作,包括数据采集、表单填写和报告生成等一站式服务[5] - 创始人谢扬为95后连续创业者,曾创立身份云平台Authing并成功融资数亿元人民币,后转型AI领域[8][9] - 产品呼应创始人2019年创业初期对极致效率的追求,是其AI战略的首个落地项目[14][18] 创始人创业历程 - 谢扬2019年创立Authing初期融资困难,半年后获奇绩创坛投资,后续累计融资达数亿元人民币[8] - Authing在2B领域取得商业成功,但2022年面临业务转型压力,公司经历裁员和办公场地缩减[9][13] - 2023年大模型技术兴起后,创始人启动新AI项目Fellou,组建团队并频繁接触开发者资源[14] - 创始人展现出极强的执行力和目标导向,曾赴美寻求融资并保持高强度工作节奏[14] AI行业竞争格局 - Fellou面临与Manus等同类AI Agent产品的市场竞争,后者已率先获得市场认知度[18][25] - 行业涌现一批90后创业者转型AI领域,包括Fellou和Manus创始人,均经历过上轮互联网创业周期[25][27] - 新一代创业者普遍具备技术背景,注重产品创新与效率提升,形成差异化竞争策略[27] 技术发展趋势 - AI Agent技术成为行业热点,主要应用于提升人类工作效率的垂直场景[18][30] - 大模型技术推动传统业务转型,头部企业探索AI与传统业务结合的新模式[14] - 开发者生态建设成为竞争关键,企业通过社群运营获取早期用户和技术反馈[5][6]
Windsurf团队科普Agent:不是什么都叫智能体!
Founder Park· 2025-04-25 21:29
Agent核心概念解析 - Agent系统本质是「LLM+工具」的循环结构 接收用户输入后交替调用推理模型和工具 推理模型决定行动步骤 工具执行具体操作并将结果反馈至信息流[5][6] - 推理模型的核心功能是选择工具和参数 而非单纯生成内容 其输出包含行动原因解释和结构化参数指令 工具则独立于LLM 涵盖计算器 系统时间等非文本功能[6][8] - 典型误用场景包括将思维链提示(CoT)等同于Agent推理 或混淆AI工作流与Agent系统 前者是LLM内部思考过程 后者是预设流程缺乏实时工具决策能力[8] Agent系统优势与分类 - 协作式Agent通过人类实时干预降低可靠性门槛 当前主流应用如Windsurf Cascade GitHub Copilot Workspaces均采用此模式 与完全自主Agent形成技术路径差异[16][17] - 工具集成弥补LLM短板 如数学计算 实时数据获取等 使系统能力突破文本生成限制 同时支持状态改变类操作(如发送短信) 超越RAG系统的信息检索范畴[12] - 发展历程显示 Copilot式单次调用系统率先落地 而AutoGPT(2023)和Devin等自主Agent受限于端到端可靠性 尚未大规模普及[13][15] Agent系统构建关键问题 - 工具生态决定能力边界 需评估工具独特性(如Windsurf网页解析技术)和扩展性 同时数据访问需平衡范围与控制 如代码库访问深度影响效果但增加权限复杂度[22][23] - 延迟优化涉及全技术栈 包括模型推理加速 提示工程缓存 工具并行化等 需权衡质量与响应速度 高延迟会放大失败成本[26] - 用户体验设计包含意图捕捉(隐式信号利用) 改动可视化审查(如IDE多文件修改) 以及非Agent功能融合 避免过度Agent化简单任务[24][27][29] 行业发展趋势 - 「苦涩的教训」警示过度依赖人工设计的风险 算力增长可能使定制化提示 工具选择等投入失效 需保持技术路径灵活性[31] - 协作式Agent现阶段更符合商业落地需求 因其降低了对LLM绝对可靠性的依赖 通过人机协同实现可控产出[17][19]
OpenAI教你做Agent:2025年,评估标准和如何产品化是Agent的重点
Founder Park· 2025-04-25 21:29
AI Agent技术演进 - 2024年至2025年AI agent的行动能力和交互方式发生质变,头部模型厂商将agentic能力融入模型,成为模型竞赛重点之一 [2] - agent获取信息方式从单次搜索决策模式转变为完全自主的Deep Research模式,能同时打开多个网页节省时间 [3] - OpenAI判断agent可调用的工具数量将在几个月内从10个量级扩展到100个量级 [4] - multi agent系统具备更高可控性和优化潜力,通过任务分拆提升整体工作效率 [5] - vertical agent将直接受益于multi-agent系统发展 [6] 开发者工具与评估 - 开发者需要构建agent评估微调飞轮,通过强化微调能力让模型找到正确tool use路径 [7] - 评估器需能将模型输出与权威资料对比或执行代码验证数学正确性,而非简单字符串比对 [8] - 强化微调方法可推动模型在特定行业深入应用,实现专业化能力提升 [20] - 目前AI领域核心问题是评分机制,如何构建高质量任务和评分器成为重要课题 [21] Computer Use创新 - Computer Use处于早期阶段,VM(虚拟机)需要开发者填补空白,可能出现专门做iPhone VM的公司 [10] - computer use应用场景包括无API的传统软件系统自动化,如医疗行业手工操作和Google Maps街景分析 [22] - BrowserBase和Scrapybara等公司提供computer use模型托管服务,开发者可便捷访问底层控制 [25][26] - Arc浏览器开发的Dia项目将agent深度集成到浏览器中,成为浏览器本身的一部分 [29] 开发者实践与API设计 - multi agent系统通过任务分拆使调试更独立,降低修改风险 [31][33] - OpenAI采用"阶梯式API"设计理念,平衡易用性与可定制性,如向量搜索默认配置可逐步调整 [34] - Assistants API的tool use功能(如文件搜索)找到市场契合点,但使用门槛过高需优化 [36] - Responses API优化多轮交互体验,与MCP生态互补,需深入思考如何更好整合 [37] 行业应用与前景 - AI infra公司垂直化发展仍有市场需求,如Runloop AI为AI coding初创企业提供测试虚拟机 [38] - computer use在网络安全领域应用,如探测网站系统漏洞 [42] - 模型在科学研究领域应用被低估,可能加速科研进程 [53] - 旅游行业存在创新机会,期待AI agent打破传统格局 [56]
外媒爆料:Manus完成7500万美元融资,估值近5亿美元、比上轮增长5倍
Founder Park· 2025-04-25 16:27
融资与估值 - Manus完成由Benchmark领投的7500万美元融资,估值增长约五倍至接近5亿美元[2][4][5] - 上一轮融资后估值约为1亿美元,由腾讯和红杉中国领投,真格基金为早期支持者[9] - 公司计划利用新资金扩展至美国、日本和中东市场[2][4] 产品与技术 - Manus是一款能操作电脑的AI Agent,可执行旅行预订、股票分析等任务,通过浏览多个网站完成[5] - 使用Anthropic的Claude AI模型,平均每个任务支付2美元,发布两周内花费超100万美元[3][9] - 公司还运营Monica.im产品,整合OpenAI、Anthropic、Google和DeepSeek的模型生成文本、图像和视频[9] 市场表现与需求 - Manus在美国迅速走红,beta版发布几天后吸引科技高管和AI开发者关注[5] - 超过260万人排队等待邀请码,服务器容量和运营成本限制用户增长[3][9] - 推出每月39美元订阅和199美元高级选项,定价与ChatGPT Pro相当[9] 战略与扩张 - 公司定位Manus为面向中国以外用户的产品,美国为主要目标市场[9] - 因中国用户需求增加,将与阿里巴巴合作使用国内AI模型提供本地服务[9] - 计划在东京设立首个海外办公室,员工不足80人,日本被视为关键市场[9] 行业背景 - DeepSeek的成功提升美国对中国AI产品的兴趣,其模型性能媲美OpenAI且成本更低[8][9] - 中美科技竞争背景下,美国对华AI投资受限,但公司因专注应用层可能不受影响[8]
扎克伯格:社交已死,Facebook是内容平台
Founder Park· 2025-04-25 13:31
社交媒体行业演变 - 社交媒体已从连接人与人演变为更类似传统媒体的形态 充斥着名人推广视频 新闻评论及流行文化聚合片段 [2][3] - Meta创始人提出社交媒体已变成「媒体」而非「社交」 旨在削弱反垄断指控中对其垄断社交网络的定义 [2] - 公司数据显示用户浏览朋友内容的时间占比显著下降 Facebook从22%降至17% Instagram从11%降至7% [3] Meta反垄断诉讼核心争议 - FTC指控公司通过收购Instagram和WhatsApp非法垄断个人社交网络服务市场 但2012-2014年的交易与当前行业格局存在差异 [5][6] - 公司辩称社交媒体功能已普遍化 无法形成垄断 并展示与TikTok YouTube等平台的相似性以证明市场竞争激烈 [5] - 反垄断律师需证明垄断损害消费者利益 但Meta平台免费使用且收购标的早期发展阶段使损害界定困难 [6] 公司战略与监管应对 - 创始人2018年内部备忘录曾建议剥离Instagram 预见反垄断风险并认为独立运营可能更优 [7] - 当前行业面临TikTok竞争 AI技术颠覆等变数 使FTC诉讼被质疑针对过时问题 [7] - 欧盟近期对Meta处以2亿欧元罚款 美国诉讼结果可能受政治因素影响 [7] 行业竞争格局 - 应用功能同质化明显 Instagram与TikTok短视频相似 私信功能与iMessage趋同 [5] - 分析师批评FTC市场定义狭隘 若按此逻辑TikTok不被视为竞争对手将导致矛盾 [6] - OpenAI等新进入者计划开发社交网络 可能进一步改变竞争生态 [7]
OpenAI报价30亿,三个月实现收入翻倍,Windsurf做对了什么?
Founder Park· 2025-04-24 19:22
公司背景与转型 - 公司前身为Codeium,成立于2021年,最初是ToB的GPU虚拟化平台,已实现百万美元级别收入 [2] - 2022年年中公司管理上万台GPU,团队8人且实现正向现金流 [5] - 2023年转型为AI编程公司Windsurf,放弃原有业务方向 [5][7] - 2024年4月ARR达1亿美元,较1月4000万翻倍,估值28.5亿美元 [2] 产品与技术 - 产品从VS Code插件发展为独立IDE,支持VSCode、JetBrains等主流开发环境 [2][5] - 核心功能包括代码自动补全、重构、AI代码审查,用户采纳率提升3倍 [10][14] - 使用Claude-Sonnet作为规划模型,结合自研模型处理代码检索和编辑 [17][18] - 独特优势在于处理大型代码库,可并行分析上亿行代码 [16][20] - 收集用户实时操作数据训练模型,擅长处理不完整代码状态 [19] 市场与用户 - 产品发布4个月吸引超100万开发者试用,月活数十万 [12] - 企业客户包括戴尔、摩根大通等,支持FedRAMP认证的安全环境 [16][23] - 采用混合部署模式满足企业数据隐私需求 [16] - 目前160名员工,工程团队50多人,销售团队超80人 [26][27][31] 行业洞察 - AI将承担90%代码编写工作,开发者角色转向代码审查和调整 [3][10] - 未来工程师核心能力是识别商业问题和制定技术决策 [13] - 行业竞争关键在于对代码库的深入理解能力 [20][22] - 技术栈价值从基础设施层转向应用层,用户体验成为差异化重点 [7][8] 发展战略 - 每6-12个月对产品进行彻底革新,保持技术领先性 [24] - 同时维护"真实路线图"和"秘密路线图"平衡短期与长期发展 [24] - 不强制用户切换开发环境,支持JetBrains等现有工具 [16][23] - 早期创始人亲自负责销售验证商业模式可行性 [27][28] 产品使用建议 - 用户需明确指令并从小规模代码修改开始 [32] - 需要理解产品能力边界,建立使用直觉 [32] - 建议开发者尽快尝试AI工具以获得效率优势 [33][35]
PH最佳产品周榜(4.14-20),AI邮件营销最受欢迎
Founder Park· 2025-04-24 19:22
其中,多款 AI 营销与销售类工具上榜,如 提升邮件营销送达率的 AI 自动化平台 Mailgo、AI 驱动的 LinkedIn 销售互动自动化工具 Extrovert、 一键生成的 AI 语音销售助手 Omakase.ai Voice 等,基于 AI 技术来提升营销效率、优化销售流程。 4.14-4.20 TOP10 产品: 以下文章来源于Z Potentials ,作者Z Potentials Z Potentials . 我们与Z Potentials同频共振 Product Hunt 是一个全球知名的创意产品展示与评选平台。Z Potentials 对其近一周的最佳产品 Top10 进行了盘点。 | | Best of the week of April 14, 2025 | Daily Weekly | Monthly | Yearly | Featured | All | | --- | --- | --- | --- | --- | --- | --- | | | 3月 31-4月 6 4月 7—13 4月 14-20 | | 4月 21—27 | | 4月 28-5月 4 | 1 | | Ma ...
Deep Research类产品深度测评:下一个大模型产品跃迁点到来了吗?
Founder Park· 2025-04-23 20:37
产品定义与特点 - Deep Research 产品是以大模型能力为基础、集合检索与报告生成的端到端系统,能迭代搜索和分析信息并生成详细报告[4] - 与传统 LLM Search 产品相比,Deep Research 是迈向 Agent 产品雏形的跃迁,可能成为经典产品形态[6] 产品测评情况 - 测评围绕 Tool Use、Instruction Following、报告输出能力对五家 Deep Research 产品评估,Memory 因自动联网检索难以有效评估[10] Tool Use 能力 - 在线检索中 OpenAI 表现出色,在冷门电影和最新书籍检索任务中唯一成功定位正确内容[20][31] - 数据分析任务里五家产品均未成功计算出正确数值,OpenAI 和 Manus 能力成熟度较高但有偏差[35][47] - 编程任务中 Manus 表现最佳,提供完整项目文件且网页功能和美观性达标,五家产品输出分层明显[57] Instruction Following 能力 - 文献分析任务中五家产品均无法完全遵循指令,存在“选择性执行”和“对牛弹琴”情况[72] - 旅游路线设计采用六维评估体系,Google、Manus、OpenAI 得分接近满分但交通可行性有不足[107][118][123][130] 报告输出能力 - 基于商业研报场景评估,各产品能力排序为 OpenAI > Manus > PPLX = xAI >> Google,OpenAI 兼顾深度与广度[136] 总结与展望 - Deep Research 产品打破外部工具调度和需求执行平均线,但消除短板、触及天花板需市场耐心,Agent 产品下一级阶梯或更快降临[162][164]
Harvey:ARR 1亿美元、估值30亿,用Agent思路解决法律场景AI落地难题
Founder Park· 2025-04-23 20:37
Harvey公司概况 - 成立于2022年,2024年客户数量从40家增长至235家,覆盖42个国家,美国前100家律所中有28家使用其服务 [2] - 2024年ARR达5000万美元,预计8个月内将达1亿美元,D轮融资3亿美元,估值30亿美元 [2] - 收入规模与AI搜索公司Perplexity相当,入选福布斯2025 AI 50榜单 [2] - 已实现从文件审查到客户沟通的全流程自动化,可替代初级律师团队 [2] 产品定位与核心竞争力 - 定位为法律行业的AI操作系统,而非GPT套壳,早期核心竞争力是精准的引用能力 [6] - 采用复合人工智能系统,由数百次模型调用组合生成输出,主要依赖OpenAI模型 [16] - 产品设计理念是让AI更像同事而非工具,强调人机协作和引导式交互 [8][9] - 构建垂直场景的Agentic workflow,将复杂法律流程分解为可执行模块 [12] 商业化策略 - 选择先攻克顶级律所再向下渗透行业的策略,通过高度个性化演示建立信任 [26] - 采用席位制销售模式,需平衡功能普适性与专业深度 [12] - 计划从法律领域自然扩展至税务、人力资源等关联领域 [27] - 与普华永道等专业机构合作开发定制系统,利用其领域专业知识 [28] 技术架构与创新 - 注重模块化设计便于模型切换,但评估环节需投入大量资源 [17] - 建立内部法律专家团队和外部评估体系,发布Big Law Bench基准测试 [18] - 采用AI Native用户体验设计,在现有律师工具(如Word、邮件)中集成 [7] - 应用宜家效应理念,让用户参与构建过程以增强信任 [9] 数据安全与隐私 - 实施严格的"禁止训练"政策和"不接触"原则,员工无权查看客户数据 [34] - 仅使用Azure部署的模型,建立严格的外部供应商白名单 [34] - 早期组建专业安全团队,安全负责人为公司第15号员工 [34] 行业认知与挑战 - 法律领域准确性至关重要,将"幻觉"视为必须消除的缺陷而非特性 [22] - 法律工作token价值极高,50页并购协议每个词都价值不菲 [14] - 行业流程知识多未公开,需聘请领域专家梳理定义操作步骤 [33] - 评估工作需中级以上法律专业人士参与,成本占行业收入20-30% [33]