Workflow
Founder Park
icon
搜索文档
阿里Qwen3系列开源:混合推理模式、性能超越DeepSeek R1
Founder Park· 2025-04-29 11:16
以下文章来源于赛博禅心 ,作者金色传说大聪明 赛博禅心 . 拜AI古佛,修赛博禅心 今天凌晨,Qwen3 发布。 本次共开源 8 款模型,包括 2 款 MoE 模型、6 款 Dense 模型。 Qwen3 系列 在代码、数学、通用能力等方面能力表现优异, 其中 235B 版本,在基 准测试上的水平超过了 671B 的 DeepSeek R1 。 同时, Qwen3 引入了「 思考模式/非思考模式 」无缝切换的功能。 在 思考模式下, 模型逐步推理,经过深思熟虑后给出最终答案。非思考模式 下,能够 提供快速的即时响应,适用于简单问题的回答。混合推理的模式平衡了算力和输出效果。 此外, Qwen3 系列提高了 Agent 能力, 同时也加强了对 MCP 的支持。Qwen 配套了一个 Qwen-Agent 项目,可以使用 API 进行工具调用, 或结合现有的工具链进行扩展。 | | | Qwen3 | | | | | | --- | --- | --- | --- | --- | --- | --- | | | | 通义千问最新一代大模型:采用混合专家架构,具备思考与快速回答双模式,支持119种语言 | | | | ...
4 月,1000 个通用 Agent 爆发
Founder Park· 2025-04-28 19:00
Agent产品趋势 - 通用Agent技术迁移催生新形态产品如Manus、Deep Research 中国开发者迎来应用层机会[1] - 行业共识转向Agent产品化 代表性案例Genspark Super Agent发布9天ARR达1000万美元 付费用户超1万(按20美元/月计)[6][7] - 垂直领域Agent突破明显 飞猪旅行助手整合机票酒店真实数据 行程规划可达参考级精度[10][13][14] 头部Agent产品分析 - **Genspark** - 核心功能:行程规划+电话预订餐厅 新增AI幻灯片切入PPT赛道[8][9] - 商业化:付费模式验证成功 ARR达千万美元级[7] - **Fellou** - 差异化:本地化处理账号登录任务 支持小红书/抖音等平台深度搜索[17][18] - 交互设计:浏览器形态 左侧实时界面+右侧交互窗口[19] - **扣子空间** - 字节系产品 集成飞书全家桶工具 支持报告自动生成多维表格[21][22][23] - 增长策略:邀请裂变+免费策略快速获客[21] 垂直领域创新案例 - **atypica.AI** - 商业研究智能体 采用多智能体协作模式生成行业报告 参考斯坦福小镇论文[20] - **纳米AI** - 降低MCP使用门槛 预置100+免配置Server 覆盖图像生成/网页开发等场景[24][26][27] - **Trae** - 编程Agent支持MCP协议 实现Figma设计稿转HTML 可自定义专家Agent[30][31] 新兴应用方向 - **语鲸** - AI阅读助手 支持中英文RSS订阅 覆盖论文/研报等专业内容[33][35] - **动御Action&Link** - 体感游戏硬件 通过USB设备将3A游戏转化为健身场景 预售定价328元[37][39][40] - **Dia浏览器** - AI Native设计 支持多页面全局理解 上下文处理能力显著提升[43][44][46]
做浏览器、买Chrome、争AI OS,Perplexity也想「上牌桌」
Founder Park· 2025-04-28 19:00
核心观点 - Perplexity CEO Aravind Srinivas 提出公司的终极目标是构建类似 Windows、Mac、Android 或 iOS 的操作系统,认为操作系统是 AI 时代的终极战场 [2][14] - 公司计划通过推出自有浏览器「Comet」获取用户跨平台上下文数据(如交易、浏览历史),以实现深度个性化和构建 Agent 能力 [2][11][13] - 浏览器被视为构建 Agent 的最佳途径,因其具备容器化操作系统特性,可代表用户执行跨应用操作 [11][13] - 公司正通过预装合作(如 Motorola)和浏览器开发挑战 Google 在 Android 生态的主导地位 [5][6][9] 战略布局 浏览器战略 - 计划下月推出「Comet」浏览器,未来将开发 Mac 和 Windows 版本 [5][11] - 浏览器可解决移动操作系统权限限制问题,实现跨应用数据抓取与操作(如比较 Uber/Lyft 价格) [11] - 通过浏览器获取用户交易记录、购物历史等跨平台数据,建立比 ChatGPT 更深入的个性化能力 [13] 合作与分销 - 与 Motorola 达成预装合作,新款 Razr 手机将预装 Perplexity 应用,潜在覆盖数百万用户 [5] - Google 通过 Play Store 权限施压 OEM 厂商(如要求默认 Gemini),但反垄断审查为公司创造合作机会 [6][7] - 正与电信运营商、OEM 厂商洽谈合作,计划复制 Google/Microsoft 的预装模式 [9] 技术架构 - 在 iOS 端使用 Apple EventKit SDK 集成提醒、播客、地图等功能,但无系统级控制权限 [10] - 当前 Agent 能力聚焦于信息检索(如歌曲、视频推荐),而非基础功能(如设置闹钟) [10] - 需利用前沿推理模型快速积累用户数据,通过数据压缩降低未来运营成本 [16] 行业竞争 - OpenAI 被曝研发自有浏览器,Google 可能被迫出售 Chrome(Yahoo/OpenAI/Perplexity 均有意收购) [3][5] - ChatGPT 通过「登录集成」策略获取用户数据,但缺乏跨平台上下文信息(如 Amazon 购物记录) [12][13] - Microsoft Copilot 凭借 Windows 预装优势占据市场,尽管技术评价不及 Perplexity [9] 其他动态 - 正以 180 亿美元估值融资,资金将用于加速 Agent 技术研发 [16] - 参与 TikTok 竞购但成功率低,主要障碍是字节跳动不愿放弃算法控制权 [17] - 已改善与出版商关系,抓取数据时严格遵守 robots.txt 协议 [15]
2024年Google SEO成功与失败案例分析
Founder Park· 2025-04-27 21:06
Programmatic SEO (PSEO) 策略分析 核心观点 - PSEO策略在AI时代成为重要流量获取手段 但实施方式不同导致结果差异显著 有的网站流量暴涨10倍 有的遭遇断崖式下跌 [4] - 成功案例显示 当PSEO内容对用户真正有用且符合谷歌政策时 可有效提升搜索排名和流量 [8] - 失败案例多因触发"大规模内容滥用"政策 尤其是抓取拼合其他网站内容的行为 [55] 赢家案例分析 CK-12 Foundation - 非营利教育平台 提供免费STEM在线教育资源 通过慈善捐赠维持运营 [9] - 2024年1月起Organic流量从350万/月飙升至3500万/月 实现10倍增长 [16] - /flexi/目录贡献92.54%流量 该目录含157460个AI生成的教辅问答页面 引流效率达78.8 [20] - 传统教材页面流量持续下降 显示纯知识解释型内容引流效率低下 [23][24] QuillBot - AI写作工具 提供释义/语法检查/翻译等功能 主要用户为学生和内容创作者 [28] - 2024年3月至2025年3月 月流量从3860万增至7540万 实现翻倍增长 [34] - Tools页面贡献46.82%流量 Blog页面贡献31.5% 后者内容为人工优化的语言用法解析 [35][40] - 多语言内容实现真正本地化 非简单英文翻译 体现专业SEO投入 [44] 输家案例分析 Point2Homes - 房地产平台 提供出租房源信息 注册于2005年 [62] - 2024年11月流量从33万/月暴跌至3.3万/月 降幅90% [62] - 内容模式为抓取拼接其他平台数据 缺乏原创性和外链引用 [64] PublicSchoolReview - 美国公立学校信息平台 含10万所学校数据 成立于2003年 [70] - 流量从高峰91万/月跌至4500/月 仅存0.5% [71] - 内容构建方式与Point2Homes类似 依赖第三方数据拼接 [73] 最佳实践总结 - 避免抓取拼接内容 即便老站也会受惩罚 [80] - AI生成内容需人工审核 注重内链建设和用户体验 [80] - 工具着陆页(Tools Landing Page)是最佳实施方向 需产品功能支撑 [80] - 多语言内容需深度本地化 非机械翻译 [80]
Arc浏览器创始人专访:复盘Arc得失,想用Dia重新定义AI浏览器
Founder Park· 2025-04-27 21:06
核心观点 - Dia 是目前用户实测中体验反馈效果最好的 AI 浏览器之一,其核心构建理念是将 AI 作为驱动,打造全新的浏览环境 [2][3] - 公司从 Arc 浏览器转向 Dia 的研发,更注重易用性和简约设计,目标是吸引更广泛的用户群体 [7][8] - 公司推崇「少讨论多原型」的产品开发模式,通过自下而上的原型推动创新 [16][19] - 浏览器作为日常刚需,多年来缺乏创新,公司希望通过新技术改变这一现状 [20][22] 产品理念与设计 - Dia 不同于其他在已有浏览器上添加 AI 功能的产品,而是以 AI 为核心构建全新浏览环境 [3] - Arc 浏览器虽然拥有上百万高粘性用户,但存在复杂难懂的问题,Dia 旨在解决这一问题 [8] - 公司认为未来的软件应该是「一人一物」、量身定制,且在设备本地保护用户隐私 [17] - 浏览器不仅是工具,更应成为用户在互联网上的「家」,但目前仅实现了表面个性化 [15] 开发模式与文化 - 公司采用「少说多做」的文化,通过原型推动产品开发,六周为一个周期进行迭代 [16] - 开发过程中注重跨职能小组合作,给予团队自由探索的空间 [16][17] - 公司从 Arc 的开发中吸取教训,不再被用户反馈过度牵引,而是更明确目标用户 [13] - 创始人认为科技行业充满不确定性,公司采取边走边看的策略应对未知 [24] 市场与用户策略 - Dia 的目标用户与 Arc 不同,旨在吸引更广泛的群体,但具体定位仍在摸索中 [7][8] - 公司在新产品推广上采取放低姿态的策略,减少过早的产品讨论 [11] - 市场营销注重打破预期、制造惊喜,通过有趣内容吸引用户主动分享 [11] - 公司认为建立用户信任需要展现真实和不完美的一面,通过产品传递价值观 [24] 技术实现 - 公司不开发底层大模型,而是针对特定功能对模型进行微调,形成数据飞轮 [19] - 技术实现的关键是交互设计,注重用户体验和界面友好性 [19] - 新技术如自然语言处理和语音输入为浏览器个性化提供了全新可能性 [15] - 行业对 LLM 的过度讨论掩盖了技术真正价值,公司更关注产品易用性 [9]
阶跃星辰开源图像编辑模型Step1X-Edit:一键改图大师,性能达到开源SOTA
Founder Park· 2025-04-27 12:05
模型发布与性能 - 阶跃星辰发布开源图像编辑大模型Step1X-Edit,总参数量19B(7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力 [2] - 模型支持11类高频图像编辑任务,包括文字替换、风格迁移、材质变换、人物修图等,性能达到开源SOTA水平 [2][5] - Step1X-Edit在GEdit-Bench基准测试中,语义一致性、图像质量与综合得分三项指标全面领先开源模型,接近GPT-4o与Gemini 2.0 Flash [5][40] 核心技术架构 - 采用MLLM(多模态大语言模型)与DiT(Diffusion Transformer)解耦架构,分别负责自然语言理解与高保真图像生成 [29] - MLLM模块解析复杂指令生成latent控制信号,Diffusion模块执行图像重构与局部修改,提升指令泛化能力与图像可控性 [32] - 架构突破传统pipeline模型限制,实现"理解"与"生成"协同,复杂编辑任务准确性与控制力显著提升 [30] 训练数据与评测 - 构建2000万条图文指令三元组训练数据集,最终保留超100万高质量样本,覆盖11类核心任务且分布均衡 [34] - 在GEdit-Bench评测中,Step1X-Edit综合得分7.161(Intersection subset)和7.104(Full set),显著优于Instruct-Pix2Pix(4.655/4.576)等开源模型 [41] - 自研评测基准GEdit-Bench基于社区真实编辑请求设计,模型在11类细分任务中均保持高质量输出,通用性突出 [37][39] 应用场景与案例 - 支持自然语言驱动的复杂组合指令,如多轮编辑、文字识别重构,适用于虚拟人、电商模特等高一致性场景 [12] - 演示案例包括风格转换(如"戴珍珠耳环的少女")、物体替换(月饼变包子)、海报文案修改("GREEN"改"阶跃AI")等 [16][18][22] - 已上线阶跃AI官网(stepfun.com)和App,提供网页端与移动端体验 [6][13] 开发者生态 - 通过GitHub、HuggingFace、ModelScope等平台开源模型,提供技术报告与体验地址 [4] - Founder Park搭建开发者社群,提供模型测试、资源对接及产品宣传支持 [9][11]
王登科:我的朋友谢扬,他的Fellou,以及这个时代的创业者
Founder Park· 2025-04-26 19:44
AI浏览器产品Fellou - Fellou定位为全球首个Agentic Browser,基于AI技术实现跨网页和系统的自动化操作,包括数据采集、表单填写和报告生成等一站式服务[5] - 创始人谢扬为95后连续创业者,曾创立身份云平台Authing并成功融资数亿元人民币,后转型AI领域[8][9] - 产品呼应创始人2019年创业初期对极致效率的追求,是其AI战略的首个落地项目[14][18] 创始人创业历程 - 谢扬2019年创立Authing初期融资困难,半年后获奇绩创坛投资,后续累计融资达数亿元人民币[8] - Authing在2B领域取得商业成功,但2022年面临业务转型压力,公司经历裁员和办公场地缩减[9][13] - 2023年大模型技术兴起后,创始人启动新AI项目Fellou,组建团队并频繁接触开发者资源[14] - 创始人展现出极强的执行力和目标导向,曾赴美寻求融资并保持高强度工作节奏[14] AI行业竞争格局 - Fellou面临与Manus等同类AI Agent产品的市场竞争,后者已率先获得市场认知度[18][25] - 行业涌现一批90后创业者转型AI领域,包括Fellou和Manus创始人,均经历过上轮互联网创业周期[25][27] - 新一代创业者普遍具备技术背景,注重产品创新与效率提升,形成差异化竞争策略[27] 技术发展趋势 - AI Agent技术成为行业热点,主要应用于提升人类工作效率的垂直场景[18][30] - 大模型技术推动传统业务转型,头部企业探索AI与传统业务结合的新模式[14] - 开发者生态建设成为竞争关键,企业通过社群运营获取早期用户和技术反馈[5][6]
Windsurf团队科普Agent:不是什么都叫智能体!
Founder Park· 2025-04-25 21:29
Agent核心概念解析 - Agent系统本质是「LLM+工具」的循环结构 接收用户输入后交替调用推理模型和工具 推理模型决定行动步骤 工具执行具体操作并将结果反馈至信息流[5][6] - 推理模型的核心功能是选择工具和参数 而非单纯生成内容 其输出包含行动原因解释和结构化参数指令 工具则独立于LLM 涵盖计算器 系统时间等非文本功能[6][8] - 典型误用场景包括将思维链提示(CoT)等同于Agent推理 或混淆AI工作流与Agent系统 前者是LLM内部思考过程 后者是预设流程缺乏实时工具决策能力[8] Agent系统优势与分类 - 协作式Agent通过人类实时干预降低可靠性门槛 当前主流应用如Windsurf Cascade GitHub Copilot Workspaces均采用此模式 与完全自主Agent形成技术路径差异[16][17] - 工具集成弥补LLM短板 如数学计算 实时数据获取等 使系统能力突破文本生成限制 同时支持状态改变类操作(如发送短信) 超越RAG系统的信息检索范畴[12] - 发展历程显示 Copilot式单次调用系统率先落地 而AutoGPT(2023)和Devin等自主Agent受限于端到端可靠性 尚未大规模普及[13][15] Agent系统构建关键问题 - 工具生态决定能力边界 需评估工具独特性(如Windsurf网页解析技术)和扩展性 同时数据访问需平衡范围与控制 如代码库访问深度影响效果但增加权限复杂度[22][23] - 延迟优化涉及全技术栈 包括模型推理加速 提示工程缓存 工具并行化等 需权衡质量与响应速度 高延迟会放大失败成本[26] - 用户体验设计包含意图捕捉(隐式信号利用) 改动可视化审查(如IDE多文件修改) 以及非Agent功能融合 避免过度Agent化简单任务[24][27][29] 行业发展趋势 - 「苦涩的教训」警示过度依赖人工设计的风险 算力增长可能使定制化提示 工具选择等投入失效 需保持技术路径灵活性[31] - 协作式Agent现阶段更符合商业落地需求 因其降低了对LLM绝对可靠性的依赖 通过人机协同实现可控产出[17][19]
OpenAI教你做Agent:2025年,评估标准和如何产品化是Agent的重点
Founder Park· 2025-04-25 21:29
AI Agent技术演进 - 2024年至2025年AI agent的行动能力和交互方式发生质变,头部模型厂商将agentic能力融入模型,成为模型竞赛重点之一 [2] - agent获取信息方式从单次搜索决策模式转变为完全自主的Deep Research模式,能同时打开多个网页节省时间 [3] - OpenAI判断agent可调用的工具数量将在几个月内从10个量级扩展到100个量级 [4] - multi agent系统具备更高可控性和优化潜力,通过任务分拆提升整体工作效率 [5] - vertical agent将直接受益于multi-agent系统发展 [6] 开发者工具与评估 - 开发者需要构建agent评估微调飞轮,通过强化微调能力让模型找到正确tool use路径 [7] - 评估器需能将模型输出与权威资料对比或执行代码验证数学正确性,而非简单字符串比对 [8] - 强化微调方法可推动模型在特定行业深入应用,实现专业化能力提升 [20] - 目前AI领域核心问题是评分机制,如何构建高质量任务和评分器成为重要课题 [21] Computer Use创新 - Computer Use处于早期阶段,VM(虚拟机)需要开发者填补空白,可能出现专门做iPhone VM的公司 [10] - computer use应用场景包括无API的传统软件系统自动化,如医疗行业手工操作和Google Maps街景分析 [22] - BrowserBase和Scrapybara等公司提供computer use模型托管服务,开发者可便捷访问底层控制 [25][26] - Arc浏览器开发的Dia项目将agent深度集成到浏览器中,成为浏览器本身的一部分 [29] 开发者实践与API设计 - multi agent系统通过任务分拆使调试更独立,降低修改风险 [31][33] - OpenAI采用"阶梯式API"设计理念,平衡易用性与可定制性,如向量搜索默认配置可逐步调整 [34] - Assistants API的tool use功能(如文件搜索)找到市场契合点,但使用门槛过高需优化 [36] - Responses API优化多轮交互体验,与MCP生态互补,需深入思考如何更好整合 [37] 行业应用与前景 - AI infra公司垂直化发展仍有市场需求,如Runloop AI为AI coding初创企业提供测试虚拟机 [38] - computer use在网络安全领域应用,如探测网站系统漏洞 [42] - 模型在科学研究领域应用被低估,可能加速科研进程 [53] - 旅游行业存在创新机会,期待AI agent打破传统格局 [56]
外媒爆料:Manus完成7500万美元融资,估值近5亿美元、比上轮增长5倍
Founder Park· 2025-04-25 16:27
融资与估值 - Manus完成由Benchmark领投的7500万美元融资,估值增长约五倍至接近5亿美元[2][4][5] - 上一轮融资后估值约为1亿美元,由腾讯和红杉中国领投,真格基金为早期支持者[9] - 公司计划利用新资金扩展至美国、日本和中东市场[2][4] 产品与技术 - Manus是一款能操作电脑的AI Agent,可执行旅行预订、股票分析等任务,通过浏览多个网站完成[5] - 使用Anthropic的Claude AI模型,平均每个任务支付2美元,发布两周内花费超100万美元[3][9] - 公司还运营Monica.im产品,整合OpenAI、Anthropic、Google和DeepSeek的模型生成文本、图像和视频[9] 市场表现与需求 - Manus在美国迅速走红,beta版发布几天后吸引科技高管和AI开发者关注[5] - 超过260万人排队等待邀请码,服务器容量和运营成本限制用户增长[3][9] - 推出每月39美元订阅和199美元高级选项,定价与ChatGPT Pro相当[9] 战略与扩张 - 公司定位Manus为面向中国以外用户的产品,美国为主要目标市场[9] - 因中国用户需求增加,将与阿里巴巴合作使用国内AI模型提供本地服务[9] - 计划在东京设立首个海外办公室,员工不足80人,日本被视为关键市场[9] 行业背景 - DeepSeek的成功提升美国对中国AI产品的兴趣,其模型性能媲美OpenAI且成本更低[8][9] - 中美科技竞争背景下,美国对华AI投资受限,但公司因专注应用层可能不受影响[8]