Workflow
Founder Park
icon
搜索文档
现在全世界最好的开源模型,是 Kimi、DeepSeek 和 Qwen
Founder Park· 2025-07-21 21:26
中国开源模型全球竞争力 - Kimi K2成为全球最强开源模型 在LMArena开发者盲测榜单中占据榜首 中国开源模型包揽前三名 包括Kimi K2、DeepSeek R1和Qwen 3 [1] - Hugging Face平台数据显示 Kimi K2发布后迅速登顶热门模型榜首 并持续超过一周 [5] - 发布仅3天 Kimi K2的第三方token调用量已飙升至开源模型第二 仅次于DeepSeek [4] 技术性能与社区反响 - Kimi K2是1T参数的MoE模型 发布后一周内基于其fine-tune和量化的衍生模型达20个 下载量超14万 超越Llama-4-Maverick-17B等竞品 [7] - 在Imarena竞技场排名中 Kimi K2位列第五 是评分最高的开源模型 超越DeepSeek R1 前四均为闭源旗舰模型如Gemini 2.5和GPT-4.5 [9] - Perplexity CEO宣布基于K2进行post-train 成为继Llama 3.3后第二个获此待遇的非推理模型 [9] 行业生态应用 - VS Code、Cline、Cursor等主流AI Coding软件已官方接入K2模型 在Claude和Gemini被封锁的大陆市场成为关键替代方案 [10] - OpenRouter平台数据显示 K2发布后周调用量迅速超越Grok 4 位列第十 [10] - 硅谷科技媒体将K2发布比作"下一个DeepSeek时刻" 认为其编程和工具使用得分亮眼 具备实际应用潜力 [11][13] 国际行业评价 - Anthropic联创Jack Clark评价K2为"目前全球最佳开源权重模型" 性能接近西方顶级闭源模型 [12][13] - Exponential View认为K2标志着中国AI技术的"东方红一号时刻" 其MuonClip优化器实现算法突破 训练效率达AdamW的两倍 [14] - 艾伦研究所指出 美国开源模型已落后 中国形成DeepSeek、Qwen和Kimi三驾马车引领格局 [16][17] 开源战略价值 - 开源成为国内基模公司的必选模式 通过社区协作加速迭代 同时获得技术认可和资源支持 [19][21] - 模型公司通过开源建立技术标杆 吸引开发者生态 形成不同于DAU/ARR的新价值评估体系 [20][22] - 月之暗面团队认为开源能降低研发成本 使公司更专注于下一代模型开发 形成正向循环 [22]
Meta AI 梦之队成员背景大盘点,44 人中近一半为华人研究员
Founder Park· 2025-07-21 21:26
Meta AI团队人才构成 - 团队44人名单中40%来自OpenAI,20%出自DeepMind,15%来自Scale AI [1][5] - 华人研究员占比50%,75%成员拥有博士学位,70%曾任职研究员 [5][7] - 核心成员包括VP级高管如Nat Friedman(前GitHub CEO)、Yann LeCun(深度学习先驱)及多名OpenAI/DeepMind前技术骨干 [2] 华人研究员背景分析 - **教育背景**:22位华人中14人本科毕业于清华/北大/中科大等国内顶尖院校,10人拥有MIT/斯坦福/伯克利等名校博士学位 [8][12][16][26][31][34][38][41][44] - **技术专长**:覆盖视觉语言模型(Chenxi Liu)、扩散生成(Chunyuan Li)、多模态对齐(Haotian Tang)、Transformer架构(翟晓华)等前沿领域 [13][16][18][35] - **职业路径**:90%曾任职OpenAI/DeepMind/谷歌,部分如Rui Hou参与Llama系列开发后回归Meta [29][40][42] 人才争夺策略 - 提供"算力无上限"承诺,计划投入数百亿美元建设吉瓦级GPU集群(Prometheus+Hyperion),支持700万张H100同时运行 [49][52][54] - 采用限时答复机制并开出3亿美元挖人预算,但10位OpenAI员工仍拒绝加入 [4][47][48] - 通过收购团队(如OpenAI苏黎世办公室)快速扩充技术实力,ViT核心作者集体加盟 [36][37] 行业竞争动态 - Meta与OpenAI展开算力军备竞赛:OpenAI计划部署100万GPU(700MW功率),Meta目标2026年建成1GW集群并2030年扩展至5GW [52][54] - 人才流动呈现"OpenAI→Meta"趋势,多名参与GPT-4o/Gemini的核心开发者转投Meta [51] - 薪酬之外的研究资源(如GPU访问权限)成为顶尖AI人才择业关键因素 [48][50]
16 个月、45 万资金投入,一款 AI 社交产品的创业失败复盘
Founder Park· 2025-07-20 00:26
创业项目概述 - 项目名称为"抱抱窝",定位为情侣AI社交工具,核心功能包括情侣IM聊天、AI智能机器人参与对话、协同编辑笔记及AI自动更新笔记内容 [3] - 项目历时1年4个月,累计35人兼职/实习参与,2人全职投入21个月,总资金消耗约45万元 [4] - 最终因无力迭代和推广运营而终止,APP完成开发但未实现PMF验证 [4][36] 创业方向选择 - 创始人从两个方向中筛选:A 情侣IM互动AI应用(基于14年婚恋调研经验及19年未遂创业) B 书籍/TED内容整理AI工具 [10][11] - 选择方向A的核心依据:情侣场景高频高信息量(微信渗透率不足10%)、商业化潜力大(付费场景多)、信任度高可迁移性强 [12] - 调研显示:303份样本中1.59%用户强烈需要聊天机器人功能,34.92%完全不需要,需求分化明显 [29][32] 产品功能设计 - 核心模块: - 数字分身陪伴(解决时空差异,支持预设内容/声音定制/虚拟币补偿) [20][21] - 休闲游戏(漂流小窝场景联动聊天内容、AI主持互动游戏) [18] - 情侣抽奖系统(商家合作提供实物奖励+游戏货币补偿) [25][26] - 婚恋咨询服务(基于历史聊天数据提供专业咨询参考) [28] 团队构建历程 - 初期通过小红书/脉脉等平台招募24人兼职团队,含UI/产品/前后端/AI工程师,但流动性高 [38] - 中期转为全职合作:1名技术合伙人占股不足35%,后续补充4人开发组及实习生 [39][41][44] - 团队接触总量达2.5万人,最终形成5人核心团队但客户端人才始终缺失 [46][47] 时间与资金管理 - 原计划1年周期/50万预算,实际延期至16个月 [48] - 关键节点延误:APP首版延迟至25年2月上架,主流程4月才可用,6月修复主要bug [48] - 资源错配:过度投入UI打磨和新功能(如经营模拟游戏),导致AI调优被搁置 [49][50] 核心反思 - 方向选择缺陷:未采用标准化筛选方法论(如影石"三标准":痛点真实性/市场毛利/百亿规模) [34][35] - PMF验证缺失:未通过视频demo/付费排队测试验证需求,陷入"过早优化"陷阱 [36][37] - 商业闭环薄弱:虽认定赛道付费潜力大,但未明确具体盈利结合点 [36] - 团队结构失衡:技术股权占比不足,联创全职覆盖不全,缺乏客户端核心成员 [47]
来自 Manus 的一手分享:如何构建 AI Agent 的上下文工程?
Founder Park· 2025-07-19 02:51
技术路线选择 - 公司选择基于上下文工程而非端到端模型训练,实现几小时内发布改进而非数周迭代[3] - 历史教训显示自研模型易被前沿技术颠覆,如GPT-3与Flan-T5使早期开放信息抽取模型失效[3] - 采用"随机梯度下降"方法四次重构智能体框架,通过手动架构搜索优化上下文塑造[4] KV缓存优化 - KV缓存命中率是核心指标,Claude Sonnet缓存/未缓存的token成本相差10倍(0.3 vs 3美元/百万token)[6][7] - 智能体输入输出token比例达100:1,需保持提示前缀稳定、上下文追加式更新、标记缓存断点提升效率[6][11] - 动态增删工具会破坏KV缓存,应通过上下文感知状态机屏蔽logits而非移除工具[10][12] 上下文管理策略 - 将文件系统作为外化记忆,支持按需读写解决128K上下文窗口限制,保留URL/路径实现可还原压缩[17][19][23] - 通过复述机制(如todo.md文件)操控模型注意力,50次工具调用任务中避免目标偏离[24][27] - 保留错误内容可提升智能体适应性,失败行动记录能降低重复错误概率[28][31] 提示工程实践 - 少样本提示需引入结构化变化防止模式固化,动作/观察序列采用不同模板打破重复性[32] - 函数调用支持Auto/Required/Specified三种模式,通过统一工具前缀实现状态无关约束[15][20] - 上下文工程决定智能体行为边界,需平衡模型原生能力与环境反馈[33][34]
MiniMax 技术闭门会分享:长上下文是 Agent 的 Game Changer
Founder Park· 2025-07-19 02:24
MiniMax M1技术研讨会核心观点 - MiniMax举办全球M1技术研讨会 聚焦模型架构创新、RL训练、长上下文应用等前沿领域 邀请全球顶尖学者及企业嘉宾参与[1][2] - 会议探讨RL能力边界、预训练数据价值、视觉推理瓶颈等关键技术挑战 并展示混合注意力架构的实践突破[6][8][11][19] - 长上下文窗口被视为Agent领域的game-changer 可解锁法律合规分析、客户洞察等企业级应用场景[15][16][17] 强化学习(RL)能力边界 - RL在有限上下文长度下能赋予模型新能力 通过改变输出分布使原需10W token解决的问题压缩至10K token[6] - pass@k指标有效性取决于定义方式 无限次尝试通过率反映基础能力 特定次数通过率反映实用性能[7] - Reward建模是RL扩展核心瓶颈 非结果导向的奖励信号(如主观感受)缺乏有效建模方法[7][13] 预训练数据价值 - 预训练本质是RL特例 当前最大价值在于接触多样化数据分布 弥补RL训练数据分布狭窄缺陷[8] - 仅数学/代码RL训练会加剧幻觉 需构建WebInstruct-verified等通用数据集 已扩展至50万量级[10] - mid-training阶段引入RL成为新范式 通过检索预训练数据获取多样化RL数据[10] 视觉推理突破方向 - 现有视觉编码器处理高分辨率图像能力弱 需依赖zoom-in等增强感知的权宜方案[11] - 根本瓶颈在于像素编码与潜在空间推理 需发展latent reasoning技术应对空间思考需求[12] - 图像生成技术(如几何辅助线)代表更高级的"用图像思考"方式 但尚未有成功案例[11] RL前沿挑战领域 - 超越结果评估的Reward建模将极大扩展RL应用场景[13] - 多智能体系统受限于基础设施 需构建AI模型交互训练环境[13] - AI自动化研究(模型自我训练)与AGI发展密切相关[13] 长上下文应用价值 - 1M token窗口可一次性处理完整案件历史 解决法律行业分块处理遗漏关键细节问题[17] - 企业级应用集中在法律合规分析(合同审查)、客户研究洞察(问卷总结)、收入报告自动化三大场景[17][18] - 技术支持与知识管理领域需求显著 可提升工单处理、内容更新等流程效率[18] 混合注意力架构优势 - 混合架构结合线性注意力效率与Full Attention灵活性 成为主流设计方向[19] - MiniMax Text-01验证混合模型潜力 推理速度较传统模型提升一个量级(10万token请求响应从1分钟降至4-5秒)[20][22] - 需构建混合分配器、批处理重叠等技术解决GPU利用率不平衡问题[21][22] 混合架构实践洞察 - RL训练曾因线性注意力不稳定性停滞 修复后证明混合模型可通过适当算力匹配Full Attention性能[23] - 评估应基于固定计算预算下的性能 而非固定输出长度 更反映真实效率[24] - 工程挑战包括计算图优化部署困难 需开发统一抽象层支持缓存复用[21] System2推理本质 - 高级推理能力源于计算资源扩展 体现为自动化Prompt Engineering替代人工分步指令[25] - 写作等任务中模型自动拆解专业步骤 通过延长推理路径实现"专家式思考"[25] - 本质是计算预算高效利用与问题自动深化的结合[26]
OpenAI核心研究员:比提示词工程更重要的,是spec-writing
Founder Park· 2025-07-18 19:37
核心观点 - 程序员最有价值的技能已从编写代码转变为精确向AI传达意图的能力,完善的规范成为真正的「源代码」[1][3][19] - 软件工程的本质演变为人与AI之间的结构化沟通,沟通能力将成为程序员的核心竞争力[3][6][12] - 规范比代码更具价值,因其完整包含生成代码所需的前提和意图,且可跨平台生成多种输出形式[13][17][18] - 规范可直接用于AI模型训练,通过自动化对齐机制将人类意图「压入」模型权重[27][29] - 未来IDE将演变为「集成思维澄清器」,帮助开发者更有效地表达意图[33][34] 编程价值转变 - 代码仅占程序员创造价值的10%-20%,其余80%-90%在于结构化沟通[6] - 先进AI时代下,沟通能力最强的人将成为最有价值的程序员[12] - 「氛围感编程」体现沟通优先理念,代码仅是沟通的下游产物[12] - 当前开发流程存在本末倒置现象:保留生成代码却丢弃包含意图的提示词[13] 规范的核心优势 - 规范能完整捕捉意图和价值观,使团队在共同目标上达成一致[13][17] - 代码是从规范的有损投射,关键信息在转换过程中易丢失[17] - 单份规范可生成TypeScript代码、Rust服务器、客户端应用、文档等多种输出[18] - 规范采用Markdown格式,具备人类可读、版本可控、跨部门协作等特性[23] 规范与AI训练 - OpenAI模型规范通过唯一ID关联测试用例,内嵌成功标准[23] - 规范可解决「谄媚问题」,明确禁止模型为讨好用户而牺牲客观事实[25] - 通过「审议对齐」机制,用裁判模型根据规范为回答打分,强化模型权重[27] - 规范具备可组合、可执行、可测试、可审查四大技术特性[28][35] 行业应用前景 - 法律体系可视为国家层面的模型规范,司法审查类似单元测试机制[30] - 未来立法者与程序员角色可能融合,均从事意图对齐工作[31] - 产品经理、业务分析师等非技术角色通过编写规范参与编程[31] - OpenAI已成立Agent稳健性团队,专注规范驱动的AI安全演进[34] 工具演进方向 - 未来IDE将转型为「集成思维澄清器」,实时检测规范模糊性[34] - 开发流程应遵循「规范先行」原则,明确效果预期和成功标准[33] - 需要建立既满足机器处理又适应人类复杂需求的规范标准[34]
4人团队,连做两款AI教育爆款,AI时代小团队创业取胜指南
Founder Park· 2025-07-18 19:37
公司概况 - Oleve是一家AI初创企业,团队仅有4人,但实现了600万美元(约合4300万元)的年化收入 [3] - 公司背后有多个天使投资人支持,包括Neo、Slack联合创始人Cal Henderson、Cognition总裁Russell Kaplan以及Tinder前CTO Maria Zhang [3] - 公司旗下有三款产品,其中两款是学习应用:Quizard AI(拍搜答疑工具)和Unstuck AI(AI辅助整理课堂笔记) [3] - Unstuck AI一度排到了教育应用排行榜的第三位,仅次于Gauth和Duolingo [3] 产品表现 - 首款产品Quizard于2023年1月从大学宿舍推出,9个月后实现盈利 [9][17] - Quizard是一款AI答疑应用,面向高中生和大学生等群体,只需拍下数学题就能提供答案和讲解 [10] - 第二款产品Unstuck AI在2个月时间获得100万用户,帮助学生整理课堂笔记并解答问题 [19] - 第三款产品规划3周后上线并已盈利,但未透露具体名称 [35] 营销策略 - 采用病毒营销方式,产品在各大社交平台累计获得超过5亿次观看量 [7] - Quizard推出时在Tiktok用"如果ChatGPT和Photomath有了孩子"概念视频宣传,一夜之间获得100万次观看,30小时内转化1万用户 [13][14][15] - 2023年秋季在著名大学开展街头采访营销活动,在TikTok搜索哈佛大学等关键词时前几个视频都是其内容 [18] 团队运营 - 团队采用"精益增长"策略,有6条核心原则 [26][27][28][29][31][32][33] - 只招聘具有多重互补技能的10倍效率人才,如产品工程师是全栈开发者还具备产品思维 [27] - 将盈利能力放在首位,以能否产生利润作为决策主要依据 [28] - 每个成员负责一个KPI,专注于每周推动自己的指标 [29] - 持续改进流程,将失败视为系统性失败以建立反馈循环 [31] - 使用"超级工具"整合工作流程,如用Launch Darkly作为手动流量负载均衡器 [32] - 投资技术策略和运营蓝图建立复合效益,使成功经验快速复用 [33][34] 技术应用 - 使用OpenAI的Codex模型时通过提示工程使其能进行开放领域自然对话 [23][24] - 后来转向付费的GPT-3.5,推动更加重视产品变现 [25] - 构建AIagent自动化营销流程,持续监控分析社交媒体趋势 [36] - 将AI集成到产品决策流程中,使用智能系统研究新市场和产品机会 [36] - 正在构建三阶段自动化系统:工具增强→工作流自动化→自主决策系统 [36]
Kimi 员工复盘 K2:为什么聚焦 Agent、为什么开源,为什么选择 DSV3 架构?
Founder Park· 2025-07-18 17:39
核心观点 - Kimi K2 作为月之暗面首个开源旗舰模型,凭借万亿参数 MoE 架构、Agent Tool Use 和 Coding 能力创新,成为 LMArena 竞技场排名第一的开源模型 [1][2] - 模型通过 RLVR 和自合成工具调用数据实现 Agent 能力突破,并首创「前端编程」交互范式,超越传统 ChatBot 体验 [7][10][11] - 开源策略推动技术生态共建,同时倒逼模型通用性提升,避免闭源服务的「workflow 粉饰」陷阱 [13][14][15] 模型性能与市场表现 - LMArena 竞技场排名显示 K2 以 1420 分位列开源模型第一,超越 DeepSeek-R1(1415 分)和 Claude Opus 4(1420 分)[2] - Cursor、Cline、VS Code 等主流开发工具快速接入,验证其 Coding 能力获行业认可 [1][3] - 采用 384 专家 MoE 架构,在保持激活参数量 32B 不变前提下,总参数量达 DSv3 的 1.5 倍,实现更低训练 loss [22][23] 技术创新 Agent 能力 - 通过 RLVR 训练和 MultiAgent 合成工具调用数据,激发预训练模型潜藏的 API 使用能力 [7][8] - 定义 Agentic Model 标准流程:动态生成 toolset、环境反馈、错误重试等交互轨迹 [9] - 首创「artifact-first」交互范式,将 AI 输出从 Markdown 升级为可交互前端应用 [10][11] 架构优化 - 继承 DSv3 结构基础,调整 attention head 数至 64,减少 QKVO projection 50% 访存量(5GB→2.5GB)[24][26] - 首层保留 dense 结构,后续全用 MoE,解决 router 负载均衡问题 [28] - 取消 expert 分组,采用动态重排方案提升路由自由度,组合空间扩大 1.5 倍 [29][30] 开源战略 - 开源 24 小时内涌现 MLX 实现、4bit 量化等社区贡献,加速技术生态建设 [13] - 倒逼模型通用性,避免闭源服务依赖「数十模型+数百 workflow」的取巧方案 [15] - 通过第三方复现验证模型真实能力,推动 AGI 技术标准统一 [14][15] 行业竞争 - 在 DeepSeek-R1 爆火后明确「硬实力优先」路线,停止市场投流仍保持自然增长 [17][18] - 指出当前 Agent 产品过度依赖 Claude 3.5 的局限性,强调基础模型决定智能上限 [19] - 模型结构设计兼顾成本控制,训练推理成本与 DSv3 持平但性能显著提升 [20][30]
OpenAI 发布 ChatGPT Agent:已向付费用户开放,与 Manus 相似
Founder Park· 2025-07-18 11:19
文章核心观点 - AI 2025年的核心主题是Agent模式,标志着从"动嘴"到"动手"的转变,AI将直接完成复杂任务[1][35] - OpenAI推出的Agent模式整合了Operator和Deep Research工具,实现虚拟机内自主操作浏览器、终端等工具完成实际工作[2][15][18] - 该模式完成复杂任务(如婚礼策划、商品设计下单)仅需10-25分钟,效率显著高于人工[12][13][14] - 使用工具后模型在Humanities Last Exam测试得分提升至42%,接近Grok 4 Heavy的45%[22][23] - Agent时代将重塑人机关系,带来隐私安全、工作替代等社会挑战[33][36][37] Agent模式功能 - 可调用文本浏览器、可视化浏览器和终端三种工具,自主切换完成信息检索、图像处理、代码运行等[6][7] - 演示案例包括:婚礼策划(10分钟生成服装/酒店/礼物全套方案)、宠物周边设计下单(调用Image Gen API)、旅行攻略制作(25分钟生成电子表格+地图)[10][12][13][14] - 支持任务中途插入新需求,允许用户实时交互和手动接管[5] 技术实现路径 - 由Operator(图形界面操作工具)和Deep Research(深度调研工具)融合而成,解决单一工具局限性[15][17] - 通过强化学习训练工具使用策略,初期笨拙尝试所有工具,后期学会最优工具组合(如创意作品先搜索→终端编码→浏览器验证)[20][21] - 在WebArena和SpreadsheetBench测试中接近人类水平,网页操作能力尤其突出[30] 商业化进展 - 开放范围扩大至Plus/Team用户,每月提供40次使用额度,相比此前Pro用户优先策略更具普惠性[3] - 执行效率显著提升:复杂报告生成时间从小时级压缩至10分钟级,预订类任务7分钟可完成[12][17] 行业影响 - 可能催生Agent应用生态,但也对Manus等第三方开发者形成竞争压力[32] - 将重新定义白领工作效率标准,可能加速某些岗位的自动化替代[37] - 需要建立新的安全规范应对虚拟机操作带来的隐私风险(如信用卡信息泄露)[33][34]
AI Video Is Eating The World,创作者、创业者的机会在哪?
Founder Park· 2025-07-17 19:25
AI视频生成行业趋势 - AI视频生成技术正在重塑短视频创作生态,大量低门槛AI生成内容(如切水果、宠物小剧场)催生了全新的去中心化IP商业化模式,首个被Netflix收购的AI原生IP可能即将出现[2] - TikTok、Instagram等平台90%的短视频内容已由AI生成,意大利无脑角色等去中心化IP宇宙形成规模效应,相关周边商品(玩具、T恤)已实现商业化[8][14] - 爆款内容公式为「熟悉IP+新奇感」,利用《星球大战》风暴兵等现有IP可快速获取用户注意力,同时原创奇特内容(如大猩猩Kim)也能通过强叙事性走红[25][26] 技术应用与创作工具 - Veo3等视频模型降低创作门槛,但存在角色一致性差、无法基于图像生成视频等技术限制,导致创作者需反复生成(单条视频平均尝试7-8次)[21][32] - 开源工具ComfyUI在风格转换、角色替换等复杂工作流中仍具优势,但基础模型功能正逐步替代其应用场景[41][42] - 多模型赋能平台(如Krea AI、Fal.ai)因简化操作流程而受青睐,相比Veo3的复杂订阅体系更符合创作者需求[35][36] 商业化变现路径 - 变现方式包括平台流量分成(TikTok每百万播放约20美元)、IP周边销售、虚拟网红带货及课程咨询,但高昂生成成本导致ROI不稳定[30][32][33] - AI虚拟网红经济规模预计增长10倍,创作者通过订阅制变现收入远超传统广告分成[29] - 内容套利现象显著,爆款视频在跨平台传播时有1-2天窗口期,TikTok的ASMR内容与Facebook系动物跳水视频存在平台用户差异[49][50] 内容生态创新 - 「提示理论」引发AI角色存在主义思考,生成角色探讨自身被提示词控制的命运成为新内容类型[43][44] - 二次创作内容(如粉丝自制星战角色跳水视频)流量表现不输原生短视频,形成去中心化创作社区[20][27] - AI家具设计等跨界商业化案例涌现,如大猩猩椅子从概念到实体商品快速落地[49]