Workflow
Founder Park
icon
搜索文档
o1 核心作者 Jason Wei:理解 2025 年 AI 进展的三种关键思路
Founder Park· 2025-10-21 21:49
智能商品化 - AI发展分为两个阶段:推动前沿阶段(研究人员努力解锁新能力)和商品化阶段(能力被规模化与降本)[11] - 在MMLU基准测试中,达到特定性能水平所需的成本呈现每年下降趋势[11] - 自适应计算时代允许根据任务难度调整计算量,从而持续降低智能成本,无需持续扩大模型规模[13] - 自适应计算的技术突破源于o1模型,证明在测试阶段投入更多计算资源可提升模型在基准测试上的表现[13] - 信息检索效率经历了四个时代的演变:前互联网时代(耗时数小时)、互联网时代(耗时数分钟)、聊天机器人时代(效率提升)和智能Agent时代(耗时几分钟甚至几小时),获取公共信息的时间急剧缩短[16][17] - 例如,回答“1983年釜山有多少对夫妇结婚”这一问题,在智能Agent时代仅需几分钟,而在前互联网时代可能需要飞到韩国并翻阅大量书籍[16] - OpenAI的BrowseComp基准测试显示,人类平均需要两个多小时解决的复杂问题,Deep Research模型可解决约一半[17] - 智能商品化将带来领域民主化,例如编程和个人健康等领域因知识门槛降低而更加开放[20] - 公共信息成本降低使得私有信息(如非市场挂牌的房屋信息)的相对价值提升[20] - 最终信息获取将变得无摩擦,形成高度个性化的信息流,而非公共互联网[20] - 任何公开可用的信息都能立刻获取,形成即时知识[22] 验证者定律 - 验证者定律的核心是:训练AI解决特定任务的能力,与验证该任务完成情况的难易程度成正比[14][26] - 任何可解决且易于验证的任务,最终都会被AI攻克[3][26] - 验证的不对称性指对于某些任务,验证解决方案比找到解决方案更容易[21] - 例如,解数独困难但验证容易,编写Twitter代码困难但验证容易,而设计饮食方案则生成容易验证困难[23][28] - 可通过提供特权信息(如答案或测试用例)来改变任务的验证不对称性,增加验证的容易度[26] - 任务的可验证性体现在五个方面:客观性(有明确对错标准)、验证速度(检查快慢)、可批量验证(一次性检查大量方案)、低噪音(验证结果稳定)和连续反馈(能给出具体质量分数)[29] - DeepMind的AlphaDev项目是利用验证不对称性的绝佳例子,通过进化式搜索算法(生成候选方案、自动评估打分、迭代优化)解决高度可验证的任务[31][32][33][34] - AlphaDev的成功在于其专注于解决单一具体问题,避开了深度学习中的泛化难题[35] - 验证者定律的启示是,首先被自动化的将是那些非常容易验证的任务[38] - 未来重要的领域包括发明衡量事物的方法,为难以衡量的领域(如创造力)设计快速、客观、可扩展的评估体系,从而利用AI进行大规模优化[38] 智能的锯齿状边缘 - 智能的边缘是锯齿状的,意味着AI在不同任务上的能力水平和进步速度因任务特性而异,发展不均衡[14][37][42] - “快速起飞”的假说(即AI在某一领域超越人类后智能会爆炸式增长)可能过于简单化,更现实的场景是自我改进能力存在一个“光谱”,而非二元突破[39][41][42] - 自我改进的速度应按每个具体任务来考量,各项任务会有不同的改进速度[42][44] - 例如,AI在复杂数学题、编程竞赛等“高峰”任务表现出色,但在判断9.11与9.9大小或处理特林吉特语等“低谷”任务上表现不佳[42] - 预测AI改进速度的几个窍门包括:AI擅长数字任务(因迭代速度快,扩展计算资源容易)[47]、对人类越容易的任务AI往往也觉得越容易[47]、AI可能完成人类因生理限制无法完成的任务(如分析1000万张乳腺癌图像)[47]、数据越充足AI表现越好(如语言模型在不同语言中的数学表现与数据量正相关)[47]、存在明确客观评估指标的任务可通过强化学习生成假数据实现自我训练[47] - 基于上述标准,可预测不同任务的自动化时间点:翻译(前50种语言)和调试基础代码已完成,竞赛数学在2024年完成,AI研究可能到2027年,化学研究更晚,拍电影可能在2029年,预测股市不确定,翻译特林吉特语可能性低,修水管和理发等非数字任务AI短期内难搞定,带女朋友约会让她开心AI永远搞不定[48][50] - 启示是AI影响最大的是那些符合数字任务、对人类不难且数据丰富的领域(如软件开发将极大加速),而另一些领域(如理发)可能保持不变[50]
Stripe 闭门分享、NVIDIA 创企展示,近期优质 AI 活动都在这里
Founder Park· 2025-10-21 21:49
AI行业活动概览 - Stripe将于10月28日举办线上闭门分享 主题为AI应用出海如何高效搞定跨境支付 分享嘉宾包括其大中华区企业客户总监和解决方案架构师 [7][9] - Founder Park将于10月30日举办线上活动 主题为AI搜索与给AI用的搜索的区别 分享嘉宾为小宿科技联合创始人及智能搜索产品经理 [9] - Abaka AI将于10月22日在杭州国际博览中心举办Embodied Intelligence After Dark活动 以夜话形式探讨具身智能领域难题 面向AI工程师创业者投资家及科研学者 [4][5] 创业与投资活动 - 九坤创投将于10月25日在北京举办线上线下混合活动AI创业引力场 聚焦AI创业者开发者及技术人员 活动包括从代码到落地的实干经验分享及投资专家对具身智能赛道的预判 [5][6] - NVIDIA将于2025年11月14日在苏州金鸡湖举办创业企业展示 活动亮点包括NVIDIA全球技术专家分享生成式AI及物理AI主题 30余家NVIDIA初创加速计划会员企业将进行半程展示和路演 [10][12] 大型行业峰会 - 柴火社区将于11月15-16日在深圳举办大湾区国际创客峰会暨Maker Faire Shenzhen 活动将集合世界各地maker展示最新AI硬件项目 并邀请100位海内外影响者及社区领袖作为创新大使 [12][13]
DeepSeek OCR:醉翁之意不在酒
Founder Park· 2025-10-21 15:46
DeepSeek-OCR模型的技术特点 - 模型采用新颖思路,将文字当作图片处理和压缩,作为一个超级高效的“视觉压缩器”[7] - 能够将一篇1000字的文章压缩成100个视觉token,实现十倍压缩,识别准确率达到96.5%[7] - 提供多个分辨率选项,512 x 512图片仅需64个token,1024 x 1024图片需256个token,复杂版面组合使用多种分辨率[13] 行业专家评价与定位 - Karpathy认为未来所有输入大模型的信息都应该是图像形式,哪怕是纯文本也应先渲染成图片再喂给模型[7][11] - 模型性能和思路在学术界不算是重大突破,但产品化贡献值得肯定[13] - 研究思路可能受到字节跳动NeurIPS最佳论文和豆包团队论文启发,DeepSeek团队擅长将实验室研究成果进一步做扎实并产品化[14] 潜在应用方向与发展前景 - 该技术有望优化图文表混排场景处理,大量网页、文档、SaaS软件Dashboard和PPT都包含有效视觉信息,强行转文本会导致信息损失[15] - 如果技术成熟,将推动业界对图文表混排场景优化的研究热潮,提升效果并降低成本[15] - DeepSeek团队提出的用分辨率模拟遗忘机制的假想存在争议,可能更适合描述为“高度近视”而非有效遗忘机制[15]
跟 Stripe 聊聊:AI 应用出海,如何高效搞定跨境支付?
Founder Park· 2025-10-20 20:45
AI产品出海支付挑战 - 支付问题是每个AI产品出海需要解决的核心问题[2] - 账户资格、全球收款、不同地区税率和合规问题都是实际难题[2] - 定价模式选择是需要面对的实际挑战[2] 支付服务商解决方案 - 靠谱的支付服务商对AI产品出海尤为重要[3] - Lovart、Manus等知名AI产品使用Stripe支付平台[3] - Stripe大中华区专家将分享跨境支付落地经验[3] 支付集成与合规优化 - 关注AI产品如何简单快速集成支付功能[7][8] - 解决出海生意中税务合规难、费率高等隐藏成本问题[7][8] - 探讨按量定价与混合订阅等不同业务的定价模式[7][8] 行业案例与增长洞察 - Heygen公司ARR突破1亿美元,分享内部增长手册[10] - 硅谷一线创业者研讨仅5%的AI Agent成功落地的原因[10] - Figma创始人认为当前处于AI交互的MS-DOS时代,是设计师创业最佳时机[10]
Karpathy 回应争议:RL 不是真的不行,Agent 还需要十年的预测其实很乐观
Founder Park· 2025-10-20 20:45
AGI发展时间线 - AGI实现仍需约十年时间,与硅谷AI圈普遍乐观情绪相比预测保守5-10倍[10] - 2025年可能是智能体元年,但接下来的十年都将属于"智能体时代"[10] - 当前LLM虽取得巨大进展,但距离实现"在任意岗位都比人类更值得雇佣"的实体仍有大量基础工作需完成[11][12] LLM认知缺陷与改进方向 - 当前LLM过度依赖记忆,人类记忆能力差反而可能是有益的正则化特性[19][70] - 模型需要先变大以承载能力,再通过架构、训练范式和数据蒸馏向更小、更专注的认知内核收敛[19] - 未来认知核心可能精简至十亿参数级别,专注于思考算法而非记忆知识[76][78] 强化学习局限性 - 强化学习像"通过吸管获取监督信号",信号/计算量比非常糟糕[15] - RL过程噪声大,信噪比低且易受干扰,正确步骤可能被抑制而错误步骤可能被鼓励[15] - 未来可能出现替代学习范式,智能体交互和系统提示学习是更有前景的方向[15] 智能体发展现状 - 当前智能体存在认知缺陷,缺乏多模态能力、持续学习能力和计算机操作能力[23] - 过度追求完全自主智能体可能导致软件质量下降、漏洞增多和安全风险[20] - 更现实的协作模式是LLM分块工作,解释代码,证明正确性,在不确定时与人类协作[20] 训练范式演进 - 完整训练流程包含基础模型自动补全、指令微调和强化学习三个层次,但需要第四、五层等新机制[16][18] - 预训练通过预测互联网下一个token来"预装"智能,类似于糟糕的进化过程[13][31] - 动物通过进化预装大量智能,与LLM训练方式存在本质区别[13][28] 技术发展路径 - AI发展是计算的延伸,所有方面包括算法、数据、硬件都需要全面改进[42][43] - Transformer架构可能持续存在,但会有更多注意力机制和稀疏MLP等改进[42] - 数据集质量将大幅提升,当前互联网训练数据包含大量垃圾内容[77][82] 经济影响 - AGI定义是可完成任何具有经济价值任务且性能达到或超过人类的系统[85] - 知识型工作约占经济10%-20%,是AI替代的首要目标[86] - 呼叫中心等标准化任务可能最先实现80%自动化,人类负责监督和剩余20%工作[87]
ARR 突破 1 亿美元,HeyGen 创始人公开了他们的内部增长手册,全是干货
Founder Park· 2025-10-17 20:29
公司业绩与里程碑 - 公司本月达到1亿美元的年度经常性收入(ARR)[2] - 从首次达到100万美元ARR到1亿美元ARR,耗时29个月[2] 核心产品定位 - 公司使命是让每个人都能用视觉化的方式讲故事[7] - 专注于“沟通型视频”市场,例如业务同步、教程、访谈等,目标是让此类视频制作变得人人可用[8] - 产品定位为服务于从零基础新手到专业人士的所有用户水平,追求极简操作,用户花几分钟即可制作出质量不错的视频[8] AI时代核心开发理念 - 核心理念是“拥抱不确定性”,强调快速行动,驾驭AI浪潮,接受研究本身的不确定性,并提前六个月布局[12] - 根本性转变是从寻找稳定的技术“地基”转向驾驭快速变化的AI技术“浪潮”,认为AI技术基础每几个月就会发生翻天覆地的变化[12] - 关键区别在于,公司拥抱的是底层AI技术(模型、能力)的不确定性,但对于服务稳定性、产品质量和用户体验,绝不接受任何不确定性[12] - 将不确定性视为机会而非缺陷,选择顺应技术趋势而非对抗[13] - 明确区分“什么在变”(模型、能力)和“什么不变”(用户工作流程、核心痛点),围绕不变的元素构建产品和系统,同时享受模型改进带来的红利[15] 开发与迭代方法论 - 采用为期两个月的路线图规划周期,以匹配AI模型的升级节奏,保持专注与灵活性[18] - 迭代节奏包括:每两个月规划一次路线图,每两周制定一份承诺清单,以及每天进行发布[22] - 实验框架强调快速(几天内完成)、科学(有数据支撑)、能给出明确信号(继续、转向或停止)以及敢于下大赌注[21] - 决策框架基于区分“单向门”(不可逆决策,需谨慎)和“双向门”(可逆决策,可快速测试),鼓励通过实验验证而非无休止争论[24] - 在快速行动中管理技术债的原则是,将偿还技术债视为对未来速度的投资,且必须与业务结果和效率提升挂钩[30] 团队协作与角色分工 - 团队采用通用结构:产品经理(PM)+ 工程师 + 设计师 + 数据科学家[47] - 产品经理角色是总指挥,负责推动决策和定优先级,需要能上手制作可用的最小可行产品(MVP)和体验原型[48] - 工程师角色是快速构建者,侧重于直接与产品经理快速制作原型,设计灵活架构以方便快速迭代,并利用AI编程助手提升效率[55][58] - 设计师角色是化繁为简的大师,核心使命是定义简单又出色的世界级体验,首要原则是简洁,确保产品“简单到奶奶都会用”[56][59] - 数据科学家与产品经理是分析搭档,共同负责解释验证指标、设计实验方案和分析实验结果[62][66] - 强调所有角色需对“为什么做”有共识,明确目标、背景及其对公司前进的帮助[70] 产品与增长团队策略 - 核心产品团队专注于构建和打磨产品的核心功能,追求极致的用户体验、完整功能和长期愿景,目标是比对手发布速度快5倍,迭代次数多5倍[75][77] - 核心产品的标准是每一个体验都要做到绝对最好,追求零Bug,因为作为创意工具,可靠性是关乎用户信任的必需品[78] - 增长团队定位为公司的实验引擎,核心原则是提升迭代速度,一切为了速度、学习和影响力[79] - 增长团队强调工程只是工具,产生影响才是目的,优化的是“多快能产生影响”,做实验是为了学习而非为了赢[81][83] 沟通与执行原则 - 沟通核心原则是直接、异步、高效,决策后需立即在Slack中清晰传达,指定负责人和完成时间,保持团队完全透明[88] - 执行上强调“速度就是一切”,是一种必须的心态,慢是不可原谅的罪过,要求以天为单位发布,保持前进势头比追求完美更重要[34][40] - 行事原则包括“充分讨论,坚决执行”,在“战时”状态下,决策必须快,一旦决定,即使有异议也要百分之百投入执行[42] - 通过创新实现用户价值,用户喜爱源于产品能解决实际问题,创新需与解决真实问题绑定[43] 极力避免的误区 - 总结出“AI开发七宗罪”,包括追求完美架构、研究到瘫痪、对稳定地基的幻想、共识陷阱、以质量为借口的过度打磨、“憋大招”式发布以及沉没成本谬误[90][99] - 危险信号包括诸如“我们再多想想”(潜台词是已落后)、“需要所有相关方同意”(潜台词是决策瘫痪)等表述[107]
再获融资!穹彻智能获阿里投资,加速具身智能全链路技术突破
Founder Park· 2025-10-17 20:29
公司概况与融资 - 具身智能初创公司穹彻智能(Noematrix)最近宣布完成新一轮融资,由阿里领投、多位老股东追投 [2] - 公司成立于2023年底,此前完成了数亿元Pre-A++轮及Pre A+++轮融资,累计融资额达数亿元人民币 [5] - 联合创始人包括上海交通大学人工智能学院副院长卢策吾与非夕科技创始人王世全,团队具备从基础理论研究、产品技术研发到商业化交付的全栈能力 [2] 技术产品与研发进展 - 公司快速迭代自研的实体世界大模型和「以力为中心」的具身智能大模型,推出了穹彻具身大脑升级版产品Noematrix Brain 2.0 [5] - Noematrix Brain 2.0引入了实体概念学习能力,使智能体能够掌握实体对象可供性的因果推理技能 [5] - 最新研发成果包括无本体数据采集方案、通用端到端模型方案以及人机协作的规模化部署系统,致力于打通从数据到部署的全链路 [5] - 技术路线强调力/接触动态的建模与学习,使策略在非结构化环境下更稳健 [8] - 公司构建了覆盖感知、认知、规划与执行的全链路自主决策体系,依托多模态大模型与力觉数据积累实现高维理解和柔性操作 [11] 商业化与生态合作 - 本轮融资资金将用于加速技术产品研发、具身应用落地和行业生态拓展 [2] - 公司已与零售、家居领域多家头部企业达成合作,将携手推进软硬件一体化解决方案的批量交付 [9] - 零售场景聚焦补货、搬运、拣选与盘点等高频流程,家居场景则在擦拭、收纳等复杂接触任务上检验模型优势 [9] - 公司判断当模型控制的泛化能力跨过场景门槛,规模交付的边际成本开始下降,商业扩张进入可预测阶段 [9]
Figma 创始人:我们正处于 AI 交互的「MS-DOS 时代」,现在是设计师创业的最好时机
Founder Park· 2025-10-16 19:20
AI产品核心竞争力转变 - AI产品的核心竞争力正从技术本身转向交互设计和体验,产品不仅是技术解决方案更是体验载体[1] - AI时代开发过程简化、软件迭代加速,设计成为产品脱颖而出的关键差异化因素[4][5] - 行业头部玩家已押注设计,轻率否定可能错过未来趋势[8] AI交互形态演进 - 当前AI交互处于"MS-DOS时代",未来回看将感叹仅靠聊天框操作AI的原始性[4][9] - AI交互形态将更"情境化",嵌入不同软件应用成为新"体验层"[4][10] - 未来界面超越手机电脑平板,眼镜等新型显示载体出现,交互界面倍增且AI贯穿其中[10] - 设计挑战在于多元触点间保持一致性,确保用户无缝切换场景[10] Figma产品战略与AI布局 - Figma上市后积极布局AI,推出Figma Make、Figma Draw等多款AI工具[1] - 公司目标不仅是设计工具,更要做AI时代的"前端协作开发操作系统"[1] - 产品哲学遵循"观察、抽离、再创造"路径,将频繁使用行为抽离为独立产品[11] - 避免功能臃肿拖慢体验,通过新产品承载特定功能如FigJam、Figma Slides、Figma Sites[11][12][15] - Figma Make可从提示词直接生成应用原型,改变内部工作方式,加速"试错-放弃-再创作"循环[15] 行业角色边界融合 - AI特性让"通才化"角色更重要,产品、设计与研发边界逐步消失[4][17] - 设计与开发、产品甚至研究环节交织,分割清晰流程收拢为整体[17] - AI在产品开发早期阶段更具优势,擅长快速搭建原型完成"从0到1"探索[4][17] - 设计师需嵌入研究团队,设计思维在应用型AI研究中至关重要[18] 设计师角色演变 - 设计师将拥有更大影响力,设计价值持续上升,YC征集设计师创始人提案体现趋势[20] - 设计师需要成为创始人,Airbnb的Brian Chesky等成功案例预示数量将继续增加[20] - 设计师将担任部门领导或总经理角色,成为公司内部专家负责探索思路迷宫和建立系统[20]
在极客公园大会上,给你的 AI 产品办一场千人发布会
Founder Park· 2025-10-16 15:44
文章核心观点 - 极客公园创新大会2026策划“AI产品快闪”环节,为AI创业者提供免费冷启动平台,旨在帮助创新产品获得核心用户和行业关注 [6][7][8] - 该活动面向早期、创新性强的AI产品,通过主会场舞台展示和全网传播资源,为产品提供曝光和合作机会 [10][12][15] - 活动强调产品的创新性和解决核心痛点的能力,而非团队规模或融资阶段,寻找AI领域的拓荒者 [13][14][16] 活动背景与目标 - 当前AI产品领域竞争激烈,市场快速发展,技术持续迭代,但资本持观望态度,优秀产品难以获得有效曝光 [4] - 极客公园致力于寻找和致敬创新者,活动旨在发现用户群小但足够好、有意义的AI产品 [4][5] - 活动并非传统的Demo Day或路演,而是为AI创业者量身定制的免费冷启动机会 [7] 活动形式与价值 - 参与者将在IF 2026主会场舞台上,面向数千名科技圈极客、投资人、行业领袖进行简短有力的产品展示 [8][9] - 活动提供免费的专属曝光舞台,是产品走向核心用户群的关键机会 [10] - 除现场展示外,还提供全网传播资源,包括录制剪辑精华视频、发布总结推文,以及推荐至15000+人的“AI产品市集”社群 [15] - 优秀产品团队将获得极客公园内容矩阵资源的主动支持,扩大产品声量 [15] 目标参与者要求 - 产品必须由AI技术驱动,并具有创新性,有效解决用户现实中的核心痛点或关键问题 [12][16] - 产品或其主要版本更新需在2025年11月6日之后发布,或选择在大会首发 [16] - 欢迎各类规模的团队参与,包括独立开发者和一人团队,不限融资轮次 [16] - 寻求用户群可能较小但足够好、有趣、有意义的早期创新产品 [13][14] 报名与参与方式 - 报名截止时间为2025年11月6日,需通过飞书扫描二维码提交完整产品信息 [15][20] - 活动坚信将出现令人惊艳的AI产品,为创业者提供改变命运的机会 [20][21][22]
瞄准 Sora 2,谷歌发布 Veo 3.1,功能大更新,但硬刚还差点儿
Founder Park· 2025-10-16 11:52
产品发布与定位 - 谷歌深夜发布了最新的AI视频生成模型Veo 3.1 [2] - 此次更新是在2025年5月发布的Veo 3基础上进行的升级 [7] 功能与技术升级 - Veo 3.1相比前代版本带来了更丰富的音频、叙事控制以及更逼真的质感还原 [3] - 模型进一步提升了提示词遵循度,并在以图生视频时提供更高的视听质量 [3] - 增强了对对话、环境音效以及其他音频效果的支持,在Flow的多个核心功能中已支持原生音频生成 [7][8] - 引入了对多种输入类型的支持,可接受文本提示、图像以及视频片段作为输入,并支持参考图像(最多三张)、首帧与末帧插值以及场景延展 [13] - 新功能包括插入(向场景中添加物体)和移除(删除元素或角色),但并非所有功能都能通过Gemini API即时使用 [14] - 新功能带来了对主体与环境的更精确控制,企业用户上传产品图片后,模型能在整个视频中保持其外观特征与风格一致性 [19] 性能与输出规格 - 模型支持输出720p或1080p分辨率的视频,帧率为24帧/秒 [16] - 基础生成时长为8秒,但可以延长至30秒甚至1分钟以上,使用Extend功能最长可扩展至148秒(超过两分半) [9][11][22] - 在视频延长时会产生音频不连贯问题,导致延长部分几乎不可用 [4] 市场评价与竞争对比 - 第三方测试显示,Veo 3.1在模型质量上相比前代提升不大,画面感觉更“油腻”和虚假 [4] - 此次更新更多体现在功能的增加上,核心模型质量并无质的飞跃,离竞争对手Sora2还有一段距离 [4] 部署与商业化 - 模型可通过谷歌旗下多项现有AI服务访问,包括Flow、Gemini API和Vertex AI [17] - Veo 3.1模型目前处于预览阶段,仅在Gemini API的付费层级中可用,收费结构与Veo 3保持一致 [15] - 标准模型收费为每秒视频0.40美元,快速模型收费为每秒视频0.15美元 [18] - 目前尚无免费层级,且仅在视频成功生成后才会计费 [15] 行业应用前景 - 原生音频的引入让用户能更好地掌控视频的情绪、节奏与叙事基调,这些能力以往只能通过后期制作实现 [12] - 在企业场景中,这种高层次的控制有望减少独立音频制作流程的需求,便于制作培训内容、营销视频或数字体验作品 [12] - 对品牌一致性的控制能力有助于简化创意生产流程,特别适用于零售、广告以及虚拟内容制作等需要视觉延续性的团队 [19]