Workflow
Founder Park
icon
搜索文档
群核科技开源两款空间大模型,想解决 Genie3 没能彻底解决的问题
Founder Park· 2025-08-27 19:41
世界模型技术发展现状 - Google DeepMind发布Genie 3 世界模型 与OpenAI开源模型形成竞争[2] - 世界模型分为两类流派:Sora类视频模型基于2D图像序列模拟数字世界 Genie 3属于此类 另一类是李飞飞World Labs倡导的基于3D场景还原的大型世界模型[4][5] - 当前两类模型存在落地问题:视频模型因缺少3D维度导致空间一致性不足 3D模型因数据短缺导致视角切换时出现崩坏[6] 群核科技空间大模型技术突破 - 公司发布业界首个3D室内场景认知与生成空间大模型 开源SpatialLM 1.5空间语言模型和SpatialGen空间生成模型[6] - SpatialGen采用多视角扩散+3DGS重建技术 生成可自由漫游的真实3D空间 支持任意视角切换和路径漫游 实现100%光影一致性[8][14] - SpatialLM 1.5基于大语言模型训练 支持通过对话生成结构化场景脚本 智能匹配家具布局 10秒内可生成1000个不重复场景[10][11] - 模型依托自研CAD引擎和KooEngine光线追踪技术 支持参数调整并达到影视级材质质感[15] 数据与技术优势 - 公司通过酷家乐平台积累超4亿个3D模型及5亿个结构化3D空间场景[18] - 2018年发布全球最大室内深度学习数据集InteriorNet 含数万套标注物体坐标和空间关系的场景数据[18] - 2025年开源3D高斯语义数据集InteriorGS 首次将3D高斯技术引入AI训练 降低数据存储成本[18] - 形成工具-数据-模型三位一体飞轮:工具层生成结构化数据 数据层提供高质量标注 模型层实现跨越式进化[18][19] 应用场景与商业化前景 - 解决AI短剧行业痛点:传统工具存在场景不连贯和制作效率低问题 空间大模型可保证全场景物理一致性[20][21][22] - 支持机器人训练场景:自动生成带物理参数和空间关系的3D数据 为具身智能提供结构化信息[11][41] - 电商3D展厅应用:消除视角切换时物体尺寸不一致等穿帮问题 提升虚拟场景可用性[20] - 内部推进X项目:基于3D技术的AI视频生成产品 计划2025年内发布 通过3D渲染与视频增强一体化解决空间一致性问题[24] 技术实现路径 - SpatialLM 1.5基于Qwen3底模训练 采用空间语言描述3D信息 与CAD领域语言兼容[27][28][33] - SpatialGen基于扩散模型训练 使用自研渲染引擎生成的多视角图片数据[33] - 资产库与模型解耦设计 支持调用第三方资产库 确保开源兼容性[37] - 通过数据规模扩展提升空间一致性 遵循scaling law演进规律[39] 发展阶段与挑战 - 当前空间大模型处于类似GPT-2阶段 具备基础生成和交互能力 但未达到通用水平[20][42] - 主要挑战在于3D数据获取难度:无法通过互联网快捷获取 需依赖工具生成或实地扫描[31] - 未来演进方向:探索从文本直接到3D表征的技术路径 提升视觉效果与一致性的平衡[40]
狂砸百亿美元后,仅5%企业成功落地AI,他们做对了什么?
Founder Park· 2025-08-27 17:30
核心观点 - 企业在生成式AI领域投入300-400亿美元但95%机构未能获得可衡量商业回报 形成"GenAI鸿沟"现象[3][7] - 成功跨越鸿沟的企业聚焦范围窄价值高的用例 将AI深度融入工作流并通过持续学习实现规模化推广[6][59] - 智能体AI(Agentic AI)具备记忆和适应能力 是解决GenAI鸿沟的关键方向 窗口期约18个月[58][74][75] 行业变革现状 - 仅科技和媒体行业出现明确结构性变革 其余7个行业处于变革劣势方[12][21] - 基于AI市场变革指数(0-4分): 科技行业领先(新挑战者崛起/工作流变革) 媒体与电信(AI原生内容/广告变革) 医疗健康与能源行业垫底[15][18][21] - 9个主要行业中7个开展大量试点但未出现结构性变革 投资与变革差距显著[21] 企业部署困境 - 企业定制AI工具仅5%实现投产 通用工具部署率40%但价值限于个人生产力提升[8][22] - 大型企业(年营收超1亿美元)试点数量领先但规模化转化率最低 中端市场企业从试点到实施平均仅90天[28] - 60%机构评估定制系统但仅20%进入试点阶段 最终仅5%投入生产环境[8] 影子AI经济 - 90%员工定期使用个人AI工具处理工作 远超40%的企业官方订阅率[30][32] - 员工通过ChatGPT等消费级工具实现工作自动化 形成比官方项目更高投资回报率的影子经济[30][32] - 前瞻性机构通过分析影子AI使用情况识别高价值工具 再采购对应企业级解决方案[33] 投资分配失衡 - 70% GenAI预算流向销售和营销部门 但后台自动化实际投资回报率更高[35][38] - 投资偏向可见性高但变革性弱的用例 后台部门高回报机会缺乏资金支持[38][39] - 企业类型影响投资分配: 制造企业重运营 科技企业重营销 专业服务企业重文档自动化[38] 核心障碍分析 - 首要障碍是员工抗拒新工具 其次为模型输出质量担忧和缺乏学习能力[42][43] - 关键业务场景中90%用户倾向选择人类而非AI 因现有工具缺乏记忆和适应能力[52][54] - 高风险任务适用性评估显示: AI在邮件起草(70%)和基础分析(65%)占优 但复杂任务人类优势达9:1[57] 成功实施策略 - 外部合作项目成功率67% 是内部开发(33%)的两倍[77][83] - 战略合作伙伴模式部署概率是内部开发2倍 员工使用率也近2倍[84] - 成功企业要求供应商提供深度定制服务 基于业务成果而非技术指标评估价值[85][90] 成本节约来源 - 最显著成本节约来自后台自动化 替代业务流程外包(BPO)和外部机构服务[86][87] - 实际案例: 客户服务文档处理年省200-1000万美元 外部创意成本降30% 风险管理年省100万美元[87][91] - 收益主要通过减少外部支出实现 而非削减内部员工[87] 劳动力影响 - GenAI导致客户支持/行政处理岗位减少5%-20% 这些岗位传统已被外包且流程标准化[89] - 科技媒体行业80%高管预计24个月内减少招聘 医疗健康行业明确不减少临床人员招聘[93] - AI素养成为核心招聘要求 应届毕业生比有经验人士更具优势[93] 技术演进方向 - 智能体网络(Agentic Web)成为下一代基础设施 支持智能体间自主协商与协作[94] - 模型上下文协议(MCP)/智能体通信协议(A2A)/NANDA框架推动互操作性发展[75][94] - 系统将能自主发现供应商/建立动态API集成/实现无信任交易[94]
谷歌图像模型nano banana正式上线:能力超强,且定价低于OpenAI同类模型
Founder Park· 2025-08-27 11:16
模型性能与市场表现 - 谷歌最新图像生成与编辑模型Gemini 2.5 Flash Image(代号nano banana)在LMArena盲测中获得超250万选票,以171分优势领先第二名flux-1-knotext-max,创下该竞技场历史上最大的Elo分数领先优势[2] - 该模型在LMArena排名中以1362分位列第一,远超第二名flux-1-kontext-max的1191分,投票数达2,521,035次[3] - 模型具备四大核心能力:角色一致性、提示编辑、原生世界知识和多图像融合,支持最多三个输入元素的创意融合[19][20] 技术能力特性 - 角色一致性功能可通过参考图像生成新内容,在不同姿势、光照、环境或风格中保持主体相似性,适用于电影制作、品牌资产生成等场景[8][24] - 支持自然语言目标化转换和精确局部编辑,包括模糊背景、去除污渍、更改主体姿势、黑白照片上色等功能[28] - 原生世界知识能力基于Gemini全球知识库,可理解手绘图、解答现实问题并执行复杂编辑指令,突破传统图像模型在语义理解方面的局限[30][32][33] - 多图像融合能力允许将对象嵌入场景、重新设计房间风格或通过单提示融合图像,例如将过道、人像和手机融合成自然场景照片[22][35] 商业化与定价策略 - 模型已通过Gemini API、Google AI Studio面向开发者开放,并通过Vertex AI向企业提供[4] - 定价为每百万输出token 30.00美元,单张图片消耗1290个输出token,成本仅0.039美元(约人民币0.3元),显著低于OpenAI同类模型[38][39] 应用场景与案例 - 可生成房地产列表卡片、统一员工徽章、动态产品效果图等商业模板[26] - 教育领域应用示例:将手绘图转换为交互式教育导师,展示模型理解与编辑能力[33] - 创意构图案例:将山峰与跃出水面鲸鱼融合,实现多元素自然统一[13]
ChatGPT 已经是新一代分发平台,创业公司该考虑怎么抓住增长红利了
Founder Park· 2025-08-26 21:31
分发渠道变革与AI平台战略 - ChatGPT已成为超级应用 创业者需借助其作为新分发平台实现增长而非担忧被取代[2][3] - AI技术变革后通常伴随分发渠道变革 新分发平台出现的所有条件和要素已基本具备[5][10] - 未来六个月内全新强大的分发渠道即将出现 ChatGPT很可能是主要候选者[5][11] 初创公司增长策略 - 打造出色产品仅是入场券 真正差距在于建立强大分发渠道 本质是在行业巨头抄袭前抢先获得分发渠道[6] - 新分发平台出现时初创公司通常反应最快 巨头行动迟缓给予初创公司入场机会[10] - 必须发现并利用新分发平台 达到逃逸速度窗口期因巨头行动加快而缩短[7][10] 平台开放-关闭周期规律 - 新分发平台遵循四步周期:市场条件成熟、寻找护城河、平台开放、平台关闭实现控制和商业化[13][14] - 平台通过价值交换吸引第三方开发者 后期逐步收紧平台 方式包括关闭渠道、开发第一方应用、压制自然流量或强制付费[14][15] - 周期持续时间越来越短 Facebook周期约五年 Google周期更长但本质相同 留给初创公司玩游戏的时间越来越少[12][23] ChatGPT平台优势与预测 - ChatGPT护城河核心在于上下文和记忆功能 通过数据连接器收集更多上下文 形成使用越多记忆越个性化输出越好的飞轮效应[28][31] - ChatGPT月活跃用户数至少是Claude的10倍 留存曲线稳定且急剧上升 呈现罕见的微笑曲线(留存率随时间推移上升)[28][29][32] - 大量迹象表明ChatGPT即将推出第三方平台 包括招聘智能体平台人员、与HubSpot等大公司建立优先合作伙伴关系[31] 垂直平台与商业模式 - 市场将分化出许多垂直细分平台 如Cursor面向开发者 Notion/Airtable等生产力工具也会推出智能体平台[36] - 智能体可按结果收费(如每解决问题收费一美元) 但需与数据护城河结合否则会被竞争淘汰[37][39] - Udemy等课程平台分成比例从80%降至25%-30% 展示为商业化关闭平台的典型案例[36] 企业参与策略与时机 - 初创公司必须参与游戏而非退出 早期入局比晚入局更有利 需专注押注一个平台而非分散资源[26][43] - 未来六个月内将看到ChatGPT平台开放的重要步骤 包括推出智能体模式、与10-20个优先合作伙伴宣布集成[40][41] - 企业需设定硬性约束推动AI转型 如部门编制限行业标准五分之一 或要求证明AI无法完成工作才批准新招聘[55] 数据护城河与系统优化 - 长期竞争优势依赖数据护城河 Cursor通过用户反馈数据比大模型更懂开发者需求 Sierra通过积累销售数据形成网络效应[39] - AI转型需优化整个系统而非单个环节 工程师加速后产品经理成为新瓶颈 需协同设计、产品、工程三环节[58] - 顶尖公司衡量真实AI采纳率和使用数据 CEO需深入细节避免与一线实际情况脱节[57][58]
销量超百万,最火 AI 硬件 Plaud 是怎么做大模型产品的?
Founder Park· 2025-08-26 19:43
以下文章来源于过程即奖励 ,作者过程即奖励 过程即奖励 . 因上努力 果上随缘 超 12000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。 邀请从业者、开发人员和创业者,飞书扫码加群: 进群后,你有机会得到: 我们的理念是通过软硬结合的方式去追求人与大模型结合的智能边界。我们坚信将会有新的 LLM native 的工作(不是办公)范式。 获取 - 提取 - 使用 (capture - extract - utilize)是 Plaud 选择的道路。 01 Plaud 推出过两款 AI 硬件产品,分别是粘在手机背面的 AI 录音卡片 Plaud Note 和可穿戴 AI 录音硬件 NotePin。两款产品累计销量突破了100万台。软件层面, Plaud Intelligence 内置了多款主流大模型,能 将会议、通话和语音笔记的录音,转化为结构化摘要、思维导图和待办事项。 Plaud 是如何做大模型产品的?Plaud 中国区 CEO、AI 产研负责人莫子皓,在这篇文章中详细介绍了 Plaud 「软硬结合」的产品理念。有趣的一点是,「让人去对齐大模型,让大模型去引导人。」 以下为原文内容。 何 ...
创始人不懂增长,团队再忙活也没用
Founder Park· 2025-08-25 20:12
创业公司增长挑战 - 多数创业公司产品已上线但缺乏用户增长关键指标关注 如用户留存率和付费转化率[2][5] - 创始人过度依赖增长负责人而忽视自身参与 导致产品与市场匹配度不足[9][10] - 早期产品存在技术瓶颈 任务成功率低于50%且服务器承载能力仅数百用户[10] 创始人角色缺失 - 创始人忙于管理、招聘和融资 缺乏一线用户洞察 未参与Discord社区或用户访谈[11][12] - 对用户获取、留存及付费转化链条认知不足 导致错误归因[14] - 增长负责人难以向创始人传达工作价值及增长重要性[15] 增长人才困境 - 公司高薪招聘具备大厂经验的增长负责人 但实际效果有限[8] - 增长负责人面临产品不成熟、资源有限等挑战 导致高流失率[10][16] - 创始人普遍认为寻找合格增长人才困难[16] 解决方案与活动 - 举办出海增长研坊活动 针对0→1和1→10阶段团队提供实操经验[18][20] - 活动涵盖SEO、内容矩阵、社区运营及广告投放等增长策略[29][30][35] - 邀请5位专家分享经验 包括Julia Yin(10年美国增长经验)、Lysa(千万美元KOL营销管理)等[22][24][26] 活动具体内容 - SEO与内容策略:海外市场趋势洞察、AI驱动内容矩阵、Reddit运营[29][32][33] - 广告投放:北美/欧洲/东南亚等市场机会分析、三阶段投放策略[35][39] - 社区运营:Discord搭建技巧、用户社区选择策略[31][34] - 病毒式增长:AI产品Go Viral策略、冷启动到规模化四步骤[36][40] 目标受众与价值 - 面向出海创业团队核心成员 建议团队集体报名以建立协同体系[21] - 单人报名价格3999元 双人5999元[41] - 活动强调实战演练与资源链接 而非单纯理论分享[20][21]
纯陪伴的 AI 产品很难赚到钱,「长期在场」是关键前提
Founder Park· 2025-08-24 10:07
核心观点 - 现阶段纯靠AI陪伴功能收费难以实现商业闭环 需依赖游戏化机制 IP运营或硬件销售等辅助手段 [4][6] - 陪伴技术栈的发展前提是赢得用户物理世界的"在场权" 需通过硬件终端实现低摩擦数据输入 [8][11] - 当前技术条件下需在数据价值与可行性间寻找平衡 避免过度追求高维度输入导致工程复杂度失控 [10][11] - 硬件路径虽面临挑战但能提供明确商业模式验证 相比纯软件更易形成商业闭环 [13][14] - 创业团队应优先寻找产品市场匹配(PMF) 通过硬件销售回收成本 再逐步迭代陪伴能力 [13][14] 商业模式分析 - 游戏化上头机制成为营收支柱 用户付费动力源于"Wanting"冲动而非情感连接 [6] - IP或审美驱动粉丝经济 用户为情感投射载体付费而非陪伴价值认可 [6] - 硬件销售收取"好奇税" 实体溢价构成首笔收入 后续陪伴续费存不确定性 [6] - 纯软件商业模式在国内市场表现脆弱 硬件自带价值锚点和商业闭环 [13] 技术实现路径 - 输入(Input)优先于输出(Output) 需实现多模态实时感知和高分辨率生活流捕捉 [8] - 视觉模态信息量>声音>文本 但需权衡技术发展阶段与工程复杂度 [10] - 7×24小时在场设备面临海量多模态数据处理挑战 当前AI难以有效处理噪声数据 [10] - 纯软件存在系统权限局限 需专用硬件承载传感器 手机终端可能向分布式传感演进 [11] - 摄像头模组引入重大技术挑战 包括散热/存储/算力/续航及隐私安全问题 [11] 发展策略建议 - 优先通过硬件销售建立用户触达渠道 获得持续数据输入和迭代试验田 [13] - 缩短验证周期 避免长期"伪验证"陷阱 硬件路径提供更明确的商业模式信号 [14] - 在"数据价值"与"可行性"夹缝中寻找平衡点 不过度追求技术完美 [11][14] - 构建"低摩擦感知终端+高保真推理内核+可持续记忆模块"的技术栈组合 [11]
Agent 都这么厉害了,「AI 员工」为什么今天还没有真正出现?
Founder Park· 2025-08-23 10:09
AI数字员工发展瓶颈 - 当前AI数字员工尚未实现真正落地 主要因为缺乏自主性和高昂维护成本 现有系统多为自动化工具而非具备真正自主性的员工[2][3][4][5] - 大模型虽带来质变 但推理速度存在明显延迟 在电话销售等对时效性要求高的场景中 几秒钟延迟就足以破坏用户体验[8] - 知识更新滞后问题突出 依赖RAG和外部知识库的更新由人类完成 导致更新滞后且质量参差不齐 成本甚至超过管理人类员工[18] 技术实现挑战 - 时效性和打断机制不足 通过Redis批处理技术对无用消息进行剔除 并实现生成过程中的动态打断机制 显著改善交互体验[9] - 场景定义存在局限 人类预设场景会遗漏边缘案例 通过基模自主进行历史事件场景抽象 比人工预定义效果提升明显[10][12] - 意图澄清能力不足 需要参考ChatGPT学习模式 通过follow up问题逐步澄清用户真实意图 使回复从"供参考"变为"具体答案"[13][17] 发展路径建议 - 采用局部替代策略而非完全替代 重点处理可重复、可验证的固定工作 形成小范围自我调整后再逐步放权[20][22] - 建议让AI以"实习生"角色进入真实场景 在实战中被评估和优化 模型将吃掉弥补模型短板的复杂工程而非应用本身[23] - 通过建立可测量的小闭环 使AI从"实习生"成长为可信赖员工 最终通过迭代而非宣布实现真正AI员工[24]
AI 创业,需要重读 Paul Graham 的「创业 13 条」
Founder Park· 2025-08-22 19:15
创业公司核心原则分析 - 创业公司成败几乎完全取决于创始人团队 联合创始人的重要性堪比房地产地段 想法可调整但更换联合创始人极其困难 [3][6] - 早期投资本质是投资创始人 创始人团队是创业公司最重要的资产 优秀团队的价值远大于个体成员总和 [7][8] - 团队是"非线性系统" 需考虑相对适配性 技能互补 目标一致 关系持久性 创始人散伙是创业失败常见原因 [8] 产品开发与市场验证 - 快速启动产品是核心原则 推出产品后才真正开始工作 之前都是浪费时间 产品推出能帮助理解用户需求 [3][9] - 采用"发布-学习-迭代"循环 接触真实用户前一切努力都是纸上谈兵 快速迭代促进快速成长 [9][10] - 避免"虚假精准感"和"掌控欲" 需要向现实低头顺势而为 创业需要持续迭代而非一次性交付 [10][11] 产品理念与用户聚焦 - 爱上问题而非解决方案 对交付方式保持灵活 随着产品成熟度和市场变化迭代解决方案 [12][13] - 采用"观点坚定 态度灵活"原则 基于现有认知坚定执行 但需根据市场反馈灵活调整 [13][14] - 理解用户是核心 创业本质是创造价值 最能掌控的维度是产品对用户生活的改善程度 [3][15] 增长策略与价值创造 - 专注于做出用户真正热爱的产品 而非单纯追求增长 用户增长路径取决于价值传递 [15][16] - 增长容易但理解用户核心需求困难 产品不解决用户问题则增长无意义 需先创造价值再谈增长 [16][17] - 创业原则往往反直觉 需先为一小群用户传递巨大价值 再考虑扩大影响 [17][18] 市场定位与用户服务 - 缩小目标用户范围至极致窄群体 在细分领域形成垄断再逐步扩大 满足部分用户全部需求优于满足所有用户部分需求 [19][20] - 提供超出预期的客户服务 无法规模化的客服是创业公司优势 能建立极强用户忠诚度 [21][22] - 用无法规模化的事为可规模化产品铺路 亲自做客服是用户探索的重要方式 [23][24] 指标衡量与资本效率 - 选对衡量指标至关重要 避免仅关注营收而忽略规模化潜力 需聚焦活跃用户数 CAC LTV等关键指标 [26][27] - 警惕古德哈特定律 当指标成为目标时就不再是好指标 指标只是核心目标的替代品 [27][28] - 专注资本使用效率 每分钱追求最大回报 低成本运营保持公司灵活敏捷 延长试错时间 [30][31] 融资与盈利能力 - 实现"泡面盈利"可改变与投资人关系 获得谈判筹码 但不适用于所有人生阶段 [32][33] - 让自己处于能对投资人说不的位置 不迫切需求资金反而更容易融资 [33][34] - 利用阶段优势 年轻时靠低成本生活 年长后靠经验和人脉 避免完全受制于投资人 [34][35] 专注力与持久力 - 避开内外干扰保持专注 创业核心是搞懂用户痛点并快速迭代 需要设计低干扰环境 [36][37][38] - 坚持是成功关键 面对挫折保持韧性 交易告吹不是个人否定 需记住初心持续前进 [39][40]
DeepSeek V3.1 专为国产芯片设计的 UE8M0 FP8 到底是什么?
Founder Park· 2025-08-22 19:15
DeepSeek V3.1发布及UE8M0 FP8技术影响 - DeepSeek V3.1发布提及"新的架构、下一代国产芯片",引发市场广泛关注 [2] - 国产芯片企业股价显著上涨,寒武纪早盘大涨近14%,总市值跃居科创板首位 [4] - 半导体ETF在半天内大涨5.89% [4] UE8M0 FP8技术解析 - UE8M0 FP8是MXFP8格式中的缩放因子,MXFP8由Open Compute Project在2023年定义,是一种8位微缩块格式 [7] - MXFP8将张量切分为固定长度的块,每个块单独指定2的整数次幂作为缩放因子,扩展动态范围数十倍 [8] - UE8M0表示无符号、8位指数位、0位尾数位,动态范围覆盖2^(−127)到2^128 [11][15] - 该格式无需浮点乘法或规格化逻辑,缩短时钟关键路径,减少信息损失 [15] - 相比传统FP32缩放,UE8M0 FP8节省75%流量 [18] 国产芯片厂商适配及市场反应 - 寒武纪MLU370-S4、思元590及690系列芯片支持FP8计算,架构设计和低精度优化领先 [22] - 海光深算三号DCU、沐曦曦云C600、中昊芯英"刹那"TPU、摩尔线程MTT S5000均支持FP8精度 [26] - 华为昇腾路线图显示2025Q4支持原生FP8,下一代芯片可能于2026年推出 [23] - 国产芯片概念集体高开,科创50大涨3%创近三年半新高 [24] 行业影响及生态协同 - UE8M0 FP8提升国产芯片性价比,同等硬件可运行更大模型,减少对英伟达、AMD等国外算力依赖 [27] - DeepSeek通过精度格式改动主动贴合国产芯片性能点,推动软硬协同生态建设 [28] - 这种模式类似"Wintel联盟",通过技术绑定构建生态护城河 [28]