Workflow
锦秋集
icon
搜索文档
万物皆可分割,Meta SAM 3D 能帮 AI 理解这个复杂又混乱的世界吗?|锦秋AI实验室
锦秋集· 2025-12-26 18:23
文章核心观点 - Meta发布的SAM 3D模型在官方演示中表现出色,但在更复杂混乱的真实世界测试中,其“常识性3D理解”能力存在显著局限性[3][4][7] - 该模型的核心目标并非生成高保真3D资产,而是为了实现对物理世界的语义理解和空间分割,服务于增强现实(AR)眼镜、具身机器人及自动驾驶等长远应用[60][62][64] 人体结构推理测试 - 在复杂遮挡场景(如名画《雅典学院》)中,模型展现出超越像素的推断能力,能自动补全被遮挡的肢体并还原为完整三维骨架,证明了其“常识性3D理解”[10][11][12] - 在肢体强接触场景(如掰手腕)中,模型因二维分割歧义而失败,无法理清紧密交错的不同个体边界,导致三维生成出现粘连[16] - 面对非标准体型(婴儿)时,模型内置的标准成人骨架模板导致比例错误和结构崩坏,且无法理解镜像反射,将镜中人误判为具有完整骨架的真实实体[19][21][23][26][29] 物体的同质堆叠测试 - 对多层堆叠的快递盒,模型在物体边缘清晰、材质一致时分割效果尚可,但遇到塑料包装、反光或材质变化时,分割能力迅速下降[37][38] - 对水果拼盘,模型频繁出现语义类别混淆,例如将火龙果识别为西瓜,或将哈密瓜误判为容器,暴露其过度依赖颜色和二维轮廓,缺乏对材质、纹理和三维结构的深层理解[37][40][41][42] 建筑空间逻辑测试 - 对于结构简单的建筑,模型能完成基本的三维复原,但生成结果表面粗糙,仅为大致轮廓的体素云团,达不到工业可用的网格资产标准[44] - 对于建筑工程图纸,模型无法按图纸逻辑“拼装”三维建筑,而是基于可见部分进行猜测,导致不可见区域(如背面)的生成结果不一致且不可靠[47] - 对于密集建筑群(如北京国贸),模型能清晰切分独立楼宇并理解前后遮挡与空间分布,但对结构复杂的异形建筑(如CCTV“大裤衩”大楼),仅能理解其存在镂空拓扑特征,无法准确复原三维结构[50][53] - 总结而言,模型在建筑场景中扮演“布景师”角色,具备基础的空间分割与相对位置判断能力,但不真正理解建筑结构本身,其输出适用于VR预览或机器人避障等对精度要求不高的场景[55][56] 技术路线与市场定位 - SAM 3D生成的三维可视化本质是语义信息的空间表达,其侧重点在于点云、体素语义和空间分割,目标是让机器“看懂”世界,服务于机器人、自动驾驶和AR眼镜[60][64] - 这与Meshy、Tripo、混元等主流图生3D模型形成鲜明对比,后者侧重于纹理映射、PBR材质和拓扑优化,以生成“好看”的资产为目标,服务于游戏、影视和3D打印行业[58][64]
从全网吹爆到集体沉默:第一批花 200 美金使用 ChatGPT Pulse 的人,后悔了吗?|锦秋AI实验室
锦秋集· 2025-12-22 18:47
文章核心观点 - 文章通过对三位早期重度用户的深度访谈,评估了OpenAI ChatGPT Pulse功能发布两个多月后的真实使用体验[1][3][6] - 核心结论是:Pulse功能遇冷并非因为主动式AI方向错误,而是其当前的产品形态和价值交付与用户预期存在错位,未能提供清晰、确定性的价值,尤其是在个人用户场景下[45][47][48] - 受访者普遍认为,Pulse在初期能带来新鲜感和情绪价值,但深入使用后暴露出信息茧房、时效滞后、深度不足等核心痛点,导致其难以成为值得付费的生产力工具[16][35][45] - 文章指出,主动式AI的未来进化方向在于从时间驱动转向事件驱动、从短期兴趣拟合转向长期意图建模、并打通私有数据孤岛,而ToB场景可能比ToC场景更具确定性和商业潜力[26][27][34][49] 初体验时的Aha Moment - 所有受访者在初期都体验到了短暂的惊喜,这种惊喜主要源于“被在意”的感觉和“跨越时间”的回顾能力,而非解决了具体难题[10] - 惊喜点包括:AI能基于数月前的聊天记录进行主动回顾和重新思考,带来“不用我问,它主动Review”的良好感觉[11] - 有用户认为其价值更像“陪伴”,情绪价值大于实用价值,特别是当它连接了Google Workspace等外部工具,能自动总结同事在Figma等平台的评论时[12] - 初期推送会基于聊天话题做延伸调研并附上问候,显得贴心,但用户复盘发现,这些推送并未真正解决棘手问题,且存在时效性太低的问题(例如第二天才给结果,问题早已解决)[13] - 经过初期反馈调整后,Pulse能开始理解用户思考的问题,并主动推送相关领域(如海外具身智能公司融资、基金募资)的信息增量,带来Aha时刻[14] - 产品UI设计受到喜爱,初期“标题党”式的推送能有效吸引用户点击[15] 深入体验后的核心痛点 - 随着使用深入,Pulse暴露出局限性,常在做“无用功”[16] - 痛点一:不遵循用户指令,例如用户明确要求用中文回复或测试特定语言内容,但推送仍为英文[17] - 痛点二:信息茧房问题严重,推送内容完全局限于用户过往聊天记录所构建的封闭信息房间内,无法提供房间外的未知信息[17][21] - 痛点三:信息过载与阅读压力,每日长篇简报从辅助工具变成了需要额外消耗精力的任务[18] - 痛点四:严重的“马后炮”问题,很多推送调研滞后,在用户已解决问题后才送达,失去实用价值[19] - 痛点五:内容多为“正确的废话”,反复咀嚼已知信息,只有苦劳没有功劳[20] - 痛点六:无法触及“Unknown Unknowns”(未知的未知),无法帮助用户发现认知盲区,根本原因在于上下文缺失,仅拥有用户生活的一小部分数据切片[21] - 痛点七:思考“就事论事”,缺乏“Out of box”的不同视角启发,对用户需求缺乏深度分析[22] - 痛点八:推送信息分为两类,一类是时效性不强、无信息增量的旧闻;另一类是总结深度有限,仅能概括“发生了什么”,而无法触及“为什么重要”、“下一步走向”及对决策的具体意义[23][24] - 总体而言,Pulse被比喻为“围绕已知兴趣做填空题的做题家”或“复读机型智囊”,其整理的信息中超过95%在整理完成后已失去打开价值[24] 关于需求场景与未来形态的反思 - 用户渴望超越“态度积极”的真正价值,需要一个能打破认知边界的智囊和更可持续的商业逻辑[25] - 未来方向一:打破信息茧房和数据孤岛。当前Pulse受限于私有数据连接,若能打通用户公司内部所有工具(如Slack、Figma、Notion)的数据,理解业务全貌,其价值将大幅提升,这指向了ToB逻辑[26] - 未来方向二:从ToC转向ToB。个人用户需求发散,难以预判,若不能解决具体生产力问题,Pulse只能提供难以标准化且易消散的情绪价值[27]。相比之下,受Pulse启发为商家客户开发的“Business Pulse”基于明确的业务数据生成复盘简报,需求收敛、预期稳定,成为了可预期的生产力工具,商业逻辑更顺[27] - 未来方向三:提供深度或广度的信息。深度上,需能进行比用户更深入的专项研究;广度上,需能主动关联跨生态的扩展信息[29] - 未来形态畅想:不应局限于文字简报,可转化为利用碎片时间的车载播客形式,由AI主持人以对话形式播报关键信息,提升价值感知[28][30] - 未来方向四:AI需学会“做减法”并克服“知识的诅咒”。AI全知全能反而导致筛选直觉缺失,未来需从全知资料库进化为懂用户的私人朋友,进行有效信息过滤[31] - 未来方向五:需解决“主动性”的真伪问题。当前AI没有“欲望”,其主动性依赖人为Prompt设定激励,在精确到个人需求时容易露馅,这是实现真正主动式AI的巨大Gap[31] - 未来方向六:需建立“用户的长期意图建模”。当前Pulse逻辑仍是推荐系统的延伸,拟合短期兴趣画像,但缺乏对用户零散行为背后长期、稳定目的的理解,导致推送无法拉伸认知边界,价值上限被锁死在“信息与效率工具”层面[32][33][34] 关于价值锚点 - 受访者对于Pulse如果独立收费的意愿模糊,核心困惑在于当前产品体验支撑不起独立的付费理由[35] - 用户认为,如果产品不能提高生产力,就不值得付费。有用户虽未退订,但使用频率已从每天必看降至连续一两周不看[36] - 对于团队配置,诉求明确是提高生产力,而当前Pulse无法满足此诉求[37] - 用户认为当前产品价值稀薄,即使便宜也不愿购买,因为其推送内容与直接Prompt询问的结果差异不大,不值得等待一天也不值得花钱,是“时间和金钱的双重不值”[38][39][40] - 有用户在试用一个月后,因价值不清晰而取消了每月200美元的付费订阅[41] - 当前Pulse提供的价值更像一种“增强”,而非独立完成的“关键结果”[42] - 高价(200美元/月)本身不会劝退高端用户,但会放大“价值是否清晰”的问题[43] - 主动式AI的实现可能需要从“时间点驱动”转向“事件驱动”,用长期意图假设替代短期兴趣画像,并为每一次主动介入设置真实的信任成本[44] 总结 - Pulse遇冷的根本原因在于其提供的价值与用户预期发生错位[45] - 错位一:回顾与增量的错位。Pulse擅长Review旧信息,但用户日常需要的是未知的外部信息增量,而Pulse困于信息茧房,无法提供真正的知识增量[46] - 错位二:时效与实用价值的错位。推送的滞后性(“马后炮”)让辅助决策的“及时雨”变成“过期新闻”,失去了行动价值[46] - 错位三:ToC场景的模糊性与意图缺失。个人用户需求发散,而AI缺乏对用户长期意图的建模,导致主动推送变成没有方向的盲目猜测,难以维持长期付费意愿[47] - 实现难点在于界定“情绪价值”与“信息价值”的边界。当前Pulse陷入尴尬中间地带:作为情感陪伴缺乏真欲望;作为效率工具受限于时效和深度[48] - 主动式AI的真正实现需要一场系统重构:机制上从“时间点驱动”进化为“关键事件驱动”;认知上从拟合“短期兴趣”进化到建模“长期意图”;数据上需突破公开数据限制,打通私有数据上下文[49] - 受访者作为AI极客和重度使用者,其体验虽不代表大众,但为主动式AI从玩具迈向工具指出了真实的进化方向[50]
AI眼镜:便宜的华强北和尊贵的 Meta 到底差到哪里了?|锦秋AI实验室
锦秋集· 2025-12-19 18:02
文章核心观点 - 通过对比智能眼镜赛道中价格最高端与最入门(约200元)的产品,揭示不同价格定位背后的工程取舍、成本结构、战略定位与公司世界观,从而看清行业真相 [3][4][5][6] - 对消费者而言,制造业的终点是普惠,若产品能以1/10的价格实现80%的体验,则可能改变消费习惯与行业本身 [6] - 对创业者而言,“最便宜 vs 最贵”是现实竞争,需思考哪些体验必须坚持、哪些功能可削减、哪些技术值得重仓 [6] - 对投资人而言,高端与低端产品体验差距巨大意味着产业尚有突破空间,差距快速缩小则往往预示着新技术落地、供应链成熟与行业拐点将至 [6] 产品对比:外观与舒适度 - **最贵款(Meta智能眼镜)**:外观具科技感,但存在感强,并非可低调佩戴的普通眼镜,佩戴时监控氛围明显,易引发他人对被拍摄的担忧 [7][8][12] - **最贵款舒适度**:评价中等偏下,鼻梁位置有明显阴影感,镜片镜框较厚,正对光线时视野中持续有阴影 [11] - **入门款(约200元AI眼镜)**:外观相对正常,但因无拍照功能,弱化了“被注视感”与监控氛围 [9] - **入门款舒适度**:镜腿夹持力更强,长时间佩戴易觉勒头;鼻托材质廉价,对鼻梁不友好;鼻梁位置阴影感较少;音乐音质较差,仅为“凑合听个声” [14][17] 产品对比:AI核心能力 - **场景1:随拍后AI生成内容** - **最贵款**:可作为免掏手机的随身摄像头,拍照清晰度满足日常记录与社交平台需求 [18][19] - **最贵款工作流断点**:手机端AI无法直接访问眼镜已拍摄的照片进行总结,导致“随拍-AI生成”的理想工作流程无法走通 [21][22][23][24] - **入门款**:无拍照/录像功能,完全无法支持此场景 [26] - **场景2:实时总结眼前内容(PPT、菜单等)** - **最贵款**:通过语音指令唤醒AI并拍摄当前视野照片,AI可立即对刚拍照片进行总结与解释,此链路产品形态合理 [26][27] - **入门款**:因无摄像头,完全不具备视觉AI能力,在此场景中直接出局 [27] - **场景3:AI同声传译** - **最贵款**:眼镜自身完成收音、识别与翻译输出,实现“戴上就可以聊”,延迟约一句,机器感较轻,但**目前不支持中文到英文的翻译**,且部分功能依赖VPN环境 [28][29][30][32][33][50] - **入门款**:需手机作为“耳朵”接收语音,翻译后通过眼镜播放,延迟约两句话,机器感重,为逐句翻译而非准实时流式翻译,且翻译时长有限制,仅适合旅游点菜等轻量场景 [36][37] - **场景4:隐私处理** - **最贵款**:在测试中,录制视频文件仅保存在用户手机本地,未上传至网络,在隐私边界处理上相对保守,给予用户一定安心感 [40][41][44] 产品对比:续航、连接与长期使用痛点 - **最贵款主要痛点**: - **交互成本高**:使用AI功能(总结、识别等)几乎必须通过“Hey Meta”语音唤醒,在多人场景存在心理门槛 [46][48] - **AI对话不连续**:每轮提问都需重新唤醒,无法进行带上下文的连续对话,更像可反复召唤的工具 [47][49] - **现实限制**:AI核心功能依赖网络与VPN,离线状态下仅能使用拍照等基础功能,严重影响在国内的可用性判断 [50][51] - **入门款痛点**:功能本身有限,无视觉AI,重度AI助理场景非其定位;同声传译依赖手机且体验一般 [52] 产品定位与行业启示 - **最贵款(高配款)定位**:主打AI视觉、拍照记录及一定程度的翻译与助手能力 [56] - **尝试替代/补充**:部分随身助理(如看PPT抓重点)、中低端相机/运动相机部分场景、一小部分翻译/识别设备、部分需要掏手机拍照的瞬间 [53][56] - **无法替代**:手机(全能入口、应用生态)、高端相机(高像素、大底) [54][55] - **入门款定位**:主打音频播放与简单同声传译,更像“带翻译功能的音频眼镜”而非真正意义上的“AI眼镜” [26][57] - **替代/补充**:简单蓝牙耳机/音频眼镜、手机加翻译App的部分轻量场景(如旅游点菜) [57] - **无法做到**:任何需要“看到内容再理解”的AI场景、高质量音频体验、挑战相机/随身助理/翻译器的综合定位 [60] - **对消费者的价值**: - 入门款(约200元)适合仅需听歌、偶尔翻译、旅游点菜的用户,完成了最低限度的“工具责任” [58][61] - 若需求是真正的AI眼镜(帮看PPT、菜单、读路牌、记录生活并用AI总结),则入门款明显不够,高配款才是起点 [61] - **对品牌与行业的启示**: - 差异化不应只卷参数,而应聚焦于“能否帮用户少掏一次手机”或“在其看不懂内容时真正解决问题”等核心价值点 [59][62] - 品牌需明确坚持什么:是坚持舒适度与隐私边界(即使成本高),还是坚持极致便宜(承认是“能用就行”的工具),最忌价格与体验都未做到极致 [62] - 通过对比帮助消费者与品牌想清楚:哪些体验可为价格妥协,哪些体验一旦妥协产品就不值得被记住 [59][63]
一年投资 50 家 AI 公司:想给有韧性的创业者“快且确定”的钱 | 十字路口Koji对话锦秋杨洁
锦秋集· 2025-12-18 14:45
文章核心观点 - 锦秋基金是一家成立于2022年、管理规模超过5亿美金、专注于AI领域的12年长周期风险投资基金,其投资组合中90%以上为AI相关公司 [12] - 公司采用“快速且确定”的投资打法,强调通过前瞻性深度布局实现快速决策,并通过持续跟投和增值服务为创业者提供确定性 [6][7][73][216] - 公司视自身为一家“AI公司”,在内部工作流中深度整合AI工具,以提升从项目搜寻到尽职调查等各环节的效率和广度 [56][57][233] - 面对红杉、高瓴等大型基金的激烈竞争,公司的核心价值主张在于“快且确定”的决策、差异化的行业认知,以及与创业者的匹配度 [61][222][224] - 公司认为AI是基础设施级别的长期变量,将持续渗透各行各业,为早期投资带来长期机会,但时间窗口并非无限,晚入局者将面临更激烈竞争 [68][242][243] 快问快答与创始人背景 - 创始合伙人杨洁毕业于中南财经政法大学,MBTI为INTJ,创业前在字节跳动负责战略和投资 [25][26][29] - 创业决定源于2022年字节跳动内部投资业务调整,杨洁与几位同事选择共同创办基金以继续从事热爱的投资事业 [30][31] - 创业过程初期低估了难度,但通过拆解细化问题逐步解决,创始人更能切身感受创业者面对长期目标与短期执行的状态 [32][33] 在 AI 寒冬下注:一个 12 年期基金的诞生 - 基金成立于2022年AI行业相对低迷时期,但团队基于在字节期间投资50多家AI/机器人公司的经验,看到了AI在补充生产力、替代劳动力方面的明确信号和收入增长 [38][42][43] - 募资时向LP讲述的故事是AI与机器人将在未来生产环节发挥巨大作用,并基于全球劳动力市场数据进行了测算 [35][36] - 基金设计为12年长周期,是基于对AI属于“基础设施级别变量”而非短期产业周期的判断,认为长周期有利于回报,并敢于投资那些7年期基金可能不敢投的项目(例如AI软件应用中70-80%的项目) [68][71] - 基金规模定为5亿美金,旨在平衡早期投资能力与后期项目持续增持的能力,避免规模过小无法跟投或过大被迫追逐确定性大项目 [46][47] 锦秋也是一个"AI 公司" - 公司内部深度应用AI工具,将其视为“第21位合伙人”,用于辅助而非完全替代人力 [56][149] - 在项目搜寻(Sourcing)环节,使用AI系统分析论文作者、获奖名单,甚至从公众号推文中判断交易机会 [169] - 在尽职调查环节,利用AI进行全网舆论分析、竞品分析、论文解读和代码审查 [58][234] - 在日常运营中,曾使用Claude Code和ChatGPT设计团队建设活动,包括方案设定、问题设计和评委打分 [59][60] 如何看人? - 评估AI应用创始人时,最看重的三个特质依次是:韧性、学习能力、执行力 [94] - 认为韧性某种程度上是天生的或与个人成长经历相关,而其他技能如编程、营销均可通过学习或招聘获得 [95] - 通过深度复盘创始人过去的经历,特别是面对失败时的归因和应对方式,来判断其韧性 [96][97] - 曾因过于评估插件产品而错判了创始人Manus(后做Monica)的“反无序、反脆弱的核心能力”,从而错过了早期投资机会,此案例在内部被多次复盘以降低团队对错过项目的紧张感 [88][90][130] 如何募资? - 第一期募资时曾遭遇大规模、集中的拒绝,跟踪进展的表格数据“惨不忍睹” [111][112] - 对抗募资焦虑的有效方法是:当进展记录表带来痛苦时,就停止查看和短期复盘,将精力完全集中在能够推进的事情上 [6][115] - 心态转变发生在募完两只基金后,意识到市场广阔,总有资金想投入一级市场,被部分人拒绝无关紧要 [119][121] VC 的卷、FOMO 与安全感 - 公司努力营造团队安全感,避免成员因害怕错过(FOMO)而紧张工作,希望团队因热爱而工作 [9][131] - 创始人通过主动分享自己错失项目的案例(如Manus)和后续思考,帮助团队对“错过”脱敏 [130][186] - 公司文化强调信息拉齐和共享,通过搭建公开交流平台和项目讨论的开放性,对抗内部信息孤岛的形成 [172][175][177] - 给予安全感的方式包括:招聘时选择本身想赢、聪明且能协作的人;建立长期合作的信任,不因单个项目否定个人;领导者承认自身错误,营造允许犯错的环境 [181][183][185] 投资中关键的事 - 如果明年只能投一个方向,会选择具体领域的专家知识类AI应用,可以是软件或结合硬件的形态 [196] - 自2023年起明确不投大模型公司,认为该领域竞争惨烈、资源需求大且面临巨头竞争,对创业公司不友好,此决定至今不后悔 [199][203] - 早期投资对估值相对不敏感,更关注最终回报倍数;主要投资增长,能接受估值预付1-2年的增长,但很少投资纯概念 [207][208][209] - 2025年单笔投资金额较2024年有所提高,原因包括市场竞争加剧、大厂背景创始人估值预期更高,以及对已投项目的后续跟投 [213][214] - 强调连续跟投,在已交割的50多家公司中,一半以上已完成下一轮融资,其中对8家进行了跟投(含2家多轮跟投),以增强投资确定性和资源投入 [215][216] 如何竞争? - 面对红杉、高瓴等大型基金的激烈竞争,认为并非所有创业者都需要拿他们的钱,关键在于投资机构与创业者的匹配 [223] - 公司的核心竞争优势是“快且确定”:决策和反馈速度快,沟通直接;在产品和规模化方面能提供差异化的认知和有效资源 [224][225] - 创始人画像正变得多元化,除了名校大厂背景,也包括独立开发者等非典型创业者,公司通过AI sourcing系统和同事个人网络来发现这些“藏在山川湖海”的人才 [166][168] 展望2026 - 预判2026年国内资本市场将更热闹,几家大模型公司和具身智能公司可能迎来上市潮 [240] - 预判资金将更充沛,一度沉寂的后期大基金(Mega Fund)正在回归中国市场 [241] - 认为AI创业领域目前像一个“世外桃源”,创业者可暂时不关注宏观经济、汇率和利率波动,但机会长期存在的同时时间窗口并非无限,晚入局者将面临更激烈竞争 [242][243]
Choose Your Own Adventure|加入锦秋
锦秋集· 2025-12-17 18:03
公司定位与投资理念 - 公司是一家专注于人工智能领域的原生投资机构,投资方向聚焦于AI算力、AI应用以及具身智能三个具体方向[7] - 公司的核心理念是“Builder, not talker”,即亲自实践,将风险投资公司本身当作一个产品来打造[8] - 公司采用“真听、真用、真聊、真投”的方式,与创业者共同经历AI时代[9] - 公司强调“快速的确定性”,在观察模型和产品迭代的同时,将自我迭代与未来判断前置,从而实现快速且确定的投资决策[10][11] - 公司相信执行力强的团队将能率先享受AI在团队运营上带来的复利效应[12] - 公司倡导“Context not control”的管理哲学,为团队提供背景信息而非严格控制,鼓励形成独特的行动路线[13] 投资策略与运营 - 公司通常作为首轮投资人进行投资,单笔投资额度范围在100万美元至2500万美元之间[7][24] - 公司投资决策迅速,支持SAFE(未来股权简单协议)与多轮跟投,并为被投企业引入人才、产业资源及全球投资网络[25] - 截至目前,公司已投资超过70个项目,并保持活跃的投资节奏[10][24] - 公司运营着名为“锦秋小饭桌”的常态化闭门社交活动,旨在为创业者提供交流平台,该活动已成功举办39期[29] - 通过“锦秋小饭桌”等活动,公司深度链接创业者,曾有“一桌子饭友锦秋全投了”的故事发生[30] - 公司还设有“锦秋AI实验室”栏目,专注于探索和评测AI产品在实际场景中的应用效果,例如用AI解锁100个效率场景[34] 被投企业案例 - 公司的投资组合包括多家知名AI领域创业公司,例如宇树科技、星尘智能、地瓜机器人、数美万物、生数科技、造梦次元、东方算芯等[27] - 宇树机器人的创始人王兴兴、数美万物的创始人任利锋都曾作为嘉宾参与公司的“锦秋小饭桌”活动[30] 团队文化与人才观 - 公司不提供严格的工作描述,秉持“不过度归纳总结”的工作方式,认为个体借助AI后的工作能力无法被模板化[14][15] - 公司寻求的AI投资人/研究员需具备真正的产品构建经验,例如曾在大厂、创业公司或实验室里做过AI产品、机器人、自动化或系统工程[16][17] - 理想的候选人应对AI产品有直觉和热情,拥有自我迭代的驱动力,并喜欢与创业者、产品人、研究员交朋友[18][19] - 公司看重候选人对世界和人的好奇心,不局限于“投资人”身份,而是将AI视为长期事业[19][20] - 公司相信年轻人的魄力,认为经验会随着时间和经历增长,并已有年轻投资同事因表现突出被跳级升职为投资副总裁的实例[28][31] - 公司强调“builders, not talkers”的文化,此理念已被内部认可并纳入品牌价值[31]
锦秋被投产品OiiOii意外走红背后:为何10万人排队等一个不完美的动画AI Agent?|Jinqiu Spotlight
锦秋集· 2025-12-17 15:59
公司概况与市场热度 - 公司Hogi旗下产品OiiOii是一款专注于动画创作的AI Agent,被创始人称为“幼年动画智能体”,自2025年7月底成立以来不足半年,团队仅十余至十八人[5][6][8][70] - 产品尚处于内测阶段,原计划招募不超过100名内测用户,但意外吸引了近10万人排队等待,市场热度远超预期[5][16] - 公司已获得锦秋基金和高瓴资本的天使轮融资[14] 创始人背景与团队理念 - 创始人闹闹拥有丰富的产品与内容行业经验,曾任职于微信、字节跳动(负责剪映与特效业务)及B站(担任大动画负责人),具备技术、产品与动画领域的复合背景[8] - 团队组建注重成员对动画行业的纯粹热爱与相匹配的执行能力,早期团队规模控制在18人,短期内计划不超过25人,创始人亲自面试以确保基因匹配[66][67][70] - 团队文化强调信念感与内驱力,认为在动画行业,纯粹的热爱最终能获得商业成功[68] 产品定位与核心差异化 - OiiOii定位为全球首个专注于动画创作的AI Agent,其核心目标是交付动画成片,让普通人也能做出有观赏性的动画[8][45] - 与创始人此前主导的AI二次元社区“狸谱”(UGC内容社区)不同,OiiOii更侧重于PUGC和PGC,定位为创作工具[32] - 产品最大差异化在于一切以交付动画内容为出发点,内置影视专业知识,用户只需提出想法,系统自动理解意图并生成内容,降低了使用底层模型的专业门槛[45] 技术架构与产品创新 - 产品创新点在于既提供清晰的工作流,又允许用户在创作每个环节跳出来自由编辑,并智能地引导用户回到流程,这一结合机制是技术难点与差异化所在[36][37] - 技术团队约60%~70%的精力用于对生成内容效果的改良,而非简单接入模型,在底层模型基础上融入了大量对视频的专业理解和优化[40] - 为优化生成效果,产品接入了7个图片生成模型和7个视频生成模型,根据不同模型特点提供一致性解决方案,例如为改善场景一致性,将模型从Nano Banana升级为Nano Banana Pro[19][43] - 产品设计面临Agent场景不可穷尽的挑战,团队通过持续预想用户路径、排列组合、打补丁来覆盖各种可能性[33][34] 当前产品状态与用户反馈 - 创始人认为产品仍处于“幼年智能体”阶段,尚未达到能实际工作的水平,主要问题集中在角色、风格、场景的一致性控制以及分镜间的连贯性上[19][22] - 用户反馈最集中的问题是生成一致性的控制,具体涉及角色、风格、场景三个方面[19] - 意外的用户反馈是创作者已开始主动解决问题,利用对模型原理的了解发掘出团队未预见的用法,体现了Agent工具在不同用户手中差异巨大的魅力[20] 运营策略与商业化计划 - 社群运营营造“小学班级”般的童真氛围,通过展示优秀作品、给予奖励(如“小红花”)来激发用户创作与分享[24] - 计划于12月中旬开始更大范围的内测,跑两三周后上线付费功能,具体模式暂未公开但强调会与众不同,收费旨在覆盖较高的推理成本以维持产品健康持续发展[26][27][28] - 短期内公司战略专注做好动画创作工具,未来大半年不会拓展其他方向,也未计划立即开发移动端或社区功能[29][30][54] 行业认知与竞争壁垒 - 公司认为当前AI视频模型差异化明显,各有侧重(如打斗、情绪、特效),并未出现同质化[44] - 构建垂直行业Agent的核心壁垒在于:对行业有敬畏心并深入理解全流程;不被传统模式束缚,做真正的AI原生解决方案;有挑战行业的勇气与实现能力[46][47] - AI在行业中的作用像“千斤顶”,在关键点上用对能撬动很大改变,这需要真正的行业理解[48] - 创始人认为其产品模式(专注动画、结合专业工作流与自由编辑)很难且没必要被复刻,市场足够容纳面向不同需求的团队[41] 发展理念与创业心态 - 创始人强调创业是长跑,需要的是耐心而非不可持续的激情,前期应有意识“压着节奏”,如同竞技体育中的策略性跟跑[55][56] - 决策动力应来自于“怎样能做得更好”,而非“害怕做得不好”或资金焦虑,这有助于保持动作不变形和稳定的发展节奏[59][60] - 面对行业浪潮,公司力求保持清醒和平稳状态,在大家过热时冷静,在大家悲观时积极,以稳步向目标前进[61][62][63]
从「密度法则」来看Scaling Law撞墙、模型密度的上限、豆包手机之后端侧想象力......|DeepTalk回顾
锦秋集· 2025-12-15 12:09
文章核心观点 - 大模型的发展正从依赖规模扩张的“规模法则”转向追求效率提升的“密度法则” [2][3] - “密度法则”指出,模型能力密度每3.5个月翻一倍,使得实现相同智能水平所需的参数量和成本呈指数级下降 [11][28] - 行业未来的核心竞争力将从规模竞赛转向效率与智能密度竞赛,为端侧智能的普惠化奠定基础 [11][59] Scaling Law的可持续性问题 - 规模法则在数据和算力上面临可持续发展瓶颈,并非完全失效,而是“撞墙了” [2][15] - 训练数据瓶颈:核心训练数据依赖互联网公开语料,其规模增长已放缓,基本停留在20T Token左右,难以继续扩展 [15] - 计算资源瓶颈:模型规模指数级增长需要不可持续的计算资源,例如LLaMA 3 405B模型训练使用了1.6万块H100 GPU [16] 密度法则的提出与定义 - 灵感来源于信息时代的摩尔定律,智能时代需要关注“知识压缩效率”与“智能密度” [3][20] - 观察到行业趋势:用越来越少的参数实现相同的智能水平,例如2020年GPT-3需千亿参数,2023年初MiniCPM仅用2.4B参数达到相似能力 [23] - 定义了模型的“相对能力密度” = 同能力基准模型的参数量 / 目标模型参数量,以此量化模型的知识压缩效率 [24][25] 密度法则的核心推论 - 推论1:实现特定AI水平的模型参数量呈指数级下降,每3.5个月下降一半 [32] - 推论2:模型推理开销随时间呈指数级下降,例如GPT-3.5推理百万Token成本约20美元,相同能力的Gemini 1.5 Flash仅需0.075美元 [36][38] - 推论3:自ChatGPT发布后,大模型能力密度的增长速度明显加快 [42] - 推论4:模型小型化带来巨大的端侧智能潜力,未来3-5年端侧芯片预计可运行10B-60B参数规模的模型 [45] 构建超高能力密度模型的制备体系 - 架构高效:趋势从“大模型”迈向“长模型”与“全稀疏架构”,包括前馈网络和自注意力机制的稀疏化,以处理长序列和复杂思考 [53] - 计算高效:坚持软硬协同优化,包括自研训练框架、投机采样、量化技术等,例如全阵敏感4比特量化能在保持99%性能下将存储压缩至Int4 [54][56] - 数据高效:预训练阶段核心是提升数据质量与清洗;后训练阶段关键在于通过人机协同合成高质量数据 [55][57] - 学习高效:构建“模型能力风洞”,通过训练小规模模型验证数据配比、超参等,以科学化调度降低大模型训练的试错成本 [58][67] 行业现状与头部厂商动态 - OpenAI通过推出“Mini”或“Flash”版本,积极将旗舰模型能力压缩至小模型,以降低推理成本 [71] - Google在架构层面进行探索,例如在Diffusion Model中展示非自回归快速生成能力,并应用高效的注意力机制 [71][72] - 预训练数据的核心瓶颈是互联网语料质量低;后训练的关键瓶颈是高质量Query和稳定运行环境的稀缺 [68][69] 未来技术趋势展望 - 明年技术主线将集中在Agent领域,其能力提升的核心驱动力依然是数据积累 [73] - 高质量的后训练数据和稳定的运行环境将成为决定各家模型能力上限的关键因素 [69][73] - 端侧智能预计在2026年迎来重要转折点,驱动力包括普惠化需求、隐私保护以及端侧芯片算力与模型能力密度的协同提升 [75][76][77] - 端侧多模态的发展方向包括高清高刷体验的优化,以及流式全模态处理能力 [78] 模型评价与行业发展 - 现有大模型“排行榜”因容易导致模型过拟合而有效性受到质疑 [82] - 未来需要发展内部私有评测体系,并构建动态、前瞻性的评测集,以引导模型向更通用的方向发展 [84][86] - 长期需关注对模型自主学习能力的评测 [85]
在深圳,一次性链接100+ AI Builders|线下活动报名
锦秋集· 2025-12-15 12:09
活动概况 - 活动主题为“跨大厂AI Party”,旨在为AI领域的建设者提供交流平台 [1] - 活动由锦秋基金、鹅同学、深圳模力营联合主办,计划于12月20日(周六)晚在深圳举行 [1][2] - 活动核心目标是搭建同频交流场域,促进参与者交换真实问题、碰撞一线判断并结识合作伙伴 [1] 参与人群与规模 - 活动邀请对象涵盖互联网/科技大厂员工、创业团队成员以及顶尖高校的AI Builders [1] - 活动计划一次性链接超过100位AI领域的同行者 [1][2] - 参与者需通过报名审核,筛选依据包括报名先后顺序和从业背景信息 [2] 活动流程安排 - 活动于18:30开始签到留影,19:00正式进入分享与交流环节 [4] - 主要环节包括AI投资人及创业者的开场分享、创业者需求对接以及自由交流链接 [4] - 整体活动安排紧凑,自由交流环节持续时间最长,为1小时 [4] 主办方背景 - 联合主办方“鹅同学”是腾讯员工的专属实名社区,认证在职及离职腾讯员工近万人 [6] - 联合主办方“锦秋基金”定位为AI-native投资机构,专注于早期投资并长期陪伴AI创业者 [6] - 联合主办方“深圳模力营”是由南山区政府主导建设的大湾区首个人工智能垂直孵化器 [6] 生态合作与扩展 - 活动主办方同时运营相关的AI生态社区,欢迎AI创业者、关注者及生态合作伙伴加入 [6][7] - 锦秋基金作为投资机构,持续聚焦于AI和出海领域的早期及成长期投资机会 [7]
锦秋被投企业因克斯宣布新一轮近2亿融资,锦秋基金持续加注|Jinqiu Spotlight
锦秋集· 2025-12-14 14:20
公司融资与市场地位 - 公司因克斯于近期完成近2亿元人民币的新一轮融资,由华控基金、深创投集团共同领投,普华资本跟投,老股东绿洲资本、锦秋资本持续追加投资,这是公司在2025年内完成的第三轮融资[3][4] - 公司创立于2022年,是具身智能上游产业链的核心领军者,其关节模组年出货量已突破十万台,成为行业内首家在具身智能领域达成此出货量级的关节模组企业,市场份额持续稳居行业首位[6] - 公司正加速推进百万台级产能建设与供应链搭建,以支持行业规模化发展及客户量产需求[6] 产品与技术研发 - 公司核心竞争力源于深厚的研发积淀与前瞻性布局,是国内最早针对具身智能和人形机器人应用场景开展关节模组研发的企业,实现了驱动器、减速器、电机、编码器等关键组件的自主研发[8] - 公司基于“场景定义产品”的研发逻辑,其关节模组在负载能力、响应速度、轻量化、稳定性等核心指标上与实际应用场景匹配度最佳,逐渐成为行业标准的隐形制定者[8] - 公司已构建覆盖不同负载等级、精度要求的标准化关节产品矩阵,覆盖行星、谐波、摆线等多种技术方案,帮助新进入的整机厂商快速完成选型,大幅缩短研发与落地周期[9] - 公司针对人形机器人对“内走线”的强需求,于2023年开始布局中空走线关节产品,并在2025年实现规模化量产,近期还将发布一系列14mm超大中空孔径的新产品[8] 客户服务与商业模式 - 公司构建了对不同发展阶段客户的全周期服务能力:为研发阶段的客户提供标准化产品库及调试支持,帮助快速完成原型机迭代;为量产阶段的客户提供十万至百万台级关节模组的规模化交付,保障高良率、高一致性和稳定可控的供应链[12] - 公司的战略是成为整机厂商的“硬件创新基础设施服务商”,除核心关节模组外,已构建涵盖灵巧手、智能电池、通信模组等的多元化核心零部件矩阵[15] - 公司以灵巧手产品为例,其独创“独立超小关节模组方案”,在轻量化、高自由度、数据采集通用性等核心维度实现行业突破,该产品近期即将进入批量生产[17] - 公司的多元化产品布局解决了整机厂商在多品类核心零部件整合中的兼容性难题,通过统一技术标准和服务体系,降低了厂商的研发整合成本与供应链管理难度,从单一零部件供应商演进为“全链路核心硬件解决方案提供商”[19]
锦秋基金被投企业首形科技宣布完成新一轮融资,推进“仿生面部情绪表达”技术路线|Jinqiu Spotlight
锦秋集· 2025-12-12 17:41
锦秋基金投资动态 - 锦秋基金于2025年完成对首形科技的投资 [2] - 锦秋基金是一家12年期的AI基金,以长期主义为核心,专注于投资具有突破性技术和创新商业模式的通用人工智能初创企业 [3] 首形科技最新融资情况 - 首形科技宣布完成新一轮融资,由中国互联网投资基金与蚂蚁集团联合领投,其他投资人包括上海未来产业基金、东方富海,老股东招商局创投持续超额追投,深蓝资本担任独家财务顾问 [4] - 本轮融资是公司今年完成的第四轮融资 [6] - 融资资金将主要用于产品矩阵扩展、小批量量产体系搭建,以及核心模型与软件算法的持续迭代 [5] 公司技术路径与核心逻辑 - 公司坚持“以人形界面为载体的具身智能路径”,并已获得投资端与产业侧的系统性认可 [6] - 公司选择从人形面部、情绪表达与自然交互切入具身智能,认为“交互智能体以人的面貌呈现,更能激发人类底层的互动欲望” [11][12] - 公司认为,在人形机器人的技术链中,“脸”不仅是表达情绪的出口,更是建立交互意愿的入口,决定了人类是否愿意开始一次对话 [11] 技术突破与产品进展 - 公司近期完成了眼神系统的显著强化,通过对注视方向、眼球微运动与脖子节律的协同优化,使机器人的目光呈现出更接近人类的稳定感、聚焦感与情绪暗示能力,实现了从“朝向你”到“看见你”的跃升 [11] - 公司实现了高精度的嘴唇—语音实时同步能力,并首次让同一套人形系统稳定支持跨语言与跨音色的自然口型切换 [14] - 公司通过端到端数据驱动算法,让语音直接驱动电机动作,实现了技术突破,呈现出连续而具生命感的运动轨迹,不再依赖传统音素或规则预设 [14] - 公司通过人工智能技术构建了一条从工程到智能的完整链路,结合皮肤、比例等外观设计传达极致仿生机械美学 [16] - 公司的系统能力包括:表情模型算法支持高密度微表情输出;运控算法在保证实时性的同时维持自然连续;语音、视觉感知与表情等多模态在时间与语义上高度一致 [19] 行业洞察与公司愿景 - 行业面临一个本质问题:AI以什么样的形象,能激发人类的沟通欲望 [9] - 心理学中的“55/38/7”定律表明,人类对情绪的感知大部分来自面部表情与声音,语言本身只占极小比例 [16] - 人形面部的情绪表达,决定了AI能否在真实世界中建立稳定的交互心智、触达更高维度的体验层 [17] - 从眼神到表情,从口型到微动作,这些“类人线索”是未来智能体能否成为可信赖的交互主体的基础设施 [18] - 公司相信情感是可被建模、学习与表征的,当智能进入人类世界,它需要拥有情感 [20] - 公司的目标不是复刻人类,而是创造智能情感的第一形态 [20]