Workflow
锦秋集
icon
搜索文档
让AI锐评本届 NeurIPS 2025 最佳论文会得到什么结果? | 锦秋AI实验室
锦秋集· 2025-12-05 11:43
文章核心观点 - 文章通过让多个主流大语言模型(GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)扮演审稿人,对NeurIPS 2025的获奖论文进行盲审,旨在探究AI评审与人类评审结果的一致性、AI评审的稳定性及其对论文叙事方式的敏感性 [1][3][10] - 实验发现,AI评审的结论与人类评审结果存在显著分歧,两篇官方最佳论文在AI评审中并未获得一致的最高评价,其中一篇甚至被部分模型直接拒绝 [18][23][26][27] - AI评审表现出对提示词框架和论文叙事方式的极度敏感,当评审视角从“综合评价”切换为“刻意挑错”时,即使是官方最佳论文也可能被整体否决 [55][72] 测评设置与方法 - 实验选取了GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax五个主流大模型作为“AI审稿人” [7] - 设计了三个互补的评测场景:1) 全文评测:模拟真实会议评审,观察AI与最终录用结果的一致性 [8];2) 摘要评测:仅提供论文摘要,检验模型在信息不完整时的判断依据 [9];3) 对抗性评测:通过提示模型“以最苛刻评审者的角度评分”,测试其对提示框架的敏感性和评分波动 [9] - 评审标准严格遵循NeurIPS官方维度,包括技术正确性、创新性、清晰度、意义、可复现性及总分,并需给出最终录用建议(接受/边缘/拒绝)及奖项等级判定 [12] 全文评测结果分析 - **论文一(Gated Attention for Large Language Models)**:所有AI模型均未拒稿,但除GPT5(总分9,建议最佳论文)外,其他模型(Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)普遍将其视为强论文(总分7.8-8.5),建议等级为海报、焦点或口头报告,上演了“小范围低估冠军作品” [16][18] - **论文二(1000 Layer Networks for Self-Supervised RL)**:AI评审与人类评审分歧明显,GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5给出的总分在7.8-8.5之间,建议等级为口头或焦点报告,无一建议最佳论文;而Minimax则给出全场最低的5.8分并建议拒绝,相当于对官方最佳论文的“当面否决” [23][25][26] - **论文三(Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs?)**:AI评审达成高度共识,五个模型总分均在8分以上,其中四个(Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)打分达9或9.2,建议至少为口头报告,Minimax甚至建议最佳论文,与人类评审给出的口头报告结果基本同频 [30][31][32][33] - **论文四(Breaking the Performance Ceiling in Reinforcement Learning requires Inference Strategies)**:AI评审整体评价偏保守,GPT5和Minimax建议焦点报告,Claude 4.5和Gemini 3 Pro建议接受(海报),只有DeepSeek-V2.5明显更看好(总分9,建议口头报告),与大会结果一致 [36][37][38] 摘要评测结果分析 - **论文一**:在仅提供摘要的条件下,所有AI模型的评价普遍“降了半档”,最高分由GPT5给出(8.5分),但建议从最佳论文降为焦点报告,AI更倾向于将其视为高质量工程分析型工作,而非一眼认定的冠军 [39][40][42] - **论文二**:与全文评测相比,摘要评测阶段AI态度明显更“乐观”,模型普遍上调评分和预期,倾向于高估其通用性与实际价值,而弱化正文中可能隐藏的风险 [43][45] - **论文三**:摘要评测几乎将该论文推至“冲奖区”,GPT5直接给出8.8分并建议最佳论文,其他模型也多建议口头报告,表明这类“质疑主流路径+大规模实证”的论文仅凭摘要就极易营造强烈话题感 [46][48][49] - **论文四**:摘要评测出现“集体抬升”,GPT5、Claude 4.5、DeepSeek-V2.5总分逼近9分并建议口头报告,Gemini 3 Pro和Minimax则直接建议最佳论文,AI更容易被“6万+次实验、平均45%最高126%性能提升”的故事线吸引 [50][51][52][53] 对抗性评测结果分析 - **论文一**:在“以最苛刻评审者角度评分”的提示下,该最佳论文从“年度最佳”被重写为“工程小改动”,GPT5和DeepSeek-V2.5给出边缘建议,Claude 4.5、Gemini 3 Pro、Minimax则直接拒绝,AI版“Reviewer 2”破坏力展露无遗 [54][55] - **论文二**:对抗性评测进一步放大分歧,GPT5和DeepSeek-V2.5给出边缘建议,Claude 4.5、Gemini 3 Pro、Minimax则集体拒绝,集中批评其创新性有限、理论分析不足,现实中的冠军论文可能遭遇“三拒两险过”的命运 [56][57][58][60] - **论文三**:该论文成为争议最大对象之一,GPT5建议海报,DeepSeek-V2.5建议边缘,而Claude 4.5、Gemini 3 Pro、Minimax则统一拒绝,质疑其指标有效性、样本量不足及理论贡献偏弱 [61][62][63][65] - **论文四**:对抗性框架显著压低评价,GPT5建议海报,Claude 4.5和DeepSeek-V2.5建议边缘,Gemini 3 Pro和Minimax则拒绝,批评其缺乏算法创新、适用性被高估及存在过度营销 [66][67][68][71] 实验总结与发现 - 实验暴露AI评审存在两大结构性问题:一是对提示词高度敏感,评审框架的切换可导致同一论文的评价从最佳变为拒绝 [72];二是对叙事语气极度“吃语气”,仅看摘要时,擅长使用“大规模实验”、“范式转变”等话术的论文易被高估 [72] - 在“人机协同”的背景下,AI基于统一标准能提供更稳定、深入的分析,但其结论与真实评审结果存在分歧,可作为理解论文优劣与提升空间的辅助工具,而非最终裁决者 [69][70] - 两篇官方最佳论文在AI评审中待遇不一:门控注意力论文在多数模型眼中是稳妥的强论文(8-9分),但仅GPT5愿称其最佳;千层网络论文则更极端,评价从口头/焦点报告到直接拒绝,在AI世界中仅是“高争议强稿” [72]
锦秋基金被投企业想法流CEO沈洽金:用AI打造Z世代的迪士尼 |Jinqiu Spotlight
锦秋集· 2025-12-04 19:00
公司概况与市场定位 - 公司“想法流”于2023年在深圳成立,其核心产品“造梦次元”App于2024年2月上线,定位为Z世代含量最高的互动内容社区[8] - 公司于2024年12月完成数千万人民币的A轮融资,由锦秋基金领投,高榕创投、明势创投、商汤科技等参投[8] - 公司不将自己定位为工具或单纯的AI陪伴,而是一个从内容生产到消费全闭环的“内容社区”,其工具服务于社区内的创作者[13] - 公司的终极形态是构建一个由AI驱动的“国民原创AI宇宙”,在这个生态中,消费与创作的边界被打破,用户与AI角色共同创造内容[30][31] 产品运营与用户数据 - 截至2025年6月,“造梦次元”App累计用户超1000万,日均活跃互动时间超过100分钟,是AI内容领域用户使用时长最高的产品之一[7] - 平台已吸引超23万创作者,每天为平台带来超3000个新作品[7] - 根据算力合作伙伴商汤的公开评价,造梦次元每日平均模型调用量高达6000多万次,一天消耗的token达千亿级别[7] - 互动内容的受众主要为年轻人,如初高中生、小学生及部分年轻成年女性,公司预计加入AI变量后,该赛道日活做到5000万问题不大[17][18] 行业洞察与产品理念 - 内容产业正从“可生成”、“自动化创作”的效率革命,走向“可共情”、“个性化互动”的情感革命[4] - AI不会取代创作者,反而会放大他们的价值,创作者的想象力与互动力是AI驱动内容生态的核心[5][51] - 互动内容的核心特点是“内容大于玩法”,类似于轻度休闲游戏(如蛋仔派对、迷你世界)或互动小说,其底层逻辑更偏内容消费和社交消费[16][17] - 当前互动内容生态的最大痛点是内容供给不足,受限于单一游戏的世界观、IP和美术风格,而AI的发展提供了突破这一限制的可能性[19] 技术应用与产品创新 - 公司产品基于两大核心认知构建:**互动性**(由大语言模型LLM驱动,提供简单轻快的互动体验)和**想象力**(由多模态内容生成能力驱动,创造超越现实的内容)[21][22] - AI为生态带来两个核心突破点:大语言模型(LLM)提供了最小单元的互动循环;多模态内容(如视频模型)能创造出超越现实边界的内容[20][22] - 公司紧跟AI能力发展,持续降低创作门槛,推出了三层工具体系(从专业Studio到极简模板,再到新的Agent工具)以覆盖全创作人群[32][36] - 创新玩法基于模型能力开发,例如利用LLM的超长上下文能力开发“线索卡”玩法,利用文生图模型的角色一致性能力开发换装、送礼等全局性玩法Agent[43] 商业模式与创作者生态 - 平台商业模式类似蛋仔派对、迷你世界但更丰富,创作者通过用户打赏角色、订阅角色更新、购买角色专属头像框/皮肤等方式获得收入,平台与创作者分账[23] - 公司旨在为创作者构建从内容创作到IP孵化的完整变现路径,当角色成长为IP后,商业想象空间可延伸至授权、衍生品开发等领域[23] - 平台上IP的版权由公司与创作者共有,类似于MCN与虚拟IP签约的模式[28] - 拉开创作者等级的核心能力是**选题能力**(理解用户、捕捉喜好)和**执行能力**(将AI模型能力发挥到极致),工具复杂度旨在匹配不同能力层级的创作者[34] IP孵化与内容战略 - AI原生IP属于由海量内容支撑的IP(如迪士尼),其内容来自社区的UGC创作与共创,在持续互动中被塑造和立体化[25] - 平台的核心记忆点是IP角色本身,通过支持多元内容类型(文字、音视频、音乐、短视频等),让用户在各种场景消费角色,形成强情感连接,使角色沉淀为IP[26] - IP孵化机制包括:在平台内鼓励创作者围绕单一IP产出多元内容;当IP粉丝数达到1万以上且具爆款潜力时,帮助创作者对接外部资源进行改编和衍生品开发[27] - 公司战略是构建“工具-平台-IP”的完整AI原生价值链:工具是手段,平台是土壤,IP是果实,三者内生一体[47][48] 竞争格局与未来规划 - 目前大厂资源主要投入在基础模型开发和助手类工具上,而“工具+内容社区”模式需要很长的链条构建生态,公司尚未感受到来自大厂直接竞争压力[45] - 公司近期计划上线基于用户与AI互动记录生成音乐和短剧的玩法,其中音乐功能即将上线,短剧受限于当前底层模型能力[44] - 下一个关键技术节点是多分镜故事性视频模型(如Sora 2)的成熟,这将极大降低漫剧和动画制作门槛,为公司带来巨大机遇[44] - 公司强调在快速迭代中做减法,集中火力在“工具-内容-IP”的闭环上前进[49]
豆包手机跨应用 Agent:充满惊喜,也有遗憾,满是期待|锦秋AI实验室
锦秋集· 2025-12-04 14:44
文章核心观点 - 豆包手机助手是一款由豆包与中兴深度合作的系统级AI Agent,它通过视觉识别和理解能力,能跨应用执行复杂任务,代表了AI手机在入口统一、系统协同和意图驱动方面的现实探索[1] - 该产品目前是面向行业和AI爱好者的“技术预览版”,定价3499元,搭载于nubia M153,并非面向普通消费者的最终方案[1][56] - 测评显示,豆包手机在稳定执行异步、流程化任务方面表现出色,但存在操作延迟、部分应用(如微信)不支持等明显短板[4][5][30][34] - 文章认为,豆包手机标志着端侧AI的“GPT-3时刻”,其系统级Agent模式可能重塑应用生态、交互入口和产业合作范式,是AI OS和主动性Agent发展的重要信号[6][41][46] 场景测评总结 - **测评方法与范围**:测评通过语音指令启动,豆包手机可自主操作手机,用户无需全程盯守[8][9]。测评场景覆盖小红书、高德地图、携程、贝壳找房、抖音、美团外卖、闲鱼、斗地主等实用与娱乐场景[13] - **场景一:小红书旅行攻略**:豆包能连续浏览小红书约10分钟并保持记忆,自主跳转至高德地图收藏地点,并在多轮对话后准确找回原帖继续执行下载任务,对无法下载的应用能明确告知结果[14] - **场景二:贝壳找房买房攻略**:豆包能理解具体找房任务并与中介互动,最终成功联系到中介,但在执行“找10套合适房源”等批量任务时,次数识别可能不准确[16][17][18] - **场景三:携程买票及出差路线规划**:豆包能排除“时间赶不及”等无效信息干扰,直接锁定购票与规划任务,当发现手机无携程App时,可通过自然语言描述补充任务继续执行[22]。其具备推理能力,能识别“从苏州飞上海”指令不合理(苏州无机场),并自主切换至高铁方案[23] - **场景四:闲鱼买二手电驴**:面对结构复杂的闲鱼页面,豆包能清晰导航并准确定位操作入口,完成目标筛选[25] - **场景五:斗地主代打**:豆包能根据画面信息决策下一步行动,但其“截屏-分析-决策-点击”的循环工作逻辑导致操作有秒级延迟,在需要快速连续点击(如出“炸弹”)时容易因超时而失败[29] 产品体验评估 - **超预期的稳定性与泛化能力**:豆包能连续十分钟无差错执行任务,准确操作大量常规及小众App[30]。遇到界面异常时,会自主尝试滑动、点击其他按钮或换路径继续任务,而非死机[30]。其基于视觉识别屏幕,理论上不依赖App开发者开放权限或担心UI更新,只要人眼能看懂的按钮,它大体都能理解[30] - **卓越的协同性**:产品将中兴的硬件、锤子科技改造的系统、端侧模型、输入法、语音和Agent能力链路整合成一个闭环,实现了1+1>2的整机体验[32] - **适用任务类型**:目前在异步、无时效性要求、流程化、可清晰描述的任务上,豆包手机的任务成功率和使用体验已经非常高[31] - **明显的体验短板**:操作延迟显著,每一步操作都有秒级反应速度,例如出斗地主一张牌要等5秒[34]。目前已暂停操作微信,这直接影响了中国用户40%的高频连接和分享场景[34]。此外,存在次数识别不准确、初期缺乏记忆(如点外卖需重复选择规格)、部分内容生成能力僵硬等问题[34] 行业影响与未来展望 - **主动性Agent走入现实**:豆包手机在常用App设置钩子,点击收藏按钮时会自动截图存入全局记忆,未来可能支持用户设置定时任务,挖掘更多主动功能[37][38] - **构建强大的用户上下文**:端侧Agent理论上可异步遍历用户所有App内容(聊天、购买、出行等),构建最完整的用户上下文,但目前基于用户操作记录的AI功能尚未显现[39][40] - **端侧AI的“GPT-3时刻”**:豆包手机可被称为端侧AI的GPT-3(2020年)时刻,准确率已很高,主要问题是操作速度慢[41]。若视觉语言模型速度提升10到50倍,将达到端侧AI的“ChatGPT时刻”,许多任务可由端侧通用Agent完成,这要求端侧创业公司重新审视现状[41][42] - **操作系统的认知变革**:传统操作系统要求用户学习界面和流程,而豆包手机让功能、内容、文件成为可被Agent调用的模块,用户只需提出需求,由Agent解决操作问题[43][44] - **产业合作新范式**:合作超越“把模型塞进手机”,走向操作系统级的Agent调用[45]。应用侧广泛接入,但核心能力可能不开放,需通过豆包模型的页面视觉识别来实现操作,而非直接调用API,这呈现出“AI OS系统供应商”意义上的行业重构力量[45][46] - **未来的交互入口之争**:入口从分散的应用转向“任务意图”,这牵动10万亿级产业利益[47]。应用巨头不愿沦为“后台API”,应用间会竖起高墙(如微信登录被动下线),AI手机以任务入口统一入口的可能性与原有入口的争夺,将成为2025至2026年的热门话题[47][48][49][50] - **隐私安全挑战**:AI权限高、触达深,引发用户对安全的担忧,尤其是在考虑给大龄父母使用时[51]。系统在支付等高敏感操作上采用“最小权限原则”,需交还用户手动确认,未来的竞争关键在于如何在AI能干的同时让用户安心[51]。用户可通过指令覆盖默认安全基线,各方均需在此环节改进优化[52] - **应用价值重构**:未来应用的价值不在于功能密度,而在于能否被Agent精准调度及将自身能力结构化暴露出来[53]。人的主动性被置于中心,用户从被动浏览者转变为目标明确的任务发起者[53][54]
锦秋基金被投企业ArtArch CEO黄严:想让全世界每个人都能AI Native创作|Jinqiu Spotlight
锦秋集· 2025-12-02 18:10
公司概况与融资动态 - 锦秋基金已完成对ArtArch的投资,锦秋基金是一家12年期的AI Fund,以长期主义为核心投资理念,专注于投资具有突破性技术和创新商业模式的通用人工智能初创企业[6] - ArtArch在一年内完成了两轮融资,投资方包括锦秋基金、九合创投和BV百度风投[10] - 公司创始人兼CEO黄严,创业前在字节跳动智能创作部门担任工程与研发负责人,为抖音、TikTok、剪映、即梦、火山引擎等业务线提供底层创作能力[9][35] 核心产品:Skira - Skira是ArtArch发布的第一款产品,分为PC端和App端[10][12] - App端主要提供内容浏览和“一键Remix”功能,用户上传照片即可快速生成同款视频,实现“傻瓜式”创作[13][14] - PC端是面向专业制作人与技术流创作者的“AI工作流乐高化”创作工具,集成了各类功能,允许创作者在一个平台内打磨并发布内容[20] - PC端与App端相互连通,创作者在PC端完成的作品可以发布到Skira App,也可以分发至TikTok、Instagram等外部平台[22] - 产品上线一个月后,已吸引一批全球化的创作者KOC,公司更看重用户质量而非单纯的数量增长[29] 核心技术:想象力引擎 - ArtArch的核心是自研的“想象力引擎”,旨在破解AI创作的“最后一公里”难题,让技术门槛消失,使想象力直接变为可执行的作品[6][40] - 该引擎内置了公司自研的编译器和编程语言,将多模态模型能力、创作素材、工作流等封装进平台,让创作者能像写剧本一样定义工作流[25] - 引擎能够将一句文字描述(例如:“一个小孩在雨里奔跑,突然抬头看到一条巨龙掠过天空”)自动拆解成包含运镜、光影、节奏的完整五镜分镜,将传统需要编剧、导演、分镜师、特效师反复沟通的过程压缩至几秒钟[6][50][51] - 该体系实现了大模型、多模态能力、工程化结构和创意逻辑的一体化协同,旨在提供“心流式”的丝滑创作体验,让有视觉想法的人快速表达,让没有技术的人也能拥有导演视角[6][40][54] - 引擎打通了算法与工程,在创作爆款玩法时,其速度比行业平均水平快几十倍[25] 商业模式与平台生态 - Skira的商业模式是以“玩法”为中心的供给—消费双向循环平台,专业创作者(Pro C)在PC端创作玩法模板,C端用户在App端消费和Remix这些模板,形成创意流动[23][56] - 目前平台上专业创作者(Pro C)与C端用户的比例约为1:10[60] - 公司团队拥有来自字节跳动的运营经验,能够判断内容的爆款潜质并设计商业化链路,通过引导和激励(如组织模板创作比赛)来促进生态创意流动[59][63][64][66] - 已有创作者利用Skira的模板在YouTube上从0粉丝起号,获得单视频上万甚至3万次浏览,作品在社交媒体上传播时能吸引用户主动询问制作工具[29][32][67] 行业趋势与公司愿景 - 行业正经历从“拍-编-剪”时代到“用想象力构建作品”时代的变革,AI正在将创作门槛降至前所未有的程度[6][38] - 当前AI创作工具存在工具割裂、功能单一等问题,ArtArch旨在通过一体化的平台解决此问题,让创作者只关注想象力而非工具摩擦[8][47][49] - Sora等AI视频生成模型的兴起,普及了新的内容创作模式(如Remix),并让市场更愿意接受AI生成的内容,这对行业产生了正向影响[61] - 公司的长期目标是构建AI时代的内容平台和基础设施,覆盖创作者从想象力构建、顺滑工作流到内容分发的全链路,成为一个“AI创意工厂”[26][55][62][70]
模型加速更迭的 11 月,锦秋发生了这些事|Jinqiu Update
锦秋集· 2025-12-02 14:20
融资动态 - 星尘智能完成数亿元A++轮融资 由国科投资和蚂蚁集团联合领投 锦秋基金连续多轮支持[1] - 灵启万物4个月获3轮近亿元融资 最近一轮由锦秋基金领投 采取小脑+大脑架构[2] - 微纳核芯完成超亿元B轮战略融资 由蓝驰创投领投 专注存算一体AI芯片技术[3] - VideoTutor完成种子轮1100万美元融资 由YZi Labs领投 主打生成个人专属教学视频[4] - NemoVideo完成近千万美元Pre-A轮和天使轮融资 Pre-A轮为IDG资本独投 聚焦视频创作者工具[5] - 深度原理完成超亿元人民币A轮融资 用于材料发现智能体研发[6][7] 技术产品进展 - 宇树科技发布全身遥操作平台 实现人形机器人精准复现人类动作[8] - 地瓜机器人发布具身智能机器人大算力开发平台S600 推出一站式开发平台[9] - 灵启万物发布demo视频 机器人以接近真人流畅度执行家务 重点突破小脑部分[10] - OiiOii上线全球首个动画创作Agent 内置7个专业Agent实现一站式服务[12] 行业研究活动 - Leonis Capital发布AI 100报告 基于全球10000余家AI初创企业数据 显示资本倾向算力与数据[14] - 锦秋基金举办CEO大会 分享2025 AI创投趋势 聚集多位行业专家[17] - 锦秋基金创始合伙人杨洁获投资界F40中国青年投资人荣誉[19] - 锦秋基金获投中网2025行业关注度提升最快投资机构称号[21]
锦秋基金被投企业Hogi产品一码难求,动画 Agent 导演作品离「疯狂动物城」有多远?|Jinqiu Spotlight
锦秋集· 2025-12-01 19:15
产品概述与市场热度 - Hogi公司推出的AI动画生成Agent产品OiiOii在市场上引起现象级关注,7210个内测名额迅速被抢光[7] - 免费邀请码在二手平台闲鱼上被炒至30元人民币,内测群数量超过50个,按500人/群估算约有2万多人排队等待内测[7][8] - 内测用户中包括粉丝量达2000万的顶级创作者,显示产品对专业内容创作者的吸引力[7] 技术突破与产品差异化 - 产品成功攻克AI视频动画领域的核心痛点"人物一致性",这得益于Sora2和nanobanana2技术的突破[5][30] - 采用多Agent协同系统模拟专业动画制作流程,包含艺术总监、场景设计师、编剧、分镜师等7个AI Agent角色[15][18] - 与传统AI视频工具不同,OiiOii将用户定位为"甲方",只需提供需求而不需编写复杂提示词,大幅降低使用门槛[14][37] - 生成内容具备专业导演感,包含推拉摇移等镜头语言设计和景别变化,符合影视逻辑[28] 市场定位与需求分析 - 精准选择动画垂直赛道,规避真实世界视频生成的"恐怖谷效应",利用观众对动画风格更高宽容度的特点[34] - 将动画创作目标用户从1万专业人群扩展至20万泛创作者,显著扩大市场规模[5][73] - 满足短视频时代爆发式增长的视觉表达需求,为自媒体、博主、创业者等提供动画内容制作解决方案[70][41] 产品能力与用户体验 - 在30分钟内可将用户想法转化为60秒时长的动画短片,包含音频、画面和转场等完整要素[22][46] - 通过"托管模式"实现一键生成,用户仅需确认关键节点,极大简化操作流程[21] - 当前画质尚未达到工业级标准,但在自媒体短视频和MV概念片领域可达到70-80分水准[32] 行业洞察与发展趋势 - AI动画创作正从专业技能向基础能力转变,让非专业人士也能创作70分作品[51] - 技术发展类似摄影史演进轨迹:从专业艺术到大众创作工具,最终丰富整个内容生态[49] - 行业迎来技术窗口期,人物一致性问题的解决为AI视频动画爆发奠定基础[64][66] 核心竞争力与商业壁垒 - 核心壁垒在于行业Know How而非单纯技术,包括镜头语言、节奏感和角色一致性等隐性知识[54][55][56][57] - 团队具备动画行业背景,理解专业制作流程,这是纯技术团队难以复制的优势[60] - 产品开发周期仅两个月,展现团队快速将前沿技术产品化的能力[54] 商业模式与未来挑战 - 内测期间免费提供服务,但未来商业化面临定价挑战,据估算20秒视频成本接近2元[76] - 关键挑战在于找到产品市场契合点,验证用户付费意愿和可持续商业模式[76][77] - 需要平衡技术成本与用户接受度,确定合理的收费策略[76]
从ChatGPT3年8亿周活到Higgsfield5个月1亿美元ARR:学术和资本看见了“大模型的摩尔定律 ”|DeepTalk
锦秋集· 2025-12-01 18:00
从Scaling Law到Densing Law:大模型发展范式的转变 - 行业观点认为,单纯扩大模型参数和数据的“Scaling Law”正面临瓶颈,数据接近极限,模型规模的百倍扩张难以带来真正的能力跃迁 [2] - 研究提出新的发展范式,即从“做大模型”转向“做高效模型”,核心是提升“能力密度” [3] - 该观点基于对51个主流开源大语言模型演进轨迹的分析,发现最大能力密度呈指数提升,约每3.5个月翻一番 [3] 能力密度(Capability Density)的定义与计算 - 为定量评估不同规模与架构模型的质量,研究引入了“有效参数大小”的概念,即一个标准参考模型达到目标模型同等性能所需的参数量 [10][11][12] - 能力密度被定义为有效参数大小与实际参数大小的比值(ρ = N(S_M) / N_M),该指标可用于公平比较不同架构和精度的模型 [13] - 若ρ > 1,表明模型比参考模型更“致密”,即用更少的参数实现了更强的能力 [15] Densing Law的核心发现与驱动力 - 对51个主流开源基础模型的评估显示,大语言模型的最大能力密度随时间呈指数级增长,规律被命名为Densing Law [16][17] - 具体数据为:ln(ρ_max) = At + B,增长系数A≈0.007/天,最大能力密度约每3.5个月(105天)翻一番 [18] - 密度提升的核心驱动力是预训练数据规模的爆炸式增长(从T级到15T+)以及数据质量的显著提升 [19] - 研究指出,超大模型(如Llama-3.1-405B)受限于巨大的训练成本,往往训练不足,导致其“性价比”或密度略低于同期的中等规模模型 [19] Densing Law的主要推论与行业影响 - **推论1:参数量指数级减少**:为实现相同性能,模型所需实际参数量随时间呈指数下降,大约每3.5个月减半 [21] - **推论2:推理成本指数级降低**:在同等性能下,模型参数减少直接降低了推理计算成本,粗略计算推理成本约每2.6个月减半 [22][27] - **推论3:端侧智能潜力巨大**:Densing Law(算法效率)与摩尔定律(硬件算力)结合,使得固定价格硬件上可运行的最大有效参数规模约每88天翻一番,预示高性能LLM将加速在消费级终端普及 [24] - **推论4:ChatGPT发布后密度增长加速**:ChatGPT发布后,模型密度的增长速度提升了50%(斜率从0.0048增至0.0073),主要因投资激增、开源生态繁荣及小模型普及 [25][28] - **API价格暴跌案例**:从2022年12月到2024年8月,性能相当的模型API价格从每百万token 20美元降至0.075美元,降幅达266.7倍 [27] 对模型压缩技术的警示 - 实验发现,大多数压缩模型(通过剪枝、蒸馏、量化)的能力密度实际上低于其原始模型 [30] - 原因在于压缩后的小模型往往面临训练不足的问题,而量化则会损害模型性能 [30] - 行业建议,高效压缩需确保压缩后的模型经过充分训练,以在减小规模的同时保持或提升能力密度 [30] 未来发展方向:密度最优训练 - 未来训练范式将从追求参数规模的“大”,转向追求单位参数效率的“密”,即“密度最优训练” [32] - 提升密度的关键路径包括:1) 探索更高效的非标准Transformer架构;2) 采用复杂的数据预处理与合成技术提升数据质量;3) 构建大模型与小模型协同进化的生态系统 [33][34][35] 核心技术细节与评估挑战 - 有效参数的计算采用两步估计法:首先用Scaling Law拟合参数量与预训练损失的关系,再用Sigmoid函数拟合损失与下游任务性能的关系 [37][40][45] - 为统一衡量不同架构,密度定义可扩展为参考模型与目标模型推理成本的比值,并针对稠密模型、MoE模型和量化模型给出了具体计算公式 [45][46][47] - 当前能力密度评估是一种相对测量,其准确性高度依赖于评测基准的质量,行业需要建立更全面、无偏见的评估体系 [31][38]
CB Insights 2025 未来科技新星:45 家高潜力初创公司名单与技术趋势解读|Jinqiu Select
锦秋集· 2025-11-28 16:38
文章核心观点 - CB Insights报告从全球遴选出45家最具潜力的科技初创公司,覆盖六大领域,累计融资超28亿美元,平均Mosaic评分达791(远超平均值370),其中超70%已进入商业化部署阶段[3] - 技术趋势显示AI基础设施进入“去通用化”时代,价值向为特定任务深度优化的基础设施迁移[6] - AI正从“能回答”演化为“能执行”,Agentic Workflow全面起势,智能体可靠性评估成为硬需求[7] - AI加速进入物理世界,开始重塑能源、制造与空间计算[8] - 数学、法律、医疗等高风险行业推动“零幻觉”技术体系,护城河在于专有数据与形式化验证能力[9] - 监管与数据主权从“成本”变成“壁垒”,合规先行成为大规模AI部署的前置条件[10] 企业科技行业 - 企业科技领域有22家公司,数量最多,聚焦AI基础设施与开发者工具,平均融资规模最大[3] - Cartesia基于状态空间模型开发超低延迟语音AI,语音合成延迟低于100毫秒,两年内融资9100万美元,Mosaic评分849[11] - Coval将自动驾驶仿真测试方法应用于AI智能体评估,解决“PoC地狱”问题,2025年内实现两个月10倍营收增长[12] - Exa提供AI原生搜索API,神经网络架构预测“下一个链接”而非“下一个词”,估值在7个月内从6450万美元飙升至7亿美元,涨幅达985%[17][18] - Harmonic开发用于形式化数学推理的AI,利用Lean证明助手实现零幻觉,13个月内融资1.75亿美元,估值从3.25亿美元跃升至8.75亿美元[20] - Maven AGI构建企业客服AI智能体,自主解决率达93%,客户续约率100%,2024财年营收700万美元,团队规模同比增长182%[26] - SCINTIL Photonics开发集成激光器的硅光子集成电路,其LEAF Light™技术功耗仅为传统方案的六分之一,Series B融资5800万美元并由NVentures参投[32] - WitnessAI提供AI安全与治理平台,专注于检测影子AI和防止LLM越狱,团队规模增长261%至65人,Series A融资2750万美元,估值1亿美元[37] 金融服务行业 - 金融服务领域有7家公司,AI原生金融成为主线,监管合规是核心壁垒[4] - Bastion为金融机构提供受监管的稳定币基础设施与白标服务,持有纽约州有限目的信托公司牌照,完成1460万美元Series A融资[39][40] - Catena Labs构建AI原生金融基础设施,专为自主AI智能体设计受监管的即时稳定币支付,由Andreessen Horowitz领投1800万美元种子轮[41][42] - FairPlay为金融服务公司提供AI公平性与偏见检测工具,符合SR 11-7等监管框架,2024年业务增长3倍,获摩根大通1000万美元Series B投资[44] - Vontive为投资性房产提供嵌入式房贷平台,其LLM在40多种文档类型上实现95%生产环境准确率,已处理6845笔贷款,总金额17.13亿美元[46] - Worth是AI驱动的承保自动化平台,拥有2.42亿家小企业数据库,为PatientFi等客户实现入驻时间缩短50%,成立两年融资3750万美元[47][48] 医疗健康行业 - 医疗健康领域有6家公司,语音AI与临床工作流自动化主导,HIPAA合规是入场券[4] - Assort Health构建AI语音智能体自动化医疗机构患者呼叫中心,实现90%解决率,年处理患者互动超1000万次,估值7.5亿美元对应ARR仅300万美元[49] - Ellipsis Health通过分析语音模式检测焦虑、抑郁等心理健康状况,推出Sage AI护理管理师,语音管线延迟低于500毫秒,Series A-II融资1900万美元[51] - Inductive Bio开发AI工具预测药物ADMET特性,建立竞争前数据联盟,Beacon-1模型在Polaris竞赛中击败39个对手位列第一,Series A融资2500万美元[52] - Keragon是HIPAA合规的无代码自动化平台,预置300多个医疗专用集成,发布六个月内获100多个付费客户,执行超200万次工作流自动化[53] - Layer Health利用LLM自动化病历图表审查,与美国癌症协会合作实现注册报告时间缩短65%、数据提取准确率95%-100%,融资2500万美元[54] 工业领域 - 工业领域有6家公司,机器人与地理空间AI崛起,硬科技属性最强、验证周期最长[4] - Persona AI开发工业级人形机器人,核心技术源自NASA机械手,与韩国HD现代船厂签订部署协议,成立即获2700万美元Pre-Seed融资,团队一年内增长1300%[59] - Skild AI开发通用机器人基础模型“Skild Brain”,使机器人在严重损坏后8秒内恢复功能,两年内融资8.145亿美元,估值达45亿美元[60] - SkyFi通过卫星网络聚合平台提供按需卫星影像与地理空间数据分析,整合ICEYE、Pixxel等数据源,Series A融资2860万美元,IPO概率为平均值3倍[61] - AMESA开发无代码平台用于构建工业多智能体AI系统,为制造客户实现6%流程效率提升,年化价值150万美元,Mosaic评分735(前3%)[56] - Felt是云原生GIS平台,AI驱动技术号称比传统方案部署时间缩短75%,超半数客户来自能源与气候领域,团队增长32%[57][58] 法律科技领域 - 法律领域有2家公司,AI进入司法推理与合同审查,专有数据是关键护城河[4] - Bench IQ是AI驱动的司法智能平台,利用专有数据集覆盖100%司法裁决(传统工具仅3%),提供法官推理洞察,AmLaw 200前五大律所中四家使用该平台[62] - Wordsmith自动化法律文档分析与合同审查,通过智能体AI工作流实现深度自动化,种子轮后一年即以超1亿美元估值完成2500万美元Series A,团队增长370%[63][65] 零售与供应链领域 - 零售与供应链领域有2家公司,消费级AI应用与物流决策优化,离C端最近[4] - Alta是AI驱动的个人造型应用,与美国时装设计师协会战略合作,提供个性化造型与衣橱管理,获1100万美元种子轮,团队一年内从2人增至35人[66] - Optimal Dynamics为运输物流公司提供AI驱动的决策自动化工具,实现高维AI综合货运规划,完成4000万美元Series C融资,总融资9540万美元,IPO概率为平均值3倍[67]
房间里的大象:Ilya挑明AI的“高分低能”,呼吁要从研究到scale到再重回研究时代|Jinqiu Select
锦秋集· 2025-11-26 15:01
文章核心观点 - 当前AI模型在评估中表现优异但经济影响滞后,揭示了过度拟合评估而非真实世界需求的根本问题[14][17][18] - 行业需要从依赖确定性的“规模扩展”范式,转向以解决泛化能力为核心的新“研究时代”[6][14][57] - 真正的超级智能形态应是一个具备强大持续学习能力的系统,而非一个预训练的“成品”[96][97][98] 对AI范式的批判 - 模型存在行为波动性,上一秒能完成复杂任务,下一秒却连续犯低级错误[2][19][20] - 矛盾在于模型评估得分高但现实经济效果完全跟不上,评估表现与实际世界表现脱节[14][17][18] - 问题的核心可能在于强化学习训练使模型变得“过于专注和狭隘”,导致基础任务表现迟钝[21][22] - 真正的“奖励黑客”是过于关注评估指标的研究人员,而非模型本身[14][24] 从规模时代重返研究时代 - AI发展可分为两个阶段:2012-2020年为研究时代,2020-2025年为规模扩展时代,现在需重返研究时代[14][57] - 规模扩展配方(将计算力和数据塞进大型神经网络)提供了确定性收益,但改变了世界的是创新研究而非更大模型[6][14] - 公司偏好规模扩展因其资源投入风险低,而研究则充满不确定性[55][56] - 当前计算力已非常充足,行业再次回到“研究时代”,但此次拥有更大的计算资源[57][59] 人类实践中的经验启示 - 人类在15岁时所见数据量极少,但理解更深且不会犯AI那样的错误,表明人类学习样本效率极高[40][66] - 人类学习不依赖明确奖励体系,而是通过讨论、展示等互动方式自然习得[66] - 情感可能是一种被忽视的“价值函数”,能帮助人类快速判断行为好坏,对决策至关重要[43][45][51] - 进化赋予人类强大的先验能力(如视觉、运动),但人类在现代技能(语言、编程)上的快速学习能力表明其学习系统本身非常强大[69][70][72] 超级智能的形态与路径 - 超级智能不应是预训练完成的“全能大脑”,而应是一个可以学会做经济中每项工作的优秀学习算法[14][97][98] - 超智能系统更可能以“持续学习智能体”的形式被部署到经济中,通过实践学习积累技能[96][97][98] - 广泛部署可能引发快速经济增长,但具体速度受各国规则差异影响,存在不确定性[98][99][100] - 对超智能发展的时间预测在5到20年之间[113] 研究的方法与审美 - 研究需要“自上而下的信念”,即在实验与预期矛盾时支撑研究者的核心判断[14][123] - 优秀的研究品味源于对AI应有状态的美学判断,追求简洁、优雅且正确受大脑启发的理念[122][123] - 想法本身并不廉价,研究的瓶颈包括算力、工程能力以及将想法成功执行的困难[79][80]
让AI分析这波大模型公司宣传战:原来每家都有自己的鲜明人设 | Jinqiu Scan
锦秋集· 2025-11-25 19:41
文章核心观点 - 使用AI工具(MiniMax Agent和Gemini 3 Pro)深度分析8家头部大模型公司的品牌传播策略,揭示其品牌人设定位和传播规律 [4][6][16] - AI公司的品牌传播核心在于实现技术实力与情感温度的平衡,并通过精心打造的“人设”来体现 [56][57] - 不同AI分析工具因训练数据和分析框架差异,对同一公司的分析会呈现不同视角,如技术工程师视角与人文社科视角 [54][55] 8家大模型公司品牌人设与传播策略 - **OpenAI**:技术权威型,品牌形象为硅谷首席架构师,技术产品内容占比68.6%,叙事结构为“从实验室到基础设施”,风格理性务实、简洁直接 [19] - **Anthropic**:AI安全卫士型,品牌形象理性严谨,技术内容占42%,愿景表达占35%,核心语汇为“Responsible AI”和“Human”,强调安全与伦理责任 [22] - **Google Gemini**:创意技术专家/导师型,采用双轨叙事,用户导向词汇占比45.3%,话术以鼓励语建立情绪连接,营销策略通过高频教程内容降低使用门槛 [25] - **DeepSeek**:去营销化的极客型,技术导向内容占比85%,语言极简生猛,传播策略依靠开源与激进API定价在开发者社区形成病毒式扩散 [29] - **Kimi**:细分领域的冷静专家型,技术导向内容占37.6%,专注长文本处理能力,采用“开源+集成”策略并引用ARR等商业数据证明可行性 [33] - **MiniMax**:技术实用主义的生态构建者,技术导向内容占65%,核心心智为“Minimize Effort”,营销通过“5-Day Launch Week”等活动制造期待感,广泛开展生态合作 [36] - **通义千问**:开源卷王型,技术导向内容近七成(69.2%),定位为全模态开源领军者,营销坚持周更式高频发布,采用Cookbook体系和“全家桶”产品策略 [43] - **豆包**:温暖陪伴的全能助手型,产品功能玩法内容占比65%,话术亲和力高,使用“玩出圈”等平民化表达,营销通过P图影像化功能打造爆款体验,并与国家博物馆等机构联动破圈 [49][53] AI分析工具的视角差异 - **MiniMax Agent**:侧重技术工程师视角,关注数据指标、工具性、效果量化,评价标准为功能完备度、技术领先性和ROI效果,语言风格为工程师术语和数据驱动 [55] - **Gemini 3 Pro**:侧重人文社科融合视角,关注情感价值、愿景叙事和社会责任,评价标准为品牌调性、用户连接度和长期价值,语言风格为学术化表达和哲学思辨,视觉输出已跳脱行业常见的紫色同质化 [55] AI公司传播策略的核心启示与建议 - 传播策略分为三层境界:功能竞争(技术指标、产品功能)、情感连接(品牌故事、用户共鸣)和社会价值(AI伦理、技术普惠) [60] - 给初创团队的实用建议包括确保技术实力过硬并构建清晰价值主张、品牌人格保持一致但勿过度、用具体成果和数据建立人设可信度、在细分领域形成独特定位 [60] - 技术开源比闭源更具传播力,能建立开发者信任并使专业人设更立体,最重要的是将技术改变世界的信念转化为用户能感受到的人设温度 [61][62]