文章核心观点 - 文章通过曹越的十年AI从业与创业经历,折射出AI行业从深度学习萌芽到视频生成崛起的变化,其核心视角是关注组织与协作方式的演变 [3] - OpenAI的成功被归结为其"端到端"的组织能力,即从问题本质出发,设计可规模化的系统以最大化压榨算力,而非传统的论文驱动模式 [3][7][13] - 从研究者到创业者,曹越的思维经历了从技术驱动到模型与产品深度垂直整合的转变,强调打造"端到端优化"的组织以抓住AI视频领域的机遇 [4][47][48] AI研究范式的演变 - 2014年深度学习在国内尚未普及,研究者开始转向该领域,微软亚研院视觉组成为重要人才摇篮,其传承是关注有潜力的方向并投入足够资源做到极致 [5][6][7] - Transformer在视觉领域的应用分为两个阶段:初期将Attention模块嵌入CNN以弥补其感受野有限的缺陷;第二阶段是用Transformer整体结构替代CNN,2020年的ViT工作证明了其可行性 [7] - Swin Transformer的突破在于看到了用Transformer-based网络通用化替代CNN-based网络的机会,其成功得益于准确识别机会并动员组织力量全力投入 [7][8][9] OpenAI的组织方法论 - OpenAI与当时国内研究组的关键差异在于其是问题驱动而非论文驱动,不鼓励合作,目标是解决领域内本质性的大问题 [13] - 其核心思路是设计一个可规模化的系统,最大化利用算力,这需要爬数据、洗数据、训模型、做评测等不同类型人才的协作,类似创业公司形态 [13] - 从GPT-3到InstructGPT的演变体现了OpenAI的垂直整合能力,即从需求侧出发进行端到端优化,使基础模型转化为普通人可用的产品 [39] 中国AI创新环境的反思 - 中国未出现OpenAI的原因被归结为发展阶段"不够富",在追赶阶段ROI最高的是效率创新和模式创新,而非需要更大风险的原创性创新 [22] - 接近前沿时面临思维转换:创业者需要不同的能力,投资人需敢于投更有风险的原创idea,社会需对失败有更多包容 [22] - 到2025年,情况已开始变化,出现了如《哪吒》、《黑神话》、DeepSeek、宇树等更多原创案例,显示出中国正处于创新转换阶段 [22] 创业实践与战略选择 - 光年之外的人才策略是招募毕业3-5年或即将毕业的博士生,他们沉浸一线、能力出色、学习状态处于巅峰,这在2023年已成为行业共识 [23] - 选择AI视频创业是因为该领域技术潜力大、商业天花板高、当时尚处早期,且非常适合有模型背景的创始人 [26][30] - Sand.ai的第一代模型Magi-1因选择自回归路线且低估其难度,导致研发周期较长,花费一年多时间,团队规模为三四十人 [31][32][33] 视频生成模型的技术与产品聚焦 - Sand.ai的新模型Gaga-1专注于解决AI视频生成的最大痛点:人物不一致、不能音画同出、表演太假,目标让AI视频中的人物真正"能表演" [4][41] - 模型优先服务叙事内容的专业创作者,如AI短剧、广告片制作者,成本控制在不到Sora最便宜版本的1/10,达到每分钟1美元以下 [42][43][44] - 面对Sora 2的竞争,认为大公司动作不会那么快,且新C端平台需满足新内容形态和新传播链路两个条件,目前Sora App更像工具而非平台 [44][45] 垂直整合的组织建设 - Sand.ai的组织演变是从更侧重模型驱动,转向模型与产品需求的深度垂直整合,其核心是让不同背景的人能"对齐上下文" [4][47][49] - 实现垂直整合的方法是将模型、产品和运营人员混合,促进关键人员间的1对1沟通,CEO成为重要的信息分发中心以对齐组织上下文 [49] - "模型即产品"的认知已进化,产品设计不仅能展现模型能力,更能放大模型体验,模型和产品应互相放大,而非产品单纯跟随模型 [50] 从研究员到CEO的思维转变 - 大语言模型如Gemini已成为重要的思考伙伴,擅长拆解类比危险性和进行结构化整理,能显著降低人与人交流的摩擦,桥接认知差 [52][53] - 学习对象从OpenAI的Ilya转向更广泛的企业家,如王慧文、张一鸣等,从他们的思维方式中抽象看问题的角度并在实践中验证 [56] - 角色转变没有喜欢或不喜欢,更像是存在夹角需要磨合,从关注技术影响力到系统影响力,再到更多关注产品和商业价值 [58]
对话曹越:马尔奖、光年之外、Sand.ai,研究员到 CEO 的十年串起大模型变迁
晚点LatePost·2025-11-03 16:26