Workflow
DALL·E 2
icon
搜索文档
对谈 Sora 核心团队:Sora 其实是一个社交产品,视频生成模型会带来科研突破
海外独角兽· 2025-11-09 16:17
Sora的产品定位与核心功能 - Sora被定位为社交产品而非单纯的视频生成工具其病毒式传播的核心是Cameos功能该功能允许用户将自己的形象融入AI生成视频中[2] - 产品设计将人类创造力置于核心位置鼓励主动创作而非被动消费信息流推荐算法围绕社交关系链展开这与传统短视频工具存在显著差异[2] - 将Sora作为独立应用推出一方面是基于此前图片生成产品ImageGen的成功经验另一方面是为了避免与ChatGPT的生产力工具定位产生冲突[2][3] - Cameos功能起初是内部工程师的随意尝试通过收集团队成员视频进行人物标记后意外发现其强大吸引力并成为产品的核心亮点[5] - Storyboard功能是Sora 2的革命性突破能够将自然语言脚本自动转化为长达25秒的连贯视频片段实现了质量标准的大幅飞跃[6] 产品开发历程与设计理念 - 产品灵感源于早期在ChatGPT内部测试的社交媒体流功能用户上传图片后其他人提出修改需求形成的动态创意交互揭示了GenAI独有的创作方式[4] - 推荐系统经过重新设计旨在服务于创意表达而非刺激被动消费避免产品陷入单纯的内容刷屏模式[8] - 产品设计基于核心假设即与朋友一起使用会更有趣推荐系统强化了社交互动未来将深化社区功能并强化私信等互动方式[12] - 团队认为产品的关键在于用户对内容的“认可印章”即有人审视后决定发布的行为本身构成了创作参与这与纯AI生成内容有根本差异[9][10] - 产品致力于创作民主化通过提供从基础混搭到专业分镜剪辑的工具降低创意门槛支持用户从初学者成长为专业创作者[10][11] 商业化策略与生态构建 - Sora 2的API成本相比Sora 1大幅降低Sora 1生成720p短视频成本约为50美元而Sora 2的定价仅为前者的九牛一毛[16] - 商业化初期采用用户日均使用30次后开始收费的模式目前未出现强烈抵制未来计划为创作者和版权方提供变现途径构建受益生态系统[16][17] - 货币化功能将优先支持早期投入资源的创作者并为版权方提供新的内容变现方式目前正启动试点项目探索新模式[14][15] - 品牌营销模式可能被重构例如创作者可将视频中的元素展示权拍卖给品牌方这代表全新的创意广告领域[18] - Cameos功能创造了独特的传播属性工程与产品负责人Thomas Dimson的个人Cameos已有17000次出镜其视频总观看量惊人展示了平台的影响力[19] 技术发展路径与行业展望 - 视频生成模型的下一个突破点是生成长达数小时的内容并基于模拟能力在科研领域创造价值长期目标是成为“世界模拟器”[2][30] - 从DALL·E 1到Sora 2技术进展显著Sora 1被视为视频领域的“GPT-1时刻”能够生成高分辨率60秒视频而Sora 2在智能和实用性上实现飞跃[29][30] - 视频模型有望推动机器人技术等领域的进展通过理解运动机制和物理规律解决传统依赖大规模现实数据采集的难题[31] - 行业里程碑将是视频模型通过模拟现象实现首个科学突破尤其是在经典物理相关领域预计2028年前可能实现这一目标[32] - 模型通过预测任务学习物理原理例如扩散模型通过去噪过程神经网络在优化压力下从海量数据中涌现出对物理规律的理解[35] 团队认知与竞争格局 - 团队规模精简约40人其中研究员9-10人产品团队不到20人系统团队约13人通过Sora API支持外部开发者构建新应用[26][27] - 行业竞争加剧但公司有信心保持领先优势核心是拥抱用户将创作工具交到用户手中而非单纯技术竞争[25] - 团队认知发生转变意识到纯AI生成内容可能空洞真正价值在于人类创作的碎片和情感共鸣而非仅追求内容质量[26] - 技术普及速度被高估基础研究领先但打造好用的产品和进行用户教育存在滞后企业端应用还需面对监管等复杂障碍[25] - 模型评估体系因实际产品落地而得到加强例如通过对比Sora 1和Sora 2对相同提示词的输出来衡量进步Cameos功能成为核心测试场景[33]
不到 3 个月估值破 40 亿,Fal.ai CEO:模型越多,我们越值钱
36氪· 2025-10-24 08:55
2025 年 10 月 22 日,AI 基础设施公司 Fal.ai宣布完成新一轮 2.5 亿美元融资。据悉,凯鹏华盈与红杉资本领投此轮,公司估值超40亿美元。 距离上一轮 15 亿美元估值的 C 轮融资,还不到 3 个月。 这家不足 50 人的初创公司,没有训练任何自研大模型,也不追逐最强参数。 它只做一件事:让模型能调用、可商用。 Fal.ai 联合创始人兼 CEO Gorkem Yurtseven 在随后的专访中这样定义自己: 不再比拼模型能力,而是让任何模型都能被开发者用起来。模型越多,我们的平台就越有价值。 18个月前,他们还在做数据基础设施工具,为大公司处理数据清洗与转换。 直到Stable Diffusion爆火,他们看到底层逻辑变了:过去是训练模型难,现在是模型太多,反而没人能用好。他们砍掉付费产品,把模型当原料,把推理 变成流水线。 (来源TechCrunch :Fal.ai完成新一轮融资,估值超40亿美元) 今天,Fal平台托管 600 多个模型,服务超过 200 万开发者。 Adobe、Canva、Shopify、Perplexity 已将它作为生成式媒体的基础设施。 这家公司不讲"AGI ...
Meta刚从OpenAI挖走了清华校友宋飏
36氪· 2025-09-26 21:35
核心人事变动 - 前OpenAI高层研究员宋飏正式加盟Meta Superintelligence Labs担任研究负责人[2][3] - 宋飏将直接向MSL首席科学家赵晟佳汇报[5] - 两人背景高度契合:本科均毕业于清华,博士同在斯坦福同门,曾先后就职于OpenAI[13] 团队架构与战略方向 - 宋飏的加入巩固了MSL的“双核”格局:赵晟佳把握整体节奏,宋飏深化关键路径[16] - 宋飏研究方向聚焦扩散模型与多模态推理,其技术是生成式AI领域重要基石[29][37] - 团队战略目标是构建能理解图像、语言、音频等多种数据形式的通用模型,提升与真实世界互动的广度与深度[31] - 赵晟佳主导统一训练范式和推理堆栈,旨在打造完整AI产品体系[32] 行业人才流动趋势 - 今夏以来已有超过11位来自OpenAI、Google、Anthropic等机构的研究者加入MSL[20] - 顶级AI实验室间人员流动节奏加快,例如Aurko Roy在Meta工作不到五个月便离职加入Microsoft AI[22][24] - 项目匹配度、团队氛围和技术方向贴合度正成为人才选择的核心因素[25] - 人才选择项目的速度在加快,项目对人的要求也在提高,研究者与实验室关系呈现“双向奔赴”特点[46][47] 技术影响与产业意义 - 宋飏在OpenAI期间带领战略探索团队,专注于提升模型处理高维复杂数据的能力[30][39] - 其研究成果不止于方法创新,更擅长转化为平台能力,影响了OpenAI图像生成产品设计路径[40] - 这类研究者能直接推动从理论、数据到系统实现的完整链路,为团队补上技术纵深与工程整合的关键环节[41] - 跨模态、完整数据链路、工具集成与推理协同能力将成为AI从业者新阶段核心竞争力[48]
突发,Meta刚从OpenAI挖走了清华校友宋飏
36氪· 2025-09-25 19:56
人事任命核心信息 - 前OpenAI高层研究员宋飏正式加入Meta Superintelligence Labs,担任研究负责人 [1] - 宋飏将直接向MSL首席科学家赵晟佳汇报 [4] - 宋飏是扩散模型领域的核心人物,也是DALL·E 2技术路径的早期奠基者 [1][21] 团队构建与战略意义 - 赵晟佳与宋飏的组合标志着MSL从“顶级个体”迈向“协同作战”的团队形态,形成“双核”格局 [13] - 赵晟佳主导过ChatGPT、GPT-4等核心研发,宋飏则长期关注跨模态模型架构,两人在技术专长上形成互补 [13] - 宋飏的加入进一步巩固了团队组合,使科研分工更具结构感 [13] 行业人才流动趋势 - Meta的招人节奏高频,今夏以来已有超过11位来自OpenAI、Google、Anthropic等机构的研究者加入MSL [14] - 顶级AI实验室之间人员流动节奏加快,例如Aurko Roy在Meta工作不到五个月后离职加入Microsoft AI [14][15] - 项目匹配度、团队氛围和技术方向的贴合程度,正逐渐成为影响人才选择的核心因素 [17] 技术发展方向 - 宋飏的研究方向与MSL整体战略紧密贴合,多模态推理或将成为MSL的主打方向 [18] - 宋飏专注于构建能理解图像、语言、音频等多种数据形式的通用模型,以提升模型与真实世界互动的广度与深度 [18] - 赵晟佳主导统一的训练范式和推理堆栈,与宋飏的研究相结合,正加速从输入到输出的完整技术闭环成形 [18] 个人背景与能力 - 宋飏在学术界以扩散模型研究闻名,其论文《Score-Based Generative Modeling through Stochastic Differential Equations》被引用8748次 [21][22] - 他拥有丰富的工业与理论背景,曾在谷歌大脑、Uber ATG、微软研究院等机构实习 [24] - 他不仅做方法创新,也擅长将研究成果转化为平台能力,能直接推动从理论到系统实现的完整链路 [28]
95后北大校友挑起ChatGPT Agent大梁!今年刚博士毕业,曾获陶哲轩支持的AIMO第二名
量子位· 2025-07-20 13:08
OpenAI发布会华人核心成员 - OpenAI发布会C位由两位华人担任,其中一位是95后北大校友孙之清,另一位是领导GPT-4视觉输入原型开发的Casey Chu [2][3][8] - 孙之清作为DeepResearch负责人,重点介绍了ChatGPT Agent的强化学习训练技术 [9] - Casey Chu阐述了人类与Agent合作中保持控制权的重要性 [11] 孙之清背景与成就 - 95后研究员,2023年加入OpenAI时尚未完成CMU博士学位,目前已参与多个核心项目包括o3/o4-mini和Computer-Use Agent [14][16] - 学生时期获得OpenAI"超级对齐快速补助"10万美元资助,相关论文入选NeruIPS 2024 [17] - 谷歌学术被引数超1万次,2019年一作论文RotatE被ICLR接收并获3231次引用 [21][22][23] - 获得2023年数据科学新星称号及微软/谷歌多项研究资助 [26] - 参与陶哲轩支持的AIMO竞赛,使用微调模型解决22道IMO测试题 [27][28] Casey Chu职业经历 - OpenAI五年资深员工,专注多模态AI系统研发 [29][30] - 领导GPT-4视觉输入原型开发,参与DALL·E 2和GPT-4项目 [31] - 斯坦福计算数学硕士,本科就读哈维姆德学院数学系 [33] OpenAI华人人才储备 - 除发布会亮相者外,项目团队还包括Aiden Low、Martin Li、Xikun Zhang等多位华人研究员 [37] - 数据负责人Szi-chieh Yu和安全研究员Karen Gu均为华人成员 [38][39] - 公司未更新贡献者名单,可能为防止Meta挖角 [42][44][46] Meta与OpenAI人才竞争 - Meta曾试图以数亿美元挖角OpenAI首席研究官Mark Chen未果 [48] - Meta转而控股Scale AI并任命28岁Alexandr Wang负责AI组织,导致OpenAI终止与Scale AI合作 [49][50]
OpenAI高管深度剖析ChatGPT意识形成:AI越像人,设计者越不能装作什么都没发生
36氪· 2025-06-06 16:37
人类与AI情感连接趋势 - 越来越多用户将ChatGPT视为有生命的对话对象 会向其道谢 倾诉并产生情感依附 [3] - 公司观察到人类对AI的情感连接将随自然对话能力提升而加深 正在研究其对情感健康的影响 [3][4] - 用户投射人性到AI的现象与大脑天性相关 但ChatGPT的差异化在于能主动回应并模仿共情 [6] AI意识的双维度解构 - 本体论意识尚无科学定论 存在从"完全无意识"到"光谱化意识"的争议观点 [8] - 感知意识可通过社会科学研究 用户对AI的情感依附程度呈现从机械认知到生命认同的连续谱系 [9] - 公司选择聚焦感知意识维度 因其对人类情感健康有直接可测量的影响 [10] 模型行为设计原则 - 刻意避免赋予AI虚构背景故事或情感欲望 防止不健康依赖 [11] - 采用"温暖但无自我"的中间态设计 允许礼貌性互动但明确能力边界 [12] - 对话设计保留"思考""记得"等拟人化词汇以提升亲和力 但禁用暗示内心世界的表达 [11][12] 行业影响与未来方向 - AI情感连接可能重塑人类社交期待 需警惕人际关系替代效应 [7] - 公司将扩展情感影响评估 通过社会科学研究优化《模型规范》 [15] - 模型行为是显式设计与实际使用中预期/非预期行为共同作用的结果 [14] 技术负责人背景 - Joanne Jang为斯坦福计算机科学硕士 主导GPT-4/ChatGPT等产品的行为设计 [17][21] - 曾任Google Assistant NLP产品经理 专注对话系统 具有苹果自动驾驶等跨领域经验 [17][21]