多模态生成模型
搜索文档
生数科技CEO骆怡航:当AI理解镜头,多模态生成模型如何重构全球创意与生产体系 |「锦秋会」分享
锦秋集· 2025-11-05 13:48
AI不再只是生成几秒的素材,而是在重构整个内容生产链条。创作、剪辑、运镜、表演、分发,都被重新定 义。 这场变化的本质,不是"AI能做视频",而是 "视频开始以AI的方式被生产" 。 创作的逻辑,正在从"人驱动的工具使用"转向"智能驱动的协作生成"。未来的内容,不再依赖传统拍摄和渲染 流程,而更像是一次由创意、数据与算法共同完成的"即时生成"。 每一次模型能力的突破,都会带来新的生产方式——也可能孕育下一个抖音、下一个B站。 对创业者而言,了解"AI内容基础设施"的进展也就十分重要。 2025年11月1日,锦秋基金首期锦秋会@2025 Experience With AI大会上,生数科技CEO骆怡航的分享就格外 有启发性。 2025年,视频生成模型的能力突飞猛进。从短剧爆款到广告创意,从AI虚拟人到实时互动直播,一批基于视频 模型的下游应用正迅速出圈。 抽象的模型能力背后,正在揭示一个即将到来的"生产力跃迁":内容创作将从文字、图片、视频的多模态输 入,过渡到以"参考"为核心的零门槛生成模式。 这是一个从技术走向产业的拐点。 视频模型技术高速发展。从几秒的生成到分钟级的连续叙事,从灵感激发到商业创作,AI 已 ...
如何看待Sora应用对互联网平台影响?
2025-10-19 23:58
行业与公司 * 行业涉及人工智能生成内容(AIGC),特别是视频生成模型及应用,以及互联网社交媒体平台 [1][2][6] * 公司主要提及OpenAI及其Sora应用,其他公司包括Google、Meta、字节跳动、腾讯、快手、Deepseek、阿里巴巴等 [1][2][5][6][8][9][12][13] 核心观点与论据 **Sora应用的表现与特点** * Sora APP在美国地区iOS首周下载量与ChatGPT刚上线时量级相似,并迅速登上美国App Store免费榜榜首 [2] * 在Chatbot Arena榜单中,Sora 2 Pro模型与Google V3并列第一;在Artificial Analysis榜单中,Sora 2排名第四 [1][2] * 应用具备社交属性和多元创作方式,界面采用垂直视频流设计,用户可互动评论 [1][2] * 引入Camio功能,允许用户通过一次性录制简短音视频创建高保真数字分身 [1][2][6] * 引入Remix功能,支持用户通过输入新提示词对信息流内容进行二次创作 [1][2] **Sora 2模型的技术改进** * 在物理真实性上实现更精准模拟,大幅减少失真现象 [1][5] * 实现原声音视频同步生成,确保人物口型与语音精准对齐 [1][5] * 在可控性上支持多镜头连续叙事和多种风格切换 [1][5] * 验证了大模型与多模态生成模型的协同效应,Sora 2得益于OpenAI GPT-5底层支持 [1][5] **AIGC视频内容的影响与前景** * Sora应用验证了AIGC对内容或视频赛道变革趋势的重要性,Camio模式催化了用户创作和社交分享意愿 [1][6] * AIGC视频内容在熟人社交网络(如朋友圈、Facebook、Instagram)中应用前景广阔,更适合分享而非大众消费 [3][8] * 纯粹依赖AIGC视频内容的平台难以吸引大规模用户,例如字节跳动的集梦MAU仅约1,000万,而豆包有1.5亿左右MAU [8] * AIGC内容提升了视频生产质量下限,但未显著提高上限 [3][9] * 在长视频和游戏等供给驱动需求的赛道中,AIGC的变革可能带来更显著影响 [3][9] **竞争格局与市场影响** * OpenAI显示出从模型向应用拓展的野心,但Sora应用不太可能显著扰动现有互联网社交媒体平台竞争格局 [1][6][7] * AIGC视频更像是一个内容垂类,更可能广泛分布于YouTube、Instagram、抖音等主流平台,而非形成独立新兴平台 [1][7] * Sora一代产品未引领文生视频浪潮,市场化落地慢于Google等公司 [1][6] * Sora在模型能力上处于第一梯队,但技术优势可追赶,国内大模型如Deepseek和阿里通义千问已显示明显追赶势头 [9] * Sora应用对中国市场及主流互联网平台直接影响有限,但可能推动国内平台跟进类似玩法 [11] * Sora和VELO的最大优势在于同时生成音频和视频,这对C端用户是感官上的突破 [11] **法律合规问题** * AIGC内容在欧美市场面临显著法律合规风险,常涉及知名版权IP [10] * OpenAI对版权采用opt-out模式(版权所有者需主动禁止授权),存在较大版权风险 [10] **对其他公司的影响** * Meta长期基本逻辑未变,AI投入(计划2026年投入1,000亿美元)已反映在估值中,与Sora等新兴平台的竞争不构成实质性威胁 [12] * 腾讯三季度游戏、广告和FBS业务线表现良好,多模态模型在Chatbot Arena榜单上排名国内第一,有消息称OpenAI顶尖人才加盟腾讯 [13] 其他重要内容 * 多模态大模型(如Google Gemini、OpenAI GPT-4O)与专用视频生成应用之间存在竞争,但类似PC与游戏主机之争,两者可能各有发展空间 [14][15] * Sora用户更多是将生成视频分享给朋友,未来可能采用付费模式变现而非广告 [8] * 技术差距并不构成持续壁垒,大型平台有动力迅速追赶,并可能将基础功能免费开放 [9]
全球超一半风投涌向AI!启明创投发布2025年AI十大展望
证券时报网· 2025-07-28 15:38
AI投资趋势 - 2025年上半年AI初创企业吸引全球53%风险投资基金 [1] - 启明创投累计投资100余个AI项目 覆盖AI产业全链条 [6] 技术发展前景 - 具身智能机器人将在拣选/搬运/组装场景实现规模化部署 构建"模型-本体-场景数据"闭环飞轮 [1] - 通用视频模型有望在12-24个月内出现 处理视频模态生成/推理与任务理解 [1] - 多模态生成模型处于高速发展期 生数科技提出"参考生视频" 阶跃星辰推出多模态推理模型Step3 [1] - 200万Token上下文窗口将成为顶级AI模型标配 [4] - Token消耗量呈爆发式增长 Google/豆包分别激增48倍/137倍 [4] AI应用场景拓展 - AI正深度嵌入日常生活和情感世界 2025年疗愈和陪伴成为最大应用场景 [5] - 垂直场景AI应用潜力巨大 初创公司以"Go Narrow and Deep"策略形成差异化竞争 [5] - AI BPO模式将在12-24个月实现商业化突破 采用"按结果付费"方式在金融/客服/营销/电商标准化行业扩张 [6] - AI交互范式转移加速 手机屏幕依赖减弱推动AI原生超级应用诞生 [6] Agent发展路径 - Agent形态将从"工具辅助"走向"任务承接" 首批"AI员工"将参与客户服务/销售/运营/研发核心流程 [4] - 多模态Agent将融合视觉/语音/传感器输入 在医疗/金融/法律行业率先突破 [4] 基础设施创新 - AI芯片领域将出现更多"国设国造"GPU批量交付 [6] - 3D DRAM堆叠/通算融合创新的新一代AI云端芯片崭露头角 [6] - Token消耗量有望提高1-2个数量级 集群推理优化/终端推理优化/软硬协同推理优化成为降低成本核心技术 [6]
训练数据爆减至1/1200!清华&生数发布国产视频具身基座模型,高效泛化复杂物理操作达SOTA水平
量子位· 2025-07-25 13:38
技术突破 - 清华大学与生数科技联合研发的Vidar模型首次实现通用视频大模型与物理执行的结合,通过少样本泛化能力完成从虚拟到真实世界的跨越 [3] - 模型仅需20分钟真机数据即可泛化到新机器人本体,数据需求仅为行业领先RDT的1/80、π0.5的1/1200 [4] - 采用"预训练+微调"架构:基于Vidu2.0基座模型,通过75万条双臂机器人数据预训练+20分钟目标机器人微调实现精准控制 [10] 技术架构 - 上游视频预测:通过统一观测空间实现多视角融合,将本体信息/摄像头数据/任务标注打包整合 [10] - 下游动作执行:逆动力学模型(IDM)将视频翻译为机械臂动作,实现视觉-语言与动作模态解耦 [6] - 测试时扩展(Test-Time Scaling)技术提升视频预测可靠性,VBench测试显示主体一致性从0.565提升至0.855 [11][12] 数据创新 - 提出任务无关动作(Task-Agnostic Action)概念,解决传统VLA模型数据过度捆绑问题 [13] - 开发ATARA自动化数据采集系统:10小时无干预采集即可实现全动作空间泛化,准确率超基线51% [15][18] - 掩码逆动力学模型架构可自动捕捉机械臂相关像素,实现跨背景泛化 [22] 性能表现 - 真实世界任务轨迹重放成功率接近100%,较基线提升33-44% [18] - 在16种常见操作任务中展现卓越泛化能力,尤其擅长未见过的任务/背景场景 [25] - 实现双臂协作抓取等复杂操作,预测视频与实际执行高度吻合 [25] 战略意义 - 突破多任务操作与环境适应性瓶颈,为服务机器人落地居家/医院/工厂场景奠定基础 [27] - 全球首个多模态生成模型架构达到SOTA水平的机器人大模型,实现数字-物理世界双向反哺 [28][29] - 延续Vidu技术路线,通过统一基座架构强化时空信息理解与生成能力 [28] 团队背景 - 核心成员来自清华大学TSAIL实验室,含两位博士生冯耀(具身智能方向)和谭恒楷(具身大模型方向) [29][30] - 技术成果发表于ICML/OOPSLA/IJCAI等顶会,获国家奖学金/NOI银牌等荣誉 [29][30] - 指导老师朱军教授提出"通过多模态大模型推动数字与物理世界深度融合"的愿景 [29]
智谱与生数科技达成战略合作
快讯· 2025-04-27 14:10
战略合作 - 智谱与生数科技宣布达成战略合作 [1] - 合作基于双方在大语言模型和多模态生成模型的技术积累和优势 [1] - 合作范围包括联合研发、产品联动、解决方案整合、行业协同等多方面 [1] 产品合作 - 智谱MaaS平台将接入生数科技Vidu API [1]