Workflow
多模态生成模型
icon
搜索文档
生数科技CEO骆怡航:当AI理解镜头,多模态生成模型如何重构全球创意与生产体系 |「锦秋会」分享
锦秋集· 2025-11-05 13:48
视频生成模型行业发展趋势 - 2025年视频生成模型能力突飞猛进,从生成几秒素材发展到重构整个内容生产链条,包括创作、剪辑、运镜、表演和分发 [2] - 行业变革本质是视频开始以AI方式被生产,创作逻辑从人驱动工具使用转向智能驱动协作生成,未来内容依赖创意、数据与算法共同完成即时生成 [3] - 每一次模型能力突破都会带来新生产方式,可能孕育下一个抖音或B站级别的应用 [4] - 内容创作正从文字、图片、视频多模态输入过渡到以参考为核心零门槛生成模式,这是从技术走向产业拐点 [8][9] 生数科技技术定位与突破 - 公司聚焦数字世界多模态大模型,于2022年全球最早发布U-ViT架构,也是中国首个视频生成模型Vidu [16] - 从2024到2025年,视频生成技术和应用迅速进入内容产业生产环节,当下及明年更关注模型到行业落地发展 [16] - 公司提出参考生视频作为变革核心支点,让创作者只需确定人物、道具、场景即可通过AI自动延展故事与镜头语言 [9] - Vidu Q2基础能力已比较接近院线级创作标准,计划明年与合作伙伴共同制作长篇电影并在院线上映 [44] 视频生成应用场景与挑战 - 应用分为三大方向:互动娱乐领域视频模型在特效和娱乐方面已基本没问题;商业制作强调效率、成本与品质平衡;专业创作需要AI在视觉水准上进一步提升 [18] - 多模态生成模型面临三大挑战:能否生成高一致性更高品质音视频内容;能否在保持一致前提下从5-8秒扩展到30秒、1分钟甚至更长;能否从服务专业创作者走向大型动画影视公司及大众 [18] - 当前文生视频、图生视频、多帧生成都不是AI最佳创作范式,文生视频在专业创作里很少使用,主要用于灵感激发和初始创意 [23][25] 参考生视频技术优势 - Vidu全球首创参考生视频,目标是砍掉传统制作流程中间环节,让创意直接以视频形式呈现 [30] - 创作者只需确定主体(人物、道具、场景、风格、特效)再配合提示词即可生成视频,不需要首帧完整图片或其他关键帧 [35] - 主体可以泛化,任何角色都可以当成主体,目前Vidu可同时支持上传7个主体,并根据提示词直接生成视频 [37] - 在Vidu全球创作者和企业用户整体调用量中,60%以上创作方式是参考生视频 [47] 技术能力具体参数 - Vidu当前能保证5秒、8秒片段一致性,视频延长功能可延长到5分钟,满足绝大部分单场景或多场景创作诉求 [40] - 全球AI视频厂商战队赛中,四名创作者利用Vidu参考生视频在2小时内现场创作出1分钟以上故事,获得赛事最高荣誉 [49] - 参考生视频已应用于广告、漫剧、文旅、动画影视等行业,在满足商业创作多主体一致性需求同时更好提效降本实现故事创意 [51]
如何看待Sora应用对互联网平台影响?
2025-10-19 23:58
行业与公司 * 行业涉及人工智能生成内容(AIGC),特别是视频生成模型及应用,以及互联网社交媒体平台 [1][2][6] * 公司主要提及OpenAI及其Sora应用,其他公司包括Google、Meta、字节跳动、腾讯、快手、Deepseek、阿里巴巴等 [1][2][5][6][8][9][12][13] 核心观点与论据 **Sora应用的表现与特点** * Sora APP在美国地区iOS首周下载量与ChatGPT刚上线时量级相似,并迅速登上美国App Store免费榜榜首 [2] * 在Chatbot Arena榜单中,Sora 2 Pro模型与Google V3并列第一;在Artificial Analysis榜单中,Sora 2排名第四 [1][2] * 应用具备社交属性和多元创作方式,界面采用垂直视频流设计,用户可互动评论 [1][2] * 引入Camio功能,允许用户通过一次性录制简短音视频创建高保真数字分身 [1][2][6] * 引入Remix功能,支持用户通过输入新提示词对信息流内容进行二次创作 [1][2] **Sora 2模型的技术改进** * 在物理真实性上实现更精准模拟,大幅减少失真现象 [1][5] * 实现原声音视频同步生成,确保人物口型与语音精准对齐 [1][5] * 在可控性上支持多镜头连续叙事和多种风格切换 [1][5] * 验证了大模型与多模态生成模型的协同效应,Sora 2得益于OpenAI GPT-5底层支持 [1][5] **AIGC视频内容的影响与前景** * Sora应用验证了AIGC对内容或视频赛道变革趋势的重要性,Camio模式催化了用户创作和社交分享意愿 [1][6] * AIGC视频内容在熟人社交网络(如朋友圈、Facebook、Instagram)中应用前景广阔,更适合分享而非大众消费 [3][8] * 纯粹依赖AIGC视频内容的平台难以吸引大规模用户,例如字节跳动的集梦MAU仅约1,000万,而豆包有1.5亿左右MAU [8] * AIGC内容提升了视频生产质量下限,但未显著提高上限 [3][9] * 在长视频和游戏等供给驱动需求的赛道中,AIGC的变革可能带来更显著影响 [3][9] **竞争格局与市场影响** * OpenAI显示出从模型向应用拓展的野心,但Sora应用不太可能显著扰动现有互联网社交媒体平台竞争格局 [1][6][7] * AIGC视频更像是一个内容垂类,更可能广泛分布于YouTube、Instagram、抖音等主流平台,而非形成独立新兴平台 [1][7] * Sora一代产品未引领文生视频浪潮,市场化落地慢于Google等公司 [1][6] * Sora在模型能力上处于第一梯队,但技术优势可追赶,国内大模型如Deepseek和阿里通义千问已显示明显追赶势头 [9] * Sora应用对中国市场及主流互联网平台直接影响有限,但可能推动国内平台跟进类似玩法 [11] * Sora和VELO的最大优势在于同时生成音频和视频,这对C端用户是感官上的突破 [11] **法律合规问题** * AIGC内容在欧美市场面临显著法律合规风险,常涉及知名版权IP [10] * OpenAI对版权采用opt-out模式(版权所有者需主动禁止授权),存在较大版权风险 [10] **对其他公司的影响** * Meta长期基本逻辑未变,AI投入(计划2026年投入1,000亿美元)已反映在估值中,与Sora等新兴平台的竞争不构成实质性威胁 [12] * 腾讯三季度游戏、广告和FBS业务线表现良好,多模态模型在Chatbot Arena榜单上排名国内第一,有消息称OpenAI顶尖人才加盟腾讯 [13] 其他重要内容 * 多模态大模型(如Google Gemini、OpenAI GPT-4O)与专用视频生成应用之间存在竞争,但类似PC与游戏主机之争,两者可能各有发展空间 [14][15] * Sora用户更多是将生成视频分享给朋友,未来可能采用付费模式变现而非广告 [8] * 技术差距并不构成持续壁垒,大型平台有动力迅速追赶,并可能将基础功能免费开放 [9]
训练数据爆减至1/1200!清华&生数发布国产视频具身基座模型,高效泛化复杂物理操作达SOTA水平
量子位· 2025-07-25 13:38
技术突破 - 清华大学与生数科技联合研发的Vidar模型首次实现通用视频大模型与物理执行的结合,通过少样本泛化能力完成从虚拟到真实世界的跨越 [3] - 模型仅需20分钟真机数据即可泛化到新机器人本体,数据需求仅为行业领先RDT的1/80、π0.5的1/1200 [4] - 采用"预训练+微调"架构:基于Vidu2.0基座模型,通过75万条双臂机器人数据预训练+20分钟目标机器人微调实现精准控制 [10] 技术架构 - 上游视频预测:通过统一观测空间实现多视角融合,将本体信息/摄像头数据/任务标注打包整合 [10] - 下游动作执行:逆动力学模型(IDM)将视频翻译为机械臂动作,实现视觉-语言与动作模态解耦 [6] - 测试时扩展(Test-Time Scaling)技术提升视频预测可靠性,VBench测试显示主体一致性从0.565提升至0.855 [11][12] 数据创新 - 提出任务无关动作(Task-Agnostic Action)概念,解决传统VLA模型数据过度捆绑问题 [13] - 开发ATARA自动化数据采集系统:10小时无干预采集即可实现全动作空间泛化,准确率超基线51% [15][18] - 掩码逆动力学模型架构可自动捕捉机械臂相关像素,实现跨背景泛化 [22] 性能表现 - 真实世界任务轨迹重放成功率接近100%,较基线提升33-44% [18] - 在16种常见操作任务中展现卓越泛化能力,尤其擅长未见过的任务/背景场景 [25] - 实现双臂协作抓取等复杂操作,预测视频与实际执行高度吻合 [25] 战略意义 - 突破多任务操作与环境适应性瓶颈,为服务机器人落地居家/医院/工厂场景奠定基础 [27] - 全球首个多模态生成模型架构达到SOTA水平的机器人大模型,实现数字-物理世界双向反哺 [28][29] - 延续Vidu技术路线,通过统一基座架构强化时空信息理解与生成能力 [28] 团队背景 - 核心成员来自清华大学TSAIL实验室,含两位博士生冯耀(具身智能方向)和谭恒楷(具身大模型方向) [29][30] - 技术成果发表于ICML/OOPSLA/IJCAI等顶会,获国家奖学金/NOI银牌等荣誉 [29][30] - 指导老师朱军教授提出"通过多模态大模型推动数字与物理世界深度融合"的愿景 [29]
智谱与生数科技达成战略合作
快讯· 2025-04-27 14:10
战略合作 - 智谱与生数科技宣布达成战略合作 [1] - 合作基于双方在大语言模型和多模态生成模型的技术积累和优势 [1] - 合作范围包括联合研发、产品联动、解决方案整合、行业协同等多方面 [1] 产品合作 - 智谱MaaS平台将接入生数科技Vidu API [1]
文生图功能升级 ChatGPT追击
北京商报· 2025-03-26 23:08
OpenAI GPT-4o图像生成功能升级 - OpenAI在3月25日宣布其最新多模态模型GPT-4o正式集成“迄今为止最先进的图像生成器”并开放免费使用,此举被业界视为对同日谷歌发布的Gemini 2.5 Pro Experimental模型的直接狙击,标志着生成式AI竞赛进入白热化阶段 [3] - GPT-4o的图像生成功能擅长准确呈现文本并精准遵循提示词,其知识库和聊天上下文可作为灵感来源,该功能供ChatGPT Plus、Pro、Team和免费用户使用,并计划随后向企业、教育和API使用者推出 [4] - 该功能攻克了“生成图像中的文字”这一行业历史难题,在示例中能按要求生成包含复杂场景和文字的图像,并在连续修改指令时保持图像中人物身形、发型和板上文字的连贯一致性 [4] GPT-4o图像生成功能的技术特点与限制 - 在训练上,OpenAI使用网络上的图像和文本训练模型,使其学习图像与文字、图像与图像之间的关系,从而具备视觉流畅性,生成有用且具备上下文连贯性的图片 [5] - 功能特点包括:用户可通过自然对话要求模型改进图像,并保持图像中人物等要素的一致性;可同时处理10到20个不同的对象,以便图像中各要素呈现相关性,而其他系统通常只能同时处理5到8个对象 [5] - 该功能也存在一些限制,例如存在幻觉、难以呈现太多依赖知识库的图像要素(如元素周期表)、图表准确性不足、呈现非拉丁语言时易出现幻觉、以及难以精准编辑图像中的错别字 [6] - 有从业者评价,GPT-4o图像生成功能虽强大,但完全替代UI设计师尚早,创意和细节仍需人力,并比喻其为“88分的设计流,剩下12分才是设计师的真正价值” [6] OpenAI的GPT-5发展路线图与挑战 - OpenAI在更新GPT-4o后,更大的产品更新将是推出GPT-5,公司首席执行官山姆·奥尔特曼在2月表示,GPT-5将集成公司多项技术,包括推理模型o3的技术,并可能在未来几个月内推出 [6] - 奥尔特曼突然官宣GPT路线图,或许是因为OpenAI面临用户流失的压力,其本人表示,DeepSeek让OpenAI的领先优势不会像前几年那么大,并承认公司在开源策略上可能站在了历史的错误一边 [6] - 据《华尔街日报》报道,OpenAI内部代号为“猎户座”的GPT-5项目开发已持续近两年,目前面临严峻挑战,原计划2024年年中完成,但进度已严重滞后 [7] - 项目已进行至少两次大型训练,每次需数月处理大量数据,目标是让GPT-5在某些任务上达到博士水平,而GPT-4仅相当于优秀高中生,但训练每次都会出现新问题,软件达不到研究人员预期 [7] - 东吴证券研报判断,OpenAI对大模型产品线预期进行过调整,GPT-5的发布时间或提前,可能是由于DeepSeek近期的重磅更新和亮眼表现对OpenAI产品版图构成威胁,进而希望加快产品迭代步伐 [7] 外部竞争:谷歌发布Gemini 2.5 - 在OpenAI宣布更新前约一小时,谷歌正式推出了新一代AI模型Gemini 2.5,该模型基于多模态大语言框架升级,显著增强了推理能力、多语言支持及长文本处理能力 [8] - 谷歌将Gemini 2.5定义为公司迄今为止“最智能的AI模型”,其Gemini 2.5 Pro实验版本在多项基准测试中全面超越OpenAI o3-mini、Claude3.7 Sonnet、Grok-3和DeepSeek-R1 [8] - 通过优化算法架构,Gemini 2.5将响应速度提升40%,能耗降低25%,在关键指标测试中,其复杂逻辑任务完成度较前代提升65%,尤其在医疗诊断辅助、法律文书生成等垂直领域展现出更高精度 [8] - Gemini 2.5 Pro支持文本、图像、音频、视频及代码的多模态输入,上下文窗口达100万token(约75万单词),可解析完整《指环王》系列文本,未来将升级至200万token [8] - 该模型一经发布便在各大基准测试中全面领先,在所有测试中都稳居第一,包括常见的编程、数学和科学基准测试 [9] - 在推理能力方面,Gemini 2.5 Pro在一系列需要高级推理的基准测试中都处于领先地位,在“人类最后考试”中,它在未使用工具的模型中也获得了18.8%的最高分数,这是目前最先进的成绩 [9] 行业趋势与展望 - AI图像生成领域持续发展,国内厂商如豆包在去年升级文生图能力支持一键生成指定文本,智谱AI在今年3月发布了首个支持生成汉字的开源文生图模型CogView4 [5] - 研究机构Gartner预测,到2026年,多模态生成模型的商业价值将占AI市场的45% [10] - 随着谷歌与微软等巨头持续加码,生成式AI正从通用工具向产业基础设施演变,但其社会伦理、监管框架的完善也有待各方共同探索 [10]
谷歌发布新一代推理模型反击OpenAI,单次可处理百万token
界面新闻· 2025-03-26 10:31
公司产品发布 - 谷歌正式推出新一代人工智能推理模型Gemini 2.5,基于多模态大语言框架升级,显著增强了推理能力、多语言支持及长文本处理能力 [3] - 通过优化算法架构,Gemini 2.5将响应速度提升40%,能耗降低25% [3] - 在关键指标测试中,其复杂逻辑任务完成度较前代提升65%,在医疗诊断辅助、法律文书生成等垂直领域展现出更高精度 [3] - 旗舰版本Gemini 2.5 Pro Experimental在多项基准测试中超越OpenAI、Anthropic等竞争对手 [3] - Gemini 2.5 Pro支持文本、图像、音频、视频及代码的多模态输入,上下文窗口达100万token(约75万单词),可解析完整《指环王》系列文本,未来将升级至200万token [3] - 谷歌强调其“推理”能力指系统分析信息、得出逻辑结论、融入上下文和细微差别,以及做出明智决策的能力 [3] 产品商业化与市场反应 - Gemini 2.5 Pro即日起通过Google AI Studio和Gemini应用向订阅“Gemini Advanced”(月费20美元)的用户开放,未来将登陆Vertex AI平台 [4] - 谷歌暂未公布API定价,但表示将在几周内披露企业级应用方案 [4] - 发布会后一小时,集成Gemini 2.5的谷歌办公套件测试版访问量激增 [4] - 教育类初创公司LumenAI宣布将基于新模型开发自适应教学工具 [4] 行业趋势与竞争格局 - 谷歌此次发布是挑战OpenAI o系列模型迄今最重磅的尝试 [3] - 研究机构Gartner预测,到2026年,多模态生成模型的商业价值将占AI市场的45% [4] - 随着谷歌与微软等巨头持续加码,生成式AI正从通用工具向产业基础设施演变 [4]