Workflow
Vidu Q1
icon
搜索文档
实测Vidu Q1参考生功能,看到诸葛亮丘吉尔拿破仑在长城拍照留念
机器之心· 2025-07-11 16:27
核心观点 - 生数科技旗下AI视频模型Vidu Q1推出参考生功能,极大简化传统内容生产流程,实现「一个人就是一个剧组」的效果[2][3] - Vidu Q1参考生功能支持零分镜生成,只需上传人物、道具、场景等参考图即可直接融合为视频素材,操作仅需三步[5][17] - 该功能支持1080P视频直出,清晰度高,适用于多种场景如科幻叙事、童话动漫、人物特写等[17] - 当前版本最多支持7个主体输入,可同时处理多张图片并生成复杂互动场景[22][23] - 价格亲民,制作一条5秒1080p视频仅需20积分,标准版套餐48元/月含800积分[31] 功能特点 - **操作简便**:仅需上传照片、写提示词、成片三个步骤即可生成视频[3][5] - **多元素融合**:支持将人物、道具、场景等参考图直接融合为视频,无需分镜设计[5][23] - **高清晰度**:支持1080P视频直出,画质清晰,细节表现力强[17] - **多主体支持**:最多可同时处理7张图片,生成复杂互动场景[22][23] 应用案例 - **历史人物互动**:诸葛亮、丘吉尔、拿破仑在会议室、长城、铁王座等场景中自然互动,视频转场流畅[3][23][29] - **创意场景**:喵星人自拍时狮子靠近、蝙蝠侠与霸王龙对打等脑洞大开的视频生成[11] - **风格融合**:简笔画角色融入宫崎骏动画场景,风格适配度高[14][16] - **道具调整**:自动调整红缨枪大小以适配角色身材,优化画面和谐度[21] 用户反馈 - 社交平台涌现大量创意作品,如硅谷车库中跳舞的雕像、森林自拍的喵星人等[6][7][8][11] - 艺术家和程序员利用该功能实现跨IP角色同框,如1989版蝙蝠侠与1993版霸王龙对打[11] 实测表现 - **宫崎骏风格测试**:简笔画角色成功融入《龙猫》场景,风格一致且生动[14][16] - **多主体挑战**:7张图片输入下生成历史人物长城合照,互动自然但存在轻微图层融合瑕疵[23][26][30] - **道具与场景适配**:红缨枪大小自动调整,铁王座场景中人物互动自然但有遮挡问题[21][28] 价格与性价比 - 5秒1080p视频成本约20积分,标准版套餐48元/月含800积分,单价低廉[31]
腾讯研究院AI速递 20250710
腾讯研究院· 2025-07-09 22:49
一、AI视频生成技术升级 - 谷歌Veo 3升级支持仅用一张图片生成音频和视频,角色在多镜头下保持高度一致性[1] - 新功能通过Flow平台的"Frames to Video"选项实现,加入丰富运镜功能[1] - 用户实测显示人物表情自然、表演到位,适用于广告、动画等多领域[1] - Vidu Q1多参考生视频功能可上传最多7张参考图像,实现角色一致性强、多元素同框和零分镜视频生成[4] - 清晰度升级至1080P,支持主体库存储角色素材,单条视频成本不到9毛钱[5] 二、开源大模型进展 - Hugging Face开源3B参数模型SmolLM3,性能超越Llama-3.2-3B和Qwen2.5-3B,支持128K上下文窗口及6种语言[2] - 模型采用双模式系统,用户可在深度思考和非思考模式间灵活切换[2] - 昆仑万维开源Skywork-R1V 3.0多模态模型,高考数学得142分,MMMU评测达76分,超越部分闭源模型[3] - 模型通过强化学习策略GRPO和关键熵驱动机制,仅用1.2万条监督样本和1.3万条强化学习样本实现高性能[3] 三、端侧与多模态模型 - vivo发布端侧多模态模型BlueLM-2.5-3B,支持GUI界面理解,在20余项评测中表现优异[6] - 模型支持长短思考模式自由切换,引入思考预算控制机制[6] - 采用精巧结构(ViT+Adapter+LLM)和四阶段预训练策略,缓解多模态模型文本能力遗忘问题[6] 四、AI系统突破 - X-Masters系统在"人类最后的考试"(HLE)上首次突破30分,达到32.1分,超越OpenAI和谷歌[7] - 系统基于DeepSeek-R1模型构建了工具增强推理智能体X-Master,能在内部推理和外部工具使用间流畅切换[7] - 采用分散-堆叠式多智能体工作流,通过求解器、批评者、重写器和选择器多角色协作[7] 五、行业并购与市场格局 - 智元机器人以21亿元收购科创板上市公司上纬新材控制权,预计收购63.62%-66.99%股份[8] - 2025年上半年Gemini系列模型占据大模型API市场近一半份额,谷歌以43.1%位居第一[9] - DeepSeek V3自发布以来用户留存率极高,位列使用量前五[9] - 细分领域呈现差异化竞争格局:Claude-Sonnet-4在编程领域领先(44.5%),GPT-4o在营销领域领先(32.5%)[9] 六、AI应用趋势 - 全球已有18亿AI用户,但付费率仅3%,学生使用率高达85%,家长群体成为AI重度用户[10] - AI主要应用于邮件撰写(19%)、研究兴趣主题(18%)和管理待办事项(18%)等日常场景[10] - 未来18-24个月AI将迎来六大趋势:垂直领域工具崛起、完整流程自动化、语音AI爆发等[10]
生数科技视频模型Vidu Q1推出参考生功能,重构传统视频生产方式
证券时报网· 2025-07-08 21:45
视频内容生产方式变革 - 生数科技AI视频模型Vidu Q1推出参考生功能,实现从想象到视频素材生成只需一步,颠覆传统内容生产流程 [1] - 传统视频制作流程包含脚本、角色设定、分镜、摄影、后期特效、剪辑等7个环节,而Vidu Q1参考生功能简化为参考图、视频生成、剪辑3个环节 [1] - 该技术重构了基于AI原生的内容叙事方式,不再依赖分镜制作和拍摄过程 [1] 参考生功能技术优势 - 实现零分镜生成,省去需要专业技能的文生图/P图/融图环节,降低创作门槛 [1] - 传统方式每个场景需制作十几个分镜(远景、近景、特写等),专业创作者制作短片需上百张分镜 [2] - 直接上传人物、道具、场景等参考图即可生成视频,深层理解元素间互动关系 [2] 行业应用价值 - 兼具文生视频的灵活性和图生视频的可控性,突破传统制作方式限制 [2] - 可构建"虚拟剧组",素材库支持人物、场景、道具的无限排列组合,提高素材复用率 [2][3] - 主体一致性大幅提升,最多支持7个主体同时输入并保持一致,适用于电商、广告等专业场景 [3]
视频生成大模型的2025半年“赛点”:向左刷榜“跑分”,向右刷屏“跑量”
36氪· 2025-05-29 09:59
谷歌Veo 3发布 - 谷歌在2025 Google I/O开发者大会上发布视频生成大模型Veo 3,实现视频与音频的原生集成,包括音乐、背景音效和角色对话的自然生成,并能同步口型 [1] - Veo 3具备更强的物理规律理解与模拟能力,显著提升AI视频生成的真实感与沉浸感 [3] - 谷歌在发布Veo 3当天即刻上线Flow平台面向市场开放使用,不同于Sora发布时不对外开放的策略 [8] 国产视频生成模型表现 - 快手可灵2.0以1124分的Arena ELO基准测试评分位居Artificial Analysis榜单图生视频赛道榜首,对比谷歌Veo 2的胜负比达205%,对比OpenAI Sora的胜负比达367% [4] - 生数科技Vidu Q1在VBench Leaderboard和SuperCLUE榜单上登顶文生视频和图生视频分项榜首,超越Runway、Sora等国外模型 [6] - 阿里通义万相2.1曾在VBench Leaderboard榜单排名第一,在复杂运动处理、现实物理还原等方面表现突出 [6] 行业竞争格局 - 视频生成大模型赛道竞争激烈,国内外厂商呈现"螺旋式"互殴局面,榜单排名频繁更替 [4][6] - 国产模型通过高频迭代迅速跻身第一梯队,可灵AI上线以来已迭代20多次 [4] - 行业技术进步显著,从早期"鬼畜"画面发展到音频、画面、动作等多因素高度协同集成 [7] 商业化进展 - 国内厂商商业化路径更宽更快,快手可灵AI单月流水超千万元,与伊利、vivo等头部品牌达成合作 [11] - 抖音AI特效话题播放量超36亿次,快手AIGC广告收入规模提升12倍,单日消耗峰值突破2000万元 [8] - 首部付费AI短剧《兴安岭诡事》市场反响热烈,AI+萌娃、AI+宠物等主题视频创作吸引大量流量 [8] 商业模式对比 - 国内采用免费版与会员制结合策略,每天送积分吸引用户,会员定价平均低于国外厂商 [12] - 谷歌Veo 3需开通125美元/月的Ultra会员,且每月仅能生成约85条视频,限制用户大规模出片能力 [11] - 抖音即梦AI周活跃用户数从76万增至200万,月活达893万,商业化支撑数据亮眼 [11][14]
为什么AI视频工具长得越来越像?
36氪· 2025-05-07 15:50
AI视频赛道竞争格局 - 行业从对标Sora转向关注商业化落地,中国玩家可灵、即梦等成为新焦点 [1][4] - 2025年半年内超10家AI视频公司密集发布新模型,迭代周期缩短至半月级 [4][12] - 头部玩家如Runway、可灵、Vidu保持半年一次基座模型更新节奏 [11][12] 技术竞争维度 - 行业聚焦三大方向:一致性(帧间连贯性)、可用性(工作流整合)、可玩性(创意特效) [6][9][14] - 一致性优化手段包括首尾帧控制、笔刷工具、多图参考等,Runway推出Act-One面部表情迁移功能 [9] - 可用性体现在动态编辑、镜头运动控制、端到端工作流(分镜-生成-剪辑)能力 [13] 产品功能同质化与商业化 - 主流产品功能趋同,均支持主体参考、音效生成、多模态编辑等基础功能 [5][15] - 可灵2.0生成5秒视频成本10元,B端API价格2元/5秒,国内厂商B端价格优势显著 [16][20] - 行业未现价格战,闭源模型仍主导市场,开源模型存在性能短板 [21][22] 市场参与者与融资动态 - 2025年初超10家AI视频初创公司获融资,Runway获3.8亿美元D轮,HeyGen获6000万美元A轮 [23][25] - 参与者分化为AGI派(如谷歌DeepMind)、平台派(如Runway)、产品派(如Pika) [26] - 创作者多平台组合使用,Runway强于可控性,Pika擅动漫风格,Vidu稳定写实输出 [26][27] 行业挑战 - 商用落地存在成本高企问题,3分钟短片制作成本达数万元,客户预算持续压缩 [16][18] - 技术路径未收敛,开源与闭源模型性能差距缩小但效率不足问题仍存 [21]
【产业互联网周报】中国已成为全球人工智能专利最大拥有国;传Manus融资7500万美元;美分析师:H20出口管制毫无意义,对中国AI发展影响不大
钛媒体APP· 2025-04-28 11:16
人工智能专利与技术发展 - 中国已成为全球人工智能专利最大拥有国,占比达60% [2] - 国家知识产权局将加快建立人工智能、大数据等新领域知识产权保护规则,指导建设人工智能领域专利池 [2] - 科大讯飞深度推理大模型讯飞星火X1升级,在数学、代码等任务上效果显著提升,对标OpenAI o1和DeepSeek R1 [8] 企业融资与估值 - 通用型AI智能体Manus AI背后的中国创业公司"蝴蝶效应"完成7500万美元融资,估值达近5亿美元 [3] - 未来智能获数千万元Pre A+轮融资,月活增长超10倍,复购率44% [81][82] - 美国AI初创公司Manychat完成1.4亿美元B轮融资,专注于AI营销机器人 [83] 大模型与AI产品动态 - 字节内测Agent产品"扣子空间",支持调用多位专家Agent完成任务 [4] - 百度发布文心大模型4.5 Turbo,价格最高降低80%,每百万token输入价格0.8元 [50][51] - 智谱旗下GLM-4-Plus降价90%,从50元/百万tokens降至5元/百万tokens [37] 机器人技术与应用 - 宇树机器人回应春晚"死机"事件,称系误按急停按钮 [7] - 美的宣布人形机器人5月进厂,下半年进入线下门店 [63] - 特斯拉机器人Optimus相关岗位招聘约80个,擎天柱AI团队扩招 [64] 算力与基础设施 - 内蒙古算力规模达12万P,其中90%为智能算力,居全国第一 [29] - 百度点亮国内首个全自研三万卡集群,支持多个千亿参数大模型训练 [48] - 青岛计划到2027年算力总规模达12EFLOPS,智能算力占比40% [104] 政策与行业趋势 - 工信部计划到2026年制修订100项以上智能制造国家标准、行业标准 [94][97] - 广东省工业机器人产量五年增长4.5倍,人工智能核心产业规模超2200亿元 [98] - 习近平强调坚持自立自强,突出应用导向,推动人工智能健康有序发展 [105] 国际合作与市场拓展 - 宝马中国宣布接入DeepSeek,功能将应用于国产新世代车型 [59][60] - Yandex推出新一代AI车载平台,月活跃用户超7000万 [16] - 蚂蚁集团在广州设立"双中心",深化数字金融和跨境支付合作 [11] 教育与人才培养 - 深圳大学人工智能学院成立,教研团队含多位院士和国家级人才 [9] - 蚂蚁集团推出"Plan A"AI人才专项,面向全球招募顶尖AI研究人员 [46] - 教育部本科增列人工智能教育等29种新专业,聚焦AI赋能经济社会发展 [96]
传媒行业周报:积极关注高景气社交出海、Agent及多模态AI应用行业周报
开源证券· 2025-04-28 08:55
报告行业投资评级 - 看好(维持)[2] 报告的核心观点 - 社交、游戏出海中东北非等地延续高景气,国内成熟商业模式和丰富运营经验,叠加AI赋能及本地化深耕运营,或驱动线上社交产品出海延续高景气,建议关注有布局卡位优势、本地化运营能力突出的公司及有望拓展出海社交业务的公司,重点推荐腾讯控股、盛天网络,受益标的包括赤子城科技、Yalla等[4] - 国产模型多模态、推理能力持续提升及MCP协议广泛运用,将推动Agent等应用在垂直场景加快落地,拉动推理算力需求,建议继续布局AI,给出大模型/Agent、AI游戏、AI虚拟陪伴等多领域重点推荐和受益标的[5] 根据相关目录分别进行总结 行业数据综述 - 游戏方面,截至2025年4月26日22:00,《七日世界》获内地iOS免费榜第一,《王者荣耀》获内地iOS畅销榜第一,《失控进化》为安卓和iOS预约榜第一;重点公司游戏产品iOS游戏畅销榜排名中,《王者荣耀》本周最高排名维持第1名[12][16][22] - 影视方面,电影《向阳·花》获得周票房冠军,网播剧《无忧渡》表现良好,网播综艺《哈哈哈哈哈第五季》周播映指数第一,台播剧《我的后半生》周市占率第一,台播综艺芒果超媒《乘风2025》周市占率登顶第一,抖音卡牌爆款榜前10名中喝酒之奕金铲铲卡牌本周销量领先[26][27][29][31] 行业新闻综述 AIGC - 4月24日,Coze首进国内榜前十,Photoroom海外排名跃升13位至海外榜第30;近期AI生成猎奇内容掀起热潮,AI与创意结合突破内容边界;4月17日,腾讯元宝赶超Kimi位居国内榜第四,Poe上升2位进入总榜前十;国产Vidu Q1在权威评测基准中超越顶尖模型,勇夺文生视频赛道双榜第一[33][35][36] 游戏 - 4月21日,国家新闻出版署4月审批118款游戏,网易《极限战场》等双端产品入选;4月25日,《原神》茜特菈莉手办首发预计12月出货;《失落星船:马拉松》测试首日登上Twitch第三[36][38] 影视/IP - 4月24日,芒果TV与红果短剧达成系列合作,围绕优质成品短剧授权、IP联动开发及联合出品、短剧商业化展开深度合作[39] 公告总结 - 部分公司发布2024年年报,如蓝色光标2024年收入607.97亿元,同比增速15.55%,归母净利润 -2.91亿元,同比增速 -349.32%等多家公司有相关收入、利润及增速数据披露[39][42] 板块行情综述 - A股传媒板块2025年第17周(4月21日 - 4月25日)下跌0.11%,弱于上证综指、沪深300、深证成指、创业板指;游戏板块表现最好(+1.15%),体育板块表现最差(-0.85%);相对传媒指数/沪深300,游戏板块获得最高超额收益,分别为+1.26%/+0.77%;A股传媒互联网相关个股中,生意宝周涨幅最大(+21.1%),芒果传媒周跌幅最大(-9.68%);美股传媒互联网相关个股中,BTC DIGITAL周涨幅最大(+22.29%),云集周跌幅最大(-7.30%);港股传媒互联网相关个股中,睿见教育周涨幅最大(+23.3%),宇华教育周跌幅最大(-9.86%)[47]
行业周报:积极关注高景气社交出海、Agent及多模态AI应用-20250427
开源证券· 2025-04-27 22:34
报告行业投资评级 - 看好(维持) [2] 报告的核心观点 - 社交、游戏出海中东北非等地延续高景气,国内成熟商业模式和丰富运营经验,叠加AI赋能及本地化深耕运营,或驱动线上社交产品出海延续高景气,建议关注有布局卡位优势、本地化运营能力突出的公司及有望拓展出海社交业务的公司,重点推荐腾讯控股、盛天网络,受益标的包括赤子城科技、Yalla等 [4] - 国产模型多模态、推理能力持续提升及MCP协议广泛运用,将推动Agent等应用在垂直场景加快落地,拉动推理算力需求,建议继续布局AI,给出大模型/Agent、AI游戏、AI虚拟陪伴等多领域的重点推荐和受益标的 [5] 根据相关目录分别进行总结 行业数据综述 - 游戏方面,截至2025年4月26日22:00,《七日世界》获内地iOS免费榜第一,《王者荣耀》获内地iOS畅销榜第一,《失控进化》为安卓和iOS预约榜第一;重点公司游戏产品iOS游戏畅销榜排名中,《王者荣耀》本周最高排名维持第1名 [12][16][22] - 影视方面,电影《向阳·花》获得周票房冠军;网播剧《无忧渡》表现良好;网播综艺《哈哈哈哈哈第五季》周播映指数第一;台播剧《我的后半生》周市占率第一;台播综艺芒果超媒《乘风2025》周市占率登顶第一;抖音卡牌爆款榜前10名中喝酒之奕金铲铲卡牌本周销量领先 [26][27][29][31] 行业新闻综述 AIGC - 4月24日,Coze首进国内榜前十,Photoroom海外排名跃升13位至海外榜第30;近期AI生成的猎奇内容在全球社交平台掀起热潮;4月17日,腾讯元宝赶超Kimi位居国内榜第四,Poe上升2位进入总榜前十;国产Vidu Q1在权威评测基准中超越Sora、Runway等顶尖模型,勇夺文生视频赛道双榜第一 [33][35][36] 游戏 - 4月21日,国家新闻出版署发布4月国产网络游戏审批信息,118款游戏获批,网易《极限战场》等双端产品入选;4月25日,《原神》茜特菈莉手办首发,预计12月出货;《失落星船:马拉松》测试首日登上Twitch第三 [36][38] 影视/IP - 4月24日,芒果TV与红果短剧达成系列合作,围绕优质成品短剧授权、IP联动开发及联合出品、短剧商业化展开深度合作 [39] 公告总结 - 部分公司发布2024年年报,如蓝色光标2024年收入607.97亿元,同比增速15.55%,归母净利润 -2.91亿元,同比增速 -349.32%等 [39][42] 板块行情综述 - A股传媒板块2025年第17周(4月21日 - 4月25日)下跌0.11%,弱于上证综指、沪深300、深证成指、创业板指;游戏板块表现最好(+1.15%),体育板块表现最差(-0.85%);相对传媒指数/沪深300,游戏板块获得最高超额收益,分别为+1.26%/+0.77% [47] - A股传媒互联网相关个股中,生意宝周涨幅最大(+21.1%),芒果传媒周跌幅最大(-9.68%);美股传媒互联网相关个股中,BTC DIGITAL周涨幅最大(+22.29%),云集周跌幅最大(-7.30%);港股传媒互联网相关个股中,睿见教育周涨幅最大(+23.3%),宇华教育周跌幅最大(-9.86%) [47]
生数科技全新视频大模型Vidu Q1上线:动漫视频生成领域全球第一
IPO早知道· 2025-04-23 18:25
生数科技Vidu Q1视频大模型 - 核心观点:Vidu Q1在文生视频赛道实现全球领先,成为当前最先进的视频生成模型 [2] - 技术突破:在VBench-1.0和VBench-2.0测评中超越Runway、OpenAI Sora、快手Kling等国内外顶尖模型,拿下双榜单第一 [2] - 国内权威认证:在SuperCLUE图生视频榜的动漫风格、写实风格中均获双第一 [2] 模型性能与商业化进展 - 画面质量升级:支持生成5秒、1080P高质量视频,具备电影级高清画质,可呈现宏大场景和细微表情 [3][4] - 功能创新:首尾帧生成能力提升,仅需两张图即可实现大师级运镜;动画风格动态表现力增强;新增AI音效功能,支持一句话生成专属音效 [4] - 商业化落地:已上线网页与App端,每秒生成价格最低0.3元,定位"性价比之王" [4] 行业地位与竞争优势 - 技术领先性:在视频质量、语义一致性、常识推理、物理理解等维度达到SOTA(当前最先进)水平 [2] - 产品迭代:Q1模型代表更高画面质感和更强语义理解,持续推动AI视频商业化进程 [3]