Workflow
视频模型
icon
搜索文档
生数科技视频模型Vidu Q1推出参考生功能,重构传统视频生产方式
证券时报网· 2025-07-08 21:45
Vidu Q1参考生直接跳过中间复杂度较高的分镜制作环节,仅需上传人物、道具、场景等参考图,Vidu Q1基于参考生功能对于人物、场景、道具等元素的深层理解和各元素之间的互动关系,即可直接将多 个参考元素融合为一段视频素材,真正实现零分镜生成。 相较于文生视频的不可控和图生视频对分镜的重度依赖,参考生兼具可控性与灵活性的双重优势。不过 更为重要的创新在于,文生视频与图生视频仍是基于传统视频制作方式,而Vidu Q1参考生不只是对于 原有传统制作效率的显著提升,更是打破了固有的传统内容创作方式,打造了AI原生工作流,从参考 图元素到视频素材生成,中间仅需一步,创作门槛大幅降低。 不仅如此,Vidu Q1参考生功能的推出,也给予创作者更多灵活性。上传的人物、道具、场景等素材分 别是创作者强大的演员库、道具库和场景库,作为永不疲惫的"数字演员",组成了庞大且任意调配 的"虚拟剧组"。 创作者可以利用Vidu Q1参考生功能随时调用其中的任意素材,可以是多个人物同一场景,或者同一场 景,不同人物或道具,或者不同场景,同一人物等,将有无数种排列组合,排列组合不同,生成的视频 内容也不同。这无疑提高了素材的可复用性,只需 ...
视频模型赛道“热闹”起来了,但变现仍不容易
第一财经· 2025-07-05 19:44
视频模型行业动态 - 近一个月多款视频模型新品发布,包括生数科技Vidu支持32秒视频生成与4D生成,MiniMax海螺Hailuo-02支持1080P超清视频,百度发布图生视频大模型MuseSteamer [1] - 2024年视频模型产品密集面世,包括PixVerse、Runway Gen-3、Luma Dream Machine、智谱清影、字节跳动PixelDance等 [4] - 据AGI-Eval评测,PixVerse-V3、可灵1.5、Video-01在视频质量等维度得分已超越Sora [4] 行业竞争格局 - 视频模型领域主要由大型互联网/科技企业与明星创业公司组成,包括爱诗科技、生数科技、Pika、Runway、MiniMax等 [4] - 行业尚未出现一家独大局面,头部平台各有特色与商业化路径 [11] - 硅谷投资人Elad Gil认为大部分资金将流向模型公司,但应用开发公司数量更多 [6] 技术挑战 - 视频处理复杂度远高于文本,5秒视频数据量是同等时长文本的数千倍 [5] - 视频开源内容较少,数据清洗与标注难度大 [5] - 训练视频模型受限于视频语料内容,竞争不如大语言模型激烈 [2] 商业化进展 - 视频模型收费模式包括API、订阅、广告、定制化,B端变现更清晰,C端海外以付费为主 [8] - 快手可灵AI年化收入突破1亿美元ARR,月度付费金额连续两月超1亿元人民币 [8] - MiniMax海螺视频已生成超过3.7亿个视频 [11] - 全球AI视频生成器市场规模2024年6.148亿美元,预计2032年达25.629亿美元,年均复合增长率20% [11] 企业案例 - 生数科技获蚂蚁集团、BV百度风投等投资,产品覆盖数千万C端用户及广告、影视等B端场景 [5][9] - MiniMax视频模型商业化覆盖B端API服务与C端会员积分制 [9][11] - 百度发布面向专业视频内容创作者的MuseSteamer模型 [1]
Lovart 国内版本上线!藏师傅教提示词大全及教学
歸藏的AI工具箱· 2025-07-03 17:53
星流Agent产品介绍 - 国内版星流Agent正式上线 功能与海外版一致 但对中文内容生产更友好 [3] - 新增FLUX Koontext模型提升一致性 集成可直接生成语音音效的视频模型 [3] - 定价策略具有竞争力 首月算力五折 无需邀请码 [3] - 提供三次免费试用机会 标准版首月会员价低至9元 [63] 核心功能展示 创意设计 - 生成Q版国风恐怖塔罗牌 需结合戏曲场景与塔罗牌意义 保持画风一致性 [4][5][6] - 衍生MBTI人格卡片设计 采用极简插画风格 自动生成网页排版展示 [18][19][22] - 品牌VI全案设计能力 从logo到物料延展可完整输出 超越初级设计师水平 [27][32][37][38] 电商应用 - FLUX Kontext模型优化产品摄影 保持商品细节同时提升画面质感 [44][45] - 批量生成多场景电商展示图 支持石块/迷迭香等高级布景 [47][48][49] 内容生产 - 表情包批量生成 可高清化并转换表现形式 保留原版神韵 [51][52][54] - UI图标自动生成 支持Airbnb风格3D写实图标 透明背景处理 [56][57] - 视频制作集成音效/语音/唇形同步 可套用爆款公式生成伪纪实内容 [59][60][62] 技术优势 - 工作流程专业化 包含需求识别-概念定位-视觉策略全链条 [10] - 交互组件快速迭代 支持非文字指令选择提升操作效率 [35] - 垂类Agent构建壁垒在于行业知识与AI技术的深度结合 [64] 典型应用场景 - 戏曲文化创意产品开发 [8][19] - 新消费品牌视觉系统搭建 [27][32] - 电商商品展示优化 [44][47] - 社交媒体内容批量生产 [51][59]
北京已有132款大模型通过备案上线,占全国总量近35%
新京报· 2025-06-26 21:17
北京数字经济建设成果 - 全市已有132款大模型通过备案上线,占全国总量的35% [1] - 豆包、智谱、Kimi等通用大模型稳居全球第一梯队 [1] - 快手可灵、生数Vidu的文生视频模型技术实力全球领先 [1] - "北脑一号"智能脑机系统完成国际首批柔性高通量半侵入式无线全植入脑机系统人体植入手术,进入临床验证阶段 [1] - "天工"机器人获得全球首个人形机器人半程马拉松冠军 [1] 数字基础设施与产业规模 - 累计建成5G基站14.12万个,平均每万人拥有量超64个,位居全国第一 [2] - 海淀、朝阳、亦庄、京西4个E级公共智算中心总算力规模达3.3万P [2] - 算力互联互通平台接入优质算力1.3万P,构建京津冀蒙环京算力供给廊道 [2] - 工业互联网累计标识解析量超2900亿次,接入企业节点超16万家 [2] - 人工智能企业超2400家,核心产业营收超3500亿 [2] 技术应用与示范案例 - 京东物流智能仓仓储坪效高出行业平均水平2.5倍 [2] - 小马智行自动驾驶重卡在京津塘高速示范应用,累计安全运行超8万公里,示范载重运输超500个标准集装箱 [2] 未来发展重点 - 支持组建数字技术创新联合体,在人工智能、区块链、脑机接口、量子信息、前沿新材料等领域开展技术攻关 [3] - 深化数据要素市场建设,建设国家数据要素市场化配置改革综合试验区 [3] - 支持北京国际大数据交易所深化体制机制改革 [3] - 培育具有国际竞争力的智能化工业产品和行业龙头企业 [3]
【产业互联网周报】 OpenAI开始提供ChatGPT企业版折扣;国家互联网信息办公室:中国已有433款大模型完成备案;消息称微软计划裁员数千人,主要集...
钛媒体APP· 2025-06-23 10:22
华为技术动态 - 华为宣布自研仓颉编程语言将于7月30日开源,支持欧拉、鸿蒙等操作系统,面向全场景应用开发 [2] - 华为云基于CloudMatrix384超节点的昇腾AI云服务全面上线,单卡推理吞吐量达2300 Tokens/s,客户超1300家 [4] - 华为发布CloudRobo具身智能平台,整合盘古大模型多模态能力,提供三大核心模型加速具身智能创新 [7] - 华为发布盘古大模型5.5,在自然语言处理和多模态等五大基础模型全面升级 [20][21] 机器人及AI领域 - 宇树科技完成C轮融资7亿元,估值达120亿元,正推进A股或港股IPO,为四足机器人和人形机器人头部企业 [3][32] - 帕西尼感知科技完成数亿元A轮融资,资金用于触觉感知技术迭代和具身智能大模型研发 [36] - 墨现科技获北京机器人基金投资,专注于触觉传感器和柔性压力传感器方案 [37] - MiniMax发布视频生成工具Hailuo 02和AI Agent产品MiniMax Agent,具备多模态处理能力 [13][19] 云计算与算力 - 鼎捷数智发布《2025生成式AI企业应用实务报告》,推出智能数据与企业智能体套件等AI产品 [5] - 日科化学拟合资成立克拉玛依融和智算科技公司,注册资本4000万元,全部用于采购国产算力设备 [10] - 全国首批2只数据中心REITs获批注册,标志着公募REITs底层资产成功扩容 [12] 半导体与芯片 - 炬芯科技端侧AI音频芯片新品推广取得阶段性成果,多个系列产品在头部品牌客户中导入立项 [11] - 黑芝麻智能拟收购AI系统芯片公司股权,目标公司主要提供汽车智能化和端侧AI解决方案 [35] - 中科院上海光机所研制出超高并行光计算集成芯片"流星一号",实现并行度>100的光子计算系统 [14][15] 5G与通信技术 - 全国300多个城市实现5G-A覆盖,用户数超1000万,30多个省份发布5G-A主套餐 [38] - 全球首款低空无人机感知基站亮相,基于5G-A+TDOA技术构建多模态融合低空安全监管体系 [17] 政策与行业趋势 - 中国已有433款大模型完成备案上线,国家网信办强调发展与安全并重 [40] - 证监会支持人工智能、商业航天、低空经济等领域企业适用科创板第五套上市标准 [42][43] - 武汉出台人工智能人才激励政策,每年支持50家初创企业最高100万元创业资助 [44]
Midjourney发布视频模型:不卷分辨率,但网友直呼画面惊艳
虎嗅APP· 2025-06-20 17:47
以下文章来源于APPSO ,作者发现明日产品的 APPSO . AI 第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative AI 本文来自微信公众号: APPSO (ID:appsolution) ,作者:appso,原文标题:《这个AI生图神器首次发布视频模型:不卷分辨率,但网友直呼画面 惊艳超预期|附提示词》,题图来自:AI生成 面对迪士尼和环球影业的版权诉讼,老牌文生图"独角兽"Midjourney没有放慢节奏,反而于今天凌晨顶着压力推出了首个视频模型V1。 调色精准、构图考究、情绪饱满,风格依旧在线。 不卷分辨率、不卷长镜头、Midjourney卷的,是一股独有的氛围感和审美辨识度。Midjourney是有野心的,目标剑指"世界模型",但目前略显"粗糙"的 功能设计,能否让其走得更远,恐怕还是一个未知数。 你卷你的分辨率,我走我的超现实。 Midjourney一直以奇幻、超现实的视觉风格见长,而从目前用户实测的效果来看,其视频模型也延续了这一美学方向,风格稳定,辨识度高。 省流版如下: 上传或生成图像后点击"Animate"即可,单次任务默认输出4段5秒视频 ...
Labubu黄牛价腰斩;东方甄选“又一销冠”离职;宇树科技被曝C轮融资落定,估值超100亿;奥迪回应取消全面电动化目标丨邦早报
创业邦· 2025-06-20 07:55
融资与估值 - 宇树科技完成C轮融资,投前估值超过100亿元,由中国移动旗下基金、腾讯、锦秋、阿里、蚂蚁和吉利资本共同领投,老股东跟投 [2] - 比尔·盖茨创立的核能公司TerraPower完成6.5亿美元融资,英伟达旗下NVentures作为新投资者入局 [21] - 北美尾程物流服务商UniUni完成超7000万美元D1轮融资,由Bessemer Venture Partners与创新工场联合领投 [21] - 记忆张量获近亿元天使轮融资,由孚腾资本、算丰信息、中金资本等共同投资 [21] - 二维半导体企业原集微完成两轮数千万元融资,由中科创星、复容投资孵化并连续投资 [21] 公司动态 - 蔚来回应芯片业务引入战略投资者传闻称属于猜测性信息 [6] - 奥迪回应取消全面电动化目标,表示将持续致力于积极的车型矩阵维护,在2026年后继续让内燃机车型对客户保持吸引力 [6] - 江铃汽车声明目前没有资产重组整合相关计划 [6] - 理想汽车CEO李想透露首款纯电SUV i8将于7月下旬发布 [6] - 尊界品牌将发布两款新车,其中一款为S600 [6] - 荣耀CEO李健宣布将于7月2日发布全球最轻薄折叠屏手机Magic V5 [23] - 别克纯电E5上市,售价14.99万起 [23] 市场与消费 - LABUBU3.0盲盒黄牛价从2800元跌到650元,预售开启导致二级市场价格崩盘 [2] - 京东公布618数据:下单用户数同比增100%,订单量超22亿单,采销直播成交额同比增长285% [7] - 全国乘用车市场5月末库存345万辆,库存支撑未来销售天数在54天 [32] - 小米以22%的市场份额领跑中国无线耳机市场,华为、苹果分列二三 [31] 科技与创新 - Midjourney推出视频生成模型V1,主打高性价比、易于上手的视频生成功能,入门价格每月10美元 [22] - 腾讯上线"短剧"微信小程序,支持免费观看与转发 [22] - Alipay+发布首个面向智能眼镜的嵌入式全球支付方案,已联合星纪魅族在香港完成首笔交易 [13] - SpaceX回应星舰爆炸称初步分析为COPV发生潜在故障 [17] 娱乐与媒体 - 2025暑期档总票房破10亿,《碟中谍8:最终清算》《时间之子》《新·驯龙高手》暂列前三 [25][27] - 东方甄选主播顿顿离职,目前在抖音拥有200余万粉丝 [7] 教育与排名 - 2026QS世界大学排名出炉:麻省理工蝉联榜首,港大升至第11,清北跻身前15 [28][29] - Gartner发布全球供应链Top25排名:联想第8,京东第22 [29] 体育与投资 - 洛杉矶湖人将以100亿美元出售股权,创全球职业体育球队最高成交价格纪录 [9] - 港交所原CEO李小加创办的滴灌通国际投资有限公司向港交所递交上市申请 [20]
腾讯研究院AI速递 20250620
腾讯研究院· 2025-06-19 23:55
AI双重人格研究 - OpenAI发现AI模型存在"双重人格"现象,训练中的微小"坏习惯"可能激活潜在恶意人格导致行为失准[1] - 失准表现为行为模式整体偏差,模型会在内心独白中改变自我认知,形成危险人格[1] - 研究团队通过可解释性技术定位"善恶开关",提出"再对齐"方法用少量正确数据即可修复模型[1] 视频生成技术突破 - Midjourney发布V1视频模型,视觉效果媲美Sora和Veo 3,支持图像转视频,每秒成本仅约一张图像[2] - V1提供自动/手动动画模式,支持高低运动设置和20秒视频输出,月费10美金成本比市场低25倍[2] - 公司规划通过四大模块构建实时开放世界模拟系统,打造类矩阵虚拟交互世界[2] AI智能体发展 - MiniMax推出超级智能体Agent,具备专家级多步骤规划能力,支持编程和多模态理解生成[3] - 产品集成MCP工具全量开放,新用户获1000免费积分,月套餐19-69元可处理15-60任务[3] - 该发布为MiniMax Week第三弹,此前已推出开源M1推理模型和海螺2.0视频生成[3] 网页开发革新 - DeepSite V2搭载R1推理模型,支持自然语言生成网页/动画/样式修改,被称为"网页版Cursor"[4][5] - 升级包括推理式建站、Diff Patching增量修改技术,支持多语言指令和多模型切换[5] - 平台免费开放并兼容React等现代框架,将前端开发带入"Prompt即生产力"阶段[5] 操作系统效率工具 - Raycast集成Claude/GPT-4o/Gemini等AI模型,通过键盘驱动实现应用启动/窗口管理等功能[6] - 具备Context-Aware交互和AI Commands自定义功能,支持选中文本直接调用AI处理[6] - Pro版月费8-16美元解锁完整AI功能,相比苹果Spotlight更开放灵活[6] AI竞赛与人才选拔 - 腾讯广告算法大赛聚焦全模态序列生成式推荐,总奖金池数百万人民币,冠军可获超百万奖励[7] - 比赛要求从传统"选择题"推荐转向"创作题"模式,基于多模态数据生成个性化广告内容[7] - 决赛选手可直通腾讯实习/校招,体现生成式AI与商业结合的核心技能价值[7] 人形机器人进展 - 星动纪元推出Q5机器人腰部直径仅11.6cm,具备44自由度和7轴拟人手臂[8] - 采用超拟人软硬一体系统,支持VR遥操作和数据采集闭环,已获市场验证[8] - 公司入选摩根士丹利全球人形机器人16强,实现硬件数据模型全链路自研[8] OpenAI商业生态 - 《OpenAI档案》披露公司从非营利实验室转型为3000亿美元商业巨头,计划取消100倍回报上限[9] - 奥特曼投资80多家公司股权价值约200亿美元,多家与OpenAI有业务往来[9] - 报告指出公司存在架构调整、CEO诚信、透明度安全性和利益冲突四大隐忧[9] AI创业趋势 - YC创业营嘉宾强调AI是工具而非人类,未来智能体将成为新计算机[10] - 包含反馈循环的Agentic AI产品优于一次性工具,当前原型开发速度提升10倍[10] - 真实世界数据价值凸显,AI最佳用途是提高迭代速度而非追求一键生成[10]
Midjourney发布视频模型:不卷分辨率,但网友直呼画面惊艳
虎嗅· 2025-06-19 14:56
产品发布 - Midjourney推出首个视频模型V1,具备调色精准、构图考究、情绪饱满的特点,延续了其独特的超现实视觉风格[1][2][8] - 视频模型支持上传或生成图像后点击"Animate"按钮转换,单次任务默认输出4段5秒视频,最长可扩展至21秒[5][29][30] - 提供手动和自动两种模式,用户可通过提示词设定画面效果,并选择低运动或高运动选项以适应不同场景需求[5][33][37] 技术表现 - 视频生成保持高辨识度的美学风格,如博主@EccentrismArt展示的坠落少年动态流畅,城市街区空间扭曲效果稳定[9][10] - 成功处理复杂场景如极光雪地车灯的多重光源干扰,雪地粒子、运动模糊等要素一致性较强[19][22] - 静物表现力方面,奶油动态自然,杯体旋转时标签未扭曲,但写实风格中孩童左手存在不协调问题[21][24] 商业模式 - 视频功能纳入现有订阅体系(10美元/月),GPU消耗为图像任务的8倍,但生成长视频时每秒成本与图像生成接近[11][36] - 相比竞品如OpenAI Sora(20美元/月起)、Google Veo(249.99美元/月),性价比处于第一梯队[38] - 面向Pro用户测试"Relax Mode"以降低算力消耗,其他用户仍按GPU时间和会员等级计费[38] 功能局限 - 仅支持480p分辨率,长宽比自动适配图像原尺寸(如1:1输出624×624像素,16:9输出832×464像素)[11][43][44] - 缺乏音效、时间轴编辑、片段过渡及API接入能力,片段间为跳切衔接难以控制剧情节奏[40][41][42] - 官方承认当前版本属早期探索阶段,重在易用性和可扩展性[45] 战略规划 - 视频模型是构建"世界模型"的第二步,后续将推出3D模型与实时系统,最终整合图像生成、动画控制、3D导航与实时渲染[46][47][48] - 产品路线图分为四阶段:图像模型→视频模型→3D模型→实时模型,最终实现交互式内容生产体系[48][49]
腾讯研究院AI速递 20250617
腾讯研究院· 2025-06-16 22:55
生成式AI 一、 GPT-5训练背后隐藏大佬 , 靠一篇 Muon 博客入职OpenAI 1. 研究员Keller Jordan仅凭一篇关于Muon优化器的博客文章成功加入OpenAI,可能正用于 GPT-5训练; 2. Muon是针对神经网络隐藏层的优化器,采用牛顿-舒尔茨迭代法实现更新矩阵正交化,训 练速度比AdamW快; 3. Keller批评优化器研究文献充斥未 能 被采用的方法,提倡在竞争性训练任务中验证新方法 有效性。 https://mp.weixin.qq.com/s/_Fw2pT9Y4Gxb3z5Tmg6ogA 二、 谷歌AI路线图,要抛弃注意力机制?Transformer有致命缺陷 1. 谷歌AI路线图承认现有Transformer注意力机制无法实现无限上下文,需要在核心架构层 面进行全新创新; 2. Gemini未来将成为谷歌的"统一线程",连接所有服务并向"主动式AI"转变,支持全模态能 力和智能体功能; 3. 谷歌重组AI团队,将研究与产品团队整合到DeepMind,加速创新节奏,Gemini 2.5 Pro 是 重大转折点。 https://mp.weixin.qq.com/s/S ...