Workflow
CogVideoX
icon
搜索文档
妙笔生维:线稿驱动的三维场景视频自由编辑
机器之心· 2025-08-19 10:43
三维场景视频编辑技术发展 - 移动摄影设备普及推动三维场景视频编辑需求增长 用户可通过手机或相机快速获取多视角视频 但高效自由编辑这些内容仍是关键挑战 包括添加新物体、去除元素或替换已有部分等能力 在VR、AR和短视频创作中应用前景广泛[2] - 现有经典方法局限在于仅支持预定义三维模型库 限制用户个性化创意表达 且难以处理光影融合和阴影生成等照片级真实感需求 移除物体后的空缺区域填补也缺乏最优解决方案[3] Sketch3DVE技术创新 - 提出基于线稿的三维场景视频编辑方法 用户通过简单线稿即可重塑视频内容 支持个性化添加、移除或替换对象 技术论文发表于SIGGRAPH 2025并入选Video Trailer[3][6] - 支持单张静态图片编辑 用户可先指定虚拟相机路径生成动态视频 再进行任意编辑 突破传统静态图像处理限制[5] - 采用DUSt3R三维重建算法分析场景 输出点云和相机参数 通过深度图对齐和反投影技术实现三维几何一致性 构建基于点云引导的视频生成模型 融合编辑帧、多视角视频和原始视频信息[13][14] 行业技术对比 - 现有视频生成模型分为两类:直接输入相机参数控制视角 或从单图像构建显式三维表示(如NeRF) 但均无法处理含大幅度相机运动的真实视频编辑[8] - 早期视频编辑方法基于Stable Diffusion逐帧处理 新方法利用视频模型提取运动特征 但主要擅长外观编辑 几何结构层面效果较差 难以处理大视角变化场景[9] - 线稿交互方式已广泛应用于内容生成 VIRES和SketchVideo等现有方法面向通用场景 无法保持三维几何一致性 Sketch3DVE填补该技术空白[9][12] 应用效果展示 - 支持首帧线稿标记编辑区域 生成添加/删除/替换物体的高质量结果 新物体具有三维一致性[16] - 可处理含阴影和反射的复杂场景 通过真实视频数据集训练生成合理编辑效果[17] - 支持颜色笔画指定外观 生成自然真实的三维场景编辑 也兼容图像补全方法直接编辑首帧[18][19] - 相比传统模型插入方法 解决了个性化定制不足、渲染失真和物体去除难题 降低专业软件使用门槛[20][22]
AI生成视频总不符合物理规律?匹兹堡大学团队新作PhyT2V:不重训练模型也能让物理真实度狂飙2.3倍!
机器之心· 2025-05-19 12:03
文本生成视频技术发展 - 当前T2V技术正从视觉质量与模型规模扩展阶段转向物理一致性与现实合理性推理驱动阶段 [2] - 物理规律作为建模现实世界的基本知识体系,是高质量视频生成的关键约束 [2] - 主流模型如Sora、Pika、CogVideoX已能生成复杂逼真场景,但在物理规则遵守方面存在显著不足 [5] PhyT2V框架核心机制 - 通过LLM引导的链式推理与迭代自我修正机制优化文本提示,增强现有T2V模型的物理一致性 [3] - 采用三步流程:1)识别物理规则与对象 2)检测提示与视频语义不匹配 3)生成修正提示 [12][13][14] - 无需模型重训练或额外数据,支持3-4轮迭代即可显著提升效果,改进在最初两轮最明显 [14][23] 技术优势与实验表现 - 在CogVideoX-5B模型上实现PC指标2.2倍提升、SA指标2.3倍提升 [23] - 跨模型测试显示对CogVideoX-2B/OpenSora/VideoCrafter均有显著增强效果 [17][21][22] - 在固体力学、流体交互、光学现象等物理场景中表现优异,尤其擅长分布外场景 [18][20] 行业应用价值 - 框架可即插即用适配不同架构T2V模型,落地门槛极低 [3][18] - 突破传统数据驱动方法的泛化瓶颈,通过知识嵌入实现物理规则遵守 [7][10] - 为构建理解物理世界的T2V模型提供新路径,推动技术商业化进程 [26]
ICML 2025 | 视频生成模型无损加速两倍,秘诀竟然是「抓住attention的时空稀疏性」
机器之心· 2025-05-07 15:37
AI视频生成技术发展 - AI视频生成技术进入快速爆发阶段,扩散模型展现出接近现实的生成效果,但速度瓶颈成为大规模应用的主要障碍 [1] - 当前主流视频生成模型(如Wan 2.1、HunyuanVideo)在单张H100 GPU上生成5秒720p视频需耗时30分钟以上,其中3D Full Attention模块占推理时间的80%以上 [1][6] Sparse VideoGen解决方案 - 加州伯克利和MIT研究者提出无需重新训练模型的加速方法Sparse VideoGen,通过挖掘注意力机制的空间与时间稀疏性,将推理时间减半 [2][4] - 该方法支持Wan 2.1、HunyuanVideo、CogVideoX等开源模型,适用于T2V和I2V任务,代码已开源并被ICML 2025收录 [4][8] 扩散式视频生成的性能瓶颈 - 基于Transformer的Video Diffusion Transformers(DiTs)在建模长时空依赖方面优势显著,但3D Full Attention带来巨大计算负担 [6] - Attention计算复杂度随分辨率和帧数呈二次增长,远高于普通图像生成模型 [6] Sparse VideoGen核心技术 - 识别Attention Map中的空间稀疏性(Spatial Head)和时间稀疏性(Temporal Head),分别负责局部空间一致性和跨帧时间一致性 [9][10][11][12] - 采用动态自适应稀疏策略,通过在线稀疏模式优化方法(Online Profiling)选择最优稀疏模式,仅需0.1%的Token采样即可实现精准预测 [15][16][17] 算子层优化 - 引入硬件友好的布局转换方法,将帧为主存储改为token为主存储,优化Temporal Head的内存访问模式 [20] - 定制化优化QK-Norm和RoPE模块,QK-Norm平均加速比达7.4倍,RoPE平均加速比达14.5倍 [21] 实验成果 - Sparse VideoGen在H100上使HunyuanVideo推理时间从30分钟降至15分钟,Wan 2.1从30分钟降至20分钟,PSNR稳定在29dB以上 [23] - 该方法展示视频生成模型可通过结构理解+自适应稀疏性实现性能突破,而非单纯扩大模型规模 [24]
智谱与生数科技达成战略合作:推进国产大模型的技术创新与产业落地
IPO早知道· 2025-04-27 20:38
清华系两家明星AI公司战略合作 - 智谱与生数科技达成战略合作 基于大语言模型和多模态生成模型技术优势 在联合研发、产品联动、解决方案整合、行业协同等多方面强强联合 [2] - 合作内容包括智谱MaaS平台接入生数科技Vidu API 融合视频生成能力 服务开发者和企业客户 [2] - 双方将在政企服务、泛互联网、文化旅游、广告营销、动漫影视、广电媒体等垂直领域构建AI创新应用 推动技术规模化落地 [2] 技术优势与研发成果 - 智谱自主研发GLM大模型系列 在语言模型和多模态模型技术领先 开源视频生成模型CogVideoX在github获超1万star [2] - 生数科技专注于多模态通用大模型 提供领先的视频生成及多模态生成产品 [2][3] 行业影响 - 战略合作将提升国产大模型综合实力和领先水平 推动行业生态良性创新与繁荣发展 [3]
智谱正式启动A股IPO:B、C两端业务齐发力,今日再开源性能顶尖模型
IPO早知道· 2025-04-15 09:18
公司IPO进程 - 公司于2025年3月31日同中金公司签署辅导协议,正式启动A股IPO进程,成为"大模型创业公司"中第一家正式启动上市流程的企业 [3][5] 技术研发与产品迭代 - 公司成立于2019年,致力于打造新一代认知智能大模型,2020年底研发GLM预训练架构,2021年训练完成百亿参数模型GLM-10B并利用MoE架构训练出万亿稀疏模型 [5] - 2022年研发中英双语千亿级预训练模型GLM-130B并开源,2023年推出千亿基座对话模型ChatGLM并两次升级,开源版本ChatGLM-6B支持本地微调和部署 [5] - 2024年1月推出GLM-4,性能大幅提升,6月开源GLM-4-9B及视觉模型GLM-4V-9B,多模态能力媲美GPT-4V,7月推出视频生成模型CogVideoX,推理速度提升6倍 [5] - 2024年8月升级GLM-4-Plus,10月发布GLM-4-Voice和AutoGLM,11月推出GLM-PC探索"无人驾驶"PC技术,12月发布GLM-Zero-Preview擅长数理逻辑和深度推理 [5] - 2025年1月发布GLM-Realtime支持清唱和2分钟记忆,3月推出AI Agent「AutoGLM 沉思」 [5] 产品矩阵与开源策略 - 公司打造对标OpenAI的完整产品矩阵,包括智谱清言、CodeGeeX、CogVLM、CogView等,清言App支持多模态互动 [5] - 践行MaaS理念,通过bigmodel.cn平台提供AI开发资源和企业级解决方案 [5] - 2025年4月15日宣布开源32B/9B系列GLM模型,涵盖基座、推理、沉思模型,推理模型GLM-Z1-32B-0414性能媲美DeepSeek-R1,推理速度达200 Tokens/秒,价格仅为DeepSeek-R1的1/30 [5] - 启用新域名Z.ai整合32B基座、推理、沉思模型,作为最新模型交互体验入口 [7] 融资与战略合作 - 2025年3月连续完成三笔融资:3月3日超10亿元人民币战略融资,3月13日获珠海华发集团5亿元战略投资,3月19日获成都高新区3亿元战略投资 [7] - 联合地方政府打造首个城市级GLM大模型空间和首个省级基座大模型,智能体已接入北京101等十余所学校 [7] - 投资方包括中科创星、达晨财智、君联资本等知名VC,美团、蚂蚁、腾讯等战略投资方,以及北京、杭州、珠海、成都等地国资 [7]
独家|清华大牛,刚刚融资30亿
投资界· 2024-12-17 08:39
国产AI融资动态 - 智谱AI完成新一轮30亿元人民币融资 新进投资方包括多家战投及国资机构 君联资本等老股东继续跟投 [3] - 2023年智谱AI累计获得超25亿人民币融资 投资方包括社保基金中关村自主创新基金 美团 蚂蚁 阿里 腾讯等多家机构 [9] - 中关村科学城公司以投前200亿估值领投智谱AI 用于支持国产基座大模型的技术创新和生态发展 [9] 智谱AI发展历程 - 公司成立于2019年 由清华校友张鹏 刘德兵 王绍兰联合创立 核心团队来自清华计算机系知识工程实验室 [5][7] - 2020年OpenAI发布GPT-3后 公司决定全力投入大模型开发 2022年8月推出GLM-130B大模型 [7] - 2024年推出新一代基座大模型GLM-4和GLM-4-Plus 并发布视频生成模型CogVideoX和语音模型GLM-4-VoiceCall [7] 智谱AI商业化进展 - 2024年商业化收入相比2023年增长100%以上 [7] - MaaS平台已吸引70万企业和开发者用户 开放平台API年收入同比增长超过30倍 日均Tokens消耗量增长150倍 [7] - C端产品智谱清言拥有超过2500万用户 年化收入(ARR)超千万级 [7] 国产AI行业现状 - 国内AI融资持续火热 月之暗面 百川智能 Minimax 零一万物等企业密集融资 跻身独角兽行列 [3][12] - OpenAI最新一轮融资66亿美元 投后估值达到1570亿美元(超11000亿元人民币) [11] - 北京计划到2025年底形成3-5个基础大模型产品 100个行业大模型产品和1000个行业成功案例 [12] AI创业者背景 - 清华系创业者占据主导地位 智谱AI 潞晨科技 无问芯穹等企业核心团队均来自清华大学 [5][11][12] - 上海交大系和中国科学技术大学系创业者也在AI领域崭露头角 [12]