Workflow
文生视频
icon
搜索文档
让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片
量子位· 2025-08-23 13:06
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI AI作画、生视频,可以「自己救自己」了?! 当大家还在为CFG(无分类器引导)的参数搞到头秃,却依然得到一堆"塑料感"废片而发愁时,来自清华大学、阿里巴巴AMAP(高德地 图)、中国科学院自动化研究所的研究团队,推出全新方法 S²-Guidance (Stochastic Self-Guidance)。 核心亮点在于通过 随机丢弃网络模块(Stochastic Block-Dropping)来动态构建"弱"的子网络,从而实现对生成过程的自我修正。这不仅 让AI学会了"主动避坑",更重要的是,它避免了其他类似方法中繁琐、针对特定模型的参数调整过程 ,真正做到了即插即用、效果显著。 S²-Guidance方法在文生图和文生视频任务中,显著提升了生成结果的质量与连贯性。 具体表现在: 一、CFG的瓶颈:效果失真 + 缺乏通用性 在扩散模型的世界里,CFG (Classifier-Free Guidance)是提升生成质量和文本对齐度的标准操作。但它的"线性外推"本质,导致高引导强度 下容易产生过饱和、失真等问题。 为了解决这个问题,学术界此前的思路是引入一个"监 ...
“文生视频”爆火 商业前景几何
中国青年报· 2025-07-30 07:02
AI视频生成技术发展 - 可灵AI是快手推出的新一代AI创意生产力平台 基于自研大模型提供高质量视频及图像生成和编辑能力 满足创作者对创意素材生产与管理的需求 [1] - 过去6个月 视频生成大模型已在全球生成超过3亿个视频 通过AI模型让每个人的创意得以充分发挥 [1] - 华策影视自2023年起启动AI垂类模型研发 推出"有风"(文生文)与"国色"(文生视频)等自研模型 [2] 行业应用与商业化进展 - 可灵AI商业化变现加速 2024年4月和5月月度付费金额均超1亿元 营收增速和水平居全球视频生成大模型产品和独立AI产品前列 [3] - 可灵AI自2024年6月6日发布以来累计完成超30次迭代 全球用户规模突破4500万 累计生成超两亿个视频及4亿张图片 [3] - 可灵AI为两万多家企业客户提供API服务 涵盖专业创作平台 广告营销 影视动画 游戏制作和智能终端等领域 [3] 企业战略与市场表现 - 华策影视2024年尝试用AI生成场景辅助短剧制作 2025年下半年重点短剧项目将由AI视频生成技术全流程辅助创作 [2] - 短剧赛道显现AI驱动的"从点到链到面"全产业渗透趋势 [2] - 可灵AI的P端付费订阅会员贡献近70%营业收入 主要来自自媒体视频创作者和广告营销从业者等专业用户 [3] - 快手P端付费订阅会员数量和年化收入运行率均呈现较高增速 双轮驱动可灵P端付费订阅收入增长 [3]
2025年中国多模态大模型行业模型现状 图像、视频、音频、3D模型等终将打通和融合【组图】
前瞻网· 2025-06-01 13:09
多模态大模型技术发展 - 行业聚焦视觉等重点模态领域突破,探索"Any-to-Any"大模型技术路径,如Google Gemini和Codi-2处于早期阶段,需实现跨模态知识学习与信息对齐 [1] - 当前主要工作集中在Transformer架构向图像、视频、3D等模态扩展,完善单模态感知/生成模型后再推进跨模态融合 [1] 图像模型进展 - 2023年前已建立CLIP、Stable Diffusion、GAN等基础模型,衍生Midjourney、DALL·E等成熟文生图应用 [2] - 近年重点探索ViT、DiT等视觉Transformer架构,推动GLIP、SAM、GPT-V等LLM与视觉模型融合成果 [2] 视频模型技术 - 基于图像生成模型(如扩散模型)叠加时间维度对齐,形成VideoLDM、W.A.L.T.等文生视频方案 [5] - Sora采用Diffusion Transformer架构实现突破性视频生成,首次展现"智能涌现"特征 [5] - 主流技术路径为文生图模型+时序对齐,辅以插帧超分、噪声对齐、LLM增强描述等方法提升质量 [5] 3D模型开发现状 - 技术路线延伸自2D图像生成(GAN/Diffusion/VAE等),产生3D GAN、MeshDiffusion、Instant3D等早期成果 [8][9] - 数据表征以NeRF(神经辐射场)为核心技术,支持网格、点云、体素等多种形式 [9] - 数据集稀缺,ShapeNet含5.1万3D CAD模型,Objaverse-xl达1000万对象规模 [9] 音频模型创新 - Transformer架构推动Whisper large-v3、VALL-E等项目突破,增强多语种/自然声/零样本学习能力 [11] - Omni模型通过neural audio codec编码,结合扩散模型实现音频合成技术迭代 [11]
钛媒体科股早知道:人形机器人+低空经济持续火热,该类产品市场需求水涨船高
钛媒体APP· 2025-03-27 08:16
全球首款可穿戴脑机接口设备 - 中国科学院自动化研究所成功研发全球首款电池供电的可穿戴阈上重复经颅磁刺激设备(rTMS)[3] - 2023年全球脑机接口市场规模达19.8亿美元 预计2028年突破60亿美元 五年复合年增长率25.22%[3] - 脑机接口技术在运动恢复 语言沟通 听力重建等医疗领域的研究不断取得里程碑式成果[3] 快手可灵AI商业化进展 - 快手2024年全年总营收同比增长11.8%至1269亿元 全年经调整净利润同比增长72.5%达177亿元[4] - 可灵AI自商业化以来累计营业收入超1亿元 服务用户超500万 商业化单月流水超千万[4] - 国内AI视频模型应用网页版访问量增长较快 赋能广告营销 影视 游戏等传媒板块[4] 人形机器人及低空经济带动稀土磁材需求 - 高性能钕铁硼永磁材料是机器人伺服电机的核心材料 市场需求随人形机器人 低空经济发展而增长[6] - 一台人形机器人钕铁硼用量2-4kg 远期1亿台规模对应20-40万吨需求 相当于再造一个稀土永磁市场[6] - Tesla计划2025年量产数千台人形机器人 2026年产量提高至5-10万台[6] 溴素价格大幅上涨 - 2025年3月25日溴素市场均价28000元/吨 单日涨幅12.0% 较2024年同期上涨9000元/吨[7] - 溴素在阻燃剂 制冷剂 医药等领域应用广泛 溴系阻燃剂占国内溴素总用量六成以上[7] - 我国溴素资源短缺 主要分布在山东莱州湾 近期海运运价调整或进一步增加供应链成本[7]
活动报名:我们凑齐了 LCM、InstantID 和 AnimateDiff 的作者分享啦
42章经· 2024-05-26 22:35
活动概述 - 活动主题聚焦文生图与文生视频领域的研究与应用落地 [2] - 三位核心嘉宾的研究方向覆盖多模态生成、扩散模型、一致性模型及视频生成技术 [3] - 活动形式为线上会议 时间为北京时间6月1日13:00-14:00 美西时间5月31日22:00-23:00 [3] 研究影响力 - LCM、InstantID和AnimateDiff三项研究在文生图与文生视频领域实现重大突破 具有全球影响力 [4] - 相关技术已被大量创业者应用于实际产品开发 推动行业落地进程 [4] 嘉宾阵容 - 骆思勉(清华交叉信息研究院)研究方向包括多模态生成与扩散模型 代表工作LCM/LCM-LoRA/Diff-Foley [3] - 王浩帆(CMU硕士)专注一致性生成 开发InstantStyle/InstantID/Score-CAM等工具 [3] - 杨策元(香港中文大学博士)主攻视频生成技术 [3] - 特邀AI产品经理Hidecloud担任Panel主持 增强产学研对话 [4] 活动亮点 - 首次集结三项突破性研究的原创作者同台交流 [4] - 定向邀请数十位AI创业者参与 聚焦技术商业化实践 [4]