视频生成
搜索文档
自驾世界模型剩下的论文窗口期没多久了......
自动驾驶之心· 2025-12-11 08:05
行业趋势与研究方向 - 近期自动驾驶世界模型相关论文爆发式增长,涌现出MindDrive、Think Before You Drive、U4D、SparseWorld-TC、AD-R1、Percept-WAM等多项工作 [1] - 根据顶会接收规律,选题多为局部突破与可验证改进,并紧贴当年主旋律,例如2024年为多模态,2025年为视频生成 [1] - 参照2026年各大顶会中稿论文,预测今年年底至明年上半年的主旋律极有可能是世界模型,当前布局该方向具有前瞻性优势 [1] 公司业务与服务定位 - 公司提供自动驾驶、具身智能、机器人等方向的论文辅导服务,旨在帮助学生冲击高区或顶会论文发表 [2] - 服务内容包括掌握技术脉络、复现模型、产出1篇论文初稿及投稿指导 [2] - 公司旗下拥有自动驾驶之心、具身智能之心、3D视觉之心等多个技术自媒体平台,是国内最大的AI类技术自媒体平台之一 [3] - 公司深耕自动驾驶、具身智能、机器人等交叉学科领域多年,拥有国内顶尖的学术资源 [3] 服务团队与过往业绩 - 公司拥有超过300名专职于自动驾驶/具身智能方向的导师,导师来自全球QS排名前100的院校,并发表过多篇顶会、子刊及A/B会论文 [5] - 近3年累计辅导学员超过400名,中稿率高达96% [5] - 过往成功案例显示,学员覆盖博一至在职等不同阶段,辅导周期在2至4个月,成果发表于NEUROCOMPUTING(2区)、CVPR(顶会)、emnlp(顶会)等多种期刊与会议 [6] 服务内容与价值主张 - 服务旨在解决学生科研中的常见痛点,如导师指导不足、知识体系零散、对投稿流程不熟悉等 [4][7] - 具体帮助包括建立科研思维、系统掌握经典与前沿算法、结合模型理论与代码实践、将baseline深化拓展形成个人论文 [7] - 提供个性化论文指导、导师实时互动、录播无限回看、免费课后答疑及24小时无时差上课等服务 [13] - 提供从选题、调研、idea验证、代码、实验、润色、投稿到中稿的一站式科研服务,目标覆盖CCF-A/B/C、SCI1-4区及EI会议 [13] 目标客户与附加价值 - 主要服务方向包括三维重建、relighting、NVS、SLAM、点云处理、VLA、机器人导航、计算机视觉等 [10] - 目标学员需自带简历并具备一定的PyTorch基础 [10] - 服务满足多种需求,包括积累科研经验、提升职称、提高学术成就;提升人工智能领域从业者竞争力以助升职加薪;以及为考研、申博、留学提升简历含金量 [14] - 优秀学员有机会获得清北、MIT等名校推荐信,或被推荐至相关实验室实习;表现突出者可获内推至阿里达摩院、华为诺亚方舟等企业研发岗位 [19] 服务模式与保障 - 服务采用班主任全程督学模式,跟进学习进度 [17] - 提供精准导师匹配系统,根据学员研究方向、目标期刊和基础水平,从300多名导师中筛选3至5位最契合人选供学员选择 [18] - 为零基础学员提供基础课程,通过系统学习,据称6个月可完成一篇小论文 [17] - 提供预收定金后与名师meeting的机会,并承诺若不满意可免费更换老师或退款 [19]
AI问答,直接「拍」给你看!来自快手可灵&香港城市大学
量子位· 2025-11-22 11:07
技术突破 - 提出“视频作为答案”新范式,将AI回答从文字描述升级为动态视频生成[3][8] - 模型能够理解输入视频和问题,推理出符合逻辑的下一事件,并生成视觉连贯的视频[11][12][13] - 核心创新在于Joint-GRPO强化学习算法,协同优化视觉语言模型和视频扩散模型,解决语义与视觉错配问题[19][21][24] 模型架构 - 采用两阶段工作流程:感知与推理阶段生成描述下一事件的文本标题,条件化生成阶段结合文本和视觉特征生成答案视频[20] - 通过专业化分工与协同优化,实现理解与生成能力的同步提升,相比统一模型在关键指标上取得显著进步[47][48] 性能表现 - 在事件预测准确性指标ROUGE-L上,VANS相比最强统一模型取得近三倍性能提升[46] - 生成视频语义忠实度指标CLIP-T大幅领先,视频质量指标FVD达到最低分数78.32,显示更高视觉逼真度[47][48] - 定性分析显示模型在细粒度语义理解与可视化上具有优势,能精准呈现如“撒碎芝士”等具体动作[51][53] 应用场景 - 程序性教学领域可实现定制化教学视频,根据用户当前进度生成无缝衔接的指导内容[37][39][40] - 多未来预测功能支持基于不同假设生成多种合理未来视频,为创意写作和互动娱乐开辟可能性[41][43]
腾讯元宝上线视频生成能力
观察者网· 2025-11-21 16:58
产品发布与核心能力 - 公司于11月21日正式发布并开源HunyuanVideo 1.5模型,该模型基于Diffusion Transformer架构,参数量为8.3B,是一款轻量级视频生成模型 [1] - 模型支持生成5-10秒的高清视频,用户可通过输入文字描述实现文生视频,或上传图片配合文字描述将静态图片转化为动态视频 [1] - 模型具备全面核心能力,支持中英文输入的文生视频与图生视频,图生视频能力展现出图像与视频的高度一致性 [4] - 模型具备强指令理解与遵循能力,能精准实现多样化场景,包括运镜、流畅运动、写实人物和人物情绪表情等多种指令,并支持写实、动画、积木等多种风格 [4] 技术规格与画质 - 模型可原生生成5–10秒时长的480p和720p高清视频,并可通过超分模型提升至1080p电影级画质 [4] - 模型还支持在生成的视频中嵌入中英文文字 [4] 性能基准对比 - 在文生视频任务GSB评测中,相较于Seedance pro模型,HunyuanVideo胜率为+11.02% [6] - 在文生视频任务GSB评测中,相较于Kling2.1模型,HunyuanVideo胜率为+12.6% [6] - 在文生视频任务GSB评测中,相较于Wan2.2模型,HunyuanVideo胜率为+17.12% [6] - 在图生视频任务GSB评测中,相较于Kling2.1模型,HunyuanVideo胜率为+9.72% [6] - 在图生视频任务GSB评测中,相较于Wan2.2模型,HunyuanVideo胜率为+12.65% [6]
快手:三季度经营利润同比增长69.9% 可灵AI收入超3亿元
中证网· 2025-11-20 14:03
财务业绩 - 第三季度总营收同比增长14.2%至355.54亿元,经营利润同比增长69.9%至52.99亿元,经调整净利润同比增长26.3%至49.86亿元 [1] - 其他服务收入(包含电商、可灵AI)同比增长41.3%至59亿元,线上营销服务收入同比增长14%至201亿元,直播业务收入同比增长2.5%至96亿元 [1] - 可灵AI收入超过3亿元,电商GMV同比增长15.2%至3850亿元 [1] - 快手应用平均日活跃用户达4.16亿,平均月活跃用户达7.31亿 [1] AI业务与战略 - 公司将财务表现归因于AI能力在业务场景中的深度融合 [2] - 可灵AI推出2.5 Turbo模型,在文本响应、动态效果、风格保持、美学质量等多个维度实现提升 [2] - 公司聚焦于AI影视创作核心目标,围绕技术领先性与产品想象力双线推进,并围绕多模态交互理念持续升级 [2] 行业竞争与展望 - 视频生成赛道涌现众多参与者,行业处于快速技术迭代和产品形态探索的早期阶段,竞争推动技术进步和场景渗透 [2] - 可灵AI依靠持续创新,处于全球视频生成赛道第一梯队 [2] - Sora 2等产品加速视频生成与社交互动融合,C端消费级应用落地进程加快 [3] - 公司当前主要精力面向专业创作者提升体验和付费意愿,同时保持对C端应用场景的探索,未来计划将技术能力与社交结合以加速商业化 [3]
快手业绩会:加大AI投入 预计今年可灵收入约1.4亿美元
21世纪经济报道· 2025-11-19 22:37
公司财务业绩 - 第三季度总营收同比增长14.2%至356亿元人民币 [1] - 核心商业收入同比增长19.2% [1] - 经营利润同比增长69.9%至53亿元人民币 [1] - 经调整利润净额同比增长26.3%至50亿元人民币 [1] - 可灵AI在三季度营业收入超过3亿元人民币 [1] 可灵AI业务表现与展望 - 可灵AI预计2025年全年收入约1.4亿美元,远超年初制定的6000万美元目标 [3] - 公司产品定位聚焦于AI影视创作核心目标 [2] - 当前主要精力面向专业创作者,提升使用体验和付费意愿,同时探索C端应用场景 [3] - 9月底推出2.5 Turbo模型,在文本响应、动态效果等多个维度实现大幅提升 [2] 行业竞争与战略 - 视频生成赛道竞争激烈,行业处于快速技术迭代和产品形态探索的早期阶段 [2] - 公司认为可灵AI依靠技术与产品创新,处于全球视频生成赛道第一梯队 [2] - 公司将围绕技术领先性与产品想象力双线推进迭代,结合多模态交互理念持续升级 [2] - Sora 2等产品加速了视频生成与社交互动融合,C端消费级应用落地进程加快 [3] 公司资本支出计划 - 受可灵AI等业务超预期发展带动,公司将继续加大算力等AI相关投入 [3] - 预计2025年集团整体Capex支出将较去年实现中高双位数的同比增长 [3] - 尽管AI相关投入增加,公司仍有充分信心实现全年经调整经营利润率的同比提升 [3]
可灵AI全年收入约1.4亿美元,快手继续加大算力投入
第一财经· 2025-11-19 22:24
财务业绩 - 2025年第三季度总营收同比增长14.2%至356亿元人民币 [1] - 经调整净利润同比增长26.3%至50亿元人民币 [1] - 线上营销服务收入同比增长14%至201亿元,占总营收56.4% [1] - 直播业务收入同比增加2.5%至96亿元,占总营收26.9% [1] - 其他服务收入同比大幅增长41.3%至59亿元,占总营收16.5%,主要由电商和可灵AI业务驱动 [1] - 三季度电商业务GMV同比增长15.2%至3850亿元 [1] - 可灵AI营业收入超过3亿元人民币 [1] 可灵AI业务发展 - 可灵AI是财报电话会的沟通重点,公司聚焦于AI影视创作这一核心目标 [2] - 行业处于快速技术迭代和产品形态探索的早期阶段,竞争加速行业进步 [2] - 公司围绕多模态交互理念持续升级基础模型与产品能力 [2] - Sora2等竞品将视频生成与社交互动结合,加快了C端消费级应用的落地进程 [2] - 公司计划在合适时点将可灵技术能力产品化,与社交互动结合以加速C端商业化 [2] - 可灵AI预计2025年全年收入约1.4亿美元,显著高于年初制定的6000万美元目标 [3] AI技术内部应用与投入 - 受可灵AI等业务超预期发展带动,公司将继续加大算力等AI相关投入 [3] - 预计2025年集团整体资本性支出将较去年实现中高双位数的同比增长 [3] - 自研AI编程工具CodeFlicker已成为工程师日常高频使用工具,新增代码中由其生成的比例接近30% [3] - AI大模型应用于用户画像、内容识别、评论识别等多个内容审核场景 [3] - 超过70%的用户咨询量由AI智能客服直接响应并解决 [3] 行业趋势与竞争格局 - 视频生成赛道涌现出来自互联网大厂与创业公司等众多参与者,显示其巨大潜力 [2] - Sora2的社交互动功能包括“客串”、“二创”和类TikTok的社交信息流三大支柱 [3] - 竞品设计形成了“观看-受启发-创作-分享-获得反馈”的闭环生态,有望重塑短视频生态 [3]
快手程一笑:可灵AI将重点聚焦AI影视制作场景 视频生成赛道仍在早期
证券时报网· 2025-11-19 20:57
可灵AI业务表现 - 2025年第三季度可灵AI营业收入超过3亿元 [1] - 可灵AI全球用户规模突破4500万,累计生成超2亿个视频和4亿张图片 [1] - 2025年9月底推出2.5 Turbo模型,在文本响应、动态效果、风格保持、美学质量等多个维度实现大幅提升 [1] 视频生成赛道竞争格局 - 视频生成赛道涌现出来自互联网大厂与创业公司等众多参与者,行业仍处在快速技术迭代和产品形态探索的早期阶段 [1] - 行业竞争加速技术进步,推动视频生成技术更好地满足用户需求,渗透更多应用场景 [1] - Sora 2等产品将视频生成与社交互动深度融合,C端消费级应用的落地进程明显加快 [2] 可灵AI未来战略方向 - 公司愿景是"让每个人都能用AI讲出好故事",聚焦于AI影视创作这一核心目标 [2] - 迭代方向围绕技术领先性与产品想象力双线推进,结合多模态交互理念持续升级基础模型与产品能力 [2] - 当前主要精力面向专业创作者以提升使用体验和付费意愿,同时保持在C端应用场景的探索,未来将技术与社交互动结合以加速商业化 [2] AI在快手的整体应用 - AI大模型在快手内部深度赋能内容与商业生态,并显著提升内部组织与研发效率 [2] - 公司正构建以用户需求为核心、立足现有业务场景的AI技术与应用体系,赋能内容生态、商业生态和组织基建 [3] - 从AI技术创新到应用落地,再到营收增长的良性循环正在公司内部形成,全方位的AI应用生态使公司具备更强的市场适应性和增长潜力 [3]
快手程一笑:视频生成是一个极具潜力的优质赛道
证券时报网· 2025-11-19 20:00
公司观点 - 快手创始人兼首席执行官程一笑表示视频生成是一个极具潜力的优质赛道 [1] - 行业正通过竞争加速进步,推动技术更好满足用户需求并渗透更多应用场景 [1] 行业现状 - 视频生成赛道涌现出来自互联网大厂与创业公司等不同类型的众多参与者 [1] - 行业仍处在快速技术迭代和产品形态探索的早期阶段 [1]
快手(01024)程一笑:可灵AI将重点聚焦AI影视制作场景 视频生成赛道仍在早期
智通财经· 2025-11-19 19:52
行业竞争格局与阶段 - 当前视频生成赛道涌现众多来自互联网大厂与创业公司等不同类型的参与者,体现出该赛道极具潜力 [1] - 行业仍处在快速技术迭代和产品形态探索的早期阶段 [1] - 整个行业正通过竞争加速进步,推动视频生成技术更好满足用户需求并渗透更多应用场景 [1] 公司技术实力与市场地位 - 可灵AI依靠持续的技术与产品创新,始终处于全球视频生成赛道的第一梯队 [1] - 9月底推出的可灵2.5 Turbo模型在文本响应、动态效果、风格保持、美学质量等多个维度实现大幅提升 [1] - 模型发布十天后,同时登上知名AI测评机构Artificial Analysis的全球文生视频和图生视频榜单第一名 [1] 产品定位与迭代策略 - 可灵的愿景是“让每个人都能用AI讲出好故事”,公司聚焦于AI影视创作这一核心目标 [2] - 迭代方向围绕技术领先性与产品想象力双线推进,结合多模态交互理念(如MVL)持续升级基础模型与产品能力 [2] 创作者生态与品牌合作 - 通过“未来合伙人计划”整合快手与可灵AI核心资源,为创作者精准匹配多场景高价值商单,目前已合作包括NBA和蜜雪冰城等知名品牌 [2] - 通过“NEXTGEN全球新影像创作大赛”帮助多位可灵AI创作者在戛纳电视节、釜山国际电影节、东京国际电影节等行业头部影视展会展映作品 [2] 商业化路径与未来展望 - 随着Sora 2等产品将视频生成与社交互动深度融合,C端消费级应用的落地进程明显加快 [3] - 当前主要精力面向专业创作者,提升其使用体验和付费意愿 [3] - 公司保持在C端应用场景的探索,计划在未来合适时点将可灵的技术能力进一步产品化,与社交互动结合以加速C端商业化 [3]
何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS'25 Oral
量子位· 2025-11-14 13:38
技术突破与核心优势 - 提出InfinityStar方法,通过时空金字塔建模统一处理图像和视频生成任务,核心是将视频分解为首帧(外观信息)和后续片段(动态信息)进行解耦建模[13][14][15][16] - 采用纯自回归生成方式,相比DiT(Diffusion Transformer)所需的20-100步去噪迭代,实现"一条过"生成,计算效率提升一个数量级[4][25][31] - 在单张GPU上生成5秒720p视频仅需不到1分钟,比同尺寸DiT方法(如HunyuanVideo、Wan-Video)快一个数量级[31] 模型架构创新 - 引入时空金字塔建模架构,将图像金字塔的下一尺度预测思想扩展到时空维度,使用单一Transformer统一建模所有尺度间和片段间依赖关系[13][16] - 采用基于多尺度残差量化的视觉分词器,并应用知识继承技术加速训练,通过继承预训练连续分词器权重使离散分词器更快收敛[18][19] - 提出随机量化器深度正则化技术,随机丢弃精细尺度Token,迫使模型在粗糙尺度下也能重建有效信息,改善信息分布均衡性[21] 性能优化技术 - 设计语义尺度重复技术,在预测时对控制全局信息的语义尺度重复预测N次,增强视频结构一致性和运动流畅性[24] - 应用时空稀疏注意力机制,只关注必要上下文信息(如前一片段最后一个尺度),大幅降低长序列注意力计算复杂度[24] - 引入时空RoPE位置编码,同时编码尺度、时间、高度和宽度信息,为Transformer提供精确时空坐标感知[24] 多任务能力 - 支持文生图、文生视频、图生视频、交互式长视频生成等多种任务,所有任务均统一为"预测下一个尺度/片段"的自回归问题[9][12][16] - 具备交互式长视频生成能力,可根据5秒参考视频和新提示词持续生成后续内容[12] 性能表现 - 在VBench基准测试中,InfinityStar-8B在文生视频任务上取得83.74综合得分,超越CogVideoX-5B(81.61)和HunyuanVideo-13B(83.24)等扩散模型[27][28] - 人类偏好评估显示InfinityStar-8B在指令遵循方面优于HunyuanVideo-13B[29] - 文生图任务在GenEval和DPG基准上表现优异,在位置和物体关系方面具有明显优势[25]