AI多模态生成 - 财报，业绩电话会，研报，新闻

AI多模态生成

搜索文档

Z Event｜00后创业者、大厂同学下班一起聊AI？北京、杭州线下Gen Z创翻AI行业报名中

Z Potentials· 2025-07-23 10:48

活动招募 - 公司正在北京和杭州两地举办生成式AI应用与硬件创业主题的线下饭局活动时间分别为2025年7月25日周五晚7点和2025年7月26日周六晚7点 [3] - 活动面向00后大厂员工 AI创业者及潜在创业者每场活动限6-8人参与 [3] - 报名采用三角匹配机制需提交过往背景潜在创业方向和个人风格信息确保讨论话题精准匹配 [3] - 活动重点覆盖AI多模态生成 Agent技术 AI社交娱乐和AI效率工具等前沿领域 [3] 目标人群 - 公司主要招募00后具有创造力的创业者特别关注AI领域的创新人才 [5] 活动特色 - 活动采用饭局形式营造轻松交流氛围旨在促进深度行业交流 [1] - 讨论内容涵盖AIGC落地方案和机器人迭代等硬核技术话题 [1]

Z Event｜00后创业者、大厂同学下班一起聊AI？北京线下Gen Z创翻AI行业报名中

Z Potentials· 2025-07-21 11:55

生成式AI应用与硬件创业活动 - 活动时间为2025年07月25日周五晚7点地点为北京具体地点报名后通知 [1] - 活动面向00后大厂员工 AI创业者及潜在创业者人数限制为6-8人 [1] - 主题聚焦生成式AI应用与硬件创业涵盖AIGC落地方案机器人迭代等硬核话题 [1] - 讨论重点包括AI多模态生成 Agent技术 AI社交娱乐及AI效率工具四大领域 [1] - 报名采用三角匹配机制需提交过往背景潜在创业方向及个人风格确保话题精准度 [1] 实习生招募 - 公司正在开展新一期实习生招聘计划 [3] 公司品牌 - 活动主办方为Z Potentials品牌 [6]

Z Event｜00 后创业者、大厂同学下班一起聊 AI ？北京线下 Gen Z 创翻 AI 行业报名中

Z Potentials· 2025-07-20 10:48

生成式AI应用与硬件创业活动 - 活动时间定于2025年7月25日周五晚7点在北京举行具体地点报名后通知 [1] - 活动面向00后大厂员工 AI创业者及潜在创业者人数限制6-8人 [1] - 主题聚焦生成式AI在应用与硬件领域的创业机会涵盖AIGC落地方案和机器人迭代等硬核话题 [1] - 讨论重点包括AI多模态生成 Agent技术 AI社交娱乐和AI效率工具四大方向 [1] - 报名采用"过往背景+潜在创业方向+个人风格"三维匹配机制确保话题针对性 [1] 公司动态 - 正在开展新一期实习生招募工作 [3]

原来Veo 3早有苗头！人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架

机器之心· 2025-05-29 11:04

核心观点 - 中国人民大学高瓴人工智能学院与值得买科技 AI 团队提出了一种名为 JointDiT 的生成框架，首次实现从静态图像直接生成同步音视频内容的技术突破 [1][6][11] - 该技术解决了传统多模态生成中音视频语义错位与节奏失调的问题，通过联合注意力机制和联合引导机制实现高质量同步生成 [8][15][17] - 在 CVPR 2025 会议上发表的实验数据显示，JointDiT 在视频质量（FVD 326）、音频质量（FAD 23.9）和音视频一致性（AV-Align 1.296）等核心指标上全面领先现有方法 [19][20] 技术背景 - 人类感知本质上是多模态的，但现有 AI 生成技术长期将视觉与听觉拆分为独立研究路径 [6] - 谷歌 Veo 3 模型已开始探索视频与音频同步生成，而 JointDiT 首次系统定义了图像到有声视频（I2SV）这一新任务 [6][11] - 传统拼接方法（如 SVD+Im2Wav）存在语义错位问题，例如视频中小狗未张嘴却配汪汪叫声 [8][10] 技术方案 - **架构设计**：通过解构预训练的音视频扩散模型，在专家层引入 Joint Block 实现跨模态交互，保留独立输入输出层处理模态差异 [13] - **感知式联合注意力**：采用模态特定的 Query-Key-Value 映射，解决音视频在时间/空间/频率维度的异构差异 [15] - **联合引导机制**：提出 JointCFG* 技术，在强化图像条件引导的同时增强跨模态交互，提升语义一致性与时间同步性 [17] 实验结果 - **定量数据**：在 GreatestHits 数据集上，JointDiT 的 FVD（173）和 FAD（1.08）显著优于 SVD+AudioLDM（FVD 441，FAD 26.65）等对比方法 [20] - **用户评价**：在视频质量、音频质量、语义一致性等五项主观评分中均排名第一，领先第二名近 20% [21] - **案例表现**：保龄球击瓶案例中，生成视频精确模拟撞击声与瓶子倾倒的连锁声响，视听延迟符合物理规律 [25][26] 应用前景 - 可应用于娱乐内容创作、影视制作等领域，例如将静态剧照自动转化为带环境音效的动态预告片 [28] - 为构建多模态通用模型（图像/文本/音频/视频四模态联合）提供技术基础，未来或实现"一张照片讲述完整故事" [28][29] - 项目代码与模型将近期公开，官方 Demo 页已展示技术细节与案例 [30]