多模态生成

搜索文档
刚刚,好莱坞特效师展示AI生成的中文科幻大片,成本只有330元
机器之心· 2025-08-21 21:08
多模态AI视频生成技术进展 - 多模态生成是AI未来发展方向,视频生成技术实现全链路覆盖:文字/语音→图像→视频,支持图片上传生成带音效视频并一键分享[1][2] - 百度蒸汽机2.0实现人物口型、表情、动作毫秒级同步,国产AI视频进入"有声有色"新阶段,运镜达到专业导演水准[4][5][6] - 技术突破包括时序对齐(口型与语音毫秒级同步)、多模态特征融合(语调对应微表情)、长时序连贯性、环境音效匹配及多角色交互精准定位[31] 百度蒸汽机2.0产品矩阵与商业化 - 推出Turbo版(720p/5s)、Lite版(轻量高效)、Pro版(1080p/电影级)、有声版(720p/5-10s音画一体)四大版本,全系价格仅为竞品70%,Turbo版5秒视频限价1.4元[8][10] - 通过百度搜索、APP及"绘想"平台开放体验,支持JPEG/PNG/WEBP格式输入,可添加背景音,实测显示单人吃播/多人对话/侧脸场景均表现自然[12][15][16][24] - 在VBench I2V评测中1.0版以89.38%总分全球第一,2.0版在指令遵循、运镜能力、叙事流畅度显著提升[32][33] 核心技术架构创新 - 首创LMMP(Latent Multi-Modal Planner)模型,通过扩散架构实现角色身份/台词/情感/互动的自动规划,保证多角色交互自然度与一致性[39] - 采用海量中文多模态数据训练,完成内容/人声/台词/环境音的信号抽取与对齐,构建专业镜头语言数据集[36][37] - 端到端训练音视频一体化系统,规划层与生成层相互校正,提升语义逻辑准确性,未来将拓展长视频生成技术[39][40] 行业应用与生态协同 - 模型深度融入百度搜索/内容/商业生态,降低创作门槛使普通用户可生成专业级视频,企业可低成本快速产出营销素材[42] - 好莱坞视效团队运用该技术,将2分钟科幻短片制作成本从传统上百万元降至330元,效率提升显著[44] - 开创应用驱动研发范式,形成"场景催生模型-模型反哺业务"闭环,强化搜索表现力与商业想象力[42]
腾讯混元亮相WAIC 2025,发布3D世界模型及系列开源模型
观察者网· 2025-07-27 13:22
腾讯混元3D世界模型1.0发布 - 公司正式发布并开源混元3D世界模型1.0,这是业界首个开源可沉浸漫游、可交互、可仿真的世界生成模型 [1] - 该模型融合全景图像合成与分层3D重建技术,支持文字和图片输入,几分钟内即可生成高质量、风格多样的可漫游3D场景 [1] - 过去需要专业建模团队数周才能完成的3D虚拟世界构建,现在大幅简化 [1] 技术特点与创新 - 采用"语意层次化3D场景表征及生成算法",将复杂3D世界解构为不同语意层级,实现前景与背景、地面与天空的智能分离 [9] - 输出标准化的3D Mesh资产,兼容Unity、Unreal Engine、Blender等主流工具 [9] - 在文生世界、图生世界的美学质量和指令遵循能力等关键维度全面超越当前SOTA开源模型 [13] 应用场景 - 游戏开发:极大简化3D场景构建流程,输入简单指令即可快速生成包含建筑、地形、植被的完整3D场景 [3] - VR应用:生成的场景可无缝导入Vision Pro等虚拟头显,带来沉浸式体验 [7] - 数字内容创作:普通用户无需建模经验,通过一句话或一张图即可快速生成360°沉浸式视觉空间 [7] 模型生态与开源计划 - 除3D模型外,公司还披露了包括端侧混合推理语言模型、多模态理解模型、游戏视觉模型等在内的一系列开源计划 [1] - 将在月底开源0.5B、1.8B、4B、7B混合推理模型,以及多模态理解模型混元-large-vision和游戏视频生成框架混元GameCraft [16] - 混元3D系列模型社区下载量超过230万,已成为全球最受欢迎的3D开源模型 [18] 模型性能与行业地位 - 混元3D 2.5模型质感大幅提升,在上海人工智能实验室6月评测中排名全球第一 [16] - 全球首个AI设计智能体Lovart已首选调用混元3D模型的API接口 [16] - 知名3D打印公司拓竹科技旗下的模型平台MakerWorld也已接入混元3D模型 [16] 基座模型进展 - 混元旗舰模型TurboS保持每月一个版本的快速迭代,在全球大模型权威排行榜上稳居前列 [13] - 混元T1综合能力国内领先,在项目级代码生成、高难度数学推理、文本写作等方面表现突出 [14] - 多模态理解模型混元Vision在LMArena Vision全球榜单中获得国内榜首,中文能力稳居全球第一梯队 [14]
纳米AI一句话成片功能实测:从文字到视频只需等待
歸藏的AI工具箱· 2025-07-07 21:04
纳米AI视频生成功能 - 公司推出"一句话成片"功能,可直接通过文字提示生成完整视频,支持新闻介绍、科普视频、小说情节等场景,成功率极高[3] - 功能可自动生成详细分镜提示词,包括特效描述(如"手表在虚空中特效")和剧情钩子(如"诱导观看下一部分")[3] - 支持多模态工作流:先由Gemini分析爆款视频创意,再生成符合情景的新视频[4][5][6] 视频生成技术细节 - 生成流程分五步:图片提示词生成→口播音频合成→视频片段生成→字幕音乐添加→最终合成[11] - 关键技术突破包括输出结果自检修复机制、自动添加视频包装(字幕/文字贴图)[11][12] - 3D画风适配性强,尤其擅长戏谑诙谐风格,能直接在图片上生成中文文案如"以诚待人"[12] 产品应用场景 - 已实现职场讽刺类内容生成,如复刻《西游记》Vlog并融入现代职场吐槽[10] - 支持第一人称视角创作,如峨眉山猴子吐槽视频,生成详细分镜表(含景别/光线/角色神态描述)[9] - 当前语音限制为单音色,多角色语音匹配功能尚未上线[12] 行业趋势判断 - 2024年行业主线为代码生成和多模态生成,视频自动生成是最终阶段[14] - 技术加速源于LLM工具调用能力提升+视频/音频模型质量成本优化,国内Veo3类模型落地后将引发爆发增长[14] - 公司产品已实现完整视频生成Agent,通过PC端"深度搜索"或APP端"超级搜索"触发(关键词需含"宣传片/纪录片"等)[13]
冠军队独享200万,进决赛就有直通offer,腾讯广告算法大赛报名开启
机器之心· 2025-06-18 14:09
多模态生成在广告行业的应用 - 多模态生成技术已在广告行业成功试水并带来实际收益,部分企业正加大投入以变革广告内容生产与分发流程[3] - 生成式AI在广告领域的渗透从2022年起步,目前已覆盖文案生成、数字人卖货、图片/视频创作等场景,显著提升生产效率[6][7] - 腾讯广告妙思平台整合商品混剪、数字人口播、图生图等技术,将AI应用扩展至审核、分发等全流程环节[7] 生成式AI驱动的广告推荐系统 - 传统广告推荐依赖判别式模型,存在负面样本定义不准确、内容库局限等问题[9] - 生成式推荐系统突破现有物品库限制,通过多模态数据处理能力生成个性化内容,但面临新用户冷启动、实时性等挑战[10] - 腾讯广告算法大赛聚焦全模态序列生成式推荐(AMGR),要求基于用户多模态行为数据预测广告交互,推动技术前沿探索[14][16] 腾讯广告算法大赛的价值 - 提供脱敏真实业务数据,帮助参赛者理解用户行为复杂性并培养商业思维[17][18] - 总奖金池达360万元,冠军团队独享200万元,并开放实习Offer及转正机会[19][21] - 往届参赛者入职后快速成长,如Bid Shading算法实现大盘收入提升3%[22] 行业动态与人才需求 - 腾讯2025Q1营销服务收入同比增长20%至319亿元,AI技术升级成为核心驱动力[26] - 广告行业对生成式AI人才需求上涨,大赛为在校生提供零基础切入机会[27][28] - 报名面向全球高校学生,截止日期为7月31日,优胜者可申请深圳人才政策支持[23][29]
中国AIGC企业投融资风向:早期项目受资本热捧
搜狐财经· 2025-06-14 17:35
行业现状 - 中国AIGC行业投融资呈现早期化趋势 2025年行业融资总额达亿元人民币 同比增长60% [1] - 天使轮融资事件占比最高 达60% 远高于A轮和战略投资 [3] - 2025年成立的AIGC企业占比达60% 如月之暗面 生数科技等成立不足2025年即完成亿元级融资 [4] 资本布局特点 - 资本更倾向于在技术验证期介入 以获取更高溢价空间 [3] - 头部资本重点关注具有顶尖学术背景或大厂核心团队出身的创业者 [4] - 国内初创企业更多聚焦应用层工具链 如AI设计 办公效率工具等 [6] 驱动因素 - 技术迭代加速 底层大模型研发门槛高且投入周期长 OpenAI融资超百亿美元 [6] - 2025年AIGC市场规模预计将突破万亿 资本看好多模态生成 垂直行业解决方案等细分领域 [7] - 产业资本深度参与 腾讯 百度 视觉中国等通过战投布局生态 [9] 商业化与竞争 - 投资人要求早期项目展示变现路径 如真格基金强调需看到产品化雏形 华创资本直言必须赚钱 [11] - 2025年全球AIGC融资超千亿元 但国内占比不足60% 大量同质化项目可能导致资源浪费 [12] 未来趋势 - 投资重心向中间层延伸 当前60%融资集中在算法层 中间层如AI训练工具 数据标注平台有望崛起 [15] - 头部企业如月之暗面已启动海外用户增长计划 资本关注跨语言模型 本地化适配能力 [15]
细扒字节Seed 逆天招人要求!这5%本地顶级大脑做出了首个跨7大语言代码修复基准,让大模型成本狂降83%!
AI前线· 2025-04-28 19:10
字节跳动Top Seed招聘计划 - 公司启动2026届Top Seed大模型顶尖人才校招计划,覆盖大语言模型、机器学习算法、多模态生成/理解、语音等方向,计划招募约30位顶尖应届博士[2] - 招聘不限专业背景,注重研究潜力,要求候选人具备技术信仰、出色研究能力、好奇心与驱动力[5][6] - 提供一流科研环境、充分研究自由度,并依托公司丰富应用场景实现技术落地[7] - 该计划去年5月首次推出,同年7月增设研究实习生专项,为豆包大模型团队筛选人才[9] - 目标招聘人群为最顶尖的5%人才,要求其完成95%人群难以实现的技术突破[10] 已入职人才案例 - 昝道广(中科院博士)构建并开源首个多语言代码修复基准Multi-SWE-bench,覆盖7种编程语言1632个真实修复任务,提升大模型高阶编程能力[12][14][16] - 秦禹嘉(清华博士)主导开源多模态智能体项目UI-TARS-1.5,在7个GUI评测基准中取得SOTA表现,GitHub Star破万[22][24][26] - Zihao Huang(南开硕士)提出超稀疏模型架构UltraMem,推理速度较MoE提升2-6倍,成本降低83%[28][31][33] 人才待遇与资源 - 提供行业顶级薪资,实习生月薪可达4万元(按2000元/天×20天计算)[37] - 配备充足算力与数据资源,支持技术快速落地至视觉数据处理等产品场景[38][39] - 免除PPT制作与会议流程,聚焦核心研究工作[43] - 导师团队包括豆包大模型各方向负责人(王明轩、项亮等)及DeepMind前研究副总裁吴永辉[44][46][48][52] 行业人才竞争态势 - 人工智能工程师春招求职增速达69.6%,平均月薪超2万元[55] - 大模型算法等岗位连续2年位列人才紧缺度前十[56] - 阿里国际2026届校招80%为AI岗位,腾讯计划三年新增28000个实习岗位,技术类占比超60%[59][60][62] - 行业偏好年轻人才因20-30岁阶段创造力与学习能力更强,适合AI领域快速迭代特性[63][64]
活动报名:我们凑齐了 LCM、InstantID 和 AnimateDiff 的作者分享啦
42章经· 2024-05-26 22:35
活动概述 - 活动主题聚焦文生图与文生视频领域的研究与应用落地 [2] - 三位核心嘉宾的研究方向覆盖多模态生成、扩散模型、一致性模型及视频生成技术 [3] - 活动形式为线上会议 时间为北京时间6月1日13:00-14:00 美西时间5月31日22:00-23:00 [3] 研究影响力 - LCM、InstantID和AnimateDiff三项研究在文生图与文生视频领域实现重大突破 具有全球影响力 [4] - 相关技术已被大量创业者应用于实际产品开发 推动行业落地进程 [4] 嘉宾阵容 - 骆思勉(清华交叉信息研究院)研究方向包括多模态生成与扩散模型 代表工作LCM/LCM-LoRA/Diff-Foley [3] - 王浩帆(CMU硕士)专注一致性生成 开发InstantStyle/InstantID/Score-CAM等工具 [3] - 杨策元(香港中文大学博士)主攻视频生成技术 [3] - 特邀AI产品经理Hidecloud担任Panel主持 增强产学研对话 [4] 活动亮点 - 首次集结三项突破性研究的原创作者同台交流 [4] - 定向邀请数十位AI创业者参与 聚焦技术商业化实践 [4]