Workflow
多模态内容生成
icon
搜索文档
中国大模型打响全球广告!国联民生证券孔蓉:看好多模态、AI硬件与智能驾驶三大机遇
新浪财经· 2025-12-06 15:53
中国AI大模型突破的全球影响 - 以DeepSeek、Kimi、通义千问为代表的中国大模型取得突破,正深刻影响全球资本对中国科技资产的配置逻辑[1][7] - DeepSeek为整个中国资产做了一次强有力的“全球广告”,立竿见影地带动了国内互联网大厂的股价表现和市场预期[1][7] - 中国大模型能力的突破改变了全球投资者对中国科技公司的整体看法和关注度,从全球视角评估中国机会将在估值层面处于有利位置[1][7] 投资逻辑的双重维度:估值与基本面 - 看待中国科技板块投资机会需从“估值提升”和“基本面改善”两个维度综合考量[2][8] - 海外科技巨头通过AI已实现可观且持续的收入增长,若中国企业能证明AI技术带来持续稳健的收入增长,将实现基本面根本性改善[2][8] - 当“估值提升”与“基本面改善”形成共振时,对市场信心的提振将非常强劲[2][8] AI应用层投资机会:多模态内容生成 - AI领域一个显著趋势是多模态内容生成能力的飞跃,在图片、视频等领域带来肉眼可见的变化,预计明年能力还将进一步提升[2][8] - 多模态能力正推动影视、内容创作等传统行业变革,海外如Sora、Vthree,国内如可灵等产品正在推动内容产业进入新时代[2][8] - 多模态内容生成领域蕴含的投资机会值得密切关注[2][8] AI应用层投资机会:与硬件融合及端侧机遇 - 多模态能力与硬件载体深度融合将催生全新机遇,例如AI眼镜这类新型交互终端[3][9] - 随着多模态技术进步,端侧硬件(如AI眼镜)的体验将迎来质的飞跃,其中投资机会值得深入挖掘[3][9] - 多模态能力的价值绝不局限于内容产业本身[3][9] AI应用层投资机会:智能驾驶与机器人 - 从产业落地看,智能驾驶是已走在商业化前列的重大AI应用场景,国内外公司的智驾方案能力都在快速进化[3][9] - 例如,海外FSD系统已能实现超长距离的无人接管,说明AI在复杂场景下的落地应用正在加速变为现实[3][9] - 机器人领域承载着市场对未来的更高期待,是展望明年时非常看好的方向[4][10] 未来立体化的AI投资与应用图景 - 未来机会立体且丰富,包括持续拓展的代码生成等场景[4][10] - 机会还包括随多模态能力兴起的内容创作领域,以及与硬件结合的端侧机会[4][10] - 在更宏大场景中,智能驾驶正在逐步落地,机器人则是紧随其后的重要方向[4][10]
悦灵犀AI全新版本面世 底层技术架构全栈进化
证券日报网· 2025-10-28 20:49
公司产品发布与核心功能 - 悦享控股旗下悦灵犀AI正式发布3 0全新版本 引入全新研发的AI写真系统 内置1000余款高质量场景 实现从模特生成到影像合成的一体化智能创作体验 [1] - 新版本采用全新设计语言和UI 以灵感即界面为理念 深度融合AIAgent智能交互能力 用户可通过简单指令实现端到端的沉浸式AI创作 [1] - AI写真功能打通从静态图像到动态影像的全链路创作路径 用户仅需几步操作即可生成多组4K级人像写真 并支持表情微调 姿势重构等高级操作 [1] - 首次引入一键相册成片功能 利用AI视频生成引擎自动将写真内容转化为视频短片 用户可直接分享至微信 抖音 小红书等平台 [1] 自研大模型与技术升级 - 悦灵犀自研的北辰星悦3 0大模型正式落地 新增多模态一致性训练与多尺度人像特征重建网络 显著提升AI在人物建模 光影控制及服装生成方面的表现力 [2] - 模型性能显著提升 4K人像生成速度较上一版本提升38% 人物姿态与光照匹配精度提升至98 4% 支持75类写真风格库与30fps视频输出稳定帧率 [2] - 新版本全面升级分布式算力调度系统 可同时支持图生图 图生视频与跨模态内容混合生成 数据训练集扩容至4 5亿高分辨率人像样本 [3] - 引入文化语义增强数据集 使模型在理解东方审美 服饰风格及文化符号上更具表现力 [3] AI智能体与创作生态 - AI写真系统首次模拟真实影楼拍摄流程 重建拍摄 选片 修图 成册四大环节 由AI摄影师Agent AI修图师Agent和AI后期Agent协同完成 [2] - 通过RLAIF审美强化学习框架 模型能从用户点赞与偏好中持续自我优化 实现美学进化的能力迭代 [3] - 平台致力于构建由多智能体组成的创作体系 包括创意策划Agent 构图Agent等 形成闭环的AI内容生产流 [3] - 随着新版本发布 公司将开放AI写真API接口 赋能品牌 摄影工作室与创意机构 共同构建新一代AI影像生态 [3]
多模态内容生成的机会,为什么属于中国公司?
Founder Park· 2025-06-24 19:53
多模态技术发展现状 - 中国企业在视频生成、3D创作等多模态细分领域已跻身全球第一梯队,与美国在大语言模型领域的领先形成差异化竞争[1] - Pixverse的视频生成产品用户规模超过许多美国知名产品,VAST在3D技术上实现核心突破,Feeling AI探索多模态融合创新路径[1] - 中国团队在场景理解、数据积累和工程落地方面具备综合优势,抖音、快手等产品背后的视觉技术为视频生成奠定基础[7] 中国团队的核心优势 - 视频技术领域有多年积累,组织架构灵活性助力创新,全球用户量最大的视频生成产品多数来自国内团队[7] - 多模态领域技术路径尚未定型,中国丰富的应用场景和人才储备为创新提供沃土[7] - 差异化技术策略实现突破,3D领域从核心技术攻坚转向产品化落地,专注画质而非功能丰富性[8] 竞争格局与战略应对 - 面对阿里、腾讯等巨头的开源攻势,创业公司通过保持战略定力、聚焦细分需求寻找突破口[9] - 大厂竞争是创业公司的"成人礼",战略节奏领先是关键,先聚拢顶尖科学家实现技术突破,再转向产品化和商业化[9][10] - 开源是创业公司可以借力的东风,但难以满足特定场景需求,需要在开源基础上进行深度定制[12] 技术发展趋势 - 实时生成成为重点方向,Pixverse线上模型5秒生成5秒视频,目标实现真正实时生成[17] - 多模态融合趋势显著,GPT-4o强调的原生多模态实现训练时共享同一语义空间[14] - 3D生成转向自回归路线,生成模型面数低且拓扑结构类似人工建模,方便二次编辑[18] 产品与用户策略 - Pixverse采取双轨策略:网页版服务专业用户,移动端"拍我"App面向大众,模板化生成降低创作门槛[21][22] - VAST调整用户定位,从游戏玩家转向专业用户,打造完整3D创作工作流而非简单模型生成[25] - Feeling AI面向海外14-24岁年轻群体,结合游戏、创作和虚拟陪伴体验,模糊创作者与消费者界限[27][28] 未来目标与挑战 - Pixverse目标实现高质量实时视频生成,用户规模达3亿-5亿[37] - VAST希望降低3D创作门槛,探索可交互内容新生态,可能出现"3D版抖音"[37] - 行业共识是技术进步将让更多普通用户参与多模态创作,AI加速动态3D内容发展进程[33]