多模态生成式AI
搜索文档
营收过亿,这个多模态生成式AI黑马开启新一程
36氪· 2026-01-20 16:38
文章核心观点 - 中美AIGC企业发展路径出现分化 OpenAI的Sora面临成本高与用户留存挑战 而中国公司智象未来在商业化上实现全面爆发 展现出巨大潜力 [1] - 智象未来凭借自研的先进多模态大模型架构、清晰的商业化路径和广泛的产业应用 在多模态生成式AI赛道中脱颖而出 成为兼具技术实力与产业化落地能力的代表企业 [2][13] 公司概况与市场地位 - 公司专注于视觉多模态生成式AI 2025年全年营收已超过1亿元人民币 [1][13] - 旗下C端产品vivago.ai在2025年1月新增近千万用户 在全球100多个国家和地区进入Google Play“视频播放与编辑”类别榜前10 [1] - 公司服务已覆盖全球超2000万个人用户和超4万企业用户 [9] 技术与产品创新 - 公司自研超百亿参数大模型 采用全球首创的扩散自回归架构 在生成质量与效率上找到平衡 [1] - 2025年4月开源图像生成大模型HiDream-I1与交互编辑模型HiDream-E1 开源24小时内登顶国际权威AI测评榜单Artificial Analysis 并在图像质量、语义理解、艺术表现三大维度刷新行业纪录 [1][4] - 在视频生成领域 通过Sparse DiT架构在生成效果和运行速度间找到优异平衡点 并通过对抗蒸馏技术增强画面细节和美感 [6][7] - 公司最早研发生成和理解双模型 并规划理解生成一体化 被视为通往物理世界认知的最佳路径 [6] - 正在研发新一代具备多模态推理驱动和无限记忆的多模态生成架构 旨在提升模型推理能力与多任务横向扩展能力 [14] 商业化路径与商业模式演进 - 公司创始人认为 多模态比纯语言模型有更广阔的商业化空间 当前全球AIGC收入的50%-60%来自图片和视频相关应用 [3] - 公司创立早期形成“1+3+N”布局:一个核心多模态大模型 驱动创作工具平台、互动营销内容工具和一站式视频创作Agent三大产品 [9] - 商业模式持续演进:2023年为MaaS(模型即服务) 2024年为SaaS(软件即服务) 2025年升级为RaaS(结果即服务) 以用户价值为导向 主要赚取客户GMV提升后的分佣 [13][14] - 公司拥有国内最全的多模态版权语料、数十万小时版权视频素材以及上万个授权IP 涵盖国内70%影视数据 并已形成上亿条AIGC二创素材 在影视、文旅、营销等场景广泛应用 [10] 融资情况与资本认可 - 2024年完成数亿元人民币A轮融资 由合肥产投集团领投 安徽省人工智能母基金等参与 [10] - 2025年底获得京东集团作为战略投资方的加码 [10] - B轮融资已进入交割阶段 融资金额达数亿元人民币 下一轮TS(投资意向书)已提前获得 老股东持续加持 新股东包括产业资本、业务能深度合作的上市公司和知名投资机构 [2][11] - 资本看好公司从技术到落地的全链条能力 以及其技术架构向更具通用性与认知深度的世界模型拓展的可能性 [10][11] 行业背景与市场前景 - 2025年被视为中国多模态生成式AI的爆发元年 [13] - 根据IDC数据 全球生成式AI市场规模未来五年复合增长率预计高达63.8% 到2028年将达2842亿美元 占AI总投资的35% [13] - 根据Fortune Business Insights数据 2024年AI视频生成的全球规模约6.2亿美元 预计在2032年达到25.6亿美元 2025至2032年间的复合增速为20% [15] - 行业正意识到AI视频是能直接产生现金流的生产力工具 在营销与特定内容领域AIGC已是主流选择 未来在解决角色一致性和长时序连贯性问题后 有望在影视、游戏等高端应用引爆市场 [15]
单周涨37% 存储牛股闪迪再创新高
北京商报· 2026-01-11 23:14
美股市场表现 - 2026年首个完整交易周,美股三大股指全线大幅上涨,道指周涨2.32%至49504.07点,标普500指数周涨1.57%至6966.28点,纳指周涨1.88%至23671.35点,其中道指和标普500指数均创历史收盘新高 [1] - 存储概念股同步走高,闪迪单周大涨37.12%并创股价新高,美光科技涨9.41%,西部数据和希捷科技分别上涨6.8%和5.73% [1] 存储芯片价格动态 - 野村证券研报指出,用于企业级SSD的大容量3D NAND需求持续火爆,闪迪本季度相关产品价格环比可能暴涨超过100% [1] - 渠道调研显示,多家存储器供应商持续推高价格,企业级NAND涨幅尤为激进,闪迪用于企业级SSD的NAND价格在3月所在季度环比涨幅可能超过100% [1] - 韩国经济日报报道,三星电子和SK海力士正寻求在第一季度将服务器DRAM价格较去年第四季度上调60%至70% [3] - 供应链知情人士爆料,闪迪向下游客户提出以现金支付全额预付款来换取1至3年供应保障的合同形式,部分云服务提供商考虑接受 [3] AI发展驱动存储需求 - AI浪潮正从训练阶段向推理应用大规模迁移,存储被视为“AI工作记忆”并迎来价值重估 [1] - 美银美林报告指出,2026年将是企业级和边缘AI的拐点,AI投资主题正从资本支出驱动的模型训练转向以投资回报率为核心的AI推理阶段 [2] - 多模态生成式AI的普及意味着系统需要处理和生成图像、视频、音频等非结构化数据,这些数据体积庞大且需要频繁读写,使存储成为AI计算流程中不可或缺的活跃参与者 [3] - IDC数据显示,全球年度数据生成量预计将从2024年的173 ZB飙升至2029年的527 ZB,五年内增长两倍以上,复合年增长率约为25% [2] - 企业为训练、分析和合规目的需要保留越来越多数据,导致存储需求同步飙升 [2] 行业核心观点与催化剂 - 英伟达CEO黄仁勋在CES上表示,存储是一个完全未被开发的市场,很可能成为全球最大的存储市场,承载全球AI的工作记忆 [1] - 英伟达在CES上展示了针对代理AI推理优化的新存储平台,承诺比传统平台提高5倍的能效 [1] - 野村证券点名英伟达是此轮闪存芯片涨价的主要推手 [1] - 内存供应商计划提高企业级3D NAND价格,既是对短期短缺的反应,也是对中期AI驱动需求增长的应对 [3] - 随着AI训练和推理需求增长,存储供应趋紧,价格正在飙升 [3]
a16z对话Nano Banana团队:2亿次编辑背后的"工作流革命"
深思SenseAI· 2025-11-12 09:02
产品定位与核心能力 - 产品定位为通用创作平台,旨在重构创作全过程,整合对话式编辑、角色一致性与多图叙事功能[1] - 核心能力包括高度一致的角色生成、一键迁移的风格、拖拽完成的复杂编辑,将原本耗时数周的角色设计和分镜绘制压缩到几分钟内完成[1] - 模型具备多模态对话能力与高质量视觉效果结合的优势,支持生成图像的同时生成文本,并可进行对话式编辑[4] 技术开发与模型特性 - 开发过程重点优化定制化能力和角色一致性,并将其作为关键监测指标[12] - 模型具备交互式对话的迭代特性,支持长对话中像创意搭档一样陪伴创作,但长指令遵循能力仍有提升空间[12] - 采用多模态架构,模型在内部可能学习到潜在的世界表示,对3D理解已相当出色,可对生成视频进行三维重建[21] - 底层表示目前以像素为主,但未来可能发展混合表示以提升可编辑性,如支持矢量图等结构化格式[27] 市场反响与用户需求 - 产品发布后用户请求量远超预期,不得不一再上调每秒请求数配置,表明市场价值超预期[6] - 个人化应用激发强烈情感共鸣,当用户生成自己、家人或宠物的图像时,使用活跃度爆发式增长[7] - 创作者最看重控制感,特别是角色物体一致性和多图风格迁移能力,这些是维持有说服力叙事的关键[11] - 评估发现当模型在角色一致性上超过某个质量阈值后,应用场景会突然起飞,目前已达实用临界点[22] 未来发展方向 - 未来创作工具将呈现光谱状分布,专业端侧重创意爆发与枯燥工作自动化,消费端涵盖从娱乐分享到任务代理的多种场景[8][9] - 不认为会出现单一模型统治一切的局面,未来将是多模型共存状态,不同类型模型服务不同用户偏好[16] - 关键能力倍增器包括低延迟(如10秒而非2分钟响应)和信息可视化,后者要求模型保证事实准确性[30] - 视频被视为终极方向,因视频本质是时间轴上连续的动作,当前图像编辑可视为低帧率视频互动[30] 行业影响与创作演变 - 技术正推动创作者角色从执行者转变为与AI长期对话的创意导演,聚焦故事与情感打磨[1] - 艺术创作的核心是人的意图和品味,模型作为工具赋能艺术家,但不会取代几十年积累的专业手艺和设计语言[10][36] - 专业用户界面可能趋向复杂节点式工作流(如ComfyUI),而大众界面则可能更智能,能根据上下文提示下一步操作[15] - 图像生成与代码生成能力交叉产生新可能,例如用代码模型在Excel中复刻图像,展示出零样本迁移的问题解决潜力[28]
智象未来团队荣膺ACM MM 2025最佳演示奖:重新定义对话式视觉创作
格隆汇· 2025-11-06 13:23
公司成就与行业认可 - 智象未来团队在第33届ACM国际多媒体会议(ACM MM 2025)上成功摘得最佳演示奖,成为中国首个获此殊荣的多模态生成式人工智能初创企业团队[1] - ACM国际多媒体会议由国际计算机学会主办,是全球多媒体领域最具权威性与影响力的学术盛会之一,其最佳演示奖具有极高含金量和行业认可度[2] - 公司还举办了Identity-Preserving Video Generation挑战赛,吸引了北京大学、上海交通大学、腾讯等国内外顶尖科研及企业团队参加[6] 核心技术优势 - 获奖的“灵感智能体”统一多模态智能体以革命性技术将复杂的视觉内容创作转化为直观的对话体验[2] - 该技术突破碎片化多模态技术工具的局限,在单一界面内无缝整合了文本生成图像、指令式图像编辑及文本/图像生成视频功能,有效解决了跨模态语义对齐的行业难题[2] - 核心技术基于170亿参数量的HiDream-I1模型,依托稀疏扩散Transformer结构与动态混合专家设计,在国际权威基准测试中表现优异[2] - 针对指令式图像编辑任务,团队通过上下文视觉条件优化HiDream-I1模型,实现精准的图像修改效果[2] 产品应用与市场影响 - 该智能体开创了可及性、交互式视觉叙事和多模态生成AI中协作内容创作的新方式,将生成和编辑融合于一个对话驱动的体验中[5] - 技术显著降低了高质量视觉内容创作的门槛,并缩短了迭代周期,实现从想法到优质产出的“一次会话”创意循环[5] - 该技术原型已成功迭代应用于公司旗舰产品vivago.ai的对话生成功能中,为用户提供更自然、个性化的多模态对话交互体验[5]