多模态技术
搜索文档
稀宇科技冲击全球大模型第一股 成立四年用户超2亿腾讯阿里入局
长江商报· 2025-12-23 08:13
公司上市进程与市场地位 - 稀宇科技已通过港股聆讯,有望成为“全球大模型第一股”及从成立到IPO历时最短的AI公司 [2] - 同为“AI六小虎”的智谱AI也已通过港股聆讯,两家公司无论谁先挂牌都将成为“大模型第一股” [2] - 公司成立于2021年12月,截至2025年9月30日,已完成多轮融资,估值达300亿元人民币 [2] 融资历程与资金状况 - 公司累计完成7轮融资,累计融资额约15.5亿美元 [3] - 2023年6月完成2.5亿美元融资,估值超12亿美元,晋升独角兽 [4] - 2024年3月获6亿美元融资,投后估值25亿美元,由阿里巴巴领投 [5] - 2025年7月完成近3亿美元新一轮融资,投后估值超过40亿美元(约合人民币300亿元) [6] - 截至2025年9月30日,公司现金结余约为10.46亿美元,包括现金及现金等价物约3.63亿美元,金融资产6.44亿美元,未动用银行融资3940万美元 [6] - 累计融资15.5亿美元,现金结余10.46亿美元,表明公司仅花费约5亿美元 [6] 业务与产品发展 - 公司专注于研发文本、语音、视觉多模态融合的通用人工智能技术 [7] - 2023年8月,ABAB大模型获批上线;2023年12月宣布将发布国内首个MoE大模型 [7] - 2025年1月,发布并开源Text-01和VL-01系列模型;2025年9月,发布Music1.5音乐生成模型 [7] - 公司推出了ABAB系列大模型及Glow、海螺AI等应用产品 [8] - 公司定位为全球化AI大模型公司,产品已覆盖超200个国家及地区 [9] - 公司自主研发多模态通用大模型,推出系列AI原生产品,包括MiniMax Agent、海螺AI、MiniMax Audio、星野等 [9] 用户与市场表现 - 截至2025年9月30日,公司拥有超2亿个人用户及13万企业客户 [2] - 具体用户构成:MiniMax用户1905.7万名,海螺AI用户4234.8万名,Talkie/星野用户1.47亿名 [9] - 公司海外市场收入贡献占比超70% [9] - 公司是全球少数几家在全模态(文本、语音、视频)领域均进入第一梯队的大模型公司之一 [9] - 其语音模型Speech-02、视频模型Hailuo-02及文本模型MiniMax M2在权威评测中位列全球前列 [9] - 公司采用混合专家(MoE)等先进架构,在保持性能领先的同时优化了训练成本 [9] 财务与运营数据 - 2024年营业收入0.31亿美元,同比增长7.82倍;2025年前三季度营业收入0.53亿美元,同比增长1.75倍 [2] - 2022年至2025年前九个月,营业收入分别为0美元、0.03亿美元、0.31亿美元、0.53亿美元 [10] - 2024年及2025年前三季度,营业收入同比增速分别高达782.17%、174.68% [10] - 同期,公司净利润分别亏损7370万美元、2.69亿美元、4.65亿美元及5.12亿美元 [10] - 截至2025年9月,公司员工总数仅385人,平均年龄29岁,其中284人从事研发,占比达73.77% [10] 研发投入与行业对比 - 2022年至2025年前三季度,公司研发投入分别为1060万美元、7000万美元、1.89亿美元及1.8亿美元 [6] - 研发投入主要用于模型训练涉及的云服务费用 [6] - 对比OpenAI同期的400亿美元至550亿美元累计花销,稀宇科技的资金投入不到OpenAI的1% [8] - 公司以较少投入构建了覆盖文本、语音、图像与视频的全模态大模型公司,并在多个细分能力上跻身全球第一梯队 [8] 行业前景 - 大模型市场正以前所未有的速度发展,到2030年,全球大模型市场规模预计将超过3000亿美元 [6]
信仰与突围:2026人工智能趋势前瞻
腾讯研究院· 2025-12-22 16:33
文章核心观点 文章回顾了人工智能行业自ChatGPT发布三年来的发展历程,指出当前大模型性能差距缩小、发展面临天花板质疑,但同时产业对AGI的信仰与探索依然坚定[2] 展望2026年,行业在焦虑与分歧中,有望在技术路径、多模态、研究范式、数据生成、行业应用及新硬件等多个方向实现突围[2] 1. 规模法则的演进与争议 - **对规模法则的质疑声增大**:随着大模型智能升级放缓及数据枯竭论出现,业界对Scaling Law的质疑增多,认为其可能接近极限,真正的智能需要抽象化、因果建模等能力,而非简单扩展规模[3] - **规模法则现阶段依然有效且演进**:在底层架构无颠覆性创新的背景下,Scaling Law因其能力提升可预测、产业投入可评估、人才工程体系可延续等优势,仍是可靠的工程化增长路径[4] 谷歌Gemini 3和DeepSeek V3.2的表现印证了其现阶段有效性[4] - **向“新规模法则”时代迈进**:未来的发展将不仅是堆砌算力,而是向数据数量扩大与质量提升两个方向扩展,结合世界模型、具身智能等结构性创新,以寻求底层突破[5][7] 2. 多模态技术的突破与意义 - **迎来“多模态的ChatGPT时刻”**:谷歌Gemini、OpenAI Sora等模型已能深度理解并生成多模态内容,标志着关键突破[8] - **多模态是智能非线性跃升的关键**:类比生物进化中视觉的出现触发了认知能力跃迁,多模态技术让AI从学习“二手”文本世界转向感知更接近真实世界的结构性约束,为形成稳健的世界模型提供了可能[8][12] - **开启“感知-决策-行动”闭环**:多模态与工具使用、机器人控制结合,使AI能在环境中通过反馈持续优化,实现智能跃升[13] 3. 研究探索与组织创新 - **研究驱动与赛马机制**:以小团队开展多方向并行实验是OpenAI等机构的有效组织方式,契合技术快速迭代的特点[15] - **涌现多元化的前沿实验室**:包括聚焦安全超智能的SSI(已融资30亿美元)、专注可靠性的Thinking Machines Lab、研究空间智能的World Labs、追求高级机器智能的AMI以及研发超级Agent的H Company等[16] - **底层架构与训练范式创新活跃**:如Sakana AI探索演化式模型与群体智能以降低算力依赖;Liquid AI开发可连续演化的液体神经网络;谷歌提出嵌套学习以解决灾难性遗忘问题[17] - **评测范式向动态与复杂任务演进**:为解决静态刷榜和数据污染问题,行业正构建围绕Agent能力、需要多步规划与长期记忆的评测体系,如SWE-bench、AgentBench等[17] 4. 仿真数据在物理AI中的核心作用 - **仿真数据成本优势显著**:机器人真机采集一条数据成本在1-10美元,而仿真生成边际成本趋近于零,且能并行运行数万实例[19] - **仿真数据覆盖长尾场景并具可复现性**:能以指数级低成本覆盖极端光照、稀有故障等长尾场景,并锁定变量,便于问题诊断与回归测试[20] - **产学研实践验证其有效性**:上海人工智能实验室的InternData-A1数据集包含63万条轨迹,基于其训练的模型在多项仿真与真实任务上表现与官方模型相当;银河通用发布的DexonomySi数据集包含超950万条抓取姿态,并基于此开发了端到端具身大模型[20] - **形成“仿真主供给、真机强纠偏”工业范式**:在物理AI研发中,仿真预计承担90%以上的数据与验证工作,真机数据则用于物理锚定与最终验收,该范式已在NVIDIA、DeepMind等公司实践[23] 5. AI for Science 迈向系统工程化 - **从模型突破转向科研生产力**:AI4S正从AlphaFold式的象征性成果,转向系统工程化的科研生产力提升,这是行业被真正改变的前兆[24] - **AI嵌入自动化实验闭环**:谷歌DeepMind计划2026年建立AI自动化科研实验室,AI将负责假设生成与实验编排,与机器人执行形成可规模化的闭环,首次让AI从建议者变为执行者[25] - **国家战略推动数据与资源整合**:美国通过《启动创世纪任务》行政令,将AI4S上升为国家战略,旨在整合联邦科研数据、超算资源训练科学基础模型,解决高质量数据匮乏的痛点[28] - **2026年可能成为研发模式转折起点**:虽难言全面商业落地,但某些领域研发周期可能出现数量级压缩,自动化实验与AI工作流成为头部机构标准配置[29] 6. 模应一体与智联网雏形 - **大模型缺乏原生网络效应**:ChatGPT周活近10亿,但用户交互是一次性、私有的,难以形成反馈闭环与用户间连接,AI是生产力工具而非平台[31][32] - **模型与应用一体化是破局点**:当模型拥有稳定身份和长期记忆,并深度参与用户工作流时,才具备成为平台的基础[32] 探索方向包括模型接入更多应用(如GPT的智能购物、群聊功能)以及构建以Agent为节点的智联网[32][34] - **智联网可能催生多种网络效应**:包括交易型网络(Agent间形成服务双边市场)、知识型网络(用户打磨的技能经验共享)、工作流型网络(生产范式持续进化)以及社交型网络(AI成为超级连接器)[35][36] 7. 软件生产进入个性化时代 - **AI编程接近普适生产力**:Anthropic CEO预测未来12个月内几乎所有的代码都可能由AI编写;美团内部已有52%的代码由AI生成;腾讯超过90%的工程师使用AI编程助手,50%的新增代码由AI辅助生成[37] - **软件生产核心瓶颈转移**:从编码能力转向问题定义能力,自然语言成为主要编程接口,出现“vibe coder”[40] - **激活长尾需求与实现软件平权**:极低的构建成本使软件能千人千面,满足曾因市场规模小而被忽略的个性化、情景化需求,软件成为人类表达与解决问题的基本媒介[40][41] 8. 行业落地聚焦性价比与ROI - **企业关注点转向可衡量业务价值**:AI行业应用的第一性问题从技术先进性转向投资回报率与性价比[43] - **规模化部署仍存差距但使用量增长**:麦肯锡报告显示,88%的企业至少在一个职能中使用AI,但进入规模化阶段的比例很低,AI高绩效企业仅6%[43] OpenAI调研显示,ChatGPT Enterprise周消息量增约8倍,75%的员工认为AI提升了工作速度或质量,重度用户每周可节省超10小时[44] - **应用深入流程中后段并重构工作范式**:AI正从边缘任务深入核心业务流程,未来收益将来自流程再造、智能体协同等领域[44] 工作最小单元可能变为“一个人+N个智能体”,企业管理逻辑将转向以结果交付为中心[45] 9. AI眼镜迈向千万台临界点 - **出货量有望突破千万台分水岭**:预测Meta Ray-Ban等产品在2026年单品牌销量有望冲击1000万台;巴克莱预测2035年销量达6000万副;制造商依视路计划实施年产能1000万件的生产计划[45] - **“硬件减法”策略成功**:Meta通过放弃高成本显示模组,将眼镜重量控制在50克以内,结合大模型多模态能力,优先作为穿戴拍照设备,降低了制造难度与用户门槛[47] - **重塑交互逻辑与软件生态**:交互从以应用为中心转向以意图为中心,自然语言为主导;技能商店可能取代应用商店;摄像头产生的第一视角数据将赋能空间智能研发并可能催生新的推荐与广告模式[48] 10. AI安全成为研发与应用必选项 - **公众信任度下降凸显安全重要性**:全球调研显示,尽管66%受访者经常使用AI,但超半数(58%)认为其不可信赖,信任度较2022年呈下降趋势[50] - **安全算力投入成为热点**:预计超10%的算力将投入安全评估、对齐实验等领域;伊利亚成立的SSI公司已融资30亿美元,专注超智能安全;欧美法规可能使安全算力成为刚性成本[53] - **企业建立深度嵌入的治理机构**:如Google DeepMind的Responsibility & Safety团队、微软的Aether委员会、Anthropic的长期利益信托与宪法AI机制,将安全深度嵌入研发全流程[54] - **安全演变为基础性要素**:可信安全机制成为进入关键行业的前提,监管框架使安全实践从最佳实践变为准入门槛[55]
深度解析世界模型:新范式的路线之争,实时交互与物理仿真
海外独角兽· 2025-12-17 15:53
文章核心观点 - 2026年将是多模态技术大年,视频生成将快速进步并推动应用大规模落地,世界模型将在研究上取得科学突破并开始从研究走向生产 [2] - 世界模型领域正分化为两条主要路线:一条以实时视频生成为核心,服务文娱、游戏等面向人类的消费者场景;另一条以显式3D结构为中心,服务机器人、自动驾驶等面向AI的领域 [2] - 世界模型相比视频生成模型,需要在交互性、实时性、长时记忆和物理合理性四个方面更进一步 [2] 世界模型定义与重要性 - 世界模型被定义为能理解时间和空间规律,并能根据当前环境和动作模拟未来世界演化的模型 [5] - 其重要性提升源于三大趋势:语言作为有损压缩的智能进步遇到局限,空间成为下一个重要智能来源;自回归Transformer与扩散模型的算法进步及融合,使生成模型具备智能层面的扩展定律;具身智能的需求倒逼,机器人行业需要高保真虚拟世界来满足指数级的数据需求 [5] 世界模型相比视频生成的关键进步方向 - **长时记忆**:需生成持续、连贯的长时间世界,保持全局一致性,当前视频模型通常只能生成十秒级片段 [6] - **交互性**:需支持在任意帧动态注入动作指令以影响后续画面,训练数据需同时包含视频帧序列和对应动作 [7][8] - **实时性**:交互式应用要求低延迟,游戏需低于0.1秒,VR理想情况应低于0.01秒,当前扩散模型推理难达30FPS以上,业界通过蒸馏和架构改进(如DMD将50步扩散压缩为4步)来提升实时性 [12] - **物理合理性**:对自动驾驶、机器人等高风险领域,模拟结果必须符合真实物理规律,当前模型在极端物理条件下易出现幻觉,研究者通过引入物理约束后处理或结合可微物理引擎进行校正 [16] 世界模型的两种发展路线 - **路线一:实时视频世界模型**:以实时性为核心优化目标,适用于文娱、游戏等to C场景,包括互动内容创作与新型“引擎”、直播和虚拟形象、AR/VR三大应用场景 [18][19][20] - **路线二:3D/4D结构化世界模型**:以物理准确性为核心,采用NeRF、3D高斯散点等显式3D表示,优势在于3D一致性强,适用于机器人、自动驾驶等for AI的领域,劣势在于数据获取和计算成本高 [18][21][22] 市场玩家四象限格局与代表公司分析 - 横轴表示表示形式(左侧Video-based,右侧3D/物理结构),纵轴表示服务对象(上部分面向人类,下部分面向AI与机器人) [24] - **World Labs**:位于右下象限,强调3D一致性与持久性,估值超10亿美元,融资总额约2.3亿美元,核心产品Marble是基于浏览器的交互式3D世界生成平台 [24][26][30][32] - **General Intuition**:位于左上象限,作为公益性公司,专注于利用游戏数据训练能进行时空推理的agent,其关联平台Medal每年可获得约20亿个游戏视频片段,拥有1000万MAU,公司已完成1.34亿美元种子轮融资 [24][33][35][38] - **Decart**:位于左下象限,推出可交互“开放世界”AI模型Oasis,该模型以Minecraft游戏视频训练,可实现端到端实时闭环,生成速度约25帧/秒,公司已完成3200万美元A轮融资,投后估值超5亿美元 [24][39][41][44] - **Odyssey**:位于右下象限,追求极致真实感与可编辑性,采用重装备采集数据和3D高斯泼溅技术,其Explorer模型可将单图像转化为高保真3D场景资产,公司已完成1800万美元A轮融资 [24][45][47][48]
2025年度AI十大趋势报告-量子位
搜狐财经· 2025-12-16 10:53
核心观点 2025年AI领域呈现“基建夯实、模型迭代、应用爆发、中国崛起”的格局[3] 技术从算力基建到产业落地发生全链条变革[1] 中国在开源生态与自主可控路线上崛起,成为全球AI格局的关键力量[1][3] 基础设施 - 全球科技巨头正投入史无前例的资金建设超大规模数据中心,例如谷歌“星际之门”计划投入超过1000亿美元,微软AI超级园区投入73亿美元,谷歌AI枢纽投入400亿美元[14] - 中国通过“东数西算”国家工程,将东部算力需求与西部可再生能源结合,推进国家级算力规划[16] - 资本开支从采购标准化服务器转向建设由数万块高端GPU组成的“超节点”和“超级群”,以训练和运行大型AI模型[19] - GPU因其强大的并行计算能力,仍是AI训练领域事实上的标准,但其稀缺性和高昂价格促使行业寻求新方案[23] - NPU已成为智能手机、PC和物联网等端侧设备的标配,以实现低功耗、低延迟的AI推理[24] - 中国正加速推进AI芯片国产替代,华为、寒武纪等企业研发高性能AI芯片,并通过与自研模型、SDK协同,已实现千亿级参数模型训练的自主可控[1][27] 模型进化 - 预训练架构创新成为关键,MoE混合专家模型凭借“大参数、小激活”特性平衡性能与成本,成为主流架构[1] - 国内主要模型如GLM-4.6(总参数355B,激活参数32B)、通义千问Qwen3(总参数235B,激活参数22B)、DeepSeek V3.2(总参数671B,激活参数37B)等均采用MoE架构并实现开源[1][32] - 研究者正探索线性注意力和稀疏注意力等超越Transformer的新架构,以突破其二次方计算复杂度O(n²)的瓶颈,提升长文档、视频理解等任务的计算效率[31] - 模型蒸馏技术将大模型知识“蒸馏”到更小模型中,对于将AI能力部署到手机、汽车等算力受限的边缘设备至关重要[33] - 人类反馈强化学习技术已成为训练ChatGPT等对话式AI模型的标准流程,用于提升模型在代码生成、摘要等复杂任务上的表现,并使其输出更符合人类价值观[35] - 2025年模型推理能力提升集中在三大方向:多模态深度推理、自适应推理以及硬件加速优化[39] - 具身智能成为热门赛道,人形机器人开始进入工业与家庭场景,VLA模型与世界模型成为技术主流[1] 应用版图 - Agentic互联网重塑流量入口,从“人找服务”转向“服务找人”,多Agent协作框架降低开发门槛,推动复杂任务闭环执行[2] - 多模态技术落地加速,视频、3D、代码生成依次释放生产力,成为影视、游戏、软件开发等行业的标准工具[2] - AI硬件全面爆发,AI PC、智能穿戴设备、AI玩具等百端齐放,端侧AI凭借低延迟、高隐私优势快速普及,重塑人机交互方式[2] - AI4S成为新增长点,在医疗诊断、材料研发、基因分析等领域实现突破,部分模型数理化能力达到博士水平[2] - 腾讯DeepGEM病理大模型提升肺癌诊疗精准度,自变量机器人在具身智能领域跻身全球第一梯队,零一万物通过产业大模型赋能物流等行业场景[2] 中国路线 - 开源AI进入“中国时间”,DeepSeek、Qwen等模型在全球开源社区下载量稳居前列,形成国际影响力[2] - 国家将AGI纳入顶层设计,科技巨头与初创企业从应用转向核心技术研发[2] - 中国构建“国产芯片+自研模型+自主SDK”的全栈生态,实现技术自主可控[1][2]
南大一篇84页的统一多模态理解和生成综述......
自动驾驶之心· 2025-12-11 11:35
文章核心观点 - 一篇由南京大学、中科院自动化所、北京大学等机构联合发表的综述《A Survey of Unified Multimodal Understanding and Generation: Advances and Challenges》,首次系统性地定义了“统一基础模型(UFM)”概念,并构建了涵盖架构、技术、训练、应用的全景研究框架,旨在解决开源社区在多模态模型“理解”与“生成”能力协同上的混乱现状,为未来发展指明方向 [1][4] 统一基础模型(UFM)的演进历程 - UFM的演进被划分为三个阶段:第一阶段为“特定阶段”,理解与生成由完全独立的模型负责,如CLIP用于图像分类(理解),Stable Diffusion用于文生图(生成),两者无交互 [6][10] - 第二阶段为“融合阶段”,研究者将理解和生成模块整合到同一框架中,通过中间层实现协同,例如MiniGPT-5通过文本指令介导LLM生成描述再调用Stable Diffusion,NExT-GPT则通过特征介导直接控制生成模块 [7][10] - 第三阶段为“涌现阶段”,是UFM的终极目标,模型能像人类一样在理解和生成间无缝切换,以完成如“脚本驱动电影生成”等高度复杂的跨模态任务,但目前尚无模型能完全实现,仅部分模型在局部任务上展现出潜力 [8][9][10] 统一基础模型(UFM)的核心架构分类 - 架构根据“理解与生成模块的耦合度”分为三大类:外部服务集成建模、模块化联合建模和端到端统一建模 [11] - **外部服务集成建模**:LLM作为“任务调度员”,调用外部专门模型完成工作,代表模型有Visual ChatGPT、HuggingGPT、AudioGPT,优点是开发快、资源需求低,缺点是依赖外部模块质量、调用效率低且可能出现信息损耗 [12][13][17][18] - **模块化联合建模**:LLM作为核心处理理解任务,并通过“中介层”直接控制生成模块,细分为“提示介导”和“表示介导”两种方式,前者如EasyGen、GPT4Video,后者如Emu2、GILL、PUMA,优点是生成质量高、灵活性强,缺点是中介层可能成为瓶颈 [15][16][19] - **端到端统一建模**:模型在单一架构内同时处理理解和生成,是当前研究主流,根据生成机制又分为三类:自回归架构(如Emu3、LWM)、扩散架构(如Versatile Diffusion、UniDiffuser)、自回归-扩散混合架构(如Transfusion、BAGEL),优点是语义一致性强,能处理复杂跨模态任务,缺点是训练难度大、计算成本高 [20][21][24][25] 统一基础模型(UFM)的关键技术细节 - **编码策略**:核心是将多模态数据转化为模型能处理的表示,分为三类:连续编码(如CLIP ViT、VAE、Q-Former)、离散编码(如VQGAN、MoVQGAN、SEED Tokenizer)、混合编码(如级联编码的SEED、双分支编码的Janus) [22][23][26][27][30] - **解码策略**:是编码的逆过程,将模型输出转化为人类可理解的内容,同样对应三种形式:连续解码(依赖扩散模型,如Stable Diffusion,常加入“视觉先验”提升质量)、离散解码(依赖VQ-VAE类解码器,如VQGAN,部分模型会做“token压缩”以加速)、混合解码(如LaVIT、ILLUME+) [28][29][31] - **训练流程**:分为预训练、微调和数据处理三大环节 [30] - 预训练核心是搭建编码器-解码器、对齐模块、骨干网络三大模块,并优化多任务目标(如自回归的next-token预测损失、扩散的降噪损失) [32] - 微调包括任务监督微调(通用任务与多任务)和对齐微调(基于人类偏好,如DPO、GRPO),Emu3使用DPO微调后生成质量显著提升 [34][35] - 数据处理来源主要有四类:网络爬取(如LAION-5B的58亿图像-文本对)、公开数据集、私有数据、合成数据,筛选需经过属性、质量、安全三关,并格式化为“指令-输入-输出”结构 [36] 统一基础模型(UFM)的下游应用 - **机器人(具身智能)**:用于“视觉-语言-动作(VLA)”统一建模,例如LCB模型生成推理文本和动作序列,SEER用扩散模型预测目标图像以辅助机器人感知 [37][42] - **自动驾驶**:实现端到端的“感知-预测-规划”统一,例如DrivingGPT用自回归模型联合预测未来帧和车辆轨迹,Hermes用UFM预测未来LiDAR点云以提升决策可靠性 [37][42] - **世界模型**:构建物理真实的4D场景预测,例如Aether用扩散模型生成视频、深度、相机姿态,TesserAct能预测场景的表面法线、深度等细节以支持机器人交互 [37][42] - **医学**:轻量化适配医疗场景,例如LLM-CXR通过指令微调让LLM处理胸片分析并支持双向任务,HealthGPT扩展到CT、OCT等模态甚至能做跨模态生成 [37][42] - **视觉任务**:统一“感知-生成-3D重建”,例如LLMBind用MoE架构集成目标检测、分割等任务,ShapeLLM-Omni用3D VQVAE处理3D理解与生成 [37][42] 统一基础模型(UFM)的未来研究方向 - **建模架构**:需重点探索“自回归-扩散混合架构”,并优化MoE(混合专家)结构,让不同专家负责不同模态以提升协同效率 [40][42] - **统一分词器**:需开发能同时捕捉语义和细节的分词器,尤其是解决视频“长视频token爆炸”问题以提升时序建模能力 [40][42] - **训练策略**:需构建“模态交织数据”(如文本-图像-视频的连续序列),并设计能同时评估“理解准确性”和“生成质量”的统一奖励函数 [40][42] - **基准测试**:需设计专门评估“理解-生成协同”能力的基准,以真正衡量UFM的“统一能力” [40][42]
AI漫剧产业前瞻:多模态技术突破与内容生产新范式
2025-12-11 10:16
行业与公司 * **行业**:AI漫剧(AI动画/短剧)内容生产与分发行业[2][15] * **公司**:巨量平台(一家提供AI视频生成技术、工具和服务的平台公司,服务于AI漫剧内容生产)[1][2][4][5][6] 核心观点与论据 技术能力与解决方案 * **技术基础**:平台早期基于Stable Diffusion开发,但已过时不再使用[2] 平台拥有自研的图像处理核心技术能力,包括使用CUDA、对开源模型进行微调,并借鉴国外先进模型(如nano banana 1/2、GPT)设计图片处理流程[2] * **一致性保障**:通过训练专属模型和要求用户提供多视图人物资产(如三视图、五视图、九视图),结合自身技术处理,以实现高质量的人物和场景一致性[1][4] 通过审核客户提供的人物资产(如要求包含面部特写及三视图)确保符合标准[5] * **问题解决**:通过精准服务每个客户案例,实时互动解决具体问题(如人物风格偏向写实的问题)[5] 通过培训和指导客户正确使用工具,使其能独立解决问题[5] * **数据资产优化**:对数据资产有明确标准(如要求大头照及三视图组合的人物特写),并提供详细指导(如利用PS、截图精修或图生图方式制作)[6] 通过深度交流和共创,与国内一线模型厂商合作,推动行业标准化[6] * **技术瓶颈**:目前视频生成中,人物、场景和物品的一致性对于画面还原最为重要,高精度还原要求物体位置正确且特性不变[6] 动作和运镜并非硬瓶颈,可通过结合模型能力与工程化工具很好实现[6] 真正难以突破的是写实短剧中的人物面部微表情及细微变化[7] * **工程化应用**:通过密集探讨和反馈,不断优化模型各维度性能[2] 评估模型优劣势,告知用户避免使用劣势功能,或尝试弥补短板,否则舍弃并寻求同类版本[2][10] 应用层面的核心能力在于知道如何更好地利用模型,包括资产管理、提示优化以及镜头使用等经验[11][12] 市场、模型与竞品 * **模型生态**:客户对模型具体来源无感,只根据平台指导操作[2] 各模型厂商各有优势,但没有一家能全面领先,各厂商在某一阶段某项功能上突出[2][8] * **模型评价**: * 微度的多参引领行业[2][8] * 海螺的大打斗场景有优势[2][8] * 火山C4GM 1.0 Pro曾经综合能力强,但很快被超越[8] * 快手推出多模态音画同步功能,阿里万象即将发布2.6版本加强音画同步[8] * 可灵O1的视频编辑功能(如替换人物)表现不错,但多帧生视频、图生视频等技术尚未达到上架标准[9] * Vidu Q1清晰度提升,但运动性能不如前代,市场反应不佳[10] * **版权来源**:剧本版权主要来源于三类:原创文学平台(如七猫、阅文、起点)、以前拍摄影视剧的公司、专门为大公司提供网文的写手公司[13] 当前阶段,大多数版权方倾向于自己商业化现有版权,而非进行版权交易[13][14] * **爆款率**:短剧爆款率约为5%(10部中1部成功),而漫剧爆款率可达60%以上(5部中有3部成功)[17] 爆款需具备优质剧本、精良制作和强大发行能力三要素[17] 商业模式与变现 * **主要分发渠道**:AI漫剧主要分发渠道是抖音,其次是快手、拼多多、支付宝、B站等平台,最后在海外平台(如TikTok、YouTube)分发[2][15] * **变现路径**: * **抖音**:首先进行限时发行,定价9.9元,持续1至2周,通过用户充值解锁观看[15] 第一轮结束后加大投放[15] 随后通过贴片广告变现(每集插入30秒广告)[15] * **其他平台**:在快手、拼多多、支付宝、B站等平台通过分成方式变现[15] * **成本与利益分配**: * **传统 vs AI成本**:传统方法制作一分钟漫剧情节成本从几万到几十万不等,使用巨量平台后可降至每分钟几百元[18] * **生产效率**:使用AI技术后,一个四人团队以前需要一个月完成80分钟作品,现在五人团队五天即可完成80到100分钟作品[18] 一个成熟动画师日产出从1-2分钟素材提升到8-10分钟,效率提高8-10倍[20] * **制作成本结构**:一部短剧制作成本约为7万元,其中巨量平台占2万元,配音费用约1万元,其余3至4万为人力成本[16] * **利润空间**:制作方将作品以10万至15万不等价格交给甲方,赚取差价[16] 目前一些客户通过制作一部短剧能赚取40%到80%的利润,有时甚至翻倍[16] 甲方可能还会提供收入分成[16] 其他重要内容 * **语音合成(TTS)**:用于漫画/动漫解说时效果可接受,但用于AI影视剧,目前全球最强的TTS技术仍无法达到要求,建议客户寻找第三方配音服务[13] * **动作控制重要性**:对于行业而言,动作控制的精细苛求(如为单个镜头拍摄500次)重要性有限,更多是满足导演个人需求,未来可以很好解决[7] * **行业阶段与竞争**:市场仍处于大量投入阶段,参与者不足,尚未对作品质量提出更高要求,但未来随着竞争加大,对精度和细节要求将逐步提高[19] 最成功的公司通过工具结合自身优势走在前列,新加入者模仿并扩产[19] * **发行周期**:漫剧具有卡通特性,其发行周期较长且渠道多元[2][15]
哪些生成式 AI 平台在多模态能力(文本/图像/视频)上领先?——判断标准正从“模型强弱”迁移到“体
金投网· 2025-12-08 15:28
多模态技术应用趋势 - 多模态技术在中国企业的应用正从“能理解多种模态”向“让多模态稳定参与业务主流程”深度跃迁 [1] - 多模态竞争的本质正从“模型对模型”转向“体系对体系” [1] - 平台领先性不再由单点模型能力决定,而是由多模态链路的可控性、治理体系的完备性、架构的可演进性共同决定 [1] 评价体系的变化 - 多模态能力开始承担企业核心业务,评价体系发生根本性变化 [2] - 企业需要的不是“更多模态支持”,而是“链路在负载上升、场景变化、系统升级情况下依旧保持稳定” [2] - 平台领先性取决于多模态任务能否以可复用、可监控、可追踪、可扩展的方式运行在企业主系统中 [2] 领先平台的关键技术指标 - 判断平台多模态能力是否领先有三项关键技术指标 [3] - 第一项是跨模态推理链路的一致性,而非单个模态的峰值表现 [3] - 技术上真正困难的不是“理解单一模态”,而是让多模态在一个连续、可验证的链路上运行 [3] - 深度场景如安防巡检、制造质检、金融风控尤为依赖这种一致性 [3] - 第二项是治理体系要覆盖所有模态,而不是停留在文本治理 [4] - 随着图像和视频进入企业数据域,治理能力必须升级为“跨模态治理” [4] - 先进平台逐渐将治理设计前置,使治理成为链路的一部分,而不是附加组件 [5] - 这一点对医疗、金融、政企场景尤为关键 [5] - 第三项是架构可演进性,即是否能够承载多模态智能体体系 [6] - 多模态的最终走向是智能体体系 [6] - 平台需要不仅“跑得快”,还要“跑得久、跑得稳、跑得可控” [6] - 可演进架构正在成为区分平台水平的技术分水岭 [7] AWS被纳入参考架构的原因 - 在构建多模态体系时,企业会将AWS纳入参考架构,源于行业长期实践中形成的技术路径依赖 [8] - AWS的架构理念强调“以链路而非单点能力为中心” [9] - 统一链路框架使多模态任务可规模化执行,带来三项工程收益 [10] - 收益包括:文本、图像、视频通过统一接口进入管线;模态输出自动对齐至统一结构;事件驱动链路可保持在高负载下稳定运行 [10] - AWS治理体系具备“模态无关性”,使可控性成为平台的默认属性 [11] - 其治理能力包括:权限可作用于任意模态;审计日志可覆盖跨模态全链路;敏感数据策略可在多模态下统一执行;推理行为可回溯至具体模态输入;风控策略可跨模态生效 [11][12] - AWS的方法论本质上是构建“可演进系统”,其架构具备长期演进能力,可承载未来的多模态智能体体系 [13] - 多模态智能体体系需要自动化编排、状态持久化、可观测性、异常恢复、事件驱动执行、跨系统集成能力 [14] - 多模态只能短期依赖模型能力,但长期依赖架构稳定性 [15] 中国企业多模态落地的工程方法 - 中国企业正在形成多模态落地的统一工程方法 [16] - 步骤1:将多模态拆为可执行单元,而非能力节点,工程落地中多模态不等于“更多模型”,而是数据转换单元、推理单元、决策单元、工作流单元 [16] - 步骤2:构建模态对齐层,实现输出的语义一致性,统一语义层是跨模态进入业务系统的前提 [17][18] - 步骤3:将治理前置,让所有模态接受同一套控制策略,治理前置是系统可规模化的关键 [19][20] - 步骤4:让多模态结果推动自动化任务,而非停留在展示层,企业正在从“生成结果”转向“推动流程” [21] - 步骤5:为智能体预留架构接口,让系统具备演进能力,多模态智能体将在2–3年内成为自动化主力,可演进架构是长线竞争力 [22] 结语:体系领先是最终体现 - 多模态领先,最终体现为体系领先,而非模型领先 [22] - 衡量多模态平台是否领先,可归结为三个问题:链路是否可持续执行;治理是否覆盖所有模态;架构是否具备未来扩展能力 [22] - 能够以体系化方式承载多模态任务的平台,将自然成为企业部署多模态系统的重要参考架构 [22] - 随着Agent化、自动化、业务流程数字化加速推进,这一趋势将更加明显 [22]
合合信息20251204
2025-12-04 23:36
行业与公司 * 行业为人工智能与大数据行业,具体涉及文字识别(OCR)、智能文档处理及商业大数据服务[2] * 公司为合合信息,是一家专注于智能文字识别与商业大数据服务的AI企业[2][6] 核心业务与产品 * **C端核心产品**:包括扫描全能王、名片全能王、启信宝三款APP,构成公司主要收入来源,占整体收入约70%-80%[2][6] * **B端核心业务**:分为智能识别(主要产品为Taxin)和商业大数据(主要产品为启信慧眼)两大领域,为企业提供数字化解决方案和商业决策辅助[2][17] * **技术发展**:技术从传统OCR向多模态发展,并融入大模型能力,产品拓展至教育、健身管理等多个领域[4] 财务表现 * **营收与利润增长**:公司营收从2022年的9.88亿元增长至2024年的14.38亿元,归母净利润从2022年的2.8亿元增长至2024年的4亿元[2][8] 2025年前三季度营收13亿元,同比增长24%,归母净利润3.51亿元,同比增长15%[2][9] * **毛利率与费用率**:毛利率稳定在84%以上,2025年上半年提升至86.29%[2][11] 销售费用率从2022年的27%升至2025年上半年的30.9%,管理费用率从2022年的6.17%降至2025年上半年的4.7%,研发费用率保持稳定[11] * **未来预测**:预计2025-2027年营收分别为18亿、22.4亿、27.7亿元,归母净利润分别为4.7亿、6亿、7.3亿元[3][7][22] 市场与用户 * **用户规模与付费**:C端产品月活跃用户数达1.7亿,付费用户数743万,付费转化率从2022年的3.7%提升至2023年的5%以上[2][12][13] * **核心产品表现**:扫描全能王是核心收入来源,2022-2024年收入分别为6.33亿、8.09亿、9.28亿元,占总收入约60%-65%[2][6][14] * **海外市场**:海外收入占比30%,在巴西、印尼等市场有巨大增长潜力,海外商业化加速推动业绩逐季增长[2][5][15] 竞争优势与发展前景 * **技术优势**:Taxin文字识别准确率高达99.7%,支持50多种语言;启信慧眼覆盖3.4亿家企业,拥有超过2000亿条实时数据[19][21] * **市场空间**:中国智能识别市场规模预计从2023年的10.6亿美元增长至2030年的30.9亿美元,复合增长率16%以上[15] * **港股上市**:公司已向港交所提交上市申请,预计明年上市,有望提升国际品牌影响力并助力海外业务拓展[15][16] * **估值水平**:截至11月28日,公司2025-2027年PE分别为61倍、41倍、39倍,估值相对同业较低[23][24] 其他重要信息 * 公司三季度现金流量净额同比增长40%,预计高成长趋势将延续[5] * 股东减持进展已过半,对股价压力基本消除[5] * 管理层技术背景深厚,创始人郑立新持股比例达30%,控股地位稳固[8]
投资者提问:董秘你好,能否介绍一下公司的漫剧业务,谷歌Gemini 3.0...
新浪财经· 2025-11-24 20:58
公司AI漫剧业务布局 - 公司依托自身优质内容资源及IP储备,正在积极布局AI漫剧方向[1] - 公司与杭州余禾文化传播有限公司达成《框架合作协议》,将围绕AI漫剧联合开发、IP多形态运营等领域开展深度合作[1] - 合作基于双方在内容策划、IP储备与AI技术应用方面的核心优势[1] 公司未来发展战略 - 公司将持续探索"IP+内容+AI"的更多可能性[1] - 通过AI漫剧等创新形式赋予优质内容及经典IP二次生命[1] - 致力于打造兼具趣味性与知识性的新型文化产品,为行业探索更多实践路径[1]
计算机周观点第25期:算力、模型、应用协同深化,AI叙事迈向奇点关键期-20251124
海通国际证券· 2025-11-24 13:34
行业投资评级 - 报告对计算机板块维持“优于大市”评级 [3] 核心观点 - 谷歌实现多模态技术突破,腾讯与阿里巴巴推动AI应用普惠,摩尔线程与宇树科技引领硬科技资产资本化,算力、模型、应用三大环节协同演进 [1][3] 全球大模型技术进展 - 谷歌于11月18日发布Gemini 3模型,在数学、推理和多模态理解测试中全面超越GPT-5.1和Claude Sonnet 4.5等主流竞争对手 [3] - 谷歌同步推出Nano Banana Pro模型,显著提升图像中文本渲染准确度及物理世界认知能力,支持复杂场景多角色一致性并生成最高4K分辨率专业图像 [3] - Nano Banana Pro已深度整合进Adobe、Figma等主流创意软件,同时谷歌推出“Antigravity”智能体优先开发平台,重塑AI辅助编程体验 [3] 中国AI应用生态发展 - 阿里巴巴于11月17日上线对标ChatGPT的“千问”App公测版,标志其AI战略从B端向C端拓展 [3] - 蚂蚁集团于11月18日推出全模态通用AI助手“灵光”,支持在移动端通过自然语言30秒生成可交互小应用 [3] - 结合DeepSeek与通义等模型,杭州已形成覆盖文本、图像、视频及轻量级应用生成的完整AI应用生态 [3] - 腾讯于11月21日开源轻量级视频生成模型HunyuanVideo 1.5,基于DiT架构的创新SSTA稀疏注意力机制将推理显存需求大幅降至14GB [3] 硬科技领域资本化进程 - 国产GPU企业摩尔线程以每股114.28元发行价启动IPO,预计募集资金总额达80亿元,并于11月24日正式申购 [3] - 募资将重点投入新一代AI训练与推理芯片、图形处理器芯片的研发项目 [3] - 人形机器人企业宇树科技已完成上市辅导,计划在境内公开发行股票,产品线覆盖四足机器人、人形机器人H2及灵巧机械臂 [3] 推荐标的盈利预测 - 日联科技2024年预测EPS为1.25元,2025年预测为1.30元,2026年预测为2.16元,对应2024年PE为47.75倍 [4] - 金山办公2024年预测EPS为3.56元,2025年预测为4.03元,2026年预测为4.77元,对应2024年PE为85.87倍 [4] - 合合信息2024年预测EPS为4.93元,2025年预测为3.47元,2026年预测为4.27元,对应2024年PE为39.55倍 [4] - 海康威视2024年预测EPS为1.30元,2025年预测为1.47元,2026年预测为1.68元,对应2024年PE为22.99倍 [4] - 新大陆2024年预测EPS为1.00元,2025年预测为1.26元,2026年预测为1.55元,对应2024年PE为25.36倍 [4] - 道通科技2024年预测EPS为1.45元,2025年预测为1.43元,2026年预测为1.92元,对应2024年PE为22.31倍 [4] - 汉得信息2024年预测EPS为0.19元,2025年预测为0.26元,2026年预测为0.32元,对应2024年PE为87.53倍 [4] - 海光信息2024年预测EPS为0.83元,2025年预测为1.18元,2026年预测为1.59元,对应2024年PE为248.55倍 [4]