多模态
搜索文档
中金 | AI十年展望(二十五):视频生成拐点将至,成长性赛道迎中国机遇
中金点睛· 2025-08-01 08:09
技术路径演进 - 2024年OpenAI发布Sora后视频生成技术路径收敛至DiT(Diffusion Transformer)架构,取代了此前图像拼接、自回归扩散等混合路径[2][4] - DiT架构通过时空注意力联合建模实现89%的生成一致性,支持60秒长视频生成和多分辨率输入,物理模拟能力显著提升[7][11] - 仍存在自回归路径分歧,OpenAI GPT-4o和Sand AI采用自回归模型,认为其对长时间序列建模更合适[14] - 技术发展将沿两个方向延伸:端到端多模态大模型(如Google Gemini)和多模态理解生成统一架构(如DeepSeek Janus-pro)[16][17] 市场空间与格局 - 2024年全球AI视频生成市场规模约6亿美元,中期P端+B端市场空间有望达100亿美元[3][22] - P端市场中性测算空间32亿美元,基于1.6亿国内创作者和2亿海外创作者的付费渗透率假设[23][24] - B端市场中性测算空间94亿美元,主要来自广告、电商视频和影视行业的AI渗透[25][26] - 2025年竞争格局集中,快手可灵以20%市占率领先,Runway、海螺、爱诗等中国厂商占据主要份额[27][28] 中国厂商表现 - 中国公司在模型能力和产品力上超越海外,快手可灵2025年ARR超1.5亿美元全球领先[3][22] - 技术榜单显示字节Seedance、MiniMax海螺、快手可灵在文生视频和图生视频排名靠前[39][40][41] - 产品定位分化:可灵、海螺专注P端/B端专业用户;爱诗PixVerse、字节即梦主攻C端低门槛市场[45][48] - 商业模式以订阅制为主,高质量模式单秒定价进入0.4-2元区间,已触及创作者价格不敏感阈值[50][51] 技术应用与影响 - 视频生成已初步渗透影视、电商、广告场景,顶级动画电影制作成本从200万美元/分钟降至300美元/分钟[22][31] - 生成时长10秒内已满足多数需求,核心矛盾转向角色一致性和提示词理解能力[38] - 多模态技术重构内容生产流程,催生Prompt导演、审美把关人等新岗位,传统视频剪辑等职位面临转型[31] - 开源生态加速发展,快手Orthus、通义万相等开源模型推动行业技术民主化[19][37]
国产AI算力的“阶跃”时刻
观察者网· 2025-07-30 17:26
国产算力芯片生态发展 - 四家国产算力芯片领军企业创始人罕见同台对话 凸显行业协同趋势[1] - 阶跃星辰联合近10家芯片及基础设施厂商发起"模芯生态创新联盟" 首批成员包括华为昇腾、沐曦、壁仞科技、燧原科技、天数智芯等[3] - 上海企业在模芯联盟中占据半壁江山 2024年上海人工智能企业达24733家 较上年增长5.1% 新增注册资本1000万及以上企业104家[17][18] 阶跃星辰Step 3模型突破 - Step 3在国产芯片上推理效率最高达DeepSeek-R1的300% 在NVIDIA Hopper架构芯片上吞吐量提升超70%[3][6] - 采用多矩阵分解注意力机制(MFA) 较DeepSeek的多头注意力机制(MLA)降低键值缓存用量93.7% 对国产芯片更友好[11] - 模型开发阶段主动适配国产芯片特性 在算术强度特性上与昇腾910B高度匹配[8] 多模态商业应用落地 - 阶跃星辰预计2024年全年营收达10亿元 对比智谱2024年收入约2-3亿元[13] - 多模态模型覆盖国内超一半头部手机厂商 与吉利合作实现端到端语音大模型首次量产上车[15] - 已发布十余款多模态模型 包括Step系列基础模型及语音、视觉理解、图像编辑等垂直模型[15] 硬件适配系统化创新 - 阶跃星辰将模型与硬件视为协同系统 在昇腾910B上解码效率超过华为盘古Pro MoE模型[9] - 模芯联盟旨在建立产品开发进度同步机制 未来可能提前获取芯片设计信息[12] - 国产芯片制程工艺和HBM性能相对落后 需在算法设计层面进行调整优化[8] 上海AI产业发展优势 - 上海坐拥中芯国际和华虹等主要晶圆厂 HBM所需先进封装产能多位于长三角[18] - 上海模速空间日均Token调用量突破100亿大关 基于3000卡沐曦GPU集群实现600小时不间断训练[18] - 上海国投先导人工智能产业母基金首投壁仞科技 生态体系将参与阶跃星辰最新融资[18]
WAIC|商汤首席科学家林达华:多模态是通向AGI的必经之路
中国经营报· 2025-07-29 22:57
人工智能发展趋势 - 人工智能的终极目标是构建能够与真实世界自主交互的真实智能 [1] - 大模型演进趋势是从语言模型向多模态能力发展 这是实现AGI的关键路径 [1] - 多模态模型已从简单嫁接发展到融合理解 并进一步延伸到思考层面 [1] 多模态模型技术进展 - 多模态模型在纯语言任务中表现优于纯语言模型 单独语言模型已无必要 [2] - 公司在"日日新"6.0前打通融合训练流程 发现预训练中段融合效率最高 [2] - "日日新"6.5实现融合思考能力 通过图文交错生成新图形启发思考 [2] - 公司是国内最早开展多模态融合且技术成熟的企业 起步早于同业 [2] AI技术变革机会 - 通用AI模型具有自主性强、通用性高的特点 能完成复杂工作 [3] - AI将重塑软件构建方式 使普通人无需专业语言就能开发软件 [3] - AI将改变办公模式 提升办公效率 变革生产力 [3] - 未来交互将无处不在 智能硬件能像伙伴一样贴心回应需求 [4] 具身智能布局 - 公司进军具身智能领域是为了实现数字与物理空间的连接 这是到达AGI的重要一步 [5] - 公司在计算机视觉和多模态模型领域的技术积累为具身智能提供了基础 [5] - 世界模型结合多模态基座积累与端到端闭环反馈 已成功应用于自动驾驶模块训练 [6] - 具身智能市场快速成长 公司希望凭借技术优势占据市场重要位置 [6] 研发与商业平衡 - 公司强调研发要与最终商业愿景对齐 通过商业落地校正科研方向 [6] - 基础模型投入需支撑业务 形成关键闭环逻辑 [6] - 具身智能和基础模型并非完全分割资源 额外投入相对可控 [6]
AI推理算力需求即将爆发,深圳云天励飞加注推理芯片
新浪财经· 2025-07-29 10:53
行业趋势 - AI推理芯片成为人工智能行业新方向 云天励飞宣布全面聚焦该领域 围绕边缘计算 云端大模型推理和具身智能三大场景 [1] - AI正从训练时代迈入推理时代 推理算力需求将迎来爆发式增长 2025年成为人工智能发展重要转折点 大模型技术达到新成熟高度 模型调用成本显著降低 [1] - 三大增量助力推理算力需求加速 包括互联网大厂加速AI与原有业务结合 Agent和深度思考推理结合 多模态加速渗透 [2] - AI将全面重塑各类电子产品 包括智能穿戴设备 家用电器和电动汽车 设备将具备主动工作能力 实现人性化交互和功能跃升 [2] 公司战略与产品 - 云天励飞开发四款AI推理芯片 包括DeepEdge10C DeepEdge10标准版 DeepEdge10Max和DeepEdge200 [3] - DeepEdge10系列芯片面向边缘人工智能 核心定位满足边缘端千亿参数大模型部署需求 支持Transformer BEV CV大模型和LLM大模型等主流模型 [3] - 芯片采用算力积木架构 通过D2D Chiplet技术和C2C Mesh技术 覆盖8T-256T算力需求 实现7B至671B参数量大模型推理 [4] - 架构实现算力纵向拓展 单个封装最多集成8个算力积木 形成128T推理算力的单芯片成果 [4] - 通过C2C Mesh技术实现算力扩展 将多个节点连接形成更大规模算力池 支撑MoE架构大模型推理 [5] 技术突破与适配 - DeepEdge10芯片平台成功适配DeepSeek R1系列模型 QwQ-32B模型及国产鸿蒙操作系统 [5] - DeepSeek R1采用GRPO强化学习策略 专门优化数学推理任务 减少计算资源消耗 实现更低成本 [1] - DeepSeek R1模型价格仅为OpenAI o1模型的几十分之一 具有极高性价比优势 [1] 财务表现 - 云天励飞2024年营收增长81% 今年一季度增速提升至160% [5] - 管理层预计下半年随着AI推理算法迭代 算力需求攀升和应用拓展 将继续保持高速增长态势 [5] 市场前景 - AI推理芯片市场仍处于蓝海阶段 市场规模较数千亿美元训练芯片市场仍较小 [3] - 预计未来三至五年内 AI推理芯片增长速度将大幅超越训练芯片 [3]
AI吸纳全球53%的风险投资!启明创投发布AI十大展望
第一财经· 2025-07-28 14:01
行业投资趋势 - 2025年上半年AI初创企业吸纳全球53%风险投资资金 成为最热门投资领域 [1] - AGI产业处于快速发展阶段 技术性能提升和成本下降推动大规模应用落地 [1] - 投资人持续加码AI基础模型公司 大模型领域保持高速增长 [1] 技术发展预测 - 200万Token上下文窗口将成为顶级AI模型标配 上下文工程成为核心驱动力 [4] - 通用视频模型有望1-2年内出现 推动视频内容生成与交互革新 [4] - AI芯片领域将出现更多国产GPU批量交付 3D DRAM堆叠等新技术崭露头角 [5] - Token消耗量将提高1-2个数量级 集群/终端/软硬协同优化成为降成本关键技术 [5] AI应用场景演进 - AI Agent将从"工具辅助"升级为"任务承接" 首批"AI员工"将参与企业核心流程 [4] - 多模态Agent在医疗/金融/法律行业突破 融合视觉/语音/传感器进行复杂任务执行 [4] - AI交互范式转移加速 语音等自然交互方式推动AI原生超级应用诞生 [5] - 垂直场景AI应用采用"Go Narrow and Deep"策略 与大厂形成差异化竞争 [6] - AI BPO模式转向"按结果付费" 在金融/客服/营销等标准化行业快速扩张 [6] 具身智能发展路径 - 具身智能机器人将优先在拣选/搬运/组装场景实现规模化部署 [6] - 规模化部署需达到上千台机器人 形成"模型-本体-场景数据"闭环飞轮 [7]
AI吸纳全球53%的风险投资!启明创投发布AI十大展望
第一财经· 2025-07-28 13:07
AI行业投资趋势 - 2025年上半年AI初创企业吸纳了全球53%的风险投资资金,占全球风险投资总额的一半以上 [1] - AGI产业处于快速发展阶段,技术性能提升和成本下降推动大规模应用落地 [1] - 投资人持续加码AI基础模型公司,表明大模型领域仍保持高速增长 [1] 技术发展展望 - 未来1-2年200万Token上下文窗口将成为顶级AI模型的标配,上下文工程成为核心驱动力 [3] - 通用视频模型有望在1-2年内出现,推动视频内容生成与交互革新 [3] - AI芯片领域将出现更多国产GPU批量交付,新一代AI云端芯片采用3D DRAM堆叠等技术 [4] - AI推理成本过去两年降低100倍以上,未来Token消耗量将提高1-2个数量级 [4] AI Agent发展 - AI Agent将从"工具辅助"升级为"任务承接",首批"AI员工"将参与企业核心流程 [4] - 多模态Agent将融合视觉、语音等输入,在医疗、金融等行业实现突破 [4] AI应用变革 - AI交互范式将加速转变,自然交互方式推动AI原生超级应用诞生 [5] - 垂直场景AI应用潜力巨大,初创公司采取"垂直深耕"策略与大厂差异化竞争 [6] - AI BPO模式将在金融、客服等行业实现商业化突破,采用"按结果付费"方式 [6] 具身智能发展 - 具身智能机器人将率先在拣选、搬运、组装场景实现规模化部署 [8] - 规模化部署需要上千台机器人落地,形成"模型-本体-场景数据"闭环 [8]
对话商汤联创林达华:多模态是AGI的必经之路,是不可缺少的部分
新浪科技· 2025-07-28 12:24
公司动态 - 商汤科技在2025世界人工智能大会期间发布"悟能"具身智能平台 该平台以具身世界模型为核心引擎 依托商汤大装置提供端侧和云侧算力支持 能为机器人 智能设备提供感知 视觉导航及多模态交互能力 [1] - 商汤科技联合创始人表示 多模态是AGI的必经之路 公司在计算机视觉领域积累多年 拥有多模态模型和AI技术 并与硬件公司有广泛合作 在智能驾驶过程中积累了模型应用和控制技术体系 [1] - 公司旗下拥有元萝卜机器人及绝影等机器人及智驾业务 同时通过国香资本重点投资具身智能赛道 被投企业包括银河通用 众擎机器人 钛虎机器人 鹿明机器人等 [1] 行业趋势 - 具身智能市场正在快速成长 商汤科技希望从商业角度捕捉这一机会 公司认为其多模态大脑与具身智能相结合 在世界模型上的积累将形成重要竞争优势 [1] - 具身智能领域近期融资活跃 商汤投资的银河通用获得宁德时代参投的11亿元新一轮融资 众擎机器人完成近10亿元融资 [1]
大模型六小龙底牌对决
第一财经· 2025-07-28 11:33
行业格局与竞争态势 - AI领域将存在多个玩家长期共存 不同公司价值观塑造模型差异化特点 开源模型影响力提升且逼近闭源模型性能 [1] - 2024年成为基座模型分水岭 市场玩家数量收缩至个位数 头部大厂与少数创业公司留存 幸存需具备AGI使命感/高人才密度/强融资能力 [2] - 国内大模型技术差异度不足 产品切换成本低导致竞争惨烈 兼容OpenAI API标准加剧同质化 [7] 企业动态与战略分化 - 智谱即将发布GLM-4.5多模态模型 同步推出C端陪伴型AI产品 软硬件均规划付费业务 推进A股+港股双上市 [4][8] - 月之暗面发布K2基座模型后 将推出同规模推理模型 技术重点转向智能体任务调度 港股上市面临仲裁风险 [5][8] - 阶跃星辰展示端到端语音大模型车载应用 成立"模芯生态创新联盟"联合国产芯片厂商 预估年营收10亿人民币 [5][8][15] - MiniMax侧重To C应用而非纯基础模型 同步筹备A+H股上市 百川智能转型医疗 零一万物聚焦B端产业落地 [8][11] 技术演进与AGI路径 - 大模型进入1.0模仿学习→2.0强化学习阶段 技术迭代导致部分公司掉队 [9] - AGI发展存在两大路径争议:单一超级智能系统 vs 多模型多代理架构 MainFunc指出专业模型+Agent组合是关键 [13] - 多模态成为AGI必由之路 智谱采用MoE结构 阶跃星辰发布Step-3多模态模型 强调基础研发与商业化分层融合 [15] 商业化与生态建设 - 创业公司差异化路径包括To C出海/To B服务/产业资源对接/多模态发展 头部企业启动上市筹备 [8] - 行业尚未建立稳固竞争壁垒 技术窗口期需转化为数据闭环护城河 阶跃星辰强调应用落地形成数据飞轮 [16] - 投资热点从基础模型转向具身智能 宇树机器人等硬件厂商关注度超越大模型展台 [5]
WAIC2025前沿聚焦(3):商汤日日新6.5重塑AI生产力
海通国际证券· 2025-07-28 07:33
行业投资评级 - 报告未明确提及对商汤科技或AI行业的投资评级 [1][2][3][4][5] 核心观点 - 商汤科技CEO徐立系统回顾AI技术发展的三大阶段:视觉AI爆发、自然语言处理、多模态和生成式AI时代 [1][2] - 当前AI发展核心命题是"智能从哪里来",从依赖人工标注数据转向多模态数据融合 [2][13] - 多模态思维链通过结合视觉感知与自然语言处理,显著提升AI推理能力和现实世界理解力 [2][13] 技术突破 - 日日新SenseNova 6.5模型实现"多模态长思维链"构造能力,80%通过自动化数据飞轮生成 [3][14] - 新模型预训练数据量增加20%,推理吞吐量提升35%,推理成本降至原先30%,综合性价比提升3倍以上 [3][14] - 模型能模拟人类复杂问题解决路径(如识别图中球员需多步骤分析),自动调用图像检测等外部工具 [3][14] 商业化创新 - 突破"工具陷阱":从生产力工具转向直接产出结果的生产力,用户为结果付费而非过程 [4][15] - "小浣熊"智能助手实现端到端复杂任务处理:解析混合Excel/PDF/视频截图,生成结构化PPT/文档 [4][15] - 行业专属版本覆盖金融、教育等领域,定位为可独立完成任务的"数字员工" [1][12] 战略布局 - 推出"悟能"具身智能平台,整合视觉感知、导航和智能交互能力赋能机器人产业 [5][16] - 平台特点:端侧芯片实时识别复杂场景,适配自动驾驶技术实现机器人精准导航 [5][16] - 推动机器人从"交互工具"升级为"交互伙伴",具备任务理解、内容生成和幽默互动能力 [5][16]
晚报 | 7月28日主题前瞻
选股宝· 2025-07-27 22:45
无人驾驶 - 上汽智己汽车和上汽友道智途获颁上海市新一批智能网联汽车示范运营牌照,上汽集团成为行业唯一一家获得乘用车和商用车领域"双牌照"的企业[1] - 新牌照落地将推动L4级自动驾驶技术大规模商业化应用,国内中高阶智驾渗透率2025年有望翻倍,带动350亿增量市场[1] - 智能化路侧基础设施主要包括路侧通信单元、路侧计算单元、路侧感知设备等,车路云一体化智能网联汽车产业聚焦四大领域[1] 多模态 - OpenAI计划8月推出GPT-5,包含O3推理能力并整合多模态技术,可能引入视频等新输入形式[2] - GPT-5将提升自然语言处理精度与效率,推动国内厂商如百度文心、阿里通义加速技术迭代[2] 农产品 - 十部门联合印发《促进农产品消费实施方案》,提出"百名主播+千个乡村+万种产品"公益助农促销等活动[3] - 预计2030年农产品消费市场规模突破8.5万亿元,深加工产品占比达38%,冷链物流损耗率降至8%以内[3] 锰 - 内蒙古、宁夏、山西锰系铁合金企业达成共识:高、中、低、微碳锰铁节能减排30%,硅锰合金节能减排40%[4] - 加纳锰矿5-7月发运分别减少47%、58%、43%,雨季影响将持续到11月,锰硅主力合约大涨[4] 光学器 - 加州大学伯克利分校团队开发光学张量处理器HITOP,运算速度达每秒数万亿次,吞吐量0.98TOPS[5] - HITOP单位操作能耗比传统电子计算降低超100倍,解决光学计算系统可扩展性问题[5] 宏观行业 - 财政部数据显示2025年上半年证券交易印花税785亿元,增长54.1%[8] - 中国农药工业协会开展"正风治卷"三年行动,抵制低价无序竞争[8] 主题复盘 - 国产芯片板块涉及海立股份、阿石创等公司,清华团队开发出理想EUV光刻胶材料[11] - 东数西算/算力板块包括直真科技、延华智能等公司,人工智能大模型涉及新华传媒、汉王科技[11][12] - 雅江电站概念股因雅鲁藏布江下游水电工程开工(总投资1.2万亿)受关注,涉及西藏天路、西宁特钢等[12]