多模态

搜索文档
中金 | AI十年展望(二十五):视频生成拐点将至,成长性赛道迎中国机遇
中金点睛· 2025-08-01 08:09
技术路径演进 - 2024年OpenAI发布Sora后视频生成技术路径收敛至DiT(Diffusion Transformer)架构,取代了此前图像拼接、自回归扩散等混合路径[2][4] - DiT架构通过时空注意力联合建模实现89%的生成一致性,支持60秒长视频生成和多分辨率输入,物理模拟能力显著提升[7][11] - 仍存在自回归路径分歧,OpenAI GPT-4o和Sand AI采用自回归模型,认为其对长时间序列建模更合适[14] - 技术发展将沿两个方向延伸:端到端多模态大模型(如Google Gemini)和多模态理解生成统一架构(如DeepSeek Janus-pro)[16][17] 市场空间与格局 - 2024年全球AI视频生成市场规模约6亿美元,中期P端+B端市场空间有望达100亿美元[3][22] - P端市场中性测算空间32亿美元,基于1.6亿国内创作者和2亿海外创作者的付费渗透率假设[23][24] - B端市场中性测算空间94亿美元,主要来自广告、电商视频和影视行业的AI渗透[25][26] - 2025年竞争格局集中,快手可灵以20%市占率领先,Runway、海螺、爱诗等中国厂商占据主要份额[27][28] 中国厂商表现 - 中国公司在模型能力和产品力上超越海外,快手可灵2025年ARR超1.5亿美元全球领先[3][22] - 技术榜单显示字节Seedance、MiniMax海螺、快手可灵在文生视频和图生视频排名靠前[39][40][41] - 产品定位分化:可灵、海螺专注P端/B端专业用户;爱诗PixVerse、字节即梦主攻C端低门槛市场[45][48] - 商业模式以订阅制为主,高质量模式单秒定价进入0.4-2元区间,已触及创作者价格不敏感阈值[50][51] 技术应用与影响 - 视频生成已初步渗透影视、电商、广告场景,顶级动画电影制作成本从200万美元/分钟降至300美元/分钟[22][31] - 生成时长10秒内已满足多数需求,核心矛盾转向角色一致性和提示词理解能力[38] - 多模态技术重构内容生产流程,催生Prompt导演、审美把关人等新岗位,传统视频剪辑等职位面临转型[31] - 开源生态加速发展,快手Orthus、通义万相等开源模型推动行业技术民主化[19][37]
WAIC|商汤首席科学家林达华:多模态是通向AGI的必经之路
中国经营报· 2025-07-29 22:57
人工智能发展趋势 - 人工智能的终极目标是构建能够与真实世界自主交互的真实智能 [1] - 大模型演进趋势是从语言模型向多模态能力发展 这是实现AGI的关键路径 [1] - 多模态模型已从简单嫁接发展到融合理解 并进一步延伸到思考层面 [1] 多模态模型技术进展 - 多模态模型在纯语言任务中表现优于纯语言模型 单独语言模型已无必要 [2] - 公司在"日日新"6.0前打通融合训练流程 发现预训练中段融合效率最高 [2] - "日日新"6.5实现融合思考能力 通过图文交错生成新图形启发思考 [2] - 公司是国内最早开展多模态融合且技术成熟的企业 起步早于同业 [2] AI技术变革机会 - 通用AI模型具有自主性强、通用性高的特点 能完成复杂工作 [3] - AI将重塑软件构建方式 使普通人无需专业语言就能开发软件 [3] - AI将改变办公模式 提升办公效率 变革生产力 [3] - 未来交互将无处不在 智能硬件能像伙伴一样贴心回应需求 [4] 具身智能布局 - 公司进军具身智能领域是为了实现数字与物理空间的连接 这是到达AGI的重要一步 [5] - 公司在计算机视觉和多模态模型领域的技术积累为具身智能提供了基础 [5] - 世界模型结合多模态基座积累与端到端闭环反馈 已成功应用于自动驾驶模块训练 [6] - 具身智能市场快速成长 公司希望凭借技术优势占据市场重要位置 [6] 研发与商业平衡 - 公司强调研发要与最终商业愿景对齐 通过商业落地校正科研方向 [6] - 基础模型投入需支撑业务 形成关键闭环逻辑 [6] - 具身智能和基础模型并非完全分割资源 额外投入相对可控 [6]
AI吸纳全球53%的风险投资!启明创投发布AI十大展望
第一财经· 2025-07-28 14:01
2025.07. 28 本文字数:1892,阅读时长大约3分钟 围绕时下最热门的AI Agent,启明创投预测,未来一到两年,Agent形态将从"工具辅助"走向"任务承 接",首批真正意义上的"AI员工"将进入企业,广泛参与客户服务、销售、运营、研发等核心流程,不 再仅作为助手存在,而是具备协同作业、主动反馈、承担OKR等能力,推动从成本工具向价值创造转 变。 作者 | 第一财经 刘晓洁 2025年上半年,AI初创企业吸纳了全球53%的风险投资资金,也就是说,在诸多投资细分领域里,AI 一个领域就占了全球一半的投资。这是7月28日上午在WAIC期间的启明创投·创业与投资论坛上,启明 创投主管合伙人周志峰公布的数字。 AGI产业又到了一个特别的产业发展的时间点。一方面技术还在往上快速增长,没有看到明显的天花 板。同时,由于技术的性能、成本等诸多方面变得更加可用,能够看到大规模的应用已开始落地。 从投资人角度,周志峰认为,做AI投资依然是累的,因为这是最热门的行业。还有越来越多的投资人用 真金白银投票,投入到AI基础模型公司中,这意味着,大模型依然在高速增长。 2024年启明创投发布了AI十大展望,包括Multi ...
AI吸纳全球53%的风险投资!启明创投发布AI十大展望
第一财经· 2025-07-28 13:07
AI行业投资趋势 - 2025年上半年AI初创企业吸纳了全球53%的风险投资资金,占全球风险投资总额的一半以上 [1] - AGI产业处于快速发展阶段,技术性能提升和成本下降推动大规模应用落地 [1] - 投资人持续加码AI基础模型公司,表明大模型领域仍保持高速增长 [1] 技术发展展望 - 未来1-2年200万Token上下文窗口将成为顶级AI模型的标配,上下文工程成为核心驱动力 [3] - 通用视频模型有望在1-2年内出现,推动视频内容生成与交互革新 [3] - AI芯片领域将出现更多国产GPU批量交付,新一代AI云端芯片采用3D DRAM堆叠等技术 [4] - AI推理成本过去两年降低100倍以上,未来Token消耗量将提高1-2个数量级 [4] AI Agent发展 - AI Agent将从"工具辅助"升级为"任务承接",首批"AI员工"将参与企业核心流程 [4] - 多模态Agent将融合视觉、语音等输入,在医疗、金融等行业实现突破 [4] AI应用变革 - AI交互范式将加速转变,自然交互方式推动AI原生超级应用诞生 [5] - 垂直场景AI应用潜力巨大,初创公司采取"垂直深耕"策略与大厂差异化竞争 [6] - AI BPO模式将在金融、客服等行业实现商业化突破,采用"按结果付费"方式 [6] 具身智能发展 - 具身智能机器人将率先在拣选、搬运、组装场景实现规模化部署 [8] - 规模化部署需要上千台机器人落地,形成"模型-本体-场景数据"闭环 [8]
对话商汤联创林达华:多模态是AGI的必经之路,是不可缺少的部分
新浪科技· 2025-07-28 12:24
公司动态 - 商汤科技在2025世界人工智能大会期间发布"悟能"具身智能平台 该平台以具身世界模型为核心引擎 依托商汤大装置提供端侧和云侧算力支持 能为机器人 智能设备提供感知 视觉导航及多模态交互能力 [1] - 商汤科技联合创始人表示 多模态是AGI的必经之路 公司在计算机视觉领域积累多年 拥有多模态模型和AI技术 并与硬件公司有广泛合作 在智能驾驶过程中积累了模型应用和控制技术体系 [1] - 公司旗下拥有元萝卜机器人及绝影等机器人及智驾业务 同时通过国香资本重点投资具身智能赛道 被投企业包括银河通用 众擎机器人 钛虎机器人 鹿明机器人等 [1] 行业趋势 - 具身智能市场正在快速成长 商汤科技希望从商业角度捕捉这一机会 公司认为其多模态大脑与具身智能相结合 在世界模型上的积累将形成重要竞争优势 [1] - 具身智能领域近期融资活跃 商汤投资的银河通用获得宁德时代参投的11亿元新一轮融资 众擎机器人完成近10亿元融资 [1]
大模型六小龙底牌对决
第一财经· 2025-07-28 11:33
行业格局与竞争态势 - AI领域将存在多个玩家长期共存 不同公司价值观塑造模型差异化特点 开源模型影响力提升且逼近闭源模型性能 [1] - 2024年成为基座模型分水岭 市场玩家数量收缩至个位数 头部大厂与少数创业公司留存 幸存需具备AGI使命感/高人才密度/强融资能力 [2] - 国内大模型技术差异度不足 产品切换成本低导致竞争惨烈 兼容OpenAI API标准加剧同质化 [7] 企业动态与战略分化 - 智谱即将发布GLM-4.5多模态模型 同步推出C端陪伴型AI产品 软硬件均规划付费业务 推进A股+港股双上市 [4][8] - 月之暗面发布K2基座模型后 将推出同规模推理模型 技术重点转向智能体任务调度 港股上市面临仲裁风险 [5][8] - 阶跃星辰展示端到端语音大模型车载应用 成立"模芯生态创新联盟"联合国产芯片厂商 预估年营收10亿人民币 [5][8][15] - MiniMax侧重To C应用而非纯基础模型 同步筹备A+H股上市 百川智能转型医疗 零一万物聚焦B端产业落地 [8][11] 技术演进与AGI路径 - 大模型进入1.0模仿学习→2.0强化学习阶段 技术迭代导致部分公司掉队 [9] - AGI发展存在两大路径争议:单一超级智能系统 vs 多模型多代理架构 MainFunc指出专业模型+Agent组合是关键 [13] - 多模态成为AGI必由之路 智谱采用MoE结构 阶跃星辰发布Step-3多模态模型 强调基础研发与商业化分层融合 [15] 商业化与生态建设 - 创业公司差异化路径包括To C出海/To B服务/产业资源对接/多模态发展 头部企业启动上市筹备 [8] - 行业尚未建立稳固竞争壁垒 技术窗口期需转化为数据闭环护城河 阶跃星辰强调应用落地形成数据飞轮 [16] - 投资热点从基础模型转向具身智能 宇树机器人等硬件厂商关注度超越大模型展台 [5]
WAIC2025前沿聚焦(3):商汤日日新6.5重塑AI生产力
海通国际证券· 2025-07-28 07:33
wo[Table_Title] Research Report 28 Jul 2025 中国电子 China (Overseas) Technology WAIC 2025 前沿聚焦 (3):商汤日日新 6.5 重塑 AI 生产力 WAIC 2025 Frontier Focus (3): SenseNova 6.5 Redefines AI Productivity 姚书桥 Barney Yao 吴叡霖 Louis Ng barney.sq.yao@htisec.com louis.yl.ng@htisec.com 热点速评 Flash Analysis 事件 2025 年 7 月 27 日,商汤科技举办了以"大爱无疆·模塑未来"为主题的大模型论坛。CEO 徐立发表主题演讲,回顾了 AI 技术发展的三大阶段,从视觉 AI 的爆发、自然语言处理到当前的多模态和生成式 AI 时代。他强调,视觉感知能力与 自然语言结合形成的多模态思维链将推动 AI 进一步发展,商汤推出了最新的日日新 6.5 模型,在多模态融合、推理性 能及性价比上有显著提升。此外,商汤还介绍了"小浣熊"综合智能助手,主打 AI 数字生产力,并推 ...
晚报 | 7月28日主题前瞻
选股宝· 2025-07-27 22:45
无人驾驶 - 上汽智己汽车和上汽友道智途获颁上海市新一批智能网联汽车示范运营牌照,上汽集团成为行业唯一一家获得乘用车和商用车领域"双牌照"的企业[1] - 新牌照落地将推动L4级自动驾驶技术大规模商业化应用,国内中高阶智驾渗透率2025年有望翻倍,带动350亿增量市场[1] - 智能化路侧基础设施主要包括路侧通信单元、路侧计算单元、路侧感知设备等,车路云一体化智能网联汽车产业聚焦四大领域[1] 多模态 - OpenAI计划8月推出GPT-5,包含O3推理能力并整合多模态技术,可能引入视频等新输入形式[2] - GPT-5将提升自然语言处理精度与效率,推动国内厂商如百度文心、阿里通义加速技术迭代[2] 农产品 - 十部门联合印发《促进农产品消费实施方案》,提出"百名主播+千个乡村+万种产品"公益助农促销等活动[3] - 预计2030年农产品消费市场规模突破8.5万亿元,深加工产品占比达38%,冷链物流损耗率降至8%以内[3] 锰 - 内蒙古、宁夏、山西锰系铁合金企业达成共识:高、中、低、微碳锰铁节能减排30%,硅锰合金节能减排40%[4] - 加纳锰矿5-7月发运分别减少47%、58%、43%,雨季影响将持续到11月,锰硅主力合约大涨[4] 光学器 - 加州大学伯克利分校团队开发光学张量处理器HITOP,运算速度达每秒数万亿次,吞吐量0.98TOPS[5] - HITOP单位操作能耗比传统电子计算降低超100倍,解决光学计算系统可扩展性问题[5] 宏观行业 - 财政部数据显示2025年上半年证券交易印花税785亿元,增长54.1%[8] - 中国农药工业协会开展"正风治卷"三年行动,抵制低价无序竞争[8] 主题复盘 - 国产芯片板块涉及海立股份、阿石创等公司,清华团队开发出理想EUV光刻胶材料[11] - 东数西算/算力板块包括直真科技、延华智能等公司,人工智能大模型涉及新华传媒、汉王科技[11][12] - 雅江电站概念股因雅鲁藏布江下游水电工程开工(总投资1.2万亿)受关注,涉及西藏天路、西宁特钢等[12]
中信智库报告:AI大模型呈现推理深化、智能体爆发格局
新华财经· 2025-07-27 22:18
AI大模型发展趋势 - AI大模型向更强、更高效、更可靠方向发展,呈现推理模型深化、智能体模型爆发的格局 [1] - 2025年是AI应用加速落地之年,本轮AI渗透较互联网时代大幅提速,B端落地进程或超预期 [1] - AI Agent将成为2025年AI发展的重要方向,具备数据优势、生态体系构建的企业更具发展潜力 [1] 多模态商业化进展 - 中国互联网企业在多媒体领域具有全球影响力,游戏、电影、短剧、短视频等领域是多模态落地的第一阶段 [1] - 随后在自动化装备、机器人、自动驾驶等产业也将快速渗透 [1] - 多模态商业化进展很快,B端应用落地进程或将远超预期 [1] 具身智能与人形机器人 - 具身智能大模型目前存在数据集不够、思考跟不上运动、缺乏生态等痛点,但未来将通过合成数据使用、模型迭代解决 [2] - 大模型快速迭代和供应链降本将加速人形机器人商业化落地 [2] - 人形机器人市场规模预计远超汽车、3C行业,带动丝杠、减速器、传感器、电机等相关产业链需求 [2] AI算力需求 - 推理需求将带动算力需求爆发,国内算力自主可控趋势凸显 [1] - AI算力消耗开始从训练走向推理,将带来显著的算力增量 [2]
具身智能迎来实力派!十年多模态打底,世界模型开路,商汤「悟能」来了
量子位· 2025-07-27 19:57
商汤科技具身智能平台发布 - 公司在WAIC 2025论坛正式发布「悟能」具身智能平台 标志着其入局具身智能领域[1][2] - 该平台是公司从感知视觉、多模态走向物理世界交互的必然结果 依托超过十年的行业落地经验积累[13] - 平台架构包含感知、决策与行动等多个层次 支持自动驾驶、机器人等具身场景的功能实现[27] 日日新V6.5多模态模型 - 新模型独创图文交错思维链 使图像以本体形式参与推理 跨模态精度显著提升[4][6] - 在MathVista等数据集上超越Gemini 2.5 Pro 如MathVista得分83.1 vs Gemini的80.9[8][9] - 相比6.0版本性能提升6.99% 推理成本降至30% 性价比提升5倍[10] 开悟世界模型技术特点 - 包含10万3D资产 支持多视角视频生成 最多11个摄像头角度并保持150秒时空一致性[16] - 支持参数化编辑 可一键变换天气、光照等环境要素[20] - 同时处理人、物、场信息 构建4D真实世界 融合第一与第三视角[21][23][25] 具身智能商业化路径 - 采取"软硬协同"路线 已与人形机器人、物流搬运等厂商达成合作预装模型[29] - 通过硬件销售积累视觉、语音和操作数据 形成正向数据飞轮[30] - 验证"通用大脑+场景闭环"双轮路径 多模态大模型与垂直应用相互促进[39] 行业痛点解决方案 - 通过虚拟环境合成99%数据 配合1%真机样本解决数据稀缺问题[32][33] - 同步生成并标定第一和第三视角数据 确保时空一致性 缩短仿真与现实落差[35] - 感知层多传感输入 决策层LLM+世界模型协同 行动层端到端控制形成闭环[34]