Workflow
世界模型
icon
搜索文档
中金:人工智能十年展望:2026关键趋势之模型技术篇
中金· 2026-02-11 13:58
报告投资评级 - 报告未明确给出具体的行业或公司投资评级 [2] 报告核心观点 - 回顾2025年,全球大模型在推理、编程、Agentic及多模态等能力上取得明显进步,但通用能力在稳定性、幻觉率等方面仍有短板 [2] - 展望2026年,大模型将在强化学习、模型记忆、上下文工程等方面取得更多突破,从短文本生成向长思维链任务、从文本交互向原生多模态演进,向实现AGI的长期目标更进一步 [2] 技术视角:模型架构优化与提升智能上限 模型能力:聚焦推理、编程、Agentic与多模态 - **推理能力**:2025年模型推理能力上限和思维链利用效率均得到优化,强化学习激励模型形成更长思维链解决复杂任务,“测试时计算”成为主流工程杠杆,模型学会并行思考与反思,并与工具调用结合形成“交错思维链” [17][18]。在MMLU-Pro测试中,头部模型如Gemini-3-Pro-Preview得分为90.5%,Claude-Opus-4.1为87.9%,GPT-5为87.1% [19] - **编程能力**:AI编程已进化为具备工程闭环能力的开发者代理,从代码补全到全栈自主构建。2025年约84%的全球开发者使用AI编程工具 [20]。在Code Arena测试中,Claude-opus-4-5-20251101-thinking-32k得分为1510,GPT-5.2-high为1478,Gemini-3-pro为1477 [22] - **Agentic能力**:核心技术突破之一是交错思维链的使用,使智能体能在思考与行动间高频切换,提升实时修正能力并降低幻觉。在HLE测试中,Gemini-3-pro-preview准确率为37.5%,GPT-5-pro为31.6%,GPT-5.2为27.8% [24][25] - **多模态能力**:图片生成在质量、理解与控制能力上实现大幅跃升,进入可控、可用、可规模化生产阶段。原生多模态架构(统一token化)普及,以Gemini-3为代表 [28]。在OpenCompass测试中,Gemini-3-Pro得分为66.4,Seed1.6-vision为61.1,Qwen3-VL-235B-A22B-Thinking为60.2 [30] - **能力差距**:国产大模型整体能力与海外头部模型维持约半年的静态差距,在海外模型推出3到6个月后,国内头部厂商能推出能力相当的模型并达到SOTA水准 [32][33] - **发展路径**:海外模型厂商追求模型智能上限,国内模型厂商在有限资源下通过开源路线、工程及算法优化追求效率与性能的平衡 [37] 模型架构:基于Transformer的优化延续 - **主流架构**:Transformer架构延续,优化聚焦于模型架构、算法和工程,以提升参数利用效率和模型智能潜力 [40] - **MoE架构**:平衡性能与效率的稀疏专家混合网络(MoE)成为共识,通常仅激活模型总参数的10-20%,显著降低计算量。国产模型如DeepSeek-V3.2、MiniMax-M2、Qwen-2.5均使用MoE架构 [41] - **注意力机制**:基于算法和工程优化提升效率,主要分为全注意力(Full-Attention,复杂度O(N^2))、线性注意力(Linear-Attention,复杂度O(N))和混合注意力(Hybrid-Attention)。模型厂商根据效果持续优化选择,如阿里千问深耕Linear-Attention,DeepSeek-V3.2引入稀疏注意力将计算复杂度降至O(Nk) [49][50] - **工程优化**:核心是降本提速与规模化生产,包括推理侧思考链工程化、实时路由机制、长上下文优化等。通过线性注意力、稀疏注意力、MLA内存优化等技术降低计算复杂度和显存占用 [54][55] 训练范式:预训练与强化学习 - **预训练 Scaling-Law**:预计2026年预训练阶段的Scaling-Law将重现,旗舰模型参数量将更上一个台阶。预训练通过算法和工程优化仍有提升空间,随着英伟达GB系列芯片成熟,模型将基于更高性能的万卡集群进一步突破智能上限 [3][61] - **强化学习重要性**:强化学习成为解锁模型高级能力的关键,其本质是“自我生成数据+多轮迭代”。海外模型厂商非常重视,国内厂商如DeepSeek、阿里千问也在跟进。预计2026年海内外模型厂商强化学习占比将进一步提升 [3][61] - **算力与数据基础**:强化学习需要大规模算力提供稳定性,并高度依赖高质量数据。高质量数据用于奖励模型训练和SFT冷启动 [62] - **算法演进**:强化学习路径从RLHF、PPO、DPO演进至推理导向的强化学习(如GRPO),并正从静态离线向动态在线演进 [64][66] 路线展望:持续学习、模型记忆与世界模型 - **持续学习与模型记忆**:旨在解决大模型“灾难性遗忘”问题,让模型具备选择性记忆机制,实现持续甚至终身学习。Google提出的MIRAS、Titans、Nested Learning、HOPE等算法和架构是落地的关键 [4][70] - **世界模型**:聚焦理解物理世界因果规律,是实现AGI的重要拼图。当前主要有三条技术路径:李飞飞团队World Labs的Marble模型(创建持久3D世界)、LeCun的JEPA架构(认知预测)、Google DeepMind的Genie 3(交互仿真) [87][90] - **短期与中长期焦点**:2026年模型厂商短期将聚焦强化学习和上下文工程,中长期围绕持续学习、模型记忆和世界模型等创新路线 [67] 回顾与展望:海内外头部大模型巡礼 OpenAI - **2025年进展**:在推理、Agentic、多模态、代码能力上全方位提升,发布了GPT-4.1、o4-mini、GPT-5、Sora-2等模型。开始探索商业化,如在ChatGPT中插入推荐广告,与软件厂商合作探索企业智能代理 [93] - **2026年展望**:预计将加速商业兑现,拓展企业端和广告市场,借鉴Cowork和Moltbot等企业端Agent案例打造新产品 [95] Gemini (Google) - **2025年进展**:Gemini-3的发布使Google跻身第一梯队,其原生多模态能力突出。Nano banana Pro图像生成模型具备空间推理和光影控制能力。商业化上更聚焦产品提效,Gemini月活达6.5亿,API每分钟消耗70亿tokens [98] - **2026年展望**:预计将延续原生多模态优势,推进Scaling-law,提升长链推理和端到端编程能力,并加速探索世界模型 [99] Anthropic - **2025年进展**:延续在编程领域的优势,发布了Claude Opus-4.5等模型,加强了代码与长任务处理能力。推出了面向开发者的Claude Code(ARR已突破10亿美元)和面向泛化用户的Cowork,探索企业Agent场景 [101][102] - **2026年展望**:预计将提升记忆能力,探索更多Agent泛化场景,让Cowork等产品具备“永久记忆”,成为理解用户的专属智能体 [103][104] 阿里通义千问 - **布局**:布局全模态模型矩阵,打开Agent市场空间 [105]
速递|冲刺“世界模型”:Runway获E轮3.15亿美金弹药,英伟达、Adobe共同押注
Z Potentials· 2026-02-11 12:08
融资与估值 - AI视频生成初创公司Runway完成3.15亿美元E轮融资,公司估值飙升至53亿美元,较之前水平近乎翻倍 [2] - 本轮融资由General Atlantic领投,参投方包括英伟达、富达管理与研究公司、AllianceBernstein、Adobe Ventures、未来资产、Emphatic Capital、Felicis、Premji以及AMD Ventures [4] 战略与资金用途 - 新资金将使Runway能够预训练下一代世界模型,并将其引入新产品和行业 [2] - 公司计划运用新资金将其约140人的团队在研发、工程和市场拓展等岗位进行快速扩容 [4] - 公司近期与CoreWeave签署协议以扩大算力规模,此举可能增强了投资者对其在算力密集型领域运营能力的信心 [3] 技术发展与产品 - Runway以具备物理感知能力的AI视频生成模型闻名,于去年12月发布了其首款世界模型 [2] - 世界模型是一种能够构建环境内部表征的人工智能系统,从而能够对未来事件进行规划,许多顶尖学者认为这类模型对突破大语言模型的局限至关重要 [2] - 公司最新视频生成模型Gen 4.5支持用户通过文本提示生成高清视频,并引入了原生音频生成、长视频生成、多镜头生成、角色一致性保持以及高级编辑工具等功能 [3] - Gen 4.5模型在多项基准测试中表现优于谷歌和OpenAI的视频生成产品,为Runway在人工智能行业赢得了重要信誉 [3] 市场定位与行业竞争 - Runway历史上在传媒、娱乐和广告行业建立了坚实的客户基础,包括近期与Adobe建立合作关系 [2] - 公司在游戏和机器人领域的应用正日益增长 [2] - Runway的战略转型正值世界模型研发竞赛白热化之际,竞争对手包括李飞飞创立的World Labs与Google DeepMind,两家机构近期均已向公众开放其模型 [2] - 公司将世界模型技术视为攻克医药、气候、能源及机器人等领域重大挑战的核心 [2]
22亿,黄仁勋苏姿丰联手,投了一家“世界模型”公司
36氪· 2026-02-11 11:05
公司概况与融资历史 - Runway成立于2018年,由三位纽约大学校友联合创立 [3] - 公司已累计筹集资金8.15亿美元(约合人民币56亿元) [5] - 最近一轮融资发生在2025年4月,规模为3.08亿美元(约合人民币21亿元),参投方包括软银、英伟达等,此轮融资后公司估值突破30亿美元(约合人民币207亿元) [5] 核心产品与技术进展 - Runway以视频生成产品闻名,于2025年12月发布了最新一代视频生成模型Gen-4.5 [5] - Gen-4.5能够生成电影级高逼真度输出,可渲染复杂场景及逼真的物理效果 [5] - 在AI文生视频模型性能排行榜(Artificial Analysis Text to Video Leaderboard)上,Gen-4.5目前排名第三,ELO评分为1,236,超过了谷歌Veo 3、OpenAI Sora 2 Pro、快手可灵2.5 Turbo等模型 [5][6] - 公司在Gen-4.5发布10天后,推出了通用世界模型GWM-1,旨在实现实时模拟现实,并做到交互式、可控、通用 [7] - GWM-1包含三个变体:用于可探索环境的GWM Worlds、用于对话角色的GWM Avatars以及用于机器人操作的GWM Robotics [7] 战略方向与行业竞争 - 公司宣布将新融资用于训练下一代世界模型,并计划将世界模型技术带到新的产品和行业中 [7] - Runway正致力于将许多不同领域和动作空间统一到一个基础世界模型之下 [7] - 世界模型赛道竞争激烈,参与者包括斯坦福大学教授李飞飞创办的World Labs和谷歌DeepMind等 [10] - 行业顶尖研究者认为,世界模型对于突破大语言模型的现有局限至关重要,因其能够构建环境内部表征并对未来事件进行规划 [10] 基础设施与合作伙伴 - 2025年12月,Runway与美国AI云服务提供商CoreWeave达成协议,以扩展其基础设施并扩大计算能力 [9] - 英伟达是CoreWeave的重要财务支持者、主要供应商与主要客户 [9] - 2025年1月,公司借助英伟达Rubin平台推进视频生成和世界模型技术,并且是首批在该平台上展示视频生成模型的团队之一 [9]
Runway完成3.15亿美元E轮融资,估值飙升至53亿美元,推动下一代AI世界模型
钛媒体APP· 2026-02-11 10:14
公司融资与估值 - 2026年2月10日,人工智能视频生成初创公司Runway完成3.15亿美元的E轮融资 [2] - 本轮融资后公司估值达到约53亿美元,较上一轮融资几乎翻倍 [2] - 融资由General Atlantic领投,NVIDIA、Adobe Ventures、AllianceBernstein、AMD Ventures、Fidelity Management & Research Company、Mirae Asset、Emphatic Capital、Felicis及Premji Invest等多家重量级投资者参与 [2] 资金用途与战略方向 - 计划利用本轮融资加速下一代“世界模型”的预训练与产品化进程 [2] - 世界模型是一类能够理解、预测并规划未来事件的AI系统,具备模拟现实世界环境的能力 [2] - 公司正从传统的媒体与广告领域扩展至游戏、机器人等更广泛的应用场景 [3] - 依托与CoreWeave的计算资源合作,持续扩充研发和市场团队,强化基础设施建设,提升模型训练与推理能力 [3] 技术产品进展 - 于2025年12月首次发布其世界模型 [3] - 近期推出了Gen 4.5视频生成模型,支持高分辨率视频的文本驱动生成,具备原生音频、多镜头生成、角色一致性及高级编辑功能 [3] - 正与谷歌DeepMind、李飞飞创立的World Labs等AI巨头展开直接竞争 [3] 行业趋势与市场潜力 - Runway的进展代表了生成式AI向更高层次智能演进的趋势 [4] - 世界模型通过构建对环境的深层理解和预测能力,突破了传统生成模型的局限,推动AI从被动响应向主动规划转变 [4] - 全球AI生成内容市场预计2026年将达到数百亿美元规模,世界模型技术的成熟将进一步催化这一市场爆发 [4] 技术应用前景 - 世界模型在医疗诊断、气候预测、能源管理及机器人控制等多个关键行业拥有颠覆潜力 [2] - 在医疗领域,具备世界模型的AI可模拟疾病发展路径,辅助个性化治疗方案设计 [4] - 在气候领域,可实现更精准的气象预测和环境风险评估 [4] - 在能源管理和机器人领域,则可通过智能调度和自主决策提升效率和安全性 [4] - 随着计算力成本下降和算法突破,世界模型有望成为智能体系统的核心引擎,推动自动驾驶、智能制造、虚拟现实等领域实现质的飞跃 [5] 行业影响与竞争格局 - 此次融资反映了资本市场对Runway技术实力和市场前景的高度认可,也凸显了AI世界模型作为下一代人工智能核心技术的战略价值 [3] - Runway的成功将激励更多创业公司和资本投入到AI基础模型和应用生态建设,促进整个行业的良性竞争与协同发展 [5] - 通过本轮巨额融资加速世界模型研发,Runway正站在AI技术革新的前沿,未来有望引领多行业智能化转型浪潮 [5] - 此次融资标志着AI世界模型技术进入快速商业化和规模化应用的新阶段 [5]
腾讯心动谷歌齐下阵,新一轮AI抢人大战开启
36氪· 2026-02-10 21:04
行业事件与市场反应 - 微信官方发布公告打击第三方诱导分享行为,并屏蔽了元宝红包链接,该话题登上热搜 [1] - 谷歌DeepMind的Genie3模型发布后,引发游戏行业震动,导致Take Two股价暴跌10%、Unity股价重挫27%、Roblox股价大跌13% [2] AI生成游戏工具的技术能力与现状 - Genie3目前生成的内容仅能维持一分钟左右,互动性局限于基本移动和视角转换,且无法导出为可复用的3D资产,本质上是一种“可交互视频” [4] - 该工具最基础的功能是图像生成三维场景,用户上传一张图片,AI即可自动构建完整的3D环境 [8] - 用户可以通过提示词实时修改生成的世界,例如在场景中添加“任意门”等元素,实现“所想即所见” [14] - 该工具现阶段并未向全民开放,访问门槛为每月250美元 [21] AI工具对游戏开发流程的潜在影响 - 对于99%的业余爱好者而言,Genie3提供了“手搓GTA”式的即兴创作乐趣,降低了游戏创作门槛 [6] - 对于专业开发,该工具能帮助策划快速验证想法,传统需协调多部门花费数天制作demo的流程,现在可能缩短至1小时内生成数十个可交互雏形,有助于节约早期沟通与试错成本 [23] - 尽管能快速生成demo,但将demo转化为完整、稳定、能被市场接受的成熟产品仍是主要挑战 [27] 行业竞争与国内探索 - 国内公司正积极布局AI生成游戏领域,心动公司发布了通过自然语言对话辅助创作游戏的Taptap Maker原型 [25] - 蚂蚁集团推出了与Genie3思路类似的“灵波”,聚焦生成可交互场景 [25] - 腾讯推出了“混元3D世界模型”,其优势在于能导出点云文件进行二次编辑 [25] 技术原理与行业意义 - Genie3等工具涉及“世界模型”概念,即AI能对虚拟环境的状态、变化与互动进行推演和生成 [28] - 其技术路径并非追求像素级还原真实物理规律,而是更接近游戏开发逻辑,即构建一个符合自身规则、能让玩家信服的世界 [28] - 与Sora等生成不可交互视频的模型相比,Genie3允许用户实时进入生成的世界并进行修改,在构建可互动虚拟世界上更进一步 [29] - 围绕Genie3的讨论,深层反映了行业对创作方式变迁的敏感,资本的反应是对趋势的试探与布局,而工具民主化为普通用户带来了新的创作可能 [32]
独家对话极映科技高鑫:我们为什么要做一个比Sora难10倍的物理世界模型?
新浪财经· 2026-02-10 20:40
行业趋势与资本动态 - 资本正就AI时代预测物理世界的能力重新定价达成共识,这体现在2025年7月新思科技以350亿美元收购仿真巨头ANSYS,以及同期PhysicsX、Neural Concept等AI工业软件公司完成1亿美元级融资 [2][3][74][75] - 在半导体、航空航天等关键领域,传统物理仿真范式效率低下,一轮复杂计算往往耗时数日,工程师大量时间被困在网格划分与参数调试中 [4][76] 公司概况与融资情况 - 物理世界模型公司极映科技连续完成了数千万元的种子轮及天使轮融资,种子轮由奇绩创坛投资,天使轮由元禾璞华领投,未来光锥跟投 [5][77] - 公司由三位技术老兵创立,团队积累了超过30年的物理仿真与软件研发经验,配置精准覆盖了对仿真要求最苛刻的半导体与航空航天领域 [6][78] 技术路径与核心创新 - 公司选择了一条更窄、更硬的路径:跳出传统流体、结构、热学等物理场割裂的体系,回归质量与能量守恒的底层定律,让AI直接学习偏微分方程的共性,以补上世界模型中缺失的物理内核 [8][80] - 相比传统仿真数值方法,公司的物理世界模型将反馈周期从“天”压缩至“秒”,响应速度百倍于传统仿真 [9][82] - 公司技术路线的本质是范式替换,即用神经网络直接完成物理求解过程,而非像传统仿真巨头那样仅将AI作为提升易用性的“副驾驶”或“使用助手” [52][125] 产品性能与验证 - 在FDA血流泵案例中,AI仿真与传统数值仿真的结果R²大于0.99,在统计意义上高度一致,具备一定程度的可替代基础 [30][31][103][104] - 公司最推荐的落地场景是设计方案的快速比选与筛选,可先用AI模型从上百种候选方案中快速筛选出三到五种更优方案,再用传统软件进行最终精细验证 [26][99] - 模型的速度优势主要来自神经网络前向推理的范式本身,而准确性则依赖于自研的模型架构和极高的数据质量 [33][106] 发展阶段与未来目标 - 公司模型正从1.0版本的小样本微调阶段,走向2.0版本的零样本通用阶段,2.0版本目标是覆盖90%以上的常见物理仿真场景,实现开箱即用 [38][39][111][112] - 创始人认为物理仿真领域目前大约处于GPT-3.0水平,公司计划在年底发布的2.0版本目标是将之推进到接近GPT-3.5的水平,迎来工程领域的“GPT-3.5时刻” [40][113] 商业化战略与进展 - 公司不将自己定义为“卖软件的公司”,而是提供仿真能力的基础设施,商业模式类似大模型,包括按次付费或API调用 [58][131] - 公司判断在仿真赛道盈利的时间窗口会明显早于通用大模型,原因是工业客户付费能力强、客单价高,且模型算力消耗远低于通用大语言模型 [59][60][132][133] - 商业化落地首选半导体行业,目前已经产生了一些收入,主要是按项目收取的验证费用,单价在几十万元量级 [62][135] 团队与竞争壁垒 - 公司的核心壁垒在于在“AI+物理仿真”方向上接近十年的认知和判断积累,这是难以被快速复制的核心资产 [54][127] - 跨学科的团队组合(AI与仿真背景结合)具备快速定位和判断问题的能力,支撑了公司在早期推倒重来、完全自研算法架构的关键决策 [50][123]
强化学习,正在决定智能驾驶的上限
36氪· 2026-02-10 12:45
文章核心观点 - 智能驾驶行业正从概念验证阶段进入工程化落地阶段 技术路径的博弈结果取决于技术范式、工程约束与现实场景的融合[1] - 行业共识是强化学习正从“技术选项”变为“必选项” 被认为是决定智能驾驶能力上限的底层能力[7][9] - 智能驾驶的训练体系正从依赖模仿学习转向结合强化学习 模仿学习确保安全基础 强化学习实现策略进化与能力提升[21][25] - 强化学习的有效应用高度依赖精心设计的奖励函数和高质量的世界模型 这两者是提升系统“含模量”和智能水平的关键[30][41][49][60] 技术路径演进 - 行业早期依赖模仿学习 通过让AI学习人类驾驶数据来快速获得稳定、安全的驾驶能力 但上限受限于数据质量且难以应对未知场景[11][14][16] - 强化学习通过试错和最大化长期奖励进行学习 能让AI超越人类经验 应对复杂博弈和极端长尾场景 是能力进阶的路径[17][19][20] - 端到端模型为强化学习铺平了道路 它将感知、理解、控制打包 让AI能完整接管驾驶任务 两者常组合使用[19] - 当前主流训练范式是结合两者:先用模仿学习将模型拉到“能安全跑”的水平 再用强化学习进行精修和策略提升[24][25] 强化学习的核心机制:奖励函数 - 奖励函数是将“开得好”具象化为机器可理解分数的关键 它定义了AI的驾驶风格与水平[30][31] - 行业普遍围绕五个核心指标设计奖励函数:安全、合规、舒适、效率、稳定性 其中安全是红线指标且权重最高[32][33][36] - 奖励设计需在矛盾目标间找到精妙平衡 例如安全与效率 并通过提供多种驾驶模式来满足用户个性化需求[32][34] - 奖励函数设计是“代码的艺术” 需避免AI“刷分” 通过过程密集拆解和分层控制来引导正确行为 并可能引入人类反馈偏好[37][38][39][41] 强化学习的进阶:世界模型 - 强化学习在智能驾驶中的工程应用可分为三层:调参型、策略型、以及基于世界模型的强化学习[43] - 世界模型是一个高度拟真的虚拟现实系统 它为强化学习提供了可信的“试错”环境 能大幅提升其训练效果和上限[48][49][53] - 世界模型让AI具备长时推演能力 可以训练长期最优策略 而不仅仅是当前最优解[50] - 世界模型与强化学习结合能形成进化飞轮:真实道路数据、世界模型造场景、强化学习练策略、实车验证 形成高速迭代循环[51][52] 行业竞争格局与关键变量 - 头部企业如理想、小鹏、Momenta等都在将资源向强化学习路线倾斜[5] - 华为、文远知行、英伟达等头部玩家正将世界建模与强化学习深度耦合 以构建更强大的智能系统[54] - 竞争维度正在变化:在高质量世界模型与生成式仿真加持下 合成数据能力提升 原始数据的边际价值下降 对世界规律的建模能力变得更为稀缺[56][57][58] - 系统“含模量”成为关键指标 即系统能力有多少是模型自我演化而来 世界模型与强化学习的耦合旨在提升“含模量”[60][61][62]
AI势不可挡:2026年模型升级有哪些预期差?
2026-02-10 11:24
纪要涉及的行业或公司 * AI(人工智能)行业,特别是大模型、多模态模型、世界模型(具身智能)及AI应用领域 [1] * 提及的海外公司:谷歌 [11] * 提及的中国公司:阿里巴巴、腾讯、字节跳动 [11] * 提及的行业:短剧、漫剧(文生视频应用)[8],医疗、司法、企业服务(To B高价值场景)[11],税务、工业、企业级服务(国内看好的To B方向)[12],IP、工具、内容分发(文生视频配套产业)[13] * 提及的产业链环节:AI算力、AI芯片、CPU、存储 [13][14] 核心观点和论据 AI模型技术演进路径与确定性提升 * 模型是AI产业的核心驱动力,2026年模型升级的原有范式(预训练)将继续向上,同时模型与场景融合将加速 [1] * 模型演进历程:2018年Transformer架构出现 -> 2022年ChatGPT引爆市场 -> 2023-2024年通过扩大参数量提升智力 -> 2024-2025年后训练(如指令微调、思维链)兴起,使模型更拟人化 -> 2024年后从文本向多模态演进 [2] * 2026年模型将迎来“世界模型”的新变革,对应未来物理AI(如机器人、具身智能)市场 [3] * 模型能力量化:当前文本模型平均分约80分,原生多模态模型综合能力约30-40分,未来多模态能力有望提升至80分 [3] * 模型每一次大规模商业化层级的开启(如文本、多模态、物理世界模型),都会带来10倍甚至更大的市场增量 [4] * 2025年4月AI行情调整主因是预训练数据遇到瓶颈,但后训练新范式(如post training, IL, COT)为AI发展续命 [5] AI商业化落地加速与关键场景 * 2026年AGI(通用人工智能)行业将进入“与环境交互”的年份,更复杂、高价值的场景将被开启,AI将进入“A进程元年” [7] * 过去制约AI的最大核心问题“如何落地和变现”将在2026年得到明晰答案,AI应用将迎来规模化、商业化爆发 [8] * **文本模态**:Coding(编程)场景因AI的泛化能力,已进化为可落地的变现应用,开启了市场对AI商业化的信心 [6] * **多模态(文生视频)**:2026年文生视频模型将迈入生产力工具阶段,开启多模态变现开端,复刻2025年Coding场景的商业化路径 [8][9][10] * 论据1:文生视频的时长和质量将迎来较大提升,从15秒向30秒甚至40秒迈进 [9] * 论据2:文生视频的编辑可操控性将因多模态模型对物理世界规则理解的加深而大幅提升 [9] * **To B高价值场景**:2026年海外医疗、司法、企业服务等场景将迎来大规模落地 [11] * 落地快的场景需具备条件:较好的数字化基础、明确的规则、高人力成本 [12] * 国内看好方向:税务、工业、企业级服务 [12] 投资建议与看好的方向 * **应用侧**: * **AI入口重构**:未来2-3年是AI to B/to C入口重构的黄金变革期,看好有模型云及入口先发优势的厂商,如谷歌、阿里巴巴、腾讯、字节跳动 [11] * **To B高价值场景**:看好医疗、司法、企业服务(海外),以及税务、工业、企业级服务(国内) [11][12] * **AI+视频**:文生视频将迎来商业化元年,带动从IP、工具到内容分发的配套产业链变革,大幅降低内容供给门槛,引发内容爆发 [13] * **算力侧**: * **AI算力**:应用推理开启后,推理需求可能是训练需求的3倍甚至10倍以上,将带动算力需求大幅增长 [13] * **CPU及存储**:未来在训练和推理范式上,CPU、AI芯片及存储环节将出现大规模新兴变化,建议积极关注 [14] 其他重要但可能被忽略的内容 * 分析师认为近期AI产业调整主因是:需求侧落地未见明显加速,以及海外宏观波动放大了AI板块的波动 [1] * 分析师所在机构(长江证券)联合长电科技举办了本次AI主题汇报 [14] * 分析师建议投资者不要因短期波动而丧失对AI产业长期进展的信心 [14]
投资者:产品必须围绕场景落地 三条技术路线并行竞速 各有瓶颈
每日经济新闻· 2026-02-09 23:10
行业核心观点 - 人形机器人行业已从表演展示阶段进入以“场景落地”和“创造真实价值”为核心的“实干”阶段,技术路线竞争白热化,但最终考验在于能否在具体场景中实现稳定、可靠、经济的长时间作业 [1][2][3][4][5] 行业现状与市场预期 - 2025年央视春晚宇树科技人形机器人表演带动行业热度,2026年春晚银河通用机器人作为指定具身大模型机器人将再次登台 [1][2] - 高工机器人产业研究所数据显示,2025年国内人形机器人出货量预计达1.8万台,较2024年激增超650% [2] - 2026年国内人形机器人出货量有望攀升至6.25万台 [2] - 行业已过“机器人会跳舞就能卖得好”的野蛮生长阶段,投资人更看重企业是否有成型产品和落地场景 [1][3] - 当前只有唱歌跳舞类娱乐机器人能实现稳定营收,整个行业仍处于“研发向工程转化”阶段 [12] 技术路线竞争 - **VLA(视觉语言动作)模型路线**:以Figure AI、智元机器人为代表,追求“通用智能”,通过端到端单一模型实现视觉感知、语言理解到动作执行,优势在于强大的语义理解能力,短板是计算开销大,对硬件续航、散热要求高 [6] - **世界模型路线**:以特斯拉为代表,在AI系统内部构建物理世界模拟器,让机器人预测自身行动后果,重度依赖高质量仿真数据以降低对真机数据的依赖 [8] - **分层决策与软硬件协同路线**:以波士顿动力、智元机器人为代表,将复杂任务拆解,由大模型负责语义理解与任务分解,传统算法负责定位、导航、精密控制等,优势在于故障易隔离、确保控制回路响应速度 [8] - 各技术路线并非相互排斥,需要协同发展,技术选型需综合考量部署环境、网络条件、算力支撑等现实因素 [8] 核心技术挑战与焦点 - **泛化能力**:提升机器人适应不同场景的能力是核心难题,VLA模型通过结合大型视觉语言模型和人类操作数据来提升理解和泛化能力,但面临数据昂贵、算力消耗大、执行速度慢等挑战 [9] - **数据质量**:数据的多样性和干净度至关重要,“脏数据”会严重破坏模型的泛化能力,提升AI操作系统的“下限”(如连续工作10小时不犯错)比展示“上限”更具技术难度和行业含金量 [10] - **算力与稳定性**:高频本地推理是保障机器人稳定性的核心,例如10赫兹的推理频率意味着微小扰动能在0.1秒内被处理,而2-3赫兹的频率会导致约0.4-0.5秒的延迟,影响任务成功率 [11] - **续航、稳定性、成本**是三条技术路线在量产前夜面临的残酷考验 [1][5] 应用场景与商业化路径 - **场景优先级**:工厂场景相对简单固定,商超场景复杂度高需识别数十万种商品,家庭场景是终极挑战但目前投入产出比不经济,商业场景(如零售仓拣货)正成为突破口,可提升运营效率30%-90% [13] - **市场需求**:用户诉求集中在降低生产成本、将人类从重复高危工作中解放、在文商旅领域提供情绪价值,希望选取具体场景实现高度闭环 [12] - **商业模式**:面向B端客户,与本体厂商、场景方开展联合共创,核心价值在于无需改造现有基础设施,能与人在同一环境中共存作业(如工厂白天人工作业,晚上机器人接手) [16] - **未来3至5年**是具体场景机器人落地的关键期,机器人价值在于补充劳动力,学习模仿老师傅的经验,即便当前效率仅为人类一半,但可在夜间、节假日工作 [12] 行业发展趋势 - **技术路线将逐渐收敛**:智能机器人硬件架构将逐渐统一化,软件架构可能形成“语义解析层-环境建图层-运动执行层”的三层解耦架构 [17] - **软硬件深度协同**成为优先方向,核心部件必须与算法深度适配,单纯进行部件组装的企业或将被淘汰 [17] - **数据闭环能力成为核心壁垒**:2026年各企业硬件差距将迅速收窄,真正的核心壁垒将是机器人在长时间作业中积累的非标环境作业数据 [17] - **国产化趋势**:2026年国产行星滚柱丝杠、高功率密度伺服电机逐步实现量产替代,结合国产零部件进行自研改造、集成优化成为趋势 [18] - **技术迭代速度**:机器人技术正以“月”为单位快速迭代,学界与产业界界限日益模糊 [17] 企业成功关键要素 - 企业必须深耕具体应用场景,技术、硬件、软件都必须和场景结合 [3] - 技术的先进性本身不能直接导致商业成功,最终必须回归商业本质,形成可交易的产品并产生销售额 [4] - 机器人“落地”考验技术与商业场景的百分之百适配,解决90%问题但剩下10%解决不了,整个场景就无法使用 [18] - 需综合考虑技术先进性是否匹配场景需求、稳定性与可靠性、外观设计与用户体验,以及整体解决方案能否在客户可接受的投入产出比范围内形成闭环 [18]
独家对话极映科技高鑫:我们为什么要做一个比Sora难10倍的物理世界模型?|甲子光年
搜狐财经· 2026-02-09 16:26
行业趋势与资本动态 - 2025年7月,半导体设计软件龙头新思科技以350亿美元收购仿真巨头ANSYS,成为工业软件史上最昂贵的交易[2] - 几乎同期,PhysicsX、Neural Concept等AI工业软件公司相继完成1亿美元级融资,显示资本在AI时代对预测物理世界能力重新定价的共识[3] - 在半导体、航空航天等领域,传统物理仿真一轮复杂计算往往耗时数日,工程师被困在网格划分与参数调试中,效率低下[4] 公司概况与团队背景 - 物理世界模型公司极映科技连续完成了数千万元的种子轮及天使轮融资,种子轮由奇绩创坛投资,天使轮由元禾璞华领投,未来光锥跟投[5] - 公司创始人高鑫为迈阿密大学博士、密西根大学博士后,联合创始人邱康(武汉大学博士)与李福华(清华大学博士)组成技术“铁三角”,团队积累了超过30年的物理仿真与软件研发经验,精准覆盖半导体与航空航天领域[6][7] - 公司选择回归质量与能量守恒的底层定律,让AI直接学习偏微分方程的共性,以构建物理上绝对成立的工业仿真模型,补上世界模型中缺失的物理内核[8] 技术路径与核心优势 - 相比传统仿真数值方法,极映的物理世界模型把反馈周期从“天”压缩至“秒”,响应速度百倍于传统仿真[9] - 公司跳出流体、结构、热学等物理场割裂的传统体系,从底层重构自研架构,让神经网络直接学习物理问题的映射关系,实现范式层面的降维打击[8][29] - 模型在FDA血流泵案例中达到R²>0.99的精度,意味着AI仿真和传统数值仿真在统计意义上高度一致,具备一定程度的可替代基础[33][34] - 速度优势主要来自神经网络前向推理的范式,而准确性依赖于自研的模型结构和严格质量控制的高质量数据[36] - 公司正从1.0版本的小样本微调,向2.0版本的零样本通用演进,目标覆盖90%以上的常见物理仿真场景,实现开箱即用[40][41] 市场定位与商业化 - 公司定位不是卖软件,而是提供仿真能力的基础设施,商业模式类比大模型,包括用户按结果付费或开发者调用API集成[61] - 商业化率先切入半导体行业,该行业对仿真依赖度高、痛点强,目前已有项目验证收入,单价在几十万元量级[65] - 公司判断其盈利窗口会早于通用大模型,原因在于工业客户付费能力强、客单价高,且模型专注于物理求解,算力消耗远低于通用大语言模型[62][63][64] - 公司对未来的资本路径持开放态度,无论是独立发展还是被产业方投资或收购,核心标准是看是否有助于技术的广泛应用[66][67] 应用场景与行业影响 - 当前最推荐的落地场景是设计方案的快速比选与筛选,先用AI模型从上百种候选方案中快速筛选出更优方案,再用传统软件进行最终精细验证,平衡效率与可靠性[28][45] - 技术引起了游戏行业如米哈游的关注,潜在应用包括在虚拟世界中构建可信的物理边界,未来在具身智能、机器人等领域可能成为提供物理约束的基础设施[10][69][71] - 物理仿真领域目前大约处于GPT-3.0水平,公司计划在年底发布的2.0版本目标将其推进到接近GPT-3.5的水平,届时工程创新将因仿真极大加速而迎来爆发[42]