世界模型（World Model） - 财报，业绩电话会，研报，新闻

世界模型（World Model）

搜索文档

AI叙事不断递进，阿里巴巴、中际旭创双双涨超2%！云计算ETF汇添富(159273)大涨超3%！机构：2026拥抱“AI+”投资主线！

搜狐财经· 2026-01-05 17:46

市场表现 - 1月5日，沪指加速上涨超1%，重返4000点，算力板块再度强势 [1] - 云计算ETF汇添富（159273）当日大幅收涨超3%，全天成交额超3000万元，环比放量33% [1] - 该ETF标的指数权重股多数收红，其中金山办公涨超6%，中际旭创、阿里巴巴-W、中科曙光涨超2%，浪潮信息、恒生电子涨近2%，腾讯控股微涨 [2] 机构观点：AI大模型发展趋势 - 复盘美股科技巨头过去三年股价走势，AI叙事不断递进 [4] - 2023年，OpenAI领先开启AI加速度，微软因独家合作受益，估值明显抬升 [4] - 2024年，市场叙事转向推理侧，认为应用公司最优，Meta因社交垄断生态和广告场景，成为除英伟达外PE唯一抬升的巨头；同年云厂商因资本开支大增但供给受限，收入传导延迟，三大CSP（云服务提供商）估值略有回落 [4] - 2025年，模型差距与OpenAI明显收敛，谷歌后来居上，生态优势受市场追逐 [4] - 展望2026年，Scaling Law将持续，模型厂商将打开差异化应用市场，模型推理侧需求或进入放量拐点，模型和算力或为最优投资方向 [4] 资本开支与算力需求 - 2025年北美四家科技巨头资本开支同比增长50%以上，从年初的3200-3300亿美元上修至年末接近4000亿美元 [5] - 测算2026年资本开支将持续实现30%以上增速 [5] - 巨额资本开支投入数据中心建设，可能面临电力瓶颈 [5] - 2024年北美数据中心容量约25GW，据Grid Strategies估计，至2029年的五年将新增80GW需求，但煤电退役、变压器建设周期长等因素可能导致电力缺口成为主要矛盾，算力能耗比成为关键考量因素 [5] 技术演进与架构发展 - 模型架构继续演化，Scaling law延续，多模态与长文本能力为Agent爆发提供基础 [5] - 2023年为Scaling law红利期，2024年多模态、推理模型涌现，2025年算法工程与Scaling Law并进 [5] - 下一代模型架构需解决两大核心痛点：训练阶段Transformer的计算量和内存消耗瓶颈；推理时模型的记忆能力有限且参数无法跟随记忆变化 [5] - 海外已有谷歌的Titans架构及Mamba架构，国内则从成本效率优化角度出发，如Qwen3-Next、DeepSeek V3.2取得明显提升 [5] - 预计2026年Scaling law仍将延续，强化学习将成为重点突破方向 [7] - 多模态、长文本能力更加成熟，为Agent涌现提供技术基础，目前中美模型差距在3-6个月，算力和算法是追赶关键 [7] 应用市场与需求变化 - 人工智能实际上打开了软件需求的天花板，据IDC数据，预计2029年全球SaaS市场将达到近1万亿美元规模，对比2025年的5800亿美元有明显增长 [7] - 市场玩家将重新洗牌，拥有数据壁垒、布局垂类细分场景、工作流程复杂或对准确度要求极高的行业（如医疗、能源、会计、安全）被大模型替代的风险较小 [7] - 大模型厂商开始通过与B端软件服务商合作开发行业需求，或与传统SaaS厂商产生直面竞争 [7] - 2026年推理侧需求有望爆发，一级市场中，编程场景、Agent爆发为主要应用方向 [8] - 当前规模增长较快的行业以AI编程、AI Agent、AI内容创作为主，聚焦生产力提升 [8] - 今年以来诞生多个爆款应用：AI编程软件Cursor年经常性收入已达到10亿美元，AI agent Manus在8个月时间年经常性收入达到1亿美元，AI Perplexity年经常性收入也已达到2亿美元 [8] - 随着模型能力成熟，2026年在端侧的AI手机、AI眼镜，以及协助大模型在企业落地的分销商领域将看到明显增长 [8] 公司动态 - 1月5日，阿里巴巴旗下高德已正式布局"世界模型"技术，并计划基于该模型推出全新产品应用，标志着其在空间智能领域的战略进一步深化 [6] 投资主线 - 华西证券认为，AI大模型的研发从侧重规模，到追求效率，再到追求推理能力，一切朝着更利于应用的方向不断发展 [8] - 2023年及以前，大语言模型发展遵循"Scaling Laws"，GPT-4的成功印证了该路径 [8] - 效率追求：传统Transformer架构的注意力机制存在二次方计算复杂度，限制了上下文长度扩展和模型实际部署，催生了对稀疏架构和新型注意力机制（如MoE架构、MLA注意力机制）的需求 [9] - 推理追求：单纯的规模扩张不能赋予模型多步骤逻辑推理能力，催生了思考模型（如CoT）的诞生 [9] - 智能体的诞生：模型基础能力、效率及推理能力的提升，为智能体的诞生奠定基础，智能体在传统大模型基础上引入了与外部工具和环境的交互 [9]

Artificial Intelligence

Artificial Intelligence

人形机器人的2025：一半是迷雾森林，一半是星辰大海

钛媒体APP· 2025-12-16 16:03

行业前景与市场预期 - 行业核心人物对前景极为乐观，英伟达创始人黄仁勋认为未来人形机器人数量将超过人类人口，二十年内每个家庭可能拥有多台 [2] - 特斯拉CEO埃隆·马斯克认为人形机器人业务未来价值可能超过特斯拉汽车和自动驾驶业务总和 [2] - 花旗分析师认为人形机器人投资回报周期可能非常短，部分机器人投资回收期估计短至36周，在家庭服务、老年照护及物流等领域潜力巨大 [15] - 宇树科技创始人王兴兴预测人形机器人的“ChatGPT时刻”（在80%陌生场景听懂指令并完成约80%任务）最快可能在1-2年内实现，最晚不超过3-5年 [14] 投资热度与市场表现 - 2025年前9个月，全球人形机器人领域投资交易额达到约70亿美元（约500亿人民币），同比增长250% [3] - 截至2025年12月16日，A股人形机器人概念板块整体涨幅为54.98%，远超大盘 [14] - 国家发改委数据显示，中国已有超过150家企业涉足人形机器人领域，其中超过一半公司成立于2023年至2025年之间 [17] - 多家头部公司正筹备上市，宇树科技、智元机器人及银河通用在2025年下半年完成股改，宇树科技已完成132天IPO辅导，预计2025年10-12月提交科创板上市申请 [16][17] 技术发展路径与挑战 - AI大模型的出现是人形机器人受关注的根本原因，其训练方式从传统人工编写方程转向基于数据和算力的强化学习，效率得到质的提升 [4][5] - 当前主流VLA（视觉-语言-动作）模型面临瓶颈，其训练所需的具身智能数据（连续、动态、三维/四维时空轨迹流）稀缺且复杂，制约能力跃升 [6] - VLA模型被指架构“傻瓜式”，训练新动作需从头开始，且行业尚未出现清晰的技术收敛路径（Scaling Law） [6][7] - 小鹏汽车创始人何小鹏质疑VLA模型中语言（L）环节造成信息损耗，提出应砍掉L环节，转向“世界模型”（V→A），但该路径同样未现清晰技术收敛趋势 [8] - 在完全自主智能（AGI）到来前，部分公司通过“遥操作”平台让机器人复刻人类动作执行任务，作为进入现实场景、采集训练数据的现实路径 [13] 订单与商业化现状 - 2025年出现多笔“亿元级订单”，优必选累计订单总额达13亿元，智元和宇树科技联合中标项目总预算1.2405亿元，马斯克向中国供应商抛出的核心零部件订单金额达6.85亿美元 [9] - 市场对订单性质存在质疑，摩根士丹利报告指出许多“大额订单”属于框架协议或意向订单，执行确定性较低，且可能存在关联方流转的“左手倒右手”情况 [10] - 高盛调研指出，供应链企业规划的年产能规模介于10万到100万台机器人等效单位之间，被其评价为“极其激进”，目前没有公司确认收到大规模订单或明确生产时间表 [10] - 高盛预测全球人形机器人到2035年的出货量仅为138万台 [10] - 行业存在对“伪需求”的担忧，担心当前量产由政策补贴和投资热度驱动，而非真实商业需求，可能导致行业进入低谷 [12] 行业推动与降温迹象 - 为降低使用与开发门槛，厂商推出创新模式，如智元联合发起全国首个机器人租赁生态联盟，提供金融方案与补贴政策，并推出无需编程的“灵创”平台 [12][13] - 行业已出现公司倒闭潮苗头，2025年11月，对标宇树科技的K-Scale Labs停止运营，该公司种子轮融资400万美元，估值达5000万美元；10月，国内具身智能创业公司一星机器人（OneStar）传出解散消息 [19] - 发改委相关部门负责人指出行业在技术路线、商业化模式等方面尚未成熟，需防范产品“扎堆”上市、研发空间被压缩等风险 [17]

自动驾驶之心· 2025-07-12 20:00

视觉大语言模型 - 文章汇总了视觉大语言模型（VLM）在自动驾驶和智能交通领域的最新研究资源和论文 [3][4] - 提供了多个开源项目链接，涵盖视觉语言模型的理论、应用和安全等方面 [3] - 列出了多个顶级会议（CVPR 2024、ICLR 2024等）的最新论文，涉及视觉语言模型的预训练、对齐和推理优化 [5][7] 迁移学习方法 - 总结了视觉语言模型在迁移学习中的最新进展，包括非自回归序列模型、公平性优化和高效微调方法 [7] - 提出了多种改进视觉语言模型迁移性能的技术，如动态视觉标记、上下文学习和检索增强对比学习 [7] - 涵盖了CVPR、ICLR、NeurIPS等会议的多篇论文，涉及模型架构优化和零样本泛化能力提升 [7] 知识蒸馏 - 讨论了视觉语言模型在检测、分割和多任务学习中的知识蒸馏技术 [8] - 未提供具体数据或论文细节，仅作为研究方向提及 [8] 世界模型 - 综述了自动驾驶中世界模型的研究，包括场景理解、未来预测和4D重建 [9][12] - 列出了多个创新模型，如HERMES、DriveDreamer4D和Vista，涵盖3D场景生成和可控视频预测 [9][12] - 提供了世界模型在自动驾驶中的全面调查和未来趋势分析 [12] 扩散模型 - 汇总了扩散模型在图像处理、视频生成和自动驾驶中的应用 [14][15] - 列出了多个开源资源和论文集合，涵盖图像恢复、3D视觉和推荐系统等领域 [14][15] - 提供了扩散模型在低层视觉、时间序列和多模态编辑中的最新研究进展 [15] 端到端自动驾驶 - 介绍了端到端自动驾驶的最新研究方向和论文资源 [16][19] - 提供了多个开源项目链接，涵盖感知、预测、规划和仿真等方向 [19] - 列出了CVPR、ICRA、NeurIPS等会议的相关研讨会和论文，涉及大规模基础模型和行为驱动驾驶 [19] 行业动态 - 提到自动驾驶行业有近4000人的交流社区，涵盖30+技术栈和300+公司与科研机构 [17] - 涉及感知、定位、规划控制等多个领域的技术方案和岗位发布 [17]

人工智能（Artificial Intelligence）

自动驾驶（Autonomous Driving）

Autonomous Driving

视觉语言模型（VLM）

世界模型（World Model）

端到端自动驾驶（E2E Autonomous Driving）

人工智能（Artificial Intelligence）

自动驾驶（Autonomous Driving）

Autonomous Driving

视觉语言模型（VLM）

世界模型（World Model）

端到端自动驾驶（E2E Autonomous Driving）

资料汇总 | VLM-世界模型-端到端

自动驾驶之心· 2025-07-06 16:44

视觉大语言模型 - 视觉大语言模型在智能交通和自动驾驶领域有广泛应用，相关资源包括Awesome-VLM-AD-ITS和Awesome-LLM-Inference等GitHub项目 [4] - 视觉语言模型的研究方向包括预训练、迁移学习、知识蒸馏等，涉及CVPR、ICLR、NeurIPS等多个顶会论文 [5][7][8] - 视觉语言模型的架构和推理策略有专门的研究，如Awesome-VLM-Architectures和Awesome-VLM-Inference-Strategies等项目 [4] 世界模型 - 世界模型在自动驾驶中的应用包括3D场景理解和未来场景生成，代表性工作有HERMES和DrivingGPT等 [9][10] - 2025年最新综述总结了自动驾驶中的世界模型研究现状 [10] - 世界模型在4D驾驶场景表示和规划中发挥重要作用，如DriveDreamer4D和DriveWorld等项目 [12][13] 扩散模型 - 扩散模型在自动驾驶视频生成和场景理解中有广泛应用，相关资源包括Awesome-Diffusion-Models等项目 [14] - 扩散模型在图像处理、视频编辑、3D视觉等领域都有专门研究，涉及多篇综述论文 [15] - 扩散模型与自动驾驶世界模型的结合是新兴研究方向，如DriveDreamer-2等项目 [13] 端到端自动驾驶 - 端到端自动驾驶研究涉及感知、预测、规划等多个环节，相关资源包括Awesome-End-to-End-Autonomous-Driving等项目 [21] - 端到端自动驾驶的最新进展在CVPR、ICRA、NeurIPS等顶会上有专门研讨 [21] - 端到端自动驾驶技术栈涵盖大模型、BEV感知、多传感器融合等30+方向 [19][21] 行业社区 - 自动驾驶行业有近4000人的交流社区，300+公司和科研机构参与 [19] - 社区覆盖30+技术方向的学习路线，从基础到前沿全面覆盖 [19] - 社区提供专业课程，涉及端到端自动驾驶、大模型、仿真测试等多个方向 [20][21]