世界模型
搜索文档
世界模型和数字孪生的本质是什么?怎么赋能自动驾驶?
自动驾驶之心· 2025-12-29 09:07
世界模型与数字孪生概述 - 自动驾驶领域的研究离不开世界模型和数字孪生,核心目标是为感知模型构建虚拟训练环境并缩小其与真实世界的差距[5] - 世界模型的本质目的是理解世界动态并预测未来场景,所有研究路径均以此为核心共识[7] - 数字孪生的作用是在虚拟世界中定义自动驾驶车群的各个环节与要素,通过自由切换时空来低成本、高效率地研究关键技术,从而驱动现实世界技术的发展与落地[19] 世界模型的定义与发展 - 世界模型存在概念泛化问题,当前定义的核心是以视频为底座的“时空认知”,需要大量视频数据,游戏是重要的训练数据来源[7] - 研究分为两大分支:“内部表示”学派用潜在变量建模环境以辅助决策,“未来预测”学派生成真实视频并转向具身交互[7] - 具身环境的世界模型正从单纯模拟视觉动态,转向构建包含空间结构和物理交互的沉浸式环境,以为智能体提供全面学习平台[8] - 世界模型的发展历程包括:心理学起源(1971)、Ha等人首次系统构建(2018)、LeCun的JEPA框架(2022)、LLMs的隐性世界知识(2023)以及OpenAI的Sora实现显性模拟(2024)[10] 世界模型的核心要求与应用方向 - 世界模型需具备物理一致性、多尺度时空建模(从毫秒到分钟,从厘米到公里)以及因果推理能力[11] - 三大核心应用方向包括:作为基础模型的预训练方式、用于仿真和数据生成以补充真实数据不足、以及进行端侧推理以实现实时环境变化预测[11] - 在自动驾驶中,世界模型需要实时感知路况并准确预测其演变;在机器人技术中,则对导航、物体检测和任务规划等任务至关重要[11] 世界模型的技术路径与场景构建 - 3D高斯可能是最有前景的表征方式,但需解决核函数优化问题;神经辐射场(NeRF)与动态建模的组合也值得探索;分层建模可为不同目的服务[12] - 室内环境构建从纯视觉发展到多模态、社交交互及LLM驱动指令生成;室外环境构建早期通过检索3D资产,突破性进展包括使用3D生成模型构建可定制城市(如UrbanWorld)和程序生成的沙盒环境(如MineDOJO)[12] - 动态环境构建实现革命性转变,从静态预定义环境转向生成式模型实时动态模拟,代表工作有UniSim、Pandora和Streetscapes[12] 自动驾驶中世界模型的应用形态 - **学习隐式表示**:通过感知数据在潜在空间构建世界状态的抽象表征,将多模态输入转化为几何/语义空间以预测交通参与者未来轨迹与行为,技术演进从PointNet、CNN到Transformer多摄像头BEV融合及多模态LLM应用[16] - **世界模拟器**:直接生成车辆感知数据(如视频、3D占据网格)以模拟未来世界状态,传统几何空间模拟存在信息丢失、计算昂贵等局限,视频生成方案(如扩散模型GAIA-1/DriveDreamer)能直接生成逼真相机数据并支持文本控制[16] - 数据的表示形态包括图像/视频(如GAIA-1生成多视角驾驶视频)和BEV鸟瞰图(如BEVWorld统一感知-预测-规划)[16] 自动驾驶中世界模型的具体应用与车企落地 - 主要优势在于生成罕见场景(Corner Case),以降低实车路测成本,案例如MagicDrive3D实现可控3D场景生成,DriveDreamer-2用LLM增强多样性[17] - 支持端到端驾驶,如BEVWorld通过统一潜在空间整合感知、预测和规划,实现端到端优化[17] - 交通场景模拟可在几何空间、视频空间(基于扩散的视频生成模型)和3D空间(如OccWorld预测3D占据网格)中进行[17] - 车企落地情况:蔚来有NWM世界模型提供仿真闭环训练环境;小米有ORION框架集成仿真工具链;Wayve有GAIA-1生成式世界模型支持多模态条件[17] 数字孪生的层次与相关技术 - 数字孪生体现在多个层次:物理世界建模/数字化(将现实世界映射到虚拟空间)、模型迭代(利用虚拟环境数据训练感知模型)以及系统迭代(在仿真软件中研究系统并找出解决方案)[20][21] - 相关技术包括:3D占用网格(如OccSora)、点云预测(如Copilot4D预测雷达点云变化)、混合表示(如MaskGWM结合视频掩码重建)、利用LLM进行场景理解(如TOKEN将交通场景标记为对象级知识)以及运动预测(如Trajectron++预测多智能体轨迹)[22] 倾斜摄影三维重建流程 - 流程包括:图像预处理(畸变校正、曝光均衡)、空中三角测量(解算图像精确内外参)、密集匹配(生成高密度点云)、网格构建(生成三维几何网格模型)、纹理映射(生成纹理逼真的三维模型)以及模型优化与输出[23][24][25][26][27] MVSNET技术流程 - 流程包括:输入准备(接收多幅图像及相机参数)、特征提取(用CNN提取像素级特征)、代价体构建(计算特征相似度构建三维代价体)、代价体正则化(用3D卷积网络滤波)、深度图回归(计算深度概率分布生成深度图)以及后处理(优化深度图)[30][31][32][33] NeRF技术原理与演进 - NeRF用一个连续的体积函数表示3D场景,输入3D坐标和视角方向,通过训练神经网络预测点的颜色和密度,并使用体积渲染公式合成新视角图像[34][36] - 原始NeRF训练慢、渲染慢、内存占用大,后续改进包括:Instant-NGP+使用哈希编码将训练速度提升100倍;Mip-NeRF+解决抗锯齿问题;Block-NeRF+支持城市级大场景;D-NeRF+支持动态场景[37] - 与MVSNET区别:MVSNET是显式几何流水线,先生成点云/网格再渲染;NeRF是隐式场方法,直接学习连续函数并可通过体渲染生成任意视角图像[39][40][41] - 在跨场景泛化方面的改进工作包括:代价体编码(如MVSNeRF)、点云特征外挂(如Point-NeRF)、使用注意力机制聚合多视图(如IBRNet)、引入2D大模型先验(如DreamFusion)以及元学习/预训练流程(如Meta-NeRF)[44][45][46][48][50] 3D高斯溅射(3DGS)技术原理 - 核心思想是将三维场景显式地建模为数百万个可学习的3D高斯基元,每个基元包含位置、协方差(决定椭球形状)、不透明度和视角相关颜色(用球谐系数表示)等参数[52][53] - 基本流程:用COLMAP做SfM初始化稀疏点云和高斯球;进行视锥剔除;通过可微分投影将3D高斯变换到2D;采用分块光栅化(Tile-based splatting)按深度排序并行渲染;计算损失并反向传播优化所有参数;通过自适应密度控制(克隆、分裂、剪枝)来增删基元[57][58][59][60][61][62][63][64] - 自适应增删基元的依据:增基元依据梯度反馈、几何特征和多视角一致性;删基元依据全局重要性评分、多视角一致性和几何特征;通过克隆、分裂、直接删除或软剪枝等方式实现,并周期性执行以保持优化稳定性[71][72][74][75][76][77][79][80][82][83][85] 3DGS在自动驾驶领域的应用 - **高精度场景重建**:AutoSplat框架通过物理约束优化实现高度逼真的自动驾驶场景还原;GaussianOcc通过全自监督3D占用估计技术,在无LiDAR标注下使占用预测精度比传统方法提升15%-20%;LumiGauss解决极端光照场景重建失效问题;EGSRAL可实现大规模驾驶场景的自动化3D重建与语义标注[88][89][90][91] - **感知能力增强**:DepthSplat实现3DGS与深度估计的直接联动,可修正LiDAR因遮挡导致的深度误差,使对弱势交通参与者的深度估计误差降低至5厘米以内;3DGS与SLAM融合可实时区分静态背景与动态物体,使定位误差从传统SLAM的0.5米降低至0.1米以内[92][93] - **动态场景建模**:DrivingGaussian专为环视相机设计,采用分区域高斯建模策略,实现360°全方位动态场景重建;GaussianCity通过高斯点分层存储与动态加载技术,将城市场景重建速度提升60倍,可实现平方公里级区域的实时建模[94][95] - **仿真闭环**:3DGS通过高保真场景生成与实时交互,为自动驾驶算法迭代构建更真实的数字孪生仿真环境[97] - **动态场景建模技术**:S³Gaussian采用自监督学习,通过时空场网络和多头高斯解码器实现无需标注的动态场景分解;DrivingGaussian采用增量静态高斯和复合动态高斯图的分层建模策略,并通过引入LiDAR先验使静态背景重建误差降低40%[98][100][102]
哼哧哼哧搞了小半年,小结一下这段时间世界模型的学习成果
自动驾驶之心· 2025-12-27 10:07
世界模型的概念与分类 - 世界模型并非单一模型或范式,而是多个不同研究方向的总称,需要仔细辨析其具体含义 [3] - Jurgen Schmidhuber在2018年提出的世界模型定义为“a mental model of the world”,即世界在大脑中的映射,它关注图像等输入在大脑中形成的概念与关系,并需反映物体在空间和时间上的关系 [4] - Yann LeCun提出的世界模型强调常识知识,其作用不仅在于预测未来结果,还能填补时空上的缺失信息 [7] - 生成式世界模型是对真实世界的物理建模,关注对世界的直接仿真与重构,评价标准通常使用SSIM等指标,这与关注抽象概念联系、以完成任务为标准的心理世界模型有本质区别 [11] - 目前尚无定论何种模型是真正的世界模型,生成式模型模仿GPT思路,认为海量数据能涌现智能;Jurgen的模型是对基于模型的强化学习的重新包装,但面临真实世界动作难以获取的局限;LeCun的模型则缺乏对动作的建模,导致任务迁移困难 [12] 自动驾驶轨迹预测任务设定 - 研究使用nuScenes数据集进行开环评估,该数据集包含1000段、每段20秒的驾驶场景,采集自波士顿和新加坡,涵盖复杂交通状况,总计约140万张相机图像、39万次激光雷达扫描和140万次毫米波雷达扫描 [13] - 轨迹预测任务要求模型根据6个摄像头的视觉信息和指令,预测车辆未来轨迹,关键评估指标包括L2距离和碰撞率 [14] - L2距离指标计算预测轨迹与真实轨迹之间各航点的平均欧氏距离,单位为米,数值越低越好 [14] - 碰撞率指标通过检查预测轨迹在3秒内是否与标注物体发生几何重叠来计算,以百分比表示,数值越低越好 [15] 基于世界模型的轨迹预测方法:LAW - 论文《Enhancing End-to-End Autonomous Driving with Latent World Model》提出了一种极简的世界模型方法,仅通过预测下一时刻的潜变量来增强轨迹预测 [17] - 方法使用编码器将6个摄像头的图像编码为36个视觉标记,并以航点作为条件来预测下一时刻的潜变量 [19] - 框架包含感知无关和感知相关两种编码器结构,以感知无关为例,流程为图像特征 -> 潜变量 -> 航点,航点解码器为每个样本生成三条轨迹,并根据指令选择正确轨迹 [20][22] 基于世界模型的轨迹预测方法:World4Drive - 论文《World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model》对LAW进行了改进 [23] - 核心改进包括:将轨迹离散化为8192条预设轨迹;使用k-means算法为每个指令构建6个意图点,进行粗筛;使用潜变量编码器结合时空信息进一步精炼轨迹 [23] - 潜变量编码器通过3D空间编码为图像标记添加深度信息,并通过跨注意力机制聚合时间信息,生成丰富的世界潜表征 [24][27] - 规划阶段通过动作编码将意图转化为对应动作,并构建意图感知的世界模型进行预测,在推理时使用一个评分网络选择最佳模型 [29][30][31] - 总损失函数由语义损失、重构损失、评分损失和轨迹损失加权组成 [33] 模型性能对比与分析 - 在nuScenes基准测试中,World4Drive在3秒平均L2距离上达到0.50米,平均碰撞率为0.16%,其性能优于或接近LAW等先进方法 [36] - 消融实验表明,同时使用深度信息、语义信息、世界模型和意图感知机制的完整模型(ID 6)能取得最佳性能(L2: 0.50米, 碰撞率: 0.16%) [37] - 实验证明,增强的语义信息对降低L2距离和碰撞率均有帮助,而仅使用意图点机制而不结合其他改进则效果不佳 [39]
智驾L3冲刺,车企都在赌哪条路
汽车商业评论· 2025-12-27 07:04
文章核心观点 - 行业正从L2级辅助驾驶向L3级商业化迈进,L3可能成为短暂过渡,最终目标是实现L4普及 [5][6] - 2025年中国智能驾驶“平权”加速落地,功能搭载率显著提升,系统可靠性(以平均接管里程衡量)实现近100%的跃升 [8][15][17] - 智能驾驶技术正从机械规则驱动向场景理解进化,在复杂路况下展现出类似“老司机”的灵活应变能力 [8][19][21] - 技术路线争论持续,但融合与务实成为主流,下一阶段可能以端到端为主干,融合视觉语言行为模型和世界模型 [9][39][42] - 用户体验是当前L2框架下的第一优先级,明确功能边界是未来重要的迭代方向 [10][24][39] 中国辅助驾驶发展趋势 - **功能普及(平权)加速**:高速NOA搭载车型从2024年的18款增至2025年的29款,涨幅超50%,价格门槛从12.38万元下探至9.68万元 [15] - **功能普及(平权)加速**:城区NOA搭载车型从2024年的10款大幅增至2025年的24款,涨幅达150%,起步售价进入14.98万元级别 [15][16] - **功能普及(平权)加速**:自动泊车辅助(APA)和记忆泊车(HPA)功能在测评车型中搭载率分别达到30款和25款 [15] - **供应链与方案多样化**:采用供应商方案的车型从2024年的10款增至2025年的22款,增长显著,硬件方案选择也更加多样化(如Orin系列、Thor系列、MDC系列等) [15] - **系统性能显著提升**:在固定测评场景下,平均接管里程从2024年的6.4公里提升至2025年的12.1公里,增长近100% [15][17] - **场景理解能力质变**:面对施工围挡、临时导流区等复杂场景,2025年约80%的测试车型能够通过大施工区域,而2024年仅有个别车型能实现 [19] 以用户为中心的多维度评估 - **测评理念**:在L2框架下,驾驶员需随时准备接管,因此用户体验是第一优先级 [24] - **测评维度**:借鉴马斯洛需求理论,从系统性能(生存与安全)、安心感(归属感)、舒适与效率(自我实现)三大维度评估 [24] - **权重分配**:舒适性与效率各占20%权重;基础场景(高频使用)占80%权重,挑战性场景占20%权重 [26][27] - **测评路线**:全程约40公里,包含47个路口及20多次转向调头场景,并新增了停车场驶入驶出环节以测试“行泊打通”能力 [27] 测评亮点车型及场景 - **梯队划分**:未做具体排名,而是将表现分为三个梯队,第一梯队(如理想、尊界、问界)平均接管里程近20公里,在日常通勤中几乎无需接管,达到“可用”水平 [29] - **亮点车型**: - 理想i6:应用视觉语言行为模型,带来诸多新颖的交互体验 [31] - 魏牌高山:在效率与舒适性上调校均衡,从用户实际使用出发 [31] - 东风日产N7:以约80 TOPS算力和3R7V配置(成本为高阶方案的1/3-1/5),实现了可用水平,是“中算力方案的守门员” [31] - 奇瑞iCAR V23:以仅13 TOPS的算力实现了高速NOA,是“中小算力方案的优等生” [31] - **VLA模型创新体验**: - 支持“语音路边停车”等复杂自然语言指令,车辆能理解并尝试执行,改变了必须设定固定目的地的传统模式 [33] - 支持“语音右转”,车辆能根据语音指令改变导航路径 [33] - 在泊车场景中,能“自主寻找停车场出口”,通过识别环境元素(如指示牌、闸机)实现,无需依赖高精地图先验信息 [33] 辅助驾驶技术路线探讨及争论 - **功能演进方向**:2026年行业重点将是高速NOA向L3级别商业化落地迈进,L3意味着责任主体从驾驶员转向主机厂或系统 [5][37] - **法规影响**:针对L2的强制性国家标准正在酝酿,短期内可能给市场带来压力,长期将规范功能使用,从安全出发 [37] - **城区功能进展**:2025年重点是“行泊打通”,关键点在于处理停车场闸机场景,多家公司已能实现 [39] - **感知能力进步**:从识别车辆发展到能识别车辆类型、警车、路面坑洼等,越来越接近真人视觉 [39] - **技术路线融合**:纯端到端模型存在局限性(缺乏推理能力),行业开始尝试将其与视觉语言行为模型、世界模型融合,以兼顾理解与响应 [39][42] - **地图应用共识**:行业形成“重图轻用”共识,即充分利用地图信息进行推测和辅助决策,但不让用户过度依赖或感知其存在,以平衡成本与体验 [44][45] 知行科技公司介绍 - **公司概况**:成立于2016年,2023年于港交所上市,是中国首家在香港上市的辅助驾驶公司,提供软硬件一体解决方案 [47] - **业务布局**:总部在苏州,国内外设有多个办公室和研发中心,在马来西亚有工厂,产品涵盖软件、智能摄像头、域控制器等 [47] - **市场成果**:服务客户超20家,包括自主、合资及外资品牌,累计获得近100个车型项目,在帮助中国主机厂海外车型法规认证方面布局较早 [47] - **技术认可**:在E-NCAP测试中,已有四款搭载其技术的车型获得五星评级,在国内处于领先水平 [47]
赵何娟对话王维嘉:AI没有系统性泡沫,原生AI应用将在三年内爆发 | 巴伦精选
新浪财经· 2025-12-26 21:54
大模型竞争格局 - OpenAI不会轻易出局,未来将是各家公司交替领先的动态格局,只要使用相同的Transformer架构和技术路径,差距就不会不可逾越,竞争态势是“你六个月超越我,我再六个月超越你”的持续迭代 [2] - Google在模型研究、自有算力(TPU)和应用场景三方面具备领先优势,构成了高度协同的系统集成能力,其垂直整合能力使其算力基础设施可针对自身应用进行高度优化,从而实现最低的单位成本 [9][10][11] - 未来的模型竞争将从同质化走向高度差异化,这是强化学习驱动下、基于不同应用目标和数据空间定向演化的必然结果,各家公司通过强化学习在不同知识子空间中进行定向探索 [3][17][18] - 模型分化将导致垂直领域诞生专业化的行业通用大模型,例如在科研、制药、编程、历史等领域 [3][19] - 基础大模型的分化维度比应用更宽广,在一个高度差异化的基础大模型之上,可以构建多个面向不同细分市场的应用 [21] 英伟达面临的挑战与战略 - 英伟达面临的主要挑战在于各大科技公司纷纷开始自研AI芯片,如果未来每家公司都能开发出成本更低、效率更高、易用性更好的芯片,英伟达将面临被替代的风险 [3][11] - 未来云服务市场越集中,对英伟达越不利;市场越分散,其地位越稳固,因此英伟达积极扶持新兴云厂商,如Oracle、Nebius、CoreWeave等,以维持生态多样性 [3][12] - 对于大型企业客户(如沃尔玛、《财富》500强公司),在云平台上选择TPU还是GPU时,目前绝大多数第三方用户仍主要使用GPU,原因包括CUDA生态成熟、开发便捷,以及GPU具备极强的部署灵活性,可按需从单卡扩展至万卡规模,而TPU采用固定规模的block设计(一个block包含9,064个TPU),难以支持小规模或灵活配置 [12] AI应用落地的关键条件 - 任何AI应用如果能同时满足以下三个条件,就更有可能快速取得突破:1) 纯数字化;2) 具备训练数据;3) 拥有明确的奖励函数,反之,如果缺少其中任意一项,进展通常会较为缓慢 [4][22][23][24] - 金融领域的AI应用是满足这三个条件的典型例子:交易完全数字化、存在大量历史数据、奖励函数清晰(通过回测验证盈利) [24] - 不满足条件的应用例子是“保姆机器人”,它涉及物理交互、缺乏明确的奖励函数(什么是“好保姆”标准模糊)、相关训练数据极难获取 [24][29] - 工业机器人场景则不同,其对灵巧度要求取决于具体任务(如分拣、装箱),且通常具备大量可采集的操作数据,因此前景更为积极 [28][29] AI市场泡沫与价值判断 - AI泡沫论的本质是节奏问题,只要模型能力持续提升,AI就不存在系统性泡沫,模型能力决定一切,其他因素都是次要的 [5] - 即便预训练见顶,模型的经济价值仍远未被释放,因为当前模型能力已经能够完成大量任务,其潜在经济价值未被充分释放 [32][33] - 真正的风险在于生态发展的不均衡,基础设施可能提前建成而应用尚未成熟,导致局部性、阶段性的泡沫,但这只是暂时调整,而非根本危机 [5][34] - 当前指数级增长的需求主要来自推理(inference),而非预训练,因为训练是一次性投入,而用户实际使用模型产生的调用是持续性的 [35] 芯片与算力市场动态 - Google对英伟达不构成直接竞争,因为英伟达的最大客户(Amazon、Microsoft、Google、Meta等云服务商)彼此是直接竞争对手,不可能依赖Google提供芯片,只能选择中立的英伟达 [11] - Google的TPU对外销售业务难以成为其核心收入来源 [11] - 芯片处理速度在过去两年可能提升了100倍甚至1000倍,但未来这种增长速度可能会放缓 [57] AI对行业与创业的影响 - AI时代最难被替代的是高斯分布极端尾部的天才,扎克伯格开出天价年薪正是对这一趋势的预判,高端人才做出的贡献是机器无法替代的 [7][52] - AI能力的提升正在颠覆VC模式,技术背景深厚的创业者可能不再需要融资,靠产品力就能从零做到十亿美金收入,例如一家名为Surge的公司创业四年达到十亿美金收入而未进行融资 [7][53][54] - 未来1-3年,创业必须做AI原生应用,不能做AI赋能,在旧模式基础上修修补补肯定竞争不过大公司,原生应用才是创业机会 [7][55] - 未来1-3年可能发生的最大变化包括:1) 应用层面出现真正的AI原生应用;2) Agent(智能代理)逐渐成熟并实现环节打通,哪怕实现简单的功能(如点外卖或网上购物)也具有巨大的经济价值和市场颠覆性 [56] 技术架构与能力边界 - 在当前的Transformer架构下,AI不可能产生意识或情感,机器缺乏内分泌系统,没有内在的奖惩机制和欲望,一切行为都是确定性的输入输出 [5][39][41][42] - 比起担忧AI控制人类,更应警惕坏人利用AI [5][45] - 语言是人类与动物的根本区别,是人类跃居食物链顶端的核心能力,从文字中学习3D空间信息是间接且低效的,李飞飞的空间智能研究更直接高效 [8][47] - 仅依靠空间模型无法完成所有任务,必须同时具备语言模型和空间模型,语言提供抽象能力和行动指令,空间提供物理世界理解,两者缺一不可 [8][49]
收到很多同学关于自驾方向选择的咨询......
自动驾驶之心· 2025-12-26 17:18
自动驾驶领域学术研究趋势与方向 - 行业观察到计算机、车辆、自动化和机械等专业背景的学生对自动驾驶研究方向存在普遍困惑,特别是在入门和选择前沿方向上[2] - 行业将自动驾驶研究方向分为前沿方向与相对不拥挤的赛道,前沿方向包括视觉语言动作模型、端到端自动驾驶、强化学习、3D高斯泼溅和世界模型,相对不拥挤的赛道包括开集目标检测、占用网络以及少样本/零样本学习[2] - 针对不同专业背景的学生,行业给出了差异化的学习路径建议,对于自动化和计算机背景的学生,建议专注于深度学习相关的前沿方向,如视觉语言动作模型、端到端和世界模型,这些方向被认为从入门到工作乃至读博都有很大发展空间,对于机械和车辆背景的学生,建议从传统规划与控制或3D高斯泼溅等对算力要求较低、入手更简单的方向开始[2] - 行业强调方法论提升的重要性,建议研究者通过多阅读论文和交流来逐步形成自己的思考与想法,并指出新人研究者通常需要经历多次试错才能产生好的想法[2] 论文辅导服务覆盖的研究方向 - 公司提供的论文辅导服务覆盖了自动驾驶领域的众多前沿与关键技术方向,包括但不限于端到端自动驾驶、视觉语言动作模型、世界模型、强化学习、3D目标检测、多传感器融合、3D高斯泼溅、鸟瞰图感知、占用网络、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、流匹配、点云感知、毫米波雷达感知、单目感知以及车道线/在线高精地图构建等[3] 论文辅导服务内容与成果 - 公司提供的核心服务包括论文选题、论文全流程指导以及实验指导[6] - 此外,公司还提供博士申请指导服务[7] - 公司宣称其辅导服务的中稿率很高,并且已有辅导完成的论文被计算机视觉、人工智能、机器人、自然语言处理等领域的顶级会议和期刊收录,例如CVPR、AAAI、ECCV、CoRL、ICLR、IROS、ICRA、ACL等[7] 论文辅导服务的目标发表范围 - 公司的论文辅导服务旨在帮助客户在广泛的学术出版物上发表成果,目标范围包括自动驾驶领域的顶级会议和期刊,涵盖中国计算机学会推荐的A、B、C类会议/期刊,科学引文索引的一区至四区期刊,中国科学院分区的一区至四区期刊,以及工程索引和中文核心期刊,同时也涵盖毕业设计论文、博士申请和学术比赛等相关需求[10]
蒸馏、GEO、氛围编程 2025年度“AI十大黑话” 能听懂几个?
36氪· 2025-12-26 17:16
文章核心观点 文章总结了《麻省理工科技评论》评出的2025年度十大AI热词,这些概念正在重塑AI行业格局,反映了技术发展、应用模式、资本动态及社会影响等多个维度的最新趋势 [1] 氛围编程 - 编程方式被重新定义,开发者只需用自然语言向AI表达应用目标、功能需求和整体体验,AI则负责自动生成和迭代代码 [2] - 这种方式由OpenAI联合创始人安德烈·卡帕西提出,被称为“氛围编程”,它代表了一种人机协作的新范式 [2] 推理模型 - “推理”成为AI讨论核心,对应推理模型的崛起,这类大语言模型通过多步拆解与连续推演处理复杂问题 [3] - 自OpenAI发布o1和o3系列后,DeepSeek迅速跟进,主流聊天机器人均已引入推理技术,在数学和编程竞赛中达到顶尖人类专家水平 [3] 世界模型 - AI研究转向构建“世界模型”,旨在让AI理解现实世界的因果关系、物理规律与时间演化,而不仅仅是生成流畅文字 [4] - 谷歌DeepMind的Genie 3、李飞飞团队的Marble以及杨立昆的新研究,都通过预测视频演化或构建虚拟环境来让AI掌握世界运转规律 [4] 超大规模数据中心 - 为满足激增的AI算力需求,科技巨头正以前所未有的规模建设专用“超级数据中心” [5] - 例如,OpenAI与美国政府合作的“星门”项目计划投入5000亿美元,建设全美史上最大规模的数据中心网络 [5] 资本与泡沫 - AI成为资本最拥挤的赛道之一,以OpenAI、Anthropic为代表的公司估值持续攀升,但多数仍处于高投入、尚未稳定盈利的阶段 [6] - 与互联网泡沫时期相比,如今顶尖AI公司收入增长迅猛,且背后有微软、谷歌等资金雄厚的科技巨头提供稳定支撑 [6] 智能体 - “智能体”是AI圈内热门但定义模糊的概念,各家宣传AI能像“智能助手”一样自主完成任务,但行业缺乏统一标准 [7] - 尽管AI尚难在复杂多变环境中稳定可靠工作,“智能体”已成为产品宣传中最热门的标签之一 [7] 蒸馏技术 - DeepSeek发布的R1模型展示了“蒸馏”技术的巧妙,让小模型学习大模型的精髓,以极低成本实现接近顶级模型的性能 [8] - 这表明打造强大AI模型未必只能依赖堆砌算力,高效的算法设计同样能带来新的可能 [8] AI垃圾 - “AI垃圾”特指为博流量而批量产生的劣质AI内容,该词已演变为一种后缀,被用来形容各种缺乏实质的事物,如“工作垃圾”、“社交垃圾” [9] - 这折射出人们对AI时代内容质量与真实性的普遍反思 [9] 物理智能 - AI在现实世界中的行动能力仍是短板,虽然机器人在特定任务上学习更快,自动驾驶模拟更逼真,但不少“智能家庭助手”产品仍需人工远程操控 [10] - 为提升能力,已有机器人公司开始向普通人征集做家务视频,表明让AI真正理解并适应物理世界仍前路漫长 [10] 生成引擎优化 - 传统搜索引擎优化正在让位于“生成引擎优化”,随着AI直接给出答案,信息获取方式发生改变 [11] - 新规则下,内容提供者需要确保其品牌、观点或内容被AI在生成的答案中引用,否则可能从用户视野中消失 [11]
2025,AI圈都在聊什么?年度十大AI热词公布
36氪· 2025-12-26 15:33
文章核心观点 文章总结了《麻省理工科技评论》评出的2025年度十大AI热词,这些概念正在重塑AI行业格局,反映了技术发展、应用模式、资本动态及社会影响等方面的关键趋势 [1] 氛围编程 - 编程方式被重新定义,开发者只需用自然语言向AI表达应用目标、功能需求和整体体验感觉,AI则负责自动生成代码、调整细节并通过反复对话迭代 [2] - 这种方式由OpenAI联合创始人安德烈·卡帕西提出,被称为“氛围编程”,它并非一种新编程语言,而是一种新的人机协作方式 [2] 推理模型 - “推理”成为AI讨论核心词汇,对应的是推理模型的崛起,这类大语言模型通过多步拆解与连续推演处理更复杂问题 [3] - 自OpenAI发布o1和o3系列后,DeepSeek迅速跟进,主流聊天机器人均已引入推理技术,在数学和编程竞赛中达到顶尖人类专家水平 [3] 世界模型 - AI研究正转向构建“世界模型”,旨在让AI理解现实世界的因果关系、物理规律与时间演化,而不仅仅是学习语言,从而判断合理性并预测未来 [4] - 谷歌DeepMind的Genie 3、李飞飞团队的Marble以及杨立昆离开Meta后的新研究,都通过预测视频演化或构建虚拟环境,让AI在模拟中掌握世界规律 [4] 超大规模数据中心 - 为满足激增的AI算力需求,科技巨头正以前所未有的规模建设专用“超级数据中心” [5] - 例如,OpenAI与美国政府合作的“星门”项目计划投入5000亿美元,在全美建设史上最大规模的数据中心网络 [5] 资本与泡沫 - AI成为资本最拥挤的赛道之一,以OpenAI、Anthropic为代表的公司估值持续攀升,但多数仍处于高投入、尚未建立稳定盈利模式的阶段 [6] - 与当年的互联网泡沫相比,如今顶尖AI公司收入增长迅猛,且背后有微软、谷歌等资金雄厚的科技巨头提供稳定支撑 [6] 智能体 - “智能体”是AI圈内热门但定义尚不统一的概念,各家宣传AI能像“智能助手”一样自主完成任务,但行业对真正智能体行为缺乏统一标准 [7] - 尽管AI难以在复杂多变环境中稳定可靠工作,“智能体”已成为产品宣传中最热门的标签之一 [7] 模型蒸馏技术 - DeepSeek在2025年年初发布的R1模型展示了“蒸馏”技术的巧妙之处,该技术让小模型学习大模型的精髓,以极低成本实现接近顶级模型的性能 [8] - 这表明打造强大AI模型未必只能依赖堆砌昂贵算力,高效的算法设计同样能带来新的可能 [8] AI垃圾 - “AI垃圾”特指为博流量而批量产生的劣质AI内容,该词汇已演变为一种后缀,被用来形容各种缺乏实质、空洞乏味的事物,如“工作垃圾”、“社交垃圾” [9] - 这折射出人们对AI时代内容质量与真实性的普遍反思 [9] 物理智能 - AI在现实世界中的行动能力仍是很大短板,虽然机器人在特定任务上学习更快,自动驾驶模拟更逼真,但不少“智能家庭助手”产品仍需人工远程操控 [10] - 为提升此能力,已有机器人公司开始向普通人征集做家务视频,表明让AI真正理解并适应物理世界仍前路漫长 [10] 生成引擎优化 - 传统搜索引擎优化正在让位于“生成引擎优化”,随着AI直接给出答案,信息获取方式发生改变 [11] - 新的竞争规则是:当用户直接问AI问题时,AI答案中是否会提及特定品牌、观点或引用其内容,内容提供者必须学会被AI引用和吸收,否则可能从视野中消失 [11]
AI“世界模型”来了
财联社· 2025-12-26 11:15
文章核心观点 - 生成式AI驱动的“世界模型”技术正引发全球视频游戏产业的颠覆性变革,该技术能大幅提升内容创作效率、降低开发成本并催生全新的游戏体验,预计将重塑这个价值近1900亿美元的行业 [3][4][9] 技术进展与产品发布 - 由李飞飞联合创办的World Labs公司推出了首款商业产品Marble,这是一个基于生成式3D世界模型的系统,用户仅凭图片、影片或文字提示即可创建空间连贯、高保真的三维世界 [5] - 谷歌DeepMind等领先AI团队也在推进世界模型项目,如Genie 3,认为其将给游戏开发带来彻底性变化 [8] 对游戏开发的影响 - AI工具已用于制作游戏视觉资产,如地形和角色,Game Gears公司CEO表示AI使其游戏开发速度提升了四倍 [9] - 技术将影响Unity和Unreal等传统游戏引擎,被认为到了“该升级的时候”,可能颠覆现有开发模式 [8] - 开发者可减少对昂贵软件和专业技能的依赖,从而生成内容,玩家也将能够自行创造全新的游戏世界 [13] 行业应用与市场前景 - 全球游戏产业今年收入预计接近1900亿美元,世界模型技术被视为该行业的重要推动力 [9] - 除了游戏,xAI、英伟达等公司也希望将世界模型应用于机器人和自动驾驶汽车,但更直接、触手可及的进步将首先出现在游戏行业 [9] - Epic Games与迪士尼已在《堡垒之夜》中推出了由AI驱动的“达斯·维达”角色,作为可互动的非玩家角色,展示了AI在游戏中的实际应用 [10] 行业观点与未来展望 - 专家认为,世界模型将使制作高度个性化的游戏变得相对简单,让游戏产业与今天截然不同 [14] - 乐观者认为AI有助于降低成本、提升创造力,并避免开发人员过度疲劳,对于开发成本常超过10亿美元、耗时数年的3A大作行业是一大利好 [15] - 前育碧副制作人希望世界模型能帮助开发者重新获得“寻找乐趣”的空间,有更多时间尝试新点子和打磨细节 [15]
一见Auto采访小米陈光的一些信息分享......
自动驾驶之心· 2025-12-26 09:56
行业技术路线争鸣 - 智能驾驶行业在2025年出现“名词过载”现象,技术路线分化出多个派别,争鸣不断 [7] - 理想汽车与智驾供应商元戎启行坚定选择VLA路线,在算法架构中引入大语言模型 [4] - 华为表示不会走向VLA,而是坚定选择WA路线,小鹏也在尝试去掉Language环节 [4] - 小米汽车是持续深耕端到端方向的企业之一 [5] 小米汽车的技术路径与策略 - 小米汽车端到端研发启动较晚,于2024年内部正式整合成立“端到端算法与功能部”,比理想、蔚来晚了至少3个月 [5] - 但小米追赶迅速,在2025年2月向用户全量推送了300万Clips的端到端,7月再次推送了1000万Clips版本,11月于广州车展发布Xiaomi HAD增强版 [5] - 小米HAD增强版最大的不同是引入了世界模型+强化学习,使模型具备开放世界的知识性以及推断复杂场景因果的能力 [5] - 公司认为在端到端算法中引入世界模型和强化学习并非首创,但会将其做得“更坚决” [5] - 公司智能驾驶团队主要分成三拨,除端到端和VLA外,市面上所有路线(包含WA、VA)在内部都有预研团队 [10] - 面对技术路径选择,公司并非“一刀切”,认为新技术的引入需要循序渐进,技术是否先进并不代表体验一定更好 [12] - 公司判断技术的最终标准是能否被用户感知、信任和长期使用,用户体验不好,用户只会觉得是公司的问题,而非技术问题 [12][24] - 公司认为在有限算力下训练出智能密度最大的模型是努力方向,不过分卷算力,用户体验才是关键 [18][32][33] 小米智驾团队的独特性与能力 - 小米智驾团队虽然不是成立最早,却是组建最快、追赶最猛的团队 [12] - 自2021年3月官宣造车起,第一年便组建了500人团队,而理想组建700人团队花费两年,小鹏花费3年 [13] - 4年间,团队已超1800名成员 [13] - 自2024年3月SU7上市以来,公司从高精度地图进化到无图,近一年间推送了三个版本的端到端,实现了“一年追三代”,而其他新势力的摸索至少经历了三年时间 [13] - 截至2025年第三季度,公司年内已投入235亿元研发费用,其中四分之一(约58.75亿元)用于AI研发 [13] - 公司具备强大的“基建”能力,即以数据为核心的研发效能提升,包括快速数据挖掘、标注、模型训练与自动化评测 [41][42] - 云端基建能力可相互借鉴且经验可复制,公司其他业务(如云服务)的扎实底层基建能够被汽车业务快速复用 [14][44][45] - 公司测试资源、数据资源非常充沛,易于获取高质量场景数据 [46] - 强大的基建能力与对专属素材及测试的重视,共同造就了公司快速的研发迭代 [47] 端到端、世界模型与强化学习的应用 - 公司认为,无论是VA、WA还是VLA,本质都是如何让模型的智能密度最大 [5][18] - 单纯的端到端只是模仿学习,属于数据驱动;而引入强化学习、世界模型或VLA后,则进入认知驱动阶段,模型具备推理因果逻辑的能力 [20] - 强化学习在智能驾驶中应用面临两大难题:世界模型难以完全保真,需要放入大量可编辑的数字资产;并行探索的效率面临算力合理分配的挑战 [6] - 公司在新版本中优化了奖惩制度,算法会在世界模型里反复练习,通过奖励机制不断尝试以找到更优的驾驶思路 [39] - 公司认为端到端+世界模型+强化学习主要解决“直觉”问题,针对中等难度或非极端困难场景,本能反应更快 [22] - VLA则旨在解决需要长序思考的复杂场景问题 [35] - 公司不认为存在唯一最好的技术路线,有时不一定能找到最强的技术,但一定能找到最适合自身系统的技术方案 [23] 仿真测试的战略价值 - 仿真测试是公司研发的“三支柱”之一,另外两者是场地测试和实车测试 [68] - 公司针对所有实车测试里程,在仿真中的测试目标是达到至少100倍的比例 [67][70] - 在模型训练中,真实数据与仿真数据的分配比例约为八二开,真实数据占80%,仿真数据占20% [71] - 20%的仿真数据能够显著降低人力成本,若无仿真,人力成本至少需翻几倍 [72] - 仿真的核心价值在于解决实车难以遇到、不好收集和挖掘的场景数据,例如高速路上运输几十米大风叶等罕见场景 [73][74] - 公司当前仿真数据的生成质量很强,并会通过评价指标保证其与真实数据的一致性 [61][62] - 仿真环境需要足够逼真、符合物理规律,并具备强大的场景编辑能力,以改变光照、天气、路面状况、交通参与者等要素 [60] 关于芯片与VLA的考量 - 公司认为自研自动驾驶芯片需权衡需求与成本,好处是成本可控、软硬件配合更好,但前期投入大、回本辛苦 [78][79] - 从一颗芯片迁移到另一颗芯片时,会面临“部署偏差”问题,包括算子支持差异、计算精度不同导致的输出不一致等,需要针对性的优化和校准 [80] - 芯片迁移优化工作量巨大,通常需要6到10个月甚至更长时间 [81] - 公司从英伟达Orin芯片迁移到Thor芯片的速度比一般企业快很多 [83] 对L2与L4发展的看法 - 从技术栈来看,L2与L4正越来越走向统一,在数据驱动和认知驱动下,开发逻辑越来越相同,主要差异在于场景化和安全要求 [86] - 目前L2面临的挑战更大,因其受限于车上有限的算力与传感器,且需要不断平衡安全、效率、舒适性以及用户的驾乘习惯 [87] - L4对安全系数要求更高,需要做更多的安全冗余以实现绝对安全,其最终责任方是系统本身 [86][88] - L2作为辅助驾驶,人类驾驶员是最终的监督和把控责任方 [88] - 公司认为L4一定会做成,从车企的角度来说,也慢慢会涉足到L4领域 [89]
北京上海广州,一批机器人在圣诞节这天上岗打工
36氪· 2025-12-26 09:53
公司近期动态与商业化进展 - 星尘智能于12月25日开始与合作方金马游乐和乐华娱乐批量交付机器人,交付的机器人正在北京朝阳合生汇、上海东方明珠广场、广州花城汇博纳影城运营“智能领养店”,独立完成售卖潮玩盲盒的全流程工作 [1] - 公司与金马游乐推出的“机器人MART”零售店将陆续进入商圈、游乐场、街区、公园等场景,已于2025年11月在广东中山市时光奇遇游乐园开放,提供爆米花小食和饮品售卖服务 [2] - 2025年下半年以来,公司陆续接下工业、商业服务、科研等多个领域的合作与订单,包括仙工智能(千台级)、领益智造、金马游乐(千台级)、央视网、麻省理工学院、深圳市养老护理院等 [5] 核心技术路线:绳驱机器人 - 公司核心研发方向为“绳驱本体”,该技术带来动作灵活性和精细力控,使机器人能快速拟人地完成抓取、盛装等细致手部操作 [3] - 绳驱机器人重量更轻,关节具有柔性缓冲机制,能在发生意外接触时有效化解碰撞力,保障人机交互安全 [3] - 绳驱技术灵感部分源于电梯等成熟系统,工程层面印证了其负载能力,全球仅有两家聚焦绳驱传动本体的机器人企业,星尘智能是全球首个实现绳驱人形机器人量产的公司,另一家为美国公司“1X” [4][5] 技术优势与产品特性 - 绳驱产生的类“肌肉牵引”效果,让机器人在完成推、拉、拧等手部动作时,能像人一样感知用力变化并实时调整,擅长需要力反馈的任务(如开门) [8][9][23] - 绳驱技术允许电机后置,大幅减轻手部末端重量,使运动更轻快、响应更敏捷,在遥操作任务中表现更“跟手” [10][24][25] - 绳驱在BOM成本方面具有优势:利用柔性介质实现力矩放大,相当于具备减速器功能;力传递链路简单,透明度高,无需在末端额外加昂贵的六维力传感器;差分驱动结构提高功率密度,可选用更小规格电机;轻量化末端降低了对电机控制和结构强度的要求 [26][27][35] 商业化方法论与产品策略 - 公司提出“分身智能”概念,在人工智能尚未完全自主之前,通过人类遥操作让机器人先进入真实场景,应用于有毒实验室、远程跨国作业、家庭宠物互动等场景 [11][12][17] - 产品逻辑强调“不做性能过剩的机器人”,拒绝硬件堆叠,只做现有AI能控制好且符合实际需求的功能,例如将灵巧手简化为更易AI控制的三指结构后,训练效率与任务成功率大幅提升 [13][28] - 公司将擅长手部灵巧操作的半身机器人S1-U作为独立产品出货,并与仙工智能的移动底盘结合,组成适用于工业场景的轮式双臂机器人,此合作促进了公司拿下仙工智能的千台级订单 [14] 遥操作技术的关键 - 实现好的遥操作需满足两个关键点:同步(操作者动作被机器人一比一复刻,执行在时间、空间和力度上高度一致)和同构(无论操作者外形如何,都能准确控制机器人) [18][19][20] - 公司通过端到端的低延迟优化,将整个系统链路延迟压到极致,确保动作的幅度、速度、节奏与人的意图严格对齐,实现“跟手”体验 [19] - 绳驱技术带来的力的可控性和仿生高动态性能,是支撑良好遥操作表现的基础 [21][22][24] 工程挑战与解决方案 - 绳驱应用于全身机器人面临工程难度高、绳子有弹性需强算法控制、绳子用久会发生蠕变等挑战 [31] - 公司通过“材料结构科学”与“智能算法”协同解决难题:选用高性能金属绳抑制形变;通过结构设计、受力管理、张力监控和寿命模型将蠕变影响限制在可控范围内 [33] - 通过自研的高精度补偿算法对绳的弹性形变进行修正,将重复定位精度稳定控制在0.03毫米的工业级标准 [34] 产品设计理念与行业展望 - 公司产品设计采用“第一性原理”,参照成年男性或运动员的操作参数进行本体设计,以确保AI能采集到贴近人类行为的数据并高效学习 [29] - 产品形态聚焦轮式机器人,即“高价值的上半身(操作能力),可落地的下半身”,以追求极致操作性能及更强的安全、稳定和续航能力,顺应行业共识 [37] - 公司认为2026年机器人行业将进入产品和商业化阶段,竞争可能加剧,同时供应链转型将使机器人成本更友好,可能出现更便宜的机器人 [39][40] - 技术层面,世界模型可能成为下一个热点,公司策略是保持对颠覆式创新(如世界模型)的小范围前瞻投入,但将主力资源聚焦于如何将现有技术(如VLA)落地,并采用自研的快慢系统模型(DuoCore和Lumo)适配不同客户需求 [41][42]