Workflow
强化学习
icon
搜索文档
DiffusionDriveV2核心代码解析
自动驾驶之心· 2025-12-28 17:23
DiffusionDriveV2模型整体架构 - 模型是一个用于端到端自动驾驶的强化学习约束截断扩散模型,整体架构包括环境编码、轨迹规划、模式选择等模块 [3] - 环境编码部分融合了来自摄像头和激光雷达的BEV特征以及自车状态信息,其中BEV特征经过上采样和下采样处理,自车状态通过编码器处理,两者拼接后作为后续处理的键值对 [5][6] - 解码部分参考了目标检测中的DETR思想,使用查询机制,输出被分割为轨迹查询和智能体查询,用于后续的轨迹规划和交互 [7] 轨迹规划模块核心技术 - 轨迹规划模块利用多尺度BEV特征,通过上采样和特征拼接,增强空间信息的利用 [8] - 采用基于锚点的扩散模型进行轨迹生成,首先通过K-Means聚类从真实轨迹数据中生成一系列轨迹锚点,然后在锚点上加入经过设计的高斯噪声以启动扩散过程 [9][10][11] - 将带噪声的轨迹锚点通过位置编码转换为查询向量,并与时间编码、BEV特征、智能体查询特征以及自车查询特征进行多轮交叉注意力计算,以融合多源信息 [12][13][14][15][16][17] - 融合后的轨迹特征通过一个前馈网络,并利用时间特征进行尺度和偏移调制,最终预测出分类分数和去噪后的轨迹偏移量,该偏移量与原始噪声轨迹相加得到最终预测轨迹 [18][19][20][21][22] 模式选择与轨迹评估机制 - 模型包含一个模式选择器,用于从多个生成的轨迹模态中做出最终决策 [23] - 在轨迹生成(反向去噪)过程中,记录网络所有中间去噪结果以及最终输出 [25] - 使用一个综合评分器对生成的所有模态轨迹进行评估,评分维度包括安全性、舒适性、规则遵守、进度和物理可行性,并通过加权平均计算综合分数 [27] - 安全性检查包括碰撞检测和驶出道路判断,舒适性评估加速度和曲率连续性,规则遵守评估交通灯和车道保持,进度评估是否到达目标,物理可行性检查动力学约束 [27] 强化学习训练与优化策略 - 提出锚点内GRPO强化学习优化方法,在每个轨迹锚点对应的组内进行策略优化,以保持多模态能力同时提升轨迹质量,其损失函数涉及对去噪过程概率的对数求和与优势函数的加权 [28] - 优势函数通过计算组内奖励的相对均值和标准差进行估计,无需额外价值模型,并且通过只保留优于真实轨迹的样本进行对比学习来定义“好”的轨迹 [28][29] - 对优势函数进行截断处理,将所有负优势设为0,并对发生碰撞的轨迹施加-1的强惩罚,以提供清晰一致的学习信号 [30] - 在训练损失中结合了强化学习损失和模仿学习损失,以防止过拟合并保证通用驾驶能力 [39] 噪声设计与损失函数 - 针对轨迹近端与远端尺度不一致的问题,创新性地提出使用乘性高斯噪声替代传统的加性噪声,通过一个纵向和一个横向的乘法噪声因子来调整轨迹点,从而保持探索轨迹的平滑性和结构完整性 [33] - 在训练阶段引入探索噪声,在验证阶段使用确定性推理,并详细计算了每一步噪声对应的对数概率 [37][38] - 总体训练损失由轨迹恢复损失和分类置信度损失两部分组成,通过权重系数进行平衡 [42] - 轨迹恢复损失采用L1损失函数,分类损失使用带权重的焦点损失函数 [41][43]
想了很久,还是得招人一起把事情做大(部署/产品方向)
自动驾驶之心· 2025-12-27 17:36
行业动态与平台定位 - 行业已进入L2智能驾驶下半场 面临难点与痛点 需要更多参与者共同突破[2] - 公司作为国内自动驾驶领域技术创作平台 旨在行业激流中贡献力量 成为能为行业带来价值的平台[2] 平台发展规划 - 公司将增加圆桌访谈、实战与工业级课程、咨询等多种形式的内容输出[2] - 平台主要面向自动驾驶培训合作 B端面向企业、高校及研究院所 C端面向学生及求职人群[5] - 平台业务包括课程开发和原创文章创作[5] 人才招募方向 - 公司招募优秀伙伴加入 合作方向包括自动驾驶产品经理、4D标注与数据闭环、世界模型、VLA、自动驾驶大模型、强化学习、端到端等多个技术方向[4]
赵何娟对话王维嘉:AI没有系统性泡沫,原生AI应用将在三年内爆发 | 巴伦精选
新浪财经· 2025-12-26 21:54
大模型竞争格局 - OpenAI不会轻易出局,未来将是各家公司交替领先的动态格局,只要使用相同的Transformer架构和技术路径,差距就不会不可逾越,竞争态势是“你六个月超越我,我再六个月超越你”的持续迭代 [2] - Google在模型研究、自有算力(TPU)和应用场景三方面具备领先优势,构成了高度协同的系统集成能力,其垂直整合能力使其算力基础设施可针对自身应用进行高度优化,从而实现最低的单位成本 [9][10][11] - 未来的模型竞争将从同质化走向高度差异化,这是强化学习驱动下、基于不同应用目标和数据空间定向演化的必然结果,各家公司通过强化学习在不同知识子空间中进行定向探索 [3][17][18] - 模型分化将导致垂直领域诞生专业化的行业通用大模型,例如在科研、制药、编程、历史等领域 [3][19] - 基础大模型的分化维度比应用更宽广,在一个高度差异化的基础大模型之上,可以构建多个面向不同细分市场的应用 [21] 英伟达面临的挑战与战略 - 英伟达面临的主要挑战在于各大科技公司纷纷开始自研AI芯片,如果未来每家公司都能开发出成本更低、效率更高、易用性更好的芯片,英伟达将面临被替代的风险 [3][11] - 未来云服务市场越集中,对英伟达越不利;市场越分散,其地位越稳固,因此英伟达积极扶持新兴云厂商,如Oracle、Nebius、CoreWeave等,以维持生态多样性 [3][12] - 对于大型企业客户(如沃尔玛、《财富》500强公司),在云平台上选择TPU还是GPU时,目前绝大多数第三方用户仍主要使用GPU,原因包括CUDA生态成熟、开发便捷,以及GPU具备极强的部署灵活性,可按需从单卡扩展至万卡规模,而TPU采用固定规模的block设计(一个block包含9,064个TPU),难以支持小规模或灵活配置 [12] AI应用落地的关键条件 - 任何AI应用如果能同时满足以下三个条件,就更有可能快速取得突破:1) 纯数字化;2) 具备训练数据;3) 拥有明确的奖励函数,反之,如果缺少其中任意一项,进展通常会较为缓慢 [4][22][23][24] - 金融领域的AI应用是满足这三个条件的典型例子:交易完全数字化、存在大量历史数据、奖励函数清晰(通过回测验证盈利) [24] - 不满足条件的应用例子是“保姆机器人”,它涉及物理交互、缺乏明确的奖励函数(什么是“好保姆”标准模糊)、相关训练数据极难获取 [24][29] - 工业机器人场景则不同,其对灵巧度要求取决于具体任务(如分拣、装箱),且通常具备大量可采集的操作数据,因此前景更为积极 [28][29] AI市场泡沫与价值判断 - AI泡沫论的本质是节奏问题,只要模型能力持续提升,AI就不存在系统性泡沫,模型能力决定一切,其他因素都是次要的 [5] - 即便预训练见顶,模型的经济价值仍远未被释放,因为当前模型能力已经能够完成大量任务,其潜在经济价值未被充分释放 [32][33] - 真正的风险在于生态发展的不均衡,基础设施可能提前建成而应用尚未成熟,导致局部性、阶段性的泡沫,但这只是暂时调整,而非根本危机 [5][34] - 当前指数级增长的需求主要来自推理(inference),而非预训练,因为训练是一次性投入,而用户实际使用模型产生的调用是持续性的 [35] 芯片与算力市场动态 - Google对英伟达不构成直接竞争,因为英伟达的最大客户(Amazon、Microsoft、Google、Meta等云服务商)彼此是直接竞争对手,不可能依赖Google提供芯片,只能选择中立的英伟达 [11] - Google的TPU对外销售业务难以成为其核心收入来源 [11] - 芯片处理速度在过去两年可能提升了100倍甚至1000倍,但未来这种增长速度可能会放缓 [57] AI对行业与创业的影响 - AI时代最难被替代的是高斯分布极端尾部的天才,扎克伯格开出天价年薪正是对这一趋势的预判,高端人才做出的贡献是机器无法替代的 [7][52] - AI能力的提升正在颠覆VC模式,技术背景深厚的创业者可能不再需要融资,靠产品力就能从零做到十亿美金收入,例如一家名为Surge的公司创业四年达到十亿美金收入而未进行融资 [7][53][54] - 未来1-3年,创业必须做AI原生应用,不能做AI赋能,在旧模式基础上修修补补肯定竞争不过大公司,原生应用才是创业机会 [7][55] - 未来1-3年可能发生的最大变化包括:1) 应用层面出现真正的AI原生应用;2) Agent(智能代理)逐渐成熟并实现环节打通,哪怕实现简单的功能(如点外卖或网上购物)也具有巨大的经济价值和市场颠覆性 [56] 技术架构与能力边界 - 在当前的Transformer架构下,AI不可能产生意识或情感,机器缺乏内分泌系统,没有内在的奖惩机制和欲望,一切行为都是确定性的输入输出 [5][39][41][42] - 比起担忧AI控制人类,更应警惕坏人利用AI [5][45] - 语言是人类与动物的根本区别,是人类跃居食物链顶端的核心能力,从文字中学习3D空间信息是间接且低效的,李飞飞的空间智能研究更直接高效 [8][47] - 仅依靠空间模型无法完成所有任务,必须同时具备语言模型和空间模型,语言提供抽象能力和行动指令,空间提供物理世界理解,两者缺一不可 [8][49]
以VLA+MOE架构打造工业具身大脑,赛索德智能斩获千万级天使轮融资
机器人圈· 2025-12-26 18:07
公司近期动态与融资情况 - 工业具身智能研发商赛索德智能完成数千万元天使轮融资,投资方包括宁波方正、扬州金泉、顺景科技三家上市公司及南吉资本 [2] - 融资资金将用于核心技术迭代与工业化场景落地 [2] 公司定位与技术范式 - 公司致力于构建“算法定义硬件”的机器人系统新范式 [2] - 核心方向是通过VLA(多模态融合)+MOE(混合专家模型)架构打造工业级具身大脑 [2] - 技术方案专门适配多品种、小批量、定制化的工厂生产场景,旨在填补智能装配机器人的市场空白 [2] 核心团队背景 - 创始人孙鑫海拥有香港中文大学硕士学位,研究方向为多模态融合下的空中交通流量预测与优化,具备机器人产业趋势洞察与商业转化经验 [3][4] - 联合创始人兼CTO周丹弟博士深耕机器人感知与AI领域,曾任AI独角兽企业高管,是公司双系统AI架构的核心设计者 [4] - 联合创始人兼TechLead施祥博士专注于PhysicalAI研发,曾在中芯国际负责先进制程技术验证的智能化方案 [4] 产品设计与市场策略 - 产品采用轮式结构,赋予机器人自由移动与搬运能力,以适配工厂复合工位需求 [5] - 主要交付形式为整机销售,同时提供最低六个月起租、月付约6000-7000元的租赁方案以降低客户门槛 [6] - 未来计划拓展RaaS(机器人即服务)模式,以按需付费服务拓宽市场覆盖 [6] 硬件配置与技术架构 - 产品硬件搭载英伟达Jetson Thor芯片、RGBD深度相机、工业RGB相机、激光雷达、五指灵巧手、7自由度机械臂及扬声器麦克阵列 [6] - 技术路线上,公司未采用行业主流的UMI(手眼协作)方案,而是自主研发了ROI(兴趣区域)技术,以强化模型对精细动作的感知能力 [7] - ROI技术被融入公司独创的“大脑–桥脑–小脑”VLA架构,通过约束感知信息流提升作业精准度与效率 [7] 行业洞察与定价逻辑 - 具身智能的核心价值在于通过算法与模型体系实现系统性能力交付,突破传统工业智能单次定制开发的局限 [8] - 结合沿海制造业工人月均1万元人力成本,两班制年度人力成本可达36万元(18个月回本周期)或48万元(24个月回本周期) [10] - 因此,满足工业化要求的轮式双足具身机器人定价三四十万能够被大量工业客户接受 [10] - 行业当前的价格竞争本质源于许多业务场景未能真正落地,一旦产品解决客户核心需求,价格将不再是主要考量因素 [10] 技术挑战与行业基准 - 行业常用LIBERO、ManiSkill、VLABench三大基准衡量具身模型能力,但这些基准存在局限性:仿真与真实部署性能差异大,且VLA模型性能受超参数、机器人构型等变量影响,难以公正对比 [10] - 行业真正的落地与突破依赖强化学习与持续学习两大核心概念,强化学习已演变为价值函数驱动的范式 [10] - 尽管Agent和RAG尚未在参数层面实现真正的持续学习,但通过系统级记忆与决策机制,已为大模型提供了可行的非参数化持续适应方案 [10] 对世界模型与AGI路径的看法 - 世界模型虽被认为是通往AGI的可能路径,但对工业具身场景帮助有限,因其依赖大量高质量预训练数据集且能力边界存在局限 [11] - 具身任务具有明显的任务导向和交互局部性,核心挑战集中在稳定的运动控制或精细的灵巧操作等特定能力维度,而非对环境中所有可能情形的全面建模 [11] - 实际系统的可靠性依靠在关键能力和高频交互场景上达到足够的鲁棒性,而非穷尽所有可能状态 [11]
收到很多同学关于自驾方向选择的咨询......
自动驾驶之心· 2025-12-26 17:18
自动驾驶领域学术研究趋势与方向 - 行业观察到计算机、车辆、自动化和机械等专业背景的学生对自动驾驶研究方向存在普遍困惑,特别是在入门和选择前沿方向上[2] - 行业将自动驾驶研究方向分为前沿方向与相对不拥挤的赛道,前沿方向包括视觉语言动作模型、端到端自动驾驶、强化学习、3D高斯泼溅和世界模型,相对不拥挤的赛道包括开集目标检测、占用网络以及少样本/零样本学习[2] - 针对不同专业背景的学生,行业给出了差异化的学习路径建议,对于自动化和计算机背景的学生,建议专注于深度学习相关的前沿方向,如视觉语言动作模型、端到端和世界模型,这些方向被认为从入门到工作乃至读博都有很大发展空间,对于机械和车辆背景的学生,建议从传统规划与控制或3D高斯泼溅等对算力要求较低、入手更简单的方向开始[2] - 行业强调方法论提升的重要性,建议研究者通过多阅读论文和交流来逐步形成自己的思考与想法,并指出新人研究者通常需要经历多次试错才能产生好的想法[2] 论文辅导服务覆盖的研究方向 - 公司提供的论文辅导服务覆盖了自动驾驶领域的众多前沿与关键技术方向,包括但不限于端到端自动驾驶、视觉语言动作模型、世界模型、强化学习、3D目标检测、多传感器融合、3D高斯泼溅、鸟瞰图感知、占用网络、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、流匹配、点云感知、毫米波雷达感知、单目感知以及车道线/在线高精地图构建等[3] 论文辅导服务内容与成果 - 公司提供的核心服务包括论文选题、论文全流程指导以及实验指导[6] - 此外,公司还提供博士申请指导服务[7] - 公司宣称其辅导服务的中稿率很高,并且已有辅导完成的论文被计算机视觉、人工智能、机器人、自然语言处理等领域的顶级会议和期刊收录,例如CVPR、AAAI、ECCV、CoRL、ICLR、IROS、ICRA、ACL等[7] 论文辅导服务的目标发表范围 - 公司的论文辅导服务旨在帮助客户在广泛的学术出版物上发表成果,目标范围包括自动驾驶领域的顶级会议和期刊,涵盖中国计算机学会推荐的A、B、C类会议/期刊,科学引文索引的一区至四区期刊,中国科学院分区的一区至四区期刊,以及工程索引和中文核心期刊,同时也涵盖毕业设计论文、博士申请和学术比赛等相关需求[10]
一个在量产中很容易被忽略重要性的元素:导航信息SD
自动驾驶之心· 2025-12-26 09:56
导航信息在自动驾驶中的应用与核心职责 - 导航信息SD/SD Pro已在许多量产方案上使用 提供车道、粗粒度路径点等信息 为车辆提供粗略的全局和局部视野 [2] - 导航模块的核心职责之一是提供参考线 这是下游规划与控制模块的强需求 能极大减轻规划压力 车辆只需在参考线基础上进行细化 [4] - 导航模块的另一核心职责是提供规划约束与优先级、路径监控和重规划功能 [5] 导航信息的具体功能与系统集成框架 - 导航信息能实现车道级的全局路径规划 搜索目标车道的最优车道序列 [6] - 导航信息能为行为规划提供明确的语义指导 方便车辆提前准备变道、减速、让行等操作 [6] - 在两段式系统框架中 导航信息输入到感知模型 输出导航路径 该路径再作为机器学习规划器的输入 用于预测自车行驶轨迹 [16] - 在一段式系统框架中 导航信息经过专用编码器编码后 与动态、静态信息一起作为输入 参与后续的模型优化 [21] 端到端自动驾驶课程核心内容概述 - 课程重点聚焦落地 内容涵盖一段式、两段式、强化学习、导航应用、轨迹优化及量产经验分享 [24] - 课程第一章概述端到端任务 介绍主流的感知模型一体化架构和经典的规控学习化方案 并对开源数据集和评测方式进行详细说明 [29] - 课程第二章介绍两段式端到端算法框架 包括其建模方式、感知与规划控制的信息传递方式、优缺点 并通过经典算法进行实战 [30] - 课程第三章介绍一段式端到端算法框架 该框架可实现信息无损传递 性能通常优于两段式 涵盖基于向量逻辑注意力、扩散模型等多种方案 [31] - 课程第四章专门讲解导航信息的量产应用 包括主流导航地图的格式与内容 以及导航地图在端到端模型中的编码与嵌入方式 [32] - 课程第五章介绍自动驾驶中的强化学习算法 旨在弥补纯模仿学习的不足 让机器学习因果关系以实现更好的泛化能力 [33] - 课程第六章进行基于神经网络的规划器项目实战 重点介绍基于扩散模型和自回归模型的模仿学习算法 以及后续的强化学习算法 [34] - 课程第七章讲解量产中的兜底方案——时空联合规划 介绍多模态轨迹打分搜索、轨迹平滑等后处理算法 以确保输出轨迹的稳定可靠 [35] - 课程第八章分享端到端量产经验 从数据、模型、场景、规则等多个视角剖析如何选用合适工具与方法以提升系统能力边界 [36] 课程安排与面向人群 - 课程为小班教学 仅剩10个招生名额 [24][26] - 课程开课时间为11月30日 预计三个月结课 采用离线视频教学 配合VIP群答疑及三次线上答疑 答疑服务截止2026年11月30日 [37] - 课程面向进阶学员 建议学员自备算力在4090及以上的GPU 并熟悉自动驾驶BEV感知、视觉Transformer、端到端等常见算法 [39] - 课程章节按计划解锁 例如第一章于11月30日解锁 第二章于12月7日解锁 后续章节依次在12月14日、12月21日、12月30日、1月15日、2月10日、2月24日解锁 [38][40]
一见Auto采访小米陈光的一些信息分享......
自动驾驶之心· 2025-12-26 09:56
行业技术路线争鸣 - 智能驾驶行业在2025年出现“名词过载”现象,技术路线分化出多个派别,争鸣不断 [7] - 理想汽车与智驾供应商元戎启行坚定选择VLA路线,在算法架构中引入大语言模型 [4] - 华为表示不会走向VLA,而是坚定选择WA路线,小鹏也在尝试去掉Language环节 [4] - 小米汽车是持续深耕端到端方向的企业之一 [5] 小米汽车的技术路径与策略 - 小米汽车端到端研发启动较晚,于2024年内部正式整合成立“端到端算法与功能部”,比理想、蔚来晚了至少3个月 [5] - 但小米追赶迅速,在2025年2月向用户全量推送了300万Clips的端到端,7月再次推送了1000万Clips版本,11月于广州车展发布Xiaomi HAD增强版 [5] - 小米HAD增强版最大的不同是引入了世界模型+强化学习,使模型具备开放世界的知识性以及推断复杂场景因果的能力 [5] - 公司认为在端到端算法中引入世界模型和强化学习并非首创,但会将其做得“更坚决” [5] - 公司智能驾驶团队主要分成三拨,除端到端和VLA外,市面上所有路线(包含WA、VA)在内部都有预研团队 [10] - 面对技术路径选择,公司并非“一刀切”,认为新技术的引入需要循序渐进,技术是否先进并不代表体验一定更好 [12] - 公司判断技术的最终标准是能否被用户感知、信任和长期使用,用户体验不好,用户只会觉得是公司的问题,而非技术问题 [12][24] - 公司认为在有限算力下训练出智能密度最大的模型是努力方向,不过分卷算力,用户体验才是关键 [18][32][33] 小米智驾团队的独特性与能力 - 小米智驾团队虽然不是成立最早,却是组建最快、追赶最猛的团队 [12] - 自2021年3月官宣造车起,第一年便组建了500人团队,而理想组建700人团队花费两年,小鹏花费3年 [13] - 4年间,团队已超1800名成员 [13] - 自2024年3月SU7上市以来,公司从高精度地图进化到无图,近一年间推送了三个版本的端到端,实现了“一年追三代”,而其他新势力的摸索至少经历了三年时间 [13] - 截至2025年第三季度,公司年内已投入235亿元研发费用,其中四分之一(约58.75亿元)用于AI研发 [13] - 公司具备强大的“基建”能力,即以数据为核心的研发效能提升,包括快速数据挖掘、标注、模型训练与自动化评测 [41][42] - 云端基建能力可相互借鉴且经验可复制,公司其他业务(如云服务)的扎实底层基建能够被汽车业务快速复用 [14][44][45] - 公司测试资源、数据资源非常充沛,易于获取高质量场景数据 [46] - 强大的基建能力与对专属素材及测试的重视,共同造就了公司快速的研发迭代 [47] 端到端、世界模型与强化学习的应用 - 公司认为,无论是VA、WA还是VLA,本质都是如何让模型的智能密度最大 [5][18] - 单纯的端到端只是模仿学习,属于数据驱动;而引入强化学习、世界模型或VLA后,则进入认知驱动阶段,模型具备推理因果逻辑的能力 [20] - 强化学习在智能驾驶中应用面临两大难题:世界模型难以完全保真,需要放入大量可编辑的数字资产;并行探索的效率面临算力合理分配的挑战 [6] - 公司在新版本中优化了奖惩制度,算法会在世界模型里反复练习,通过奖励机制不断尝试以找到更优的驾驶思路 [39] - 公司认为端到端+世界模型+强化学习主要解决“直觉”问题,针对中等难度或非极端困难场景,本能反应更快 [22] - VLA则旨在解决需要长序思考的复杂场景问题 [35] - 公司不认为存在唯一最好的技术路线,有时不一定能找到最强的技术,但一定能找到最适合自身系统的技术方案 [23] 仿真测试的战略价值 - 仿真测试是公司研发的“三支柱”之一,另外两者是场地测试和实车测试 [68] - 公司针对所有实车测试里程,在仿真中的测试目标是达到至少100倍的比例 [67][70] - 在模型训练中,真实数据与仿真数据的分配比例约为八二开,真实数据占80%,仿真数据占20% [71] - 20%的仿真数据能够显著降低人力成本,若无仿真,人力成本至少需翻几倍 [72] - 仿真的核心价值在于解决实车难以遇到、不好收集和挖掘的场景数据,例如高速路上运输几十米大风叶等罕见场景 [73][74] - 公司当前仿真数据的生成质量很强,并会通过评价指标保证其与真实数据的一致性 [61][62] - 仿真环境需要足够逼真、符合物理规律,并具备强大的场景编辑能力,以改变光照、天气、路面状况、交通参与者等要素 [60] 关于芯片与VLA的考量 - 公司认为自研自动驾驶芯片需权衡需求与成本,好处是成本可控、软硬件配合更好,但前期投入大、回本辛苦 [78][79] - 从一颗芯片迁移到另一颗芯片时,会面临“部署偏差”问题,包括算子支持差异、计算精度不同导致的输出不一致等,需要针对性的优化和校准 [80] - 芯片迁移优化工作量巨大,通常需要6到10个月甚至更长时间 [81] - 公司从英伟达Orin芯片迁移到Thor芯片的速度比一般企业快很多 [83] 对L2与L4发展的看法 - 从技术栈来看,L2与L4正越来越走向统一,在数据驱动和认知驱动下,开发逻辑越来越相同,主要差异在于场景化和安全要求 [86] - 目前L2面临的挑战更大,因其受限于车上有限的算力与传感器,且需要不断平衡安全、效率、舒适性以及用户的驾乘习惯 [87] - L4对安全系数要求更高,需要做更多的安全冗余以实现绝对安全,其最终责任方是系统本身 [86][88] - L2作为辅助驾驶,人类驾驶员是最终的监督和把控责任方 [88] - 公司认为L4一定会做成,从车企的角度来说,也慢慢会涉足到L4领域 [89]
机器学习应用系列:强化学习驱动下的解耦时序对比选股模型
西南证券· 2025-12-25 19:40
量化模型与构建方式 1. 模型名称:DTLC_RL (解耦时序对比学习强化学习模型) **模型构建思路**:构建一个兼具深度学习非线性预测能力与良好可解释性的选股框架。通过特征空间解耦,分别构建面向市场系统风险(β空间)、个股特异特征(α空间)和个股基本面信息(θ空间)的编码器,并通过对比学习与正交约束提升各空间表征的区分度与互补性,最后引入强化学习近端策略优化(PPO)算法以实现自适应调整各空间权重进行动态融合[2][11][12]。 **模型具体构建过程**: 1. **多层次因子解耦与表征学习**:构建三个在数学上正交的潜在表征空间[11]。 * **Beta空间(市场系统风险)**:使用时间卷积网络(TCN)作为编码器,输入为5个市场相关特征的60个交易日时序数据[67][68]。TCN采用因果卷积和扩张卷积来捕捉时序依赖关系[13][17][19]。因果卷积确保输出只依赖于当前及历史输入,其约束为: $$y_{t}=f(x_{t},x_{t-1},\dots,x_{t-k+1})$$ 其中$y_t$为t时刻输出,$x_{t-j}$为历史输入,$k$为卷积核大小[17]。扩张因果卷积操作定义为: $$H_{l}=\mathrm{ReLU}\left(\mathrm{BatchNorm}\left(\mathrm{CausalConv1d}(X_{l},k,d_{l})\right)\right)$$ 完整残差块为: $$B l o c k(X)=A c t i v a t i o n\left(X+F(X)\right)$$ $$F(X)=W_{2}*\sigma(W_{1}*X)$$ * **Alpha空间(个股特异特征)**:使用多尺度Transformer模型作为编码器,输入为13个日频量价时序特征[76][77]。模型区分20日、40日、60日三个尺度,分别用Transformer层编码后进行上采样和门控融合[78][80]。Transformer核心的自注意力机制计算如下: $$Q\;=\;X W_{Q}\;,\;\;K\;=\;X W_{K}\;,\;\;V\;=\;X W_{V}\;,$$ $$Z=A t t e n t i o n(Q,K,V)=s o f t m a x\left({\frac{Q K^{T}}{\sqrt{d_{k}}}}\right)V$$ 多头注意力机制为: $$M u l t i h e a d\left(Q\ ,\ K\ ,\ V\right)=C o n c a t\left(h e a d_{1}\ ,\ \ldots\ \ ,\ h e a d_{h}\right)W_{o}$$ * **Theta空间(个股基本面信息)**:使用门控残差多层感知机(GRN)作为编码器,输入为8个核心财务指标[88][92]。GRN包含特征变换、门控机制和残差连接[38][39][43][45]。其计算过程包括: $$\tilde{x}=\;W_{1}x\;+\;b_{1}$$ $$s\;=\;E L U(W_{2}\tilde{x}+\;b_{2})$$ $$g\;=\;\sigma\bigl(W_{g}\,x\;+\;b_{g}\bigr)$$ $$\tilde{x}=s\odot g\,+\,x$$ 最终输出为层归一化结果:$G R N\left(x\right)=\ L a y e r N o r m\left({\tilde{x}}\right)$[47]。 2. **对比学习增强表征稳健性**:在每个子空间内部引入对比学习机制,通过构建基于未来收益率相似性的正负样本对,驱使编码器学习到的表征能够拉近同类样本、推远异类样本[12][52]。使用InfoNCE损失函数: $$L_{\mathrm{InfotNCE}}=-E\left[l o g~\frac{e x p\left(f(x)^{\top}f(x^{+})/\tau\right)}{e x p\left(f(x)^{\top}f(x^{+})/\tau\right)+\sum_{i=1}^{N-1}~e x p\left(f(x)^{\top}f(x_{i}^{-})/\tau\right)}\right]$$ 其中相似度计算采用余弦相似度:$\sin(\mathbf{u},\mathbf{v})={\frac{\mathbf{u}^{\mathrm{{T}}}\mathbf{v}}{|\mathbf{u}||\mathbf{v}|}}$[55]。正样本为未来20日收益率相关系数大于80%的样本,负样本为相关系数小于0%的样本[104]。 3. **正交约束保障因子独立性**:设置正交化损失函数,强制要求三个子空间输出的表征向量在统计上接近相互独立,缓解多重共线性问题[12]。损失函数为三空间输出编码信息的协方差矩阵非对角线元素平方和[104]。 4. **强化学习驱动空间融合**:在三个编码器后引入强化学习动态复权的空间融合机制[116]。将三个子空间编码与市场环境特征拼接成状态$s_t$,输入策略网络(Actor)生成三维空间权重[120]。策略网络采用PPO算法进行优化,其目标是最大化期望累积回报: $$J(\theta)=E_{\tau^{-\pi_{\theta}}}[R(\tau)]=E_{\tau^{-\pi_{\theta}}}\left[\sum_{t=0}^{T}\gamma^{t}r_{t}\right]$$ PPO通过裁剪目标函数稳定策略更新: $$\mathrm{CLIP}\left(\theta\right)=E_{t}\left[mi\ n(r_{t}\left(\theta\right)\overline{A_{t}},\mathrm{clip}(r_{t}\left(\theta\right),1-\epsilon,1+\epsilon)\overline{A_{t}}\right]$$ 其中$r_t(\theta)$为新旧策略概率比:$r_{t}\left(\theta\right)=\frac{\pi_{\theta}\left(a_{t}\left|s_{t}\right.\right)}{\pi_{\theta_{\mathrm{old}}}\left(a_{t}\left|s_{t}\right.\right)}$[61][63]。优势函数$\hat{A_t}$通过广义优势估计(GAE)计算: $$A_{t}^{\widehat{\mathrm{GAE}\,(\gamma,\lambda)}}=\sum_{l=0}^{\infty}(\gamma\lambda)^{l}\delta_{t+l}$$ $$\delta_{t}=r_{t}+\gamma V(s_{t+1})-V(s_{t})$$ $$\widehat{A_{t}}=\delta_{t}+\gamma\lambda\widehat{A_{t+1}}$$ 奖励函数$r_t$由预测收益与实际收益的相关系数奖励$R_t^{IC}$、权重稳定性奖励$R_t^{stable}$和权重分散性奖励$R_t^{div}$组成: $$r_{t}=R_{t}^{I C}\big(\widehat{y_{t}},y_{y}\big)+\lambda_{s}R_{t}^{s t a b l e}+\lambda_{d}R_{t}^{d i v}$$ 加权融合后的特征通过预测头网络输出个股未来收益率预测$\hat{y_t}$[120][121]。 **模型评价**:该模型为深度学习在量化选股中的应用提供了一条兼具“非线性能力”与“可解释性”的路径[159]。 2. 模型名称:DTLC_Linear (线性融合模型) **模型构建思路**:作为强化学习融合版本的基准模型,将三个空间的编码信息进行合并,并通过单层线性层进行处理并接入预测头进行收益率预测[2][98]。 **模型具体构建过程**:将Beta、Alpha、Theta三个空间经过对比学习优化后的高维编码直接进行拼接,输入一个包含线性层和Softmax激活的轻量网络,动态生成空间权重,进而对编码进行加权融合,最终通过预测头输出收益率预测[98]。训练过程采用以信息系数(IC)最大化为核心目标的多任务损失函数,并同样引入了对比学习损失和正交约束损失[98][102]。 **模型评价**:为科学评估强化学习融合机制的实际贡献提供了可对比的基准[98]。 3. 模型名称:DTLC_Equal (等权融合模型) **模型构建思路**:作为简单的融合对照组,直接对三个空间独立训练出的因子进行等权求和[2][98]。 **模型具体构建过程**:分别训练Beta_TCN、Alpha_Transformer、Theta-ResMLP三个因子,然后将每个因子的值进行等权相加,得到最终的合成因子[98][103]。 4. 因子名称:Beta_TCN **因子构建思路**:捕捉市场系统性风险,量化个股对市场风险因素的不同敏感度[67]。 **因子具体构建过程**:选取5个市场相关特征:收益率暴露(beta_mkt)、波动率敏感度(beta_vol)、流动性beta(beta_liq)、大小盘暴露(beta_size)、市场情绪敏感度(beta_sent)[67][72]。将这5个特征的60个交易日时序数据输入TCN编码器(结构如DTLC_RL模型中的Beta空间编码器),输出一个32维向量作为Beta空间编码,并进一步通过预测头输出收益率预测,形成因子[68][73]。 **因子评价**:可以挖掘出个股暴露在beta中的相关信息,具备一定的选股效果[73]。 5. 因子名称:Alpha_Transformer **因子构建思路**:挖掘个股特异性信息(Alpha)[76][81]。 **因子具体构建过程**:选取13个日频量价时序特征,如量价背离度(pvo)、压力支撑效率(sse)、波动率偏度(skew)等[77]。将这些特征的时序数据输入多尺度Transformer编码器(结构如DTLC_RL模型中的Alpha空间编码器),输出收益率预测,形成因子[78][80]。 **因子评价**:可以学习到一定程度的个股特异性信息,且与beta空间编码器学习的信息重合度相对适中[82]。 6. 因子名称:Theta-ResMLP **因子构建思路**:系统性地挖掘个股的财务安全边际与抗风险能力,基于价值投资理论中的安全边际原则[88][95]。 **因子具体构建过程**:选取8个核心财务指标特征:市盈率(pe)、市净率(pb)、ROE均值比标准差(roemeantostd)、股息率(dividendyield)、ROE环比(roemom)、EPS同比(epsyoy)、营业利润率(operatingprofit)、ROIC(roic)[88]。将这些截面特征输入门控残差MLP编码器(结构如DTLC_RL模型中的Theta空间编码器),输出收益率预测,形成因子[92][94]。 **因子评价**:可以学习到一定程度的个股基本面信息,且与beta、alpha空间编码器学习的信息重合度较低,边际信息提供量较大[96]。 模型的回测效果 (回测区间:2019年1月至2025年11月,全A范围,Top10%多头组合) 1. **DTLC_RL模型**,IC: 0.1250,ICIR: 4.38,年化收益率: 34.77%,年化波动率: 25.41%,信息比率: 1.37,最大回撤率: 40.65%,单边月均换手率: 0.71X[122][123]。 2. **DTLC_Linear模型**,IC: 0.1239,ICIR: 4.25,年化收益率: 32.95%,年化波动率: 24.39%,信息比率: 1.35,最大回撤率: 35.94%,单边月均换手率: 0.76[103][105]。 3. **DTLC_Equal模型**,IC: 0.1202,ICIR: 4.06,年化收益率: 32.46%,年化波动率: 25.29%,信息比率: 1.28,最大回撤率: 40.65%,单边月均换手率: 0.71[103][105]。 因子的回测效果 (回测区间:2019年1月至2025年11月,全A范围,Top10%多头组合) 1. **Beta_TCN因子**,IC: 0.0969,ICIR: 3.73,年化收益率: 27.73%,年化波动率: 27.19%,信息比率: 1.02,最大回撤率: 45.80%,单边月均换手率: 0.79X[2][73]。 2. **Alpha_Transformer因子**,IC: 0.1137,ICIR: 4.19,年化收益率: 32.66%,年化波动率: 23.04%,信息比率: 1.42,最大回撤率: 27.59%,单边月均换手率: 0.83X[2][80][81]。 3. **Theta-ResMLP因子**,IC: 0.0485,ICIR: 1.87,年化收益率: 23.88%,年化波动率: 23.96%,信息比率: 0.99,最大回撤率: 37.41%,单边月均换手率: 0.41X[2][94][95]。
Physical Intelligence内部员工分享(从数采到VLA再到RL)
自动驾驶之心· 2025-12-25 17:33
文章核心观点 - 截至2025年12月,机器人学习领域的主流技术栈完全基于行为克隆,其核心挑战在于处理分布外状态、任务不确定性以及动作误差累积,而超越行为克隆的强化学习等方法在真实世界应用中仍面临仿真与现实差距、高质量价值函数学习等重大障碍,行业未来发展将依赖于更高效的人类示范系统、视频模型骨干以及世界模型的进步[8][41][44][46][72][74] 2025年机器人学习栈的剖析 - 当前所有机器人学习系统本质上都是行为克隆系统,通过监督学习模仿人类提供的接近最优的任务演示,预测动作片段[8] - 行为克隆的训练数据主要来源于三种人类演示方式:主从控制方案、手持设备示范以及直接的人类示范视频[9][10] - **主从控制方案**:使用控制器远程操控机器人,优点是能记录全套传感器信息且动作在运动学上可行,缺点是操作速度可能比人类直接操作慢10倍,操作员需要数周练习,且规模化数据采集成本高昂[11][12] - **手持设备示范**:人类操作者手持配备低成本传感器套件的设备完成任务,通过SLAM和逆运动学重建状态,优点是操作更易上手、速度更快、部署成本更低,缺点是存在传感器噪声和域差距,且无法保证动作的动力学可行性[13][14][15][20] - **直接人类示范**:利用YouTube或工厂工人佩戴摄像头记录的视频数据,优点是数据规模巨大、多样且以人类自然速度产生,缺点是在重建状态和动作时存在巨大差距,存在视角不一致和运动学不可行等问题[16][17][21] 行为克隆中的难题与解决方案 - 行为克隆策略在实际执行时会因环境微小变化、任务本身的不确定性/多模态性以及动作预测误差的递归累积而逐渐偏离,进入训练分布之外的状态[19][22][23] - 解决分布外状态性能问题的核心方法不是仅依赖专家示教数据,而是需要引入DAgger风格的方法,即训练模型学会从失败状态中恢复[28][30] - 构建有效的DAgger恢复数据是一门高度迭代的“艺术”,需要精心筛选数据以避免模型学会进入失败状态,这个过程繁琐、耗时且依赖人类的强判断力[32][33][34][35] - DAgger数据迭代通常基于预训练好的基础策略进行,投入足够精力后策略可以变得出乎意料地鲁棒,但随着鲁棒性提升,评估性能所需时间会急剧增加,且离线指标与真实性能相关性弱[36][37] - 行为克隆策略难以超越人类示范的速度,直接加速执行会给控制系统带来压力并导致物理交互错误,筛选最快示范或对速度条件化建模都无法让策略速度超过人类本身[38][39][40][42] 超越行为克隆的挑战 - 行为克隆系统受限于人类示教者提供数据的速度以及修复失败所需的大量人工投入,行业理想是发展能够自我提升、自主探索并达到超人速度的机器人系统[41][43][44][55] - 大语言模型中的强化学习成功得益于其能从完全相同的状态无限次执行以及拥有强大的基础策略,这使得在线、on-policy的强化学习可行,而机器人领域不具备这些条件[47][48][49][53] - **仿真中的强化学习**:面临严重的仿真到现实差距问题,仿真器在物理建模、视觉外观等方面往往是现实世界的糟糕仿制品,完全在仿真中训练的策略迁移到真实世界时表现通常糟糕[58][59] - **真实世界中的强化学习**:避免了仿真到现实的差距,但直接从策略执行中学习改进面临障碍,核心难点在于必须回答反事实问题,而机器人无法从同一状态反复尝试不同动作[63][64][65] - 学习高质量的世界模型或Q/V函数来评估反事实结果仍然是一个开放的研究问题,目前尚未有工作能很好建模灵巧操作任务关心的环境交互动力学,近期方法如优势加权回归仅展示出相较于纯行为克隆的小幅提升[60][61][68][69][70][71] 对机器人学习未来的预测与建议 - **技术预测**:未来2年内,视觉语言动作模型将被视频模型骨干取代;10年内,世界模型将能很好地模拟通用开放世界交互,策略可通过在世界模型中“抽取”获得;传统仿真引擎将成为世界模型的数据生成器,但核心是端到端学习的;接近专家级的示范数据对微调世界模型仍至关重要;真实机器人执行数据仍是实现超人级性能所必需的[74] - **行业建议**:人类示范将长期持续重要,构建能有效降低痛点的软硬件一体人类示范系统是极具价值的创业或合作方向[74] - **创业方向分析**:数据标注是高度商品化、人力成本套利的业务,缺乏技术护城河;售卖预训练数据需要证明能提升客户模型性能,这既是运营也是技术挑战;评估对模型改进闭环至关重要,必须内部完成,无法外包;由于传感器和任务目标差异巨大,具身AGI领域不会出现通用的数据平台[74]
小米陈光:我们不想制造技术焦虑了
21世纪经济报道· 2025-12-25 16:24
行业技术路线争鸣 - 2025年智能驾驶行业出现“名词过载”现象,分化出VLA、VA、WA等多个技术派别,争鸣不断 [2] - 理想汽车与供应商元戎启行坚定选择VLA路线,在算法架构中引入大语言模型 [2] - 华为与小鹏是VLA的反对派,选择WA路线,尝试去掉Language环节 [2] - 小米汽车认为VA、WA、VLA本质目标一致,都是追求在有限算力下使模型的智能密度最大 [3][8] 小米汽车技术路径与进展 - 小米汽车坚定选择并深耕端到端技术路线,同时内部对VLA、WA、VA等所有主流路线均有预研团队 [3][4] - 小米端到端研发启动较晚,于2024年内部正式整合成立“端到端算法与功能部”,比理想、蔚来晚了至少3个月 [3] - 但小米追赶迅速,在2025年2月向用户全量推送300万Clips的端到端,7月推送1000万Clips版本,11月于广州车展发布Xiaomi HAD增强版,实现了“一年追三代” [3][6] - Xiaomi HAD增强版最大的不同是引入了世界模型+强化学习,使模型具备开放世界的知识性和推断复杂场景因果的能力,标志着进入认知驱动阶段 [3][9] - 小米智能驾驶团队规模已超过1800人,自2021年3月官宣造车后快速组建,第一年即组建500人团队,速度远超同期友商 [5][6][12] - 公司计划在2025年内完成Xiaomi HAD增强版的量产任务 [6] 技术理念:认知驱动与用户体验 - 行业共识是从单纯的数据驱动走向认知驱动阶段,以解决数据驱动无法覆盖所有长尾场景、难以平衡数据分布的问题 [9] - 简单的端到端模仿学习属于数据驱动,而引入强化学习、世界模型或VLA则属于认知驱动,其特点是让模型知道行为原因并进行自主探索与推理 [9] - 小米认为技术是否先进不代表体验一定更好,最终判断标准是能否被用户感知、信任和长期使用 [5][10] - 用户体验是最终落脚点,用户体验不好,用户会归咎于公司而非技术 [5][10] - 在有限硬件条件下训练出智能密度最大的模型是各家的努力方向,不应过分内卷算力 [14][15] 研发策略与基建能力 - 小米研发策略并非“一刀切”,新技术的引入需要循序渐进,并注重寻找最适合自身的技术方案 [5][9] - 强大的以数据为核心的研发基建是小米快速追赶的关键,其优势在于高效的研发架构、数据闭环和自动化流程 [17][18][19][20] - 基建能力强的体现包括:快速从已有数据中挖掘并标注问题、模型训练速度快、评测自动化程度高 [20] - 小米作为科技企业,其云端基建能力可在不同业务间相互借鉴和快速复用,这是其天然优势 [6][21][22] - 截至2025年第三季度,小米年度研发总投入已达235亿元,其中四分之一资金用于AI研发 [6] 仿真技术的应用与价值 - 在世界模型中应用强化学习面临两大难题:世界模型的保真度、并行探索的算力分配效率 [4][33] - 小米在应用强化学习和世界模型构建仿真环境方面比一般友商更为坚决 [32] - 高质量的仿真环境需要足够逼真、符合物理规律,并具备强大的场景编辑能力 [34][35] - 仿真数据主要用于解决实车难以遇到或危险的长尾场景,其生成质量很高 [35][36][42] - 在测试体系中,仿真测试里程要求至少是实车测试里程的100倍 [37][40] - 在模型训练数据中,仿真数据占比约为20%,真实数据占80% [41] - 这20%的仿真数据价值很高,能解决实车难以采集的场景,预计可减少数倍的人力成本 [41][42]