强化学习 - 财报，业绩电话会，研报，新闻 - Reportify

强化学习

搜索文档

DeepSeek新模型降价：优化推理效率，API价格降超50%

YOUNG财经漾财经· 2025-09-30 14:25

新模型发布与技术升级 - DeepSeek正式发布实验性版本DeepSeek-V3.2-Exp模型 [3] - 新模型在V3.1-Terminus基础上引入DeepSeek Sparse Attention稀疏注意力机制 [3] - 新模型针对长文本训练和推理效率进行探索性优化和验证 [3] - DeepSeek Sparse Attention首次实现细粒度稀疏注意力机制 [4] - 新机制在几乎不影响模型输出效果前提下实现长文本训练和推理效率大幅提升 [4] - 新模型研究过程中使用高级语言TileLang进行快速原型开发 [4] - 开源算子包含TileLang与CUDA两种版本 [4] API价格调整与成本优化 - DeepSeek API价格降低50%以上 [2][4] - 输入缓存命中价格从0.5元降至0.2元/百万tokens [4] - 输入缓存未命中价格从4元降至2元/百万tokens [4] - 输出价格由12元降至3元/百万tokens [4] - 价格下调得益于新模型服务成本大幅降低 [4] - 官方App、网页端、小程序均已同步更新为新模型 [3] 模型性能与评估 - DeepSeek-V3.2-Exp训练设置与V3.1-Terminus严格对齐 [4] - 在各领域公开评测集上新模型表现与V3.1-Terminus基本持平 [4] - 新模型作为迈向新一代架构的中间步骤 [3] 行业竞争动态 - 国内大模型厂商智谱新一代旗舰模型GLM-4.6即将发布 [6] - 智谱Z.ai官网显示GLM-4.5标识为上一代旗舰模型 [6] 学术研究突破 - DeepSeek-R1研究成果登上《自然》期刊封面 [7] - 研究揭示如何在极少人工输入下训练模型进行推理 [7] - DeepSeek-R1模型采用强化学习进行训练 [7] - 模型正确解答数学问题获高分奖励答错受惩罚 [7] - 训练出能够规划解决问题步骤的大模型能更好解决问题 [7]

稀疏注意力机制

DeepSeek-V3.2-Exp模型

DeepSeek-R1模型

稀疏注意力机制

DeepSeek-V3.2-Exp模型

DeepSeek-R1模型

理想可能发i6战报，可能不发

理想TOP2· 2025-09-30 13:01

理想汽车I6战报发布可能性分析 - 综合消息面与推理面公司倾向于I6可能发布战报且发布概率较大 [1][3] - 公司判断理想汽车可能发I6战报也可能不发可能发的点是L6已发战报可能不发的点是理想总体不倾向发战报 [1] 理想汽车经营策略与核心理念 - 公司分析认为理想汽车实际经营的核心锚点是其创始人李想以挑战成长极限为最终驱动力其他经营策略可能变化 [4] - 理想汽车更长时间周期未必坚持移动的家或家用车理念此次I6宣发已无小孩带娃元素家用车定义从局限于12岁以下小孩变为更宽泛 [4] - 理想汽车经营策略被描述为以挑战成长极限为奖励函数的强化学习会依据环境反馈进行调整 [4] 理想汽车战报发布行为模式 - 理想汽车倾向于不发布锁单或大定战报原因包括全直营模式导致只能发布真实数据以及早期大定数据不亮眼发布效果不佳 [4] - 如果战报数据非常亮眼公司认为理想汽车有可能发布以带来相应好处 [4] I6与L6车型数据预期对比 - I6数据预期纸面上比L6好很多 L6为72小时1万台七天可退大定但不能等比例类比 [5] - I6有很强的晚锁单和晚提车可能错过置换补贴及国补的预期而L6没有此预期 [5]

纯血VLA综述来啦！从VLM到扩散，再到强化学习方案

具身智能之心· 2025-09-30 12:00

视觉-语言-动作模型综述的核心观点 - 该综述系统性地总结了纯视觉-语言-动作方法的研究现状，旨在填补现有综述在纯VLA方法上的空白，并提出清晰的分类体系以阐明该领域的演进轨迹 [4][8] - VLA模型通过提供统一框架将视觉感知、语言理解和可执行动作相结合，标志着通用具身智能发展的重要一步，其目标是克服传统机器人系统在动态和非结构化环境下泛化能力差的问题 [11][14] - 该领域正从单一生成范式向混合架构演进，结合自回归、扩散和强化学习等多种范式的优势，以应对复杂任务，并朝着更高效、安全且易于部署的通用机器人系统发展 [18][56][57] 背景与发展脉络 - VLA模型的发展建立在单模态建模突破的基础上，早期LLM/VLM基础模型如Transformer架构和对比学习方法为多模态整合奠定了方法学基础 [12][13] - 从LLM/VLM到VLA模型的演进体现在将图像、指令和机器人状态统一编码为token，并通过自回归生成动作序列，从而在单一序列建模框架下实现感知-语言-动作的闭环 [14] - VLA模型被视为实现通用具身智能的关键前沿，其通过结合视觉编码器、大语言模型和强化学习的决策能力，展现出弥合“感知-理解-行动”鸿沟的重要潜力 [17] VLA方法学范式自回归范式 - 自回归模型通过将动作序列视为时间相关过程，在Transformer架构中统一多模态感知和动作生成，支持跨任务泛化的通用代理，代表性工作包括Gato、RT-1/RT-2和PaLM-E [19][21] - 该范式通过引入LLM实现语义规划和分层推理，增强了长时任务和复杂指令的处理能力，但面临误差累积、多模态对齐脆弱以及高计算成本等限制 [24][26][32] - 结构优化方向聚焦于降低计算冗余和提升实时性，采用层级分解、自适应推理和轻量化压缩等策略，以改善部署效率 [30][31] 扩散范式 - 扩散模型将机器人控制重新表述为概率生成问题，通过条件去噪过程支持多样化的动作分布生成，在几何一致性（如SE(3)约束）和视频生成式规划方面展现出优势 [33][37] - 多模态架构融合趋势将Transformer与扩散模型结合，实现异质模态的统一表征，并引入显式推理模块和领域专用设计（如力觉感知）以提升性能 [38][39] - 应用优化方向通过轻量化设计（如TinyVLA）、认知启发式架构和运行时鲁棒性机制，推动模型从实验室原型向真实世界部署过渡 [40][42][44] 强化学习范式 - 强化学习微调策略通过视觉和语言信号生成可迁移的奖励代理，结合离线行为克隆和在线强化学习稳定策略优化，并扩展至四足机器人、人形机器人和自动驾驶等场景 [48][51][53] - 安全导向方法如SafeVLA引入约束学习对齐机制，在开放环境中防止高风险动作，但奖励工程的噪声信号和训练稳定性仍是挑战 [50][54] - 效率优化策略采用量化、剪枝和知识蒸馏等技术，在保持任务成功率的同时降低内存使用和提升推理速度 [53] 混合与专用方法 - 混合架构整合自回归、扩散和强化学习等多种范式，以兼顾推理精度与动作生成的物理一致性，代表性工作如HybridVLA在单一框架中结合扩散轨迹和自回归推理 [56][57] - 高级多模态融合强调3D空间理解和显式几何约束建模，从早期2D特征拼接转向模块化、具3D意识的架构，以提升在非结构化环境中的操作可靠性 [59][60] - 领域适配将VLA原则扩展至自动驾驶、人形机器人控制和GUI交互等特定场景，通过专用数据集（如CoVLA）和层级化设计解决领域独特挑战 [61][62] 数据集与仿真资源 - 高质量数据集是VLA模型发展的基石，真实世界数据集如Open X-Embodiment整合了来自21个机构的22个机器人数据集，覆盖527种技能和160,266个任务，显著提升了模型的泛化能力 [16][71][76] - 仿真数据集通过虚拟环境生成大规模标注数据，支持可扩展训练和安全测试，代表性平台包括THOR、Habitat和CARLA，它们提供了多样化的交互场景和传感器配置 [16][80][81] - 基准评测常用成功率、语言跟随率和轨迹误差等指标，并通过迁移到未见环境评估模型的鲁棒性，仿真基准如VIMA-BENCH和CALVIN设计了多级协议以系统化测试泛化能力 [76][79][82]

视觉-语言-动作（VLA）模型

大语言模型（LLMs）

视觉语言模型（VLMs）

自回归范式

视觉-语言-动作（VLA）模型

大语言模型（LLMs）

视觉语言模型（VLMs）

自回归范式

Z Event｜SF Tech Week10.8硅谷线下会：为什么是现在？RL 的转折点与未来

Z Potentials· 2025-09-30 11:59

强化学习行业趋势 - 强化学习正从被视为小众研究方向转变为推动推理、决策智能与复杂场景交互的关键技术 [3] - 随着大语言模型发展接近瓶颈，强化学习已成为行业重要突破口 [3] - 当前是强化学习跨界融合关键时刻，学术界、产业界和创业公司共同推动其从研究走向落地 [3] 行业活动信息 - 活动将于10月8号晚上6:30在旧金山举行，探讨强化学习未来 [4] - 活动时间为10月8号6:30-9:00pm，地点在报名通过后通知 [10] - 活动报名可通过链接https://partiful.com/e/etu0TQxKzPgxszpJwU5z或扫码参与 [10] 参会嘉宾背景 - 嘉宾阵容横跨学界、工业界和创业圈，包括UCSB助理教授、DeepMind研究主管、Pokee AI CEO等 [6] - 参与者来自OpenAI、Anthropic、DeepMind、Meta等实验室的研究员和YC创业者 [12] - 活动由Z Potentials联合HatTrick Capital与Future Builderz共同呈现 [8] 投资机构信息 - HatTrick Capital是专注支持早期新一代技术创业者的硅谷基金，持续在AI领域投资 [9] - Future Builderz是连接研究者、创始人、投资人的国际化社区，推动前沿科技产业化 [9]

Artificial Intelligence

RL（强化学习）

Artificial Intelligence

RL（强化学习）

限时16.99万~21.59万元，别克至境L7正式上市

中国汽车报网· 2025-09-30 10:38

产品上市与定价 - 上汽通用别克品牌于9月28日推出高端新能源子品牌“至境”的首款旗舰轿车至境L7，共5款车型，限时权益价区间为16.99万元至21.59万元 [1] - 具体车型限时权益价分别为：尊享版169,900元、奢享版182,900元、尊享逍遥智行版189,900元、磨享逍遥智行版202,900元、艾维亚版215,900元 [2] - 用户可通过多种渠道下定，在10月31日前完成线上下定并于12月31日前完成交付的用户可享受限时权益价及价值至高53,000元的上市权益 [1][2] 动力系统与续航 - 至境L7搭载“真龙”增程系统，采用252kW增程单电驱，动力相当于3.0T V6发动机，配备1.5T混动专用发动机和峰值功率100kW的发电机 [6] - 百公里综合能耗低至0.5L，满电百公里加速5.9秒，80-120km/h超车加速3.8秒，亏电状态下加速差异小于0.1秒，实现全工况动力无衰减 [6] - 纯电续航里程达302km，综合续航里程达1420km，支持130kW快充，30%至80%电量补能仅需18分钟 [10] 电池安全与技术 - 采用全新研发的奥特能2.0增混专用电池，测试项目较新国标多60%，耐久测试标准较新国标严苛29倍，实现“16亿公里0自燃” [8] - 电池具备纯电续航64万公里超长循环寿命，拥有超强动力专属电芯、360°多重防护、智能控温系统和超高防水防腐等级 [8] 智能驾驶辅助 - 全球首发搭载基于“强化学习”的Momenta R6飞轮大模型的“逍遥智行”辅助驾驶系统，融合高通SA8775P芯片 [9][17] - 具备行业领先的“无断点”城市NOA功能，可应对复杂路况，并实现高速收费站ETC自主通行 [12] - 提供全类型车位泊车辅助，行业首次发布“不停车一键泊入”功能，将泊车流程简化为一步 [14] - 系统配备多重安全冗余和多级接管提醒，包括行业首创三级接管预警及安吉星24小时人工介入功能 [16] 智能座舱与交互 - 座舱由高通SA8775P芯片驱动，AI算力高达72 TOPS，支持车机体验的持续学习和“智能成长” [17] - 前排配备50吋全景AR-HUD抬头显示系统、15.6吋智能中控屏和10.25吋全液晶仪表盘，构成多屏数字空间 [19] - 拥有八大亮点功能，包括手机场景式备车、节能型哨兵模式、“千人千面”记忆空间和AI智能语音助手等 [21] 豪华配置与舒适性 - 车身尺寸为5032mm x 1952mm x 1500mm，呈现C级中大型豪华轿车气势，配备无框车门、银河星空展翼大灯等 [22] - 内饰采用纯净浮岛美学设计，大量使用Nappa高级真皮包覆，后排配备云感悬浮层座椅，副驾搭载合资首款双120°零重力座椅 [22][24] - 搭载27扬声器Buick Sound剧院级豪华音响，提供四种声场模式，并配备大师定制香氛系统 [26] 底盘与安全验证 - 采用前双叉臂、后五连杆悬架结构，配备RTD连续阻尼可变悬架和直径90mm的液压衬套，以提升驾乘舒适性和稳定性 [28] - 历经超千项试验验证，碰撞测试项目达60项（为国标5倍），耐久测试里程近650万公里，公共道路测试超30万公里 [30]

新能源汽车

真龙增程系统

逍遥智行辅助驾驶系统

Momenta R6飞轮大模型

新能源汽车

真龙增程系统

逍遥智行辅助驾驶系统

Momenta R6飞轮大模型

别克至境 L7 正式上市限时价16.99万 ~21.59万元

财经网· 2025-09-30 07:00

产品发布与定价 - 上汽通用别克品牌至境L7于9月28日正式上市，共推出5款车型，限时权益价16.99万元至21.59万元 [1] 动力系统性能 - 新车搭载“真龙”增程系统，采用252kW增程单电驱，动力相当于3.0T V6发动机 [1] - 配备行业最强的1.5T混动专用发动机，匹配峰值功率100kW发电机，百公里综合能耗低至0.5L [1] - 满电百公里加速5.9秒，80-120km/h超车加速3.8秒，亏电状态下加速差异小于0.1秒，发动机介入噪声小于0.5dB [3] - 拥有302km纯电续航和1420km综合续航里程，满足90%以上用户城区通勤一周一充需求 [3] - “真龙”增程系统支持130kW快充，30%至80%补能仅需18分钟 [3] 智能驾驶技术 - 率先采用别克“逍遥智行”辅助驾驶系统，全球首发搭载基于端到端强化学习的Momenta R6飞轮大模型 [3] - 实现“无断点”城市NOA，可流畅应对近距离加塞、机非混行、横穿马路等高风险场景 [3] - 系统能精准识别潮汐车道流向、可变灯牌车道指示，自动匹配正确通行方向 [3] - 提供全类型车位泊车辅助，支持标准车位、极窄车位、机械车位、断头路垂直/水平泊入等多种复杂场景 [4] 智能座舱配置 - 全球首发搭载高通最新一代SA8775P芯片，AI算力高达72 TOPS专为智舱服务 [4] - 车机系统可通过持续学习和快速迭代，实现“智能成长” [4] 外观设计与尺寸 - 车身尺寸为5032mm x 1952mm x 1500mm，定位C级中大型豪华轿车 [6] - 采用溜背式动感设计，配备无框车门、银河星空展翼大灯、星轨浮光展翼尾灯及车顶激光雷达 [6] 底盘与悬挂系统 - 采用越级豪华底盘，前悬为双叉臂、后悬为五连杆结构，后悬采用6球头设计 [7] - 配备RTD连续阻尼可变悬架，可进行毫秒级阻尼调节以主动控制车身姿态 [7] - 前悬架下控制臂和后副车架配备直径达90mm的液压衬套 [7]

Momenta R6飞轮大模型

真龙增程系统

Momenta R6飞轮大模型

真龙增程系统

为何我国智能辅助驾驶快速“变聪明”？这两个维度缺一不可

中国经营报· 2025-09-30 01:23

业内共识，中国发展智能驾驶有三大优势。一是场景优势，国内道路复杂多元，多城市示范项目积累了海量数据，为AI模型训练提供了"丰富素材"；二是生态优势，主机厂、供应商、科技公司已形成"协同创新"的合力，无须刻意推动即可同向发力；三是政策优势，政府积极建设车云路基础设施、提供测试场地，为技术落地创造良好环境。值得一提的是，对于消费应用端，当场景优势与智能辅助驾驶领先架构平台相结合，"聪明的车更懂你"便在现实中上演，也宣告汽车智能化进入到了2.0阶段。近日，地平线副总裁、战略部&智驾产品规划与市场部负责人吕鹏在与《中国经营报》等媒体记者交流时表示："一段式端到端，有很强的防御性驾驶能力，和专业司机开得非常像，推动辅助驾驶迎来拟人化体验拐点。" 一段式端到端被认为是通往自动驾驶"ChatGPT"时刻的关键路径。人工智能科学家做过一个比喻，你读了一本推理小说，在书的末尾要预测凶手的名字。要做到这一点，你就需要理解整部书。而这，也是一段式端到端学习的底层逻辑。在实际道路体验中，HSD展现出系统时延低、防御性驾驶能力强、横纵向合一丝滑控车、持续自我进化等核心优势，真正做到"解题快、解题准"，全面提升用户驾乘 ...

一段式端到端

地平线HSD（HorizonSuperDrive）

一段式端到端

地平线HSD（HorizonSuperDrive）

至境L7杀到别克“反击”新势力

北京商报· 2025-09-29 21:28

在燃油车时代，轿车市场是众多车企争夺的主战场之一，包括君越、帕萨特、雅阁等众多合资品牌车型占据中国轿车市场份额。随着新能源汽车市场崛起，造车新势力们凭借"用户思维+快速迭代"的打法，建立了"智能化、年轻化"的品牌认知，新能源轿车市场"激战"升温。其中，小米SU7、智界S7、小鹏 P7、蔚来ET7等一系列车型的上市，也逐步开始攻入合资盘踞的轿车腹地。在外界看来，市场格局变化下，上汽通用别克以至境L7杀入轿车市场，对垒众多新势力造车品牌，这场仗并不好打。对于这场反击，至境L7也是变化打法。从车身尺寸来看，至境L7是长宽高分别为5032毫米×1952毫米 ×1500毫米，定位C级中大型轿车。然而，从价格上来看，至境L7已杀入B级车市场价格区间。此外，至境L7选择以增程市场切入，搭载"真龙"增程系统，该系统采用252kW增程单电驱，匹配1.5T混动专用发动机、峰值功率100kW发电机，百公里综合能耗低至0.5升。在续航里程上，至境L7纯电续航达302公里，综合续航里程达1420公里。同时，"真龙"增程系统支持130kW快充，18分钟补能30%—80%。数据显示，今年前8个月混合动力车型销量达346万辆 ...

新能源汽车

新能源汽车

降价！DeepSeek，大消息！

证券时报· 2025-09-29 19:55

DeepSeek-V3.2-Exp模型发布 - 公司于9月29日正式发布DeepSeek-V3.2-Exp模型，该模型作为迈向新一代架构的中间步骤，在V3.1-Terminus基础上引入了DeepSeek Sparse Attention稀疏注意力机制[2] - DeepSeek Sparse Attention首次实现细粒度稀疏注意力机制，在几乎不影响模型输出效果前提下大幅提升长文本训练和推理效率[4] - 公司对V3.2-Exp与V3.1-Terminus进行严格训练设置对齐，在各领域公开评测集上表现基本持平[4] 模型性能表现 - 通用能力方面：MMLU-Pro保持85.0分，GPQA-Diamond从80.7略降至79.9，Humanity's Last Exam从21.7降至19.8[5] - 搜索与智能体能力：BrowseComp从38.5提升至40.1，BrowseComp-zh从45.0提升至47.9，SimpleQA从96.8提升至97.1[5] - 代码能力：LiveCodeBench从74.9略降至74.1，Codeforces-Div1从2046提升至2121，Aider-Polyglot从76.1降至74.5[5] - 数学能力：AIME 2025从88.4提升至89.3，HMMT 2025从86.1降至83.6[5] 产品部署与定价策略 - 官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp模型[5] - API价格大幅下调，开发者调用成本将降低50%以上[5] 近期技术发展历程 - 9月22日线上模型升级为DeepSeek-V3.1-Terminus，8月21日正式发布DeepSeek-V3.1，称为"迈向Agent时代的第一步"[8] - V3.1采用混合推理架构，同时支持思考模式与非思考模式，具有更高思考效率和更强智能体能力[8] - 9月17日DeepSeek-R1推理模型研究论文登上Nature封面，这是中国大模型研究首次登上Nature封面，也是全球首个经过完整同行评审的主流大语言模型研究[8] - Nature社论评价该研究打破主流大模型未经独立同行评审的空白[9]

Artificial Intelligence

DeepSeek-V3.2-Exp

DeepSeek-V3.1-Terminus

Artificial Intelligence

DeepSeek-V3.2-Exp

DeepSeek-V3.1-Terminus

新华汽车实验室｜别克至境 L7“逍遥智行”首搭Momenta R6 飞轮大模型，首发体验公开

中国金融信息网· 2025-09-29 19:49

产品发布与体验活动 - 上汽通用与《新华汽车实验室》联合推出特别节目“别克至境L7逍遥智行首发体验”，通过全网平台上线，节目通过真实复杂路况试驾展示车辆的智能感知与决策能力 [1] - 测试车型别克至境L7率先搭载基于Momenta R6飞轮大模型的“逍遥智行”辅助驾驶系统，提供无断点城市NOA和“不停车一键泊入”等全场景功能 [1] 辅助驾驶系统技术特点 - Momenta R6飞轮大模型是国内首个在端到端基础上实现量产落地的“强化学习”大模型，突破“模仿学习”局限，基于40亿公里驾驶数据提炼的7000万组高价值数据进行训练 [2] - 该模型决策目标不仅是模仿人类驾驶员，更追求在复杂场景下实现超越人类的预判与处理能力，模型泛化能力强，可应对近距离加塞、“鬼探头”、盲区遮挡等复杂场景 [2] - “逍遥智行”系统在超过20公里的公开路测中，覆盖城区拥堵、无信号灯路口、狭窄机非混合路、城市快速路及地下停车场等多元复杂场景，表现出稳定的感知、决策与控制能力 [3] - 在混合交通路况下，车辆能主动识别路况，平滑完成借道避让并安全回归原车道，在转弯路口能自动识别标线，果断进入待转区 [3] - 系统具备“不停车一键泊入”功能，车辆在行进中可实时识别车位并自动完成泊入，支持机械车位泊车，能精准规划轨迹应对“断头路”等极端场景 [4] 软硬件协同与技术合作 - 至境L7的智能驾驶体验源于“最强大脑”与“最强肌肉”的深度融合，既依赖Momenta R6大模型的智能决策，也得益于别克在底盘调校与车身动态控制方面的长期积累 [5] - 与Momenta的合作是公司有效整合资源的品牌策略，有助于合资品牌在保持车辆平台与制造优势的同时，快速引入前沿软件算法，提升智能化赛道竞争力 [2] - 除Momenta R6飞轮大模型外，至境L7还搭载激光雷达、高通8775芯片以及“真龙增程”系统，进一步夯实品牌竞争力 [6] 市场竞争与产品定位 - 随着电动化、智能化进程深入，中国汽车市场竞争格局正从动力技术比拼扩展至智能体验较量，辅助驾驶技术作为智能出行核心维度，其重要性日益凸显 [1] - 别克至境L7作为别克高端新能源子品牌“至境”的首款量产车型，已于9月28日正式上市，限时权益价16.99万元起，展现出公司在新能源转型和产品推进上的“加速度” [6]

辅助驾驶技术

Momenta R6飞轮大模型

逍遥智行辅助驾驶系统

辅助驾驶技术

Momenta R6飞轮大模型

逍遥智行辅助驾驶系统