强化学习 - 财报，业绩电话会，研报，新闻 - Reportify

强化学习

搜索文档

“百分之百的中国车”，别克首款增程式轿车至境L7亮相

观察者网· 2025-09-17 18:38

产品发布与定位 - 上汽通用别克首款增程式轿车至境L7于9月15日首次公开亮相基于"逍遥"超级融合架构打造被公司管理层称为"目前行业最强的增程豪华轿车" [1] - 新车将于9月28日开启预售预售前下订用户可享终身免费保养目前已到达全国经销商展厅 [3] - 车型定位C级轿车长宽高分别为5032/1952/1500mm 轴距3000mm 采用溜背造型设计 [11] 技术配置与性能 - 搭载"真龙"增程系统采用252kW最大功率增程单电驱满电0-100km加速5.9秒 80-120km/h超车加速3.8秒 [5] - 百公里综合能耗0.5L 发动机介入噪声小于0.5dB 纯电续航最长302km 综合续航里程1420km [5] - 支持130kW快充 30%至80%补能仅需18分钟采用奥特能2.0增混专用高性能电池纯电续航64万公里低衰减 [5][7] - 搭载高通最新一代SA8775P芯片神经网络算力达72 TOPS 配备50吋全景AR-HUD和15.6吋智能中控屏 [9] 智能化与辅助驾驶 - 首发"逍遥智行"辅助驾驶系统采用基于端到端"强化学习"的Momenta R6飞轮大模型 [7] - 提供"无断点"城市NOA和业内首批"不停车一键泊入"全场景辅助驾驶功能发布会现场演示高难度自动泊车场景 [7] - 配备基于端云大模型架构的AI智能语音助手和手机场景式备车功能 [9] 底盘与舒适性配置 - 采用前双叉臂、后五连杆悬架结构后悬采用6球头设计集成RTD连续阻尼可变悬架支持毫秒级阻尼调节 [9] - 座舱采用270°皮质环绕包覆四功能悬浮层座椅采用无修全粒面Nappa高级真皮 [11] - 首发搭载27扬声器Buick Sound剧院级音响和多模式头枕音响等豪华配置 [11] 研发与市场竞争 - 车型百分之百由中国定义和研发设计理念更接近中国新势力产品发布会前向特斯拉、小米、理想等新势力品牌致敬 [3] - 上市后将面对享界S9、阿维塔12等自主品牌新能源轿车的竞争品牌力在新能源时代尚待验证 [13]

上汽集团(SH:600104)

Momenta R6飞轮大模型

高通SA8775P芯片

奥特能2.0增混专用高性能电池

Momenta R6飞轮大模型

高通SA8775P芯片

奥特能2.0增混专用高性能电池

腾讯AI Lab首创RL框架Parallel-R1，教大模型学会「并行思维」

机器之心· 2025-09-17 17:37

并行思维技术突破 - 腾讯AI Lab等机构首创Parallel-R1框架通过强化学习实现大模型并行思维能力解决监督微调方法的泛化难题[2][9] - 框架采用渐进式课程设计从简单数学题（GSM8K）生成并行数据成功率83.7% 复杂难题（DAPO）成功率0.0%[10][12] - 交替式奖励策略平衡准确性与多样性使并行思维使用率达63.0% 同时在AIME测试中取得最佳性能[13][14] 性能提升表现 - 在AIME25测试中实现42.9%性能飞跃 AIME24准确率提升至42.2% AMC23达91.5%[17][26] - 平均准确率提升8.4% MATH基准测试达84.5% 显著超越单一思维模型[2][17] - 两阶段训练策略使模型在减少并行格式依赖后准确率仍持续攀升至25.6%[26][28] 技术实现机制 - 渐进式课程分两阶段：先通过SFT学习并行格式语法再通过RL泛化到复杂任务[19] - 奖励系统设计：80%时间采用准确率奖励 20%时间采用分层奖励（并行正确+1.2分非并行正确+1.0分）[19] - 模型思维策略动态演化：从早期探索阶段的多路径并行转变为后期验证阶段的答案复核[18][20][22] 应用价值拓展 - 并行思维作为临时训练脚手架可帮助模型探索更优能力区间即使后续停止使用仍保持性能增益[24][26] - 框架突破人工合成数据依赖避免复杂数据管道构建需求提升方法可扩展性[7][10] - 技术适用于大模型、强化学习、AI系统架构等方向具备规模化潜力与长期价值[39][47]

Parallel - R1框架

Parallel - R1框架

AI革命下一站：Anthropic与OpenAI斥巨资打造“虚拟员工”

36氪· 2025-09-17 13:11

核心观点 - Anthropic和OpenAI正开发能替代人类执行复杂工作的AI同事通过模拟企业软件训练模型使其像人类员工一样理解和操作真实工作流程 [1] - 该训练方法采用模拟办公沉浸式教学聘请各行业专家担任职业导师手把手教授模型软件操作技巧 [2] - 训练成本高昂 Anthropic计划明年投入10亿美元建设AI训练健身房 OpenAI预计今年数据相关支出达10亿美元 2030年将增至80亿美元 [2] - 专家时薪持续上涨目前20%专家时薪超90美元 10%突破120美元预计18个月内顶级专家时薪将达150-250美元 [3] - 成功后将突破传统训练技术瓶颈可能开辟销售AI智能体或开发更强大企业级应用等新商业模式 [3] 训练方法 - 采用强化学习环境模拟真实办公场景将复杂任务拆分为多个简单步骤并验证完成正确性 [6][7][8] - 以销售任务为例考核标准包括按最后联系时间筛选客户数据库发送包含Calendly会议链接的邮件将潜在客户状态更新为重新接洽等 [7][8] - 通过人类专家示范生成正确案例筛选模型计算结果与人类一致的案例进行集中训练快速低成本生成大量训练样本 [11] 基础设施投入 - Anthropic目前将不到10%的后训练预算用于强化学习环境但由于初期效果显著明年将大幅提高投入 [8] - 图灵公司已建成超1000个强化学习模拟环境覆盖从Airbnb到Excel等各类应用场景每个模拟环境配备100-500个定制任务示例 [9] - Scale、Surge、Mercor和Invisible Technologies等竞争对手纷纷推出类似服务配备行业专家设计训练任务 [9] 行业影响 - OpenAI高管预测整个经济体未来可能变成巨大的强化学习机器 AI通过记录各领域专业人士日常工作来学习训练 [12] - AI开发商持续用精心筛选的高难度问答训练模型如顶级编程竞赛题或博士水平生物学问题用于强化学习特定领域新技能 [9] - 数据标注公司招聘标准升级从硕博在读生转变为拥有多年经验的职场精英包括NASA数据科学家、能源部化学家、放射科医师等 [11]

强化学习环境

强化学习环境

速递｜OpenAI和Anthropic的新战场：训练AI操作企业软件，成本年飙80亿美元

Z Potentials· 2025-09-17 11:34

AI模型企业应用训练 - Anthropic和OpenAI等公司正在训练大型语言模型学习使用Salesforce、Zendesk、Cerner等企业级软件工具，以处理白领工作者的复杂任务[1][2] - 训练方法采用模拟应用程序环境（强化学习环境）和领域专家示范操作，与传统AI训练模式存在显著差异[2] 资金投入与成本结构 - Anthropic计划未来一年投资10亿美元创建企业应用克隆体（强化学习环境）[2] - OpenAI预计2030年数据相关成本（含人类专家费用和训练场建设）将达80亿美元，较2024年的10亿美元增长700%[3] - 人类专家时薪持续攀升：Labelbox公司约20%专家时薪超90美元，近10%超120美元，预计未来18个月将涨至150-250美元[6][7] 技术实施与验证方法 - 图灵公司将任务分解为多步骤并制定评估标准，例如验证AI是否按日期筛选数据库、发送带Calendly链接的邮件、更新客户状态等[4][6] - 通过让AI模型重复执行任务（如DCF分析数十次），筛选与人类专家结果一致的案例用于训练[9] 商业化应用前景 - 成功训练后可销售能自动操作企业应用的"虚拟协作者"智能体，或开发新版企业软件，开辟新盈利渠道[3][5] - 强化学习环境市场规模扩大：图灵公司已构建1000多个模拟环境（含Airbnb、Excel等），Scale、Surge等竞争对手纷纷进入该领域[8] 行业资源与人才需求 - AI公司聘请NASA数据科学家、能源部化学家、放射科医师等高端专业人士示范任务，取代早期硕士/博士学生[9] - OpenAI高管预测"整个经济"可能演变为强化学习训练场，通过记录各领域专业人士日常工作方式训练AI[10] 当前进展与规划 - Anthropic目前将不到10%的训练后优化预算用于强化学习环境，但若趋势持续，明年该比例将显著提升[6] - 除企业软件外，AI开发者持续训练模型处理高难度编程竞赛题、博士级生物学问题等精选难题[9]

Artificial Intelligence

强化学习环境

Salesforce客户关系管理软件

Zendesk客户支持系统

Cerner医疗记录应用

Artificial Intelligence

强化学习环境

Salesforce客户关系管理软件

Zendesk客户支持系统

Cerner医疗记录应用

星动纪元招聘！具身多模态、强化学习等多个方向

具身智能之心· 2025-09-17 08:02

点击下方卡片，关注" 具身智能之心 "公众号职位描述职位要求加分项职位描述职位要求 1. 多模态强化学习算法研究与开发：负责前沿多模态强化学习算法的研究、设计和实现，解决实际应用中的复杂问题。 2. 模型训练与优化：负责多模态大模型的训练、微调和优化，以提升模型在不同任务上的性能。 3. 多模态数据处理与分析：负责多模态数据的收集、处理、清洗和分析，构建高质量的训练数据集。 4. 技术文档撰写与分享：撰写相关技术文档，分享研究成果，并与团队成员进行技术交流和协作。 1. 强化学习（RL）：深入理解强化学习基本原理，熟悉主流 RL 算法（如 PPO、GRPO、DAPO 等）。 2. 多模态学习：深入理解多模态学习的原理和技术，熟悉多模态融合、跨模态对齐等技术。 3. 大模型（LLM/LVM）：深入理解大模型的架构和训练原理，熟悉 Transformer 结构，了解预训练、微调、提示工程等技术。 4. 计算机视觉/自然语言处理：具备扎实的 CV 或 NLP 基础，了解主流模型（如 ViT、DINO、LLaMA 等），并具备相关项目经验。 1. 在顶级学术会议（如 NeurIPS ...

多模态大模型

具身智能系统

多模态大模型

具身智能系统

直击增程消费痛点，别克新能源豪华轿车至境L7全国首秀

南方都市报· 2025-09-16 19:07

产品发布与定位 - 上汽通用旗下别克品牌于9月15日正式公开亮相新能源智能豪华轿车至境L7 [1] - 新车定位20万-30万价格区间旨在为消费者在油车和电车之间提供一个兼顾的选择 [1] - 公司认为此发布补齐了别克过去在智能化、新能源等方面的短板结合传统优势与中国领先技术以带来行业第一梯队的智电体验 [1] 增程系统技术亮点 - 至境L7首发搭载“真龙”增程系统采用252kW行业最大功率增程单电驱提供相当于3.0T V6发动机的动力 [4] - 车辆满电0~100km加速仅需5.9秒 80-120km/h超车加速3.8秒亏电状态下性能差异均少于0.1秒 [4] - 百公里综合能耗低至0.5L 发动机介入噪声小于0.5dB 实现同级最长的302km纯电续航和1420km综合续航里程 [4] - 公司指出增程用户痛点在于亏电动力下降、增程器抖动噪音大以及纯电续航短新系统旨在破解这些难题 [4] 智能化技术配置 - 至境L7全球首发上车基于端到端“强化学习”的Momenta R6飞轮大模型采用别克“逍遥智行”辅助驾驶系统 [1][6] - 系统提供包含“无断点”城市NOA、业内首批“不停车一键泊入”在内的全场景辅助驾驶功能 [6] - 车辆首发搭载高通最新一代SA8775P芯片以高达72 TOPS的神经网络算力专为智舱服务 [1][8] - 公司表示与Momenta合作紧密因通用和上汽是Momenta最大投资方且双方安全理念高度契合 [8] 市场策略与行业洞察 - 公司洞察到豪华品牌和合资品牌在新能源领域受到很大冲击过去推电车因缺乏智能化而市场反响平淡 [3] - 公司认为当前SUV市场增程车已成主流但轿车市场仍有增程车型空白希望填补这个空白 [3] - 从技术角度看增程市场走势取决于电池能量密度能否大幅提升目前技术发展还达不到纯电完全替代增程的程度 [6] - 公司不追求某一项长板特别突出而是希望各项短板都不弱这是对产品性能平衡的取向 [6] 竞争环境分析 - 20-30万级轿车市场竞争激烈销量排名前列的车型包括Xiaomi SU7、Model 3、BMW 3系等 [4] - 该价格区间内竞争对手技术路线多样包括纯电、燃油及混合动力车型 [4]

通用汽车(US:GM)

新能源汽车

真龙增程系统

Momenta R6飞轮大模型

新能源汽车

真龙增程系统

Momenta R6飞轮大模型

别克至境L7增程轿车全国首秀

环球网· 2025-09-16 19:03

2025年9月15日，新能源智能豪华轿车——至境L7首次公开亮相。作为别克高端新能源子品牌"至境"的首款旗舰轿车，至境L7采用顶级"真龙"增程技术，率先搭载"逍遥智行"辅助驾驶系统，全球首发上车基于端到端"强化学习"的Momenta R6飞轮大模型，以及高通最新一代SA8775P芯片。此外，至境L7还拥有豪华底盘和豪华舒享座舱，以及对标高端市场的配置。目前，至境L7已到达全国别克经销商展厅，并开启早鸟计划。设计与舒适：豪华配置与底盘技术至境L7拥有5032mmx1952mmx1500m车身尺寸和3000mm较长轴距。设计师从大自然汲取灵感，塑造了富有流动美感与张力的星空展翼外观，蓄势待发的豪华溜背造型，具备超静谧NVH全车无框车门、隐藏门把手和20吋星光涡扇轮毂。银河星空展翼大灯、星轨浮光展翼尾灯，加上车顶激光雷达，以及标志"逍遥智行"的小蓝灯，将科技融入优雅。座舱采用全新纯净浮岛设计美学，塑造了简洁优雅、势能流淌的错层空间。内饰选材提供270°皮质环绕包覆。湖心岛式顶控、水中石晶雅顶灯，还有门板及仪表台星河金砂饰条，呈现典雅、内敛的东方意蕴，营造高端、雅致的空间氛围。至境L7拥有宽裕的座舱 ...

新能源汽车

新能源汽车

一文读懂GPT-5的绝招，这是决定AI未来的隐形武器

36氪· 2025-09-16 18:43

通用验证器的技术背景与需求 - 通用验证器被视为大模型能力提升的关键技术旨在突破传统RLVR在开放性领域应用的局限性[2] - RLVR技术依赖二元奖励机制在数学、编程等有标准答案的领域效果显著但在医疗、教育、创意等主观领域表现不佳[2] - 通用验证器需具备多维度评估能力将非结构化经验数据转化为有效学习信号可能引发强化学习范式革新[2] 基于评分细则的验证器开发路径 - ScaleAI提出Rubrics as Rewards框架通过"专家立法-模型释法-AI执法"三步构建多维评分体系[12][14] - RaR方法使Qwen2 5-7B模型在医疗领域得分从0 0818提升至0 3194 性能提升近四倍[21] - 在HealthBench-1k测试中 RaR相比Simple-Likert方法实现28%相对性能提升接近需专家撰写参考答案的Reference-Likert方法效果[22] - 蚂蚁集团与浙江大学开发Rubicon系统包含超10,000个评分标准使用5,000+样本训练使Qwen-30B模型在开放式基准测试中实现5 2%绝对提升[27] - Rubicon通过否决机制、饱和度感知聚合和非线性函数解决奖励黑客问题和跷跷板效应采用分阶段训练提升模型综合能力[28][30] 增强裁判模型的验证方法 - 阿里夸克团队提出Writing-Zero方法通过强制生成批判性分析提升评分可靠性解决传统奖励模型存在的Reward Hacking问题[36][38] - 采用BRPO算法进行成对比较偏好训练在WritingBench测试集上达到8 29分优于基准模型的6 89分[40][43] 基于模型自评的验证路径 - SEALab提出VeriFree方法用模型自身对答案的自信度作为奖励信号在Qwen3-8B测试中效果媲美传统强化学习方法[45][52] - UC Berkeley开发INTUITOR框架通过自确定性指标实现无监督强化学习在MATH500测试集达到61 2%准确率接近GPRO的63 6%[55][59] - INTUITOR训练后的模型展现跨领域泛化能力在LiveCodeBench代码任务上实现65%相对性能提升[60] 技术路径的局限性与发展方向 - 立法式验证方法依赖专家构建领域特定框架扩展性存在挑战[24][69] - 内观式验证方法受限于预训练知识边界无法验证未见过的外部事实[69] - Richard Sutton提出的OaK架构设想完全基于运行时经验的智能系统通过8步循环实现自主认知构建[70][76] - 当前RaR的评分细则与INTUITOR的自信度指标分别对应OaK架构中子问题和价值函数的早期雏形[78]

通用验证器

通用验证器

通用验证器

通用验证器

上汽通用汽车“至境L7”公开亮相

中证网· 2025-09-16 14:13

产品发布 - 上汽通用汽车别克品牌旗下高端新能源子品牌"至境"的首款旗舰轿车至境L7于9月15日在上海首次公开亮相 [1] - 至境L7已到达全国别克经销商展厅并开启早鸟计划消费者在9月28日前下订可享终身免费保养 [1] 技术配置 - 至境L7采用"真龙"增程技术搭载"逍遥智行"辅助驾驶系统 [1] - 车型首发上车基于端到端"强化学习"的Momenta R6飞轮大模型及高通最新一代SA8775P芯片 [1] - 作为C级中大型豪华轿车纯电续航里程302公里综合续航里程1420公里 [1] 市场定位 - 公司表示至境L7以全球造车底蕴叠加本土创新智慧凭借行业领先增程技术和第一梯队智能体验进击新能源汽车市场第一阵营 [1] - 该车型有望为别克品牌在新时代发展开创新局面 [1]

上汽集团(SH:600104)

新能源汽车

真龙增程技术

逍遥智行辅助驾驶系统

Momenta R6飞轮大模型

新能源汽车

真龙增程技术

逍遥智行辅助驾驶系统

Momenta R6飞轮大模型

蚂蚁集团大模型数据智能算法工程师招聘（可内推）

自动驾驶之心· 2025-09-16 07:33

职位描述大模型数据认知方向，负责设计和开发先进的算法，解决大模型数据生产中的关键问题，包括但不限于数据知识体系生成、语料自动分类、智能数据标注、权威评测集建设以及基于评测的语料质量评估与合成。你的工作将直接影响蚂蚁大模型的训练效果和性能表现。工作将涉及以下一个或多个方向： 1、数据知识体系生成：研究基于LLM的自动知识图谱生成技术，设计并实现自动化算法，构建高效、可扩展的大模型数据知识体系； 2、语料自动分类：基于数据知识体系，研究和开发语料分类算法，指导大模型数据的拓展方向； 3、权威评测集建设：研究业界现有评测集的缺陷，构建标准化、多样化的权威评测集，用于评估大模型的性能；与跨职能团队合作，确保评测集覆盖全面且具有代表性； 4、语料质量评估与合成：建立大模型训练的数据驱动体系，开发语料质量评估算法，识别低质量或噪声数据。研究数据驱动的语料合成技术，基于模型的评测效果，针对性合成能够改进模型效果的训练语料，提升模型迭代效率； 5、智能标注链路研发：基于大模型数据的标注需求，研发辅助打标算法；设计构建 AI辅助的标注质量检验与标注提效的算法链路，提升人工标注的质检效率与标注质量； 6、技术创新与优化 ...

蚂蚁大模型

蚂蚁大模型