强化学习 - 财报，业绩电话会，研报，新闻 - Reportify

强化学习

搜索文档

松延动力小顽童队立定跳远夺冠，姜哲源：优化了机器人跳远算法

贝壳财经· 2025-08-17 14:41

比赛结果 - 松延动力小顽童队以1.25米的成绩获得立定跳远项目冠军 [1] - 宇树科技队以1.20米的成绩获得亚军 [1] - 灵翌科技队以1.13米的成绩获得季军 [1] 松延动力参赛策略 - 公司准备多套方案并派出两支队伍参赛 [4] - "小顽童"使用N2机器人 [4] - "旋风小子"使用K1机器人 [4] - 部署了可以跳得更远的算法 [4] 机器人跳远技术难点 - 硬件层面需要足够大的空间扭矩和相对较好的构型 [4] - 算法层面重新调试了一套算法 [4] - 在仿真环境中对机器人身体简化后再建模 [4] - 通过强化学习调试出最优策略 [4] 公司发展规划 - 预计年底发布一款全尺寸人形机器人产品 [4]

机器人(SZ:300024)

机器人跳远算法

全尺寸人形机器人

机器人跳远算法

全尺寸人形机器人

从MIDI乐谱到“类人灵魂”：机器人鼓手用90%+精准度复刻人类演奏魅力

机器人大讲堂· 2025-08-17 13:43

类人机器人音乐演奏研究 - 研究团队开发出能精准演奏鼓乐的人形机器人"RobotDrummer"，其演奏由强化学习算法支持，能习得类人行为如动态切换鼓槌、交叉双臂击打等[2][8] - 项目灵感源于机器人能否在音乐领域发挥作用的讨论，击鼓因其节奏感强、肢体动作丰富被选为理想领域[3] 技术实现路径 - 采用MIDI作为音乐语言，提取鼓声道信息映射到物理鼓组，形成"数字化乐谱"[6] - 开发"节奏接触链"系统，明确每次击鼓的时间、位置和手部动作，通过强化学习在模拟环境中训练[8] - 采用"时间分解"策略将长曲目拆分为片段并行训练，最终实现完整演奏流畅性[8] 性能测试结果 - 测试覆盖30首多风格曲目如《In the End》《Take Five》，节奏精准度超90%，复杂曲目F1分数保持高水平[9][10] - 机器人自主产生类人演奏策略如预判击打时机、交叉手臂动作，这些行为未经预先编程[10] 应用前景展望 - 未来或实现机器人为现场乐队伴奏，并拓展至音乐外精准计时技能教学领域[11] - 下一步计划将技能迁移至实体硬件，并开发即兴演奏能力，使机器人能动态调整节奏[11] 行业相关企业 - 人形机器人领域涉及优必选科技、宇树科技、傅利叶智能等18家企业[18] - 核心零部件企业包括绿的谐波、思岚科技、鑫精诚传感器等25家[20]

时间分解策略

机器人鼓手

时间分解策略

机器人鼓手

最近被公司通知不续签了。。。

自动驾驶之心· 2025-08-17 11:23

智能驾驶行业现状 - 行业已进入拼技术和成本的关键期 2024年多家智驾公司未能存活当前行业壁垒持续提高[2] - 价格战被国家叫停但行业竞争依然激烈[6] - 小鹏汽车等头部企业形势好转找到明确发展路径[6] 技术发展趋势 - 传统规划控制技术趋于成熟面临端到端量产技术冲击[6][7] - BEV感知、端到端控制、扩散模型、模仿学习和强化学习成为新兴技术方向[8] - 具身智能和机器人规控领域出现新机会技术栈与自动驾驶相通[8] - 视觉语言模型(VLM)和自动驾驶大模型成为2025年重点发展方向[49][83] 人才需求变化 - 社招要求扎实的工程能力、领域深度和量产落地经验[8] - 传统规控工程师需要更新技术栈学习模型算法[7] - 去年至今已有十几位规控工程师成功转型端到端和大模型方向[8] - 六年工作经验仍处于职业转型窗口期[8] 知识体系架构 - 社区整理40+技术路线涵盖感知、仿真、规划控制等方向[10][19] - 包含近60+自动驾驶数据集和行业主流仿真平台[19] - 提供BEV感知、扩散模型、世界模型等前沿技术学习路径[19][22] - 汇总100问系列包括TensorRT部署、毫米波雷达融合、规划控制等实战问题[12] 行业资源整合 - 汇集国内外知名高校自动驾驶团队和头部企业资源[19][31][33] - 整理自动驾驶多模态大模型预训练和微调数据集[39] - 汇总3D目标检测、Occupancy Network、在线高精地图等关键技术方案[37][54][60] - 提供模型压缩、部署优化等工程化实践内容[12] 学术产业联动 - 举办超过100场专业技术直播邀请产业界和学术界专家分享[86] - 涵盖V2X、3D检测、扩散模型规划器等前沿主题[86] - 提供学术界和工业界研究成果交流平台[10][19] - 实时更新顶会最新研究和工业落地应用[27]

BEV感知技术

端到端自动驾驶技术

BEV感知技术

端到端自动驾驶技术

理想VLA司机大模型新的36个QA

自动驾驶之心· 2025-08-17 00:04

VLA技术架构与部署 - VLA模型通过"3D局部空间+2D全局理解"实现多模态对齐解决自动驾驶特有的3D空间理解难题 [3] - 公司自研底层算子与引擎在Orin芯片上实现2.2B参数模型部署为业界首个双系统VLM部署方案 [3] - 采用FP8/FP4量化技术优化计算精度通过分层精细调优实现模型压缩与算力优化 [45][46] 模型设计方法论 - 从并联VLM架构升级为串联VLA架构实现每一步计算的自主思考能力 [5] - 引入Diffusion模型生成轨迹基于机器人领域技术验证及年初预研结果确认其可行性 [6][11] - 通过语言思考模块提升决策一致性解决上一代模型在高速场景中的决策摇摆问题 [20] 感知能力升级 - 整合3D空间编码与全局语义理解使模型具备距离判断能力（传统VLM仅支持2D输入） [7] - 采用前融合方案结合视觉与激光雷达数据提升对小物体（如锥桶）的识别置信度 [27][57] - 90%训练数据来自真实场景 10%合成数据用于特殊场景（雪天/事故车）补充 [53] 渐进式技术路线 - 采用L2到L4渐进路径通过无图方案实现全场景覆盖与Robotaxi玩家依赖高精地图的方案形成差异 [9][10] - 已储备语音控车、地库漫游等能力但需配合法规逐步释放 [25][33][38] - 通过世界模型仿真平台测试4000多万公里使用动态场景库（数十万clips）避免过拟合 [53][54] 算力与模型优化 - 大模型在垂域场景可通过语言压缩技术减少算力需求同等智力水平下推理性能年提升10倍 [16] - 采用8×0.4 MoE特殊架构优化芯片部署效率相比开源模型（如千问）具备硬件适配优势 [30] - 通过模型蒸馏与数据配比优化在参数量不变（如7B）情况下持续提升模型智力 [16] 数据与训练体系 - VLA标注体系与端到端方案完全不同需对原有数据全部重刷标注 [32] - 强化学习需要推理卡与训练卡交替使用公司今年显著增加推理卡投入 [13] - 基座模型团队负责通识知识训练（交规/驾驶基础）并提供多尺寸模型蒸馏 [30] 行业技术对比 - 特斯拉FSD V13未使用Language模型其漫游能力依赖端到端架构而非VLA的寻路能力 [41][42] - 互联网公司开源模型（如千问）缺乏3D数据资产难以具备物理空间理解能力 [31] - Waymo等Robotaxi玩家受限于高精地图扩城速度远低于无图方案（如特斯拉奥斯汀覆盖超Waymo） [9] 功能实现与用户交互 - 语音控车简单指令可通过规则实现但连续组合指令必须依赖语言模型保障扩展性 [55] - EID界面细化需消耗座舱芯片算力当前仅渲染车辆/车道线等基础元素 [40] - 用户记忆功能实现千人千面需求解决不同驾驶风格（如超车决策）的个性化适配 [25]

新能源汽车

理想VLA司机大模型

新能源汽车

理想VLA司机大模型

OpenAI掌门人曝GPT-6瓶颈，回答黄仁勋提问，几乎为算力“抵押未来”

36氪· 2025-08-16 12:04

AI技术发展瓶颈 - 随着算力和数据规模快速扩展，算法重要性再次凸显，成为未来AI技术发展的关键瓶颈 [1] - 强化学习成为算法研究新方向之一，但仍存在许多明显能力缺口 [1] - 基础研究正在回归，算法取代数据和算力成为关键制约因素 [21][22] 工程与科研的协同关系 - 工程与科研是驱动AI发展的两大引擎，工程师贡献与研究人员相仿甚至更大 [3][4] - OpenAI坚持工程与研究同等重要，两者需紧密合作解决复杂问题 [5][6] - 工程背景与科研背景人员对系统约束的理解存在根本性差异，需技术谦逊来调和 [6][7] 资源调配与产品化挑战 - 为支撑ChatGPT和ImageGen的海量需求，公司不得不抽调科研算力"抵押未来" [8][9] - 产品上线导致系统崩溃风险增加，需在资源协调中做出取舍 [8][9] - 公司理念是优先满足用户体验，推动技术快速落地 [10] AI编程范式演进 - "氛围编程"正从趣味应用向严肃软件工程转型，可改造遗留代码库 [11][12] - 未来代码库需模块化设计，通过高质量测试让模型填充细节 [13] - 软件工程需回归可维护性实践，最大化模型价值 [13] 训练系统与基础设施 - 长时间训练任务需优化检查点设计，强化学习系统状态保存更复杂 [14][15] - AGI开发需同步建设超级计算机，涉及大规模基础设施投资 [18][19] - 未来AI基础设施需兼顾计算密集型与低延迟两类需求 [16][17] 行业发展趋势 - 多样化模型库正在成形，经济系统将逐步由AI驱动 [24][25] - 特定领域Agent开发需大量定制工作，创造新商业机会 [24][27] - 医疗、教育等垂直领域需专业知识和责任框架 [26]

AGI（通用人工智能）

混合专家模型

AGI（通用人工智能）

混合专家模型

视觉强化学习最新综述：全领域梳理（新加坡国立&浙大&港中文）

自动驾驶之心· 2025-08-16 08:03

研究背景与综述定位 - 视觉强化学习（Visual RL）的爆发源于强化学习在大语言模型（LLM）中的成功迁移，特别是RLHF（人类反馈强化学习）显著提升了LLM的人类偏好对齐与复杂推理能力[7] - 当前领域面临三大核心挑战：复杂奖励信号下的策略优化稳定性、高维视觉输入的高效处理、长周期决策场景的可扩展奖励函数设计[7] - 综述核心目标包括形式化视觉RL问题、分类200+研究为四大支柱（多模态LLM/视觉生成/统一模型/VLA模型）、分析算法设计与评估体系[8] 视觉强化学习的理论基础 - 问题建模采用马尔可夫决策过程（MDP），将文本/图像/视频生成统一为episodic MDP框架，状态包含用户prompt和已生成动作序列[15] - 三大对齐范式：RLHF（三阶段流程：SFT→奖励模型→PPO优化）、DPO（直接优化偏好数据）、RLVR（可验证奖励替代主观偏好）[18][19][20] - 策略优化算法PPO（带价值网络与KL惩罚）和GRPO（组相对优势+移除价值网络）分别适用于通用场景和内存密集型任务[26][27] 四大核心应用领域多模态大语言模型（MLLM） - 常规RL驱动型MLLM使用可验证奖励（如精确匹配/IoU）优化VLM骨干，代表模型包括RePIC、GoalLadder、GRPO-CARE[32] - 空间感知方向分为2D（Omni-R1双系统GRPO优化情感识别）和3D（MetaSpatial用渲染深度奖励优化AR场景生成）[34] - 图像推理分为"基于图像思考"（SVQA-R1用视图一致性奖励）和"用图像思考"（GRIT优化答案正确性+框精度）[35] 视觉生成 - 图像生成三大奖励范式：人类中心偏好优化（ImageReward）、多模态推理对齐（UnifiedReward）、Metric驱动优化（DDPO最小化FID）[37][40] - 视频生成通过偏好模型优化（InstructVideo）、组相对优化（DanceGRPO）、领域特定奖励（Phys-AR惩罚物理定律违反）提升时序一致性[41] - 3D生成采用RL优化文本-网格生成（DreamCS融合轮廓IoU与CLIP对齐）、交互式编辑（Nabla-R2D3用实时渲染验证奖励）[41] 视觉-语言-动作模型（VLA） - GUI自动化分桌面（GUI-R1映射点击成功为稠密奖励）和移动场景（AgentCPM-GUI压缩动作空间适配设备）[42] - 视觉导航采用端到端RL（VLN-R1时间衰减奖励处理轨迹）和仿真微调（Flare实现家居场景泛化）[45] - 机器人操纵通过任务接地奖励（TGRPO）、课程式RL（RLVLA提升重排成功率）优化长周期规划[45] 评估指标与未来方向 - 分层评估框架包含集合级（FID/FVD）、样本级（人类偏好分数）、状态级（KL散度监控策略漂移）[46][48][49] - 开放挑战包括有效推理平衡（自适应周期策略）、VLA长周期RL（分层子目标发现）、视觉思考RL（混合动作空间设计）[50][51][52] - 奖励模型设计需融合低阶信号（几何一致性）与高阶偏好，并实现跨模态泛化与动态更新[53][56]

视觉强化学习

大语言模型

计算机视觉

基于人类反馈的强化学习（RLHF）

直接偏好优化（DPO）

视觉强化学习

大语言模型

计算机视觉

基于人类反馈的强化学习（RLHF）

直接偏好优化（DPO）

Agent引爆产品新思维、奇点智能研究院正式成立！2025 全球产品经理大会首日精彩速览

AI科技大本营· 2025-08-15 21:56

产品经理角色演变 - PC时代产品经理角色更偏向"需求分析师"，移动互联网时代转向"用户体验设计者"[1] - 大模型和Agent技术正在重塑产品经理工作方式，打破角色边界并升级思维模式[1] - 2025全球产品经理大会汇聚40余位专家及1000多位与会者，探讨AI产业趋势[1] 奇点智能研究院成立 - 由CSDN与Boolan联合发起，定位为人工智能前沿技术和产业落地的创新研究机构[3] - 聚焦计算范式、开发范式和交互范式转换，设立六大研究领域[5][7] - 与华东师范大学合作成立"开源创新与变革联合实验室"，计划发布全球开源发展报告等研究成果[5] 大模型驱动的AI产业生态 - 基础大模型经历从"训练"到"推理"范式转换，强化学习推动"经验数据时代"[10] - SOTA模型内置Agent和Tool Use能力，大模型从Chatbot进化到Agentic模型[11] - Vibe Coding（氛围编程）创造增量市场，有望实现"可塑软件"和低成本编程[12] - 自然语言对话界面重构智能应用形态，带来应用服务化等新趋势[13] - 未来智能体生态可能由多元设备（眼镜、手机、汽车等）作为交互入口[14] 生成式AI与生产力革命 - 昆仑万维发布全球首款AI Agent架构Office智能体Skywork Super Agents，将8小时工作量缩短至8分钟[18] - 昆仑万维开源多款多模态模型，覆盖音频驱动数字人、交互式世界模型等领域[19] - 海外AI API调用统计显示编程类占比87%，角色扮演类占5.4%[20][22] - 行业化大模型是必然趋势，通用Agent难以覆盖所有行业[23] - ToB场景核心是"增效"，ToC场景核心是"降本"[23] GenAI应用交互设计 - 当前GenAI产品多以"助手"形态存在，受现有环境约束明显[25] - 交互设计核心任务：高效获取任务与上下文、便捷审核与应用结果[26][29] - 鼠标双击唤起助手可能成为GenAI时代的新型交互方式[28] AI时代的产品人味 - 当前AI工具存在交付模式单一、环境感知不足、交互设计不直观等问题[34] - 产品设计需平衡"天道（环境）、人道（人类需求）、AI道（技术）"[34] - YouMind通过多模态优化和内容可编辑性提升"人味"，实现AI与用户双向协作[36][37] AI时代的产品经理机遇 - AI时代产品方法论面临跳跃式颠覆，产品经理既是受益者也是被颠覆者[40] - 技能边界被打破，"一人公司"模式可能普及[41] - 开源模型推动全产业链协作式创新，对产品经理具有战略意义[44][45] Chat BI与数据挑战 - Chat BI最大挑战是企业数据基础薄弱，原始数据质量影响分析结果[46][47] AI产品用户体验 - AI产品需明确功能优化与数据能力的边界，避免过早依赖语言模型升级[48] - 创业公司应集中资源在关键节点形成差异化优势[49] 行业应用与合作伙伴 - 大会设置12大专题，覆盖生成式AI、Agent设计、企业级应用等领域[51] - 鸿蒙生态、万兴科技等合作伙伴展示创新成果[51]

行业化大模型

行业化大模型

模仿人类推理修正过程，阶跃星辰提出形式化证明新范式 | 开源

量子位· 2025-08-15 18:05

形式化定理证明新范式发布 - 阶跃星辰正式发布并开源形式化定理证明大模型StepFun-Prover-Preview-7B和StepFun-Prover-Preview-32B [1] - 模型采用基于环境反馈的强化学习训练流程，模拟人类推理过程中的实时交互与修正 [2] - 模型在基准测试集miniF2F-test上表现优异，32B版本pass@1通过率达70%，领先已知模型4%以上 [9][10] 技术架构与训练方法两阶段监督微调 - 分阶段微调策略使模型获得工具使用基础能力 [4] - 第一阶段利用开源Lean 4数据建立代码补全能力 [5] - 第二阶段通过高质量冷启动数据训练模型理解数学题求解与Lean验证的交互 [5] 工具集成强化学习 - 采用GRPO算法进行强化学习训练，赋予模型自然语言解题能力 [5] - 模型可主动插入<sketch>标签生成Lean 4代码并执行，通过<REPL>反馈实现调试式修正 [5][6] - 奖励函数设计为REPL验证通过得1分，失败得0分 [7] 迭代优化机制 - 采用"RL-SFT-RL"循环优化方法，逐步提升模型推理能力 [8] - 筛选强化学习中成功的高难度样本重新用于监督微调，增强推理鲁棒性 [12] 性能表现与案例 - StepFun-Prover-Preview-7B以66% pass@1准确率超越DeepSeek-Prover-V2-671B(61.9%)和Kimina-Prover-72B(63.9%) [10] - 案例显示模型能主动去除冗余证明步骤、根据超时反馈调整结构、基于环境反馈有效改错 [10][13][15] 资源与后续计划 - 模型已开源在GitHub和Huggingface平台，技术报告发布于arXiv [17] - 团队将持续探索形式化推理模型方向 [16]

形式化定理证明

Artificial Intelligence

StepFun-Prover-Preview-7B

StepFun-Prover-Preview-32B

形式化定理证明

Artificial Intelligence

StepFun-Prover-Preview-7B

StepFun-Prover-Preview-32B

跟随音乐舞动节拍！这款机器人集体舞蹈引关注

新浪科技· 2025-08-15 11:26

行业活动与技术创新 - 全球首个以人形机器人为参赛主体的综合性竞技赛事——2025世界人形机器人运动会于8月15日在北京国家速滑馆开幕涵盖26个赛项、487场比赛吸引16个国家280支队伍、500余台机器人参赛 [1] - 桥介数物人形机器人在表演赛中通过Deepmimic算法实现协同舞蹈动作该技术采用"模仿学习+强化学习"双阶模式支持舞蹈、武术等复杂动作及定制动作 [1] - 技术实现路径包括通过动作捕捉获取人类运动片段利用模仿学习复刻基础动作框架再通过强化学习优化物理可行性以确保动作稳定性和流畅度 [1]

机器人(SZ:300024)

人形机器人

全身模仿运动控制解决方案

人形机器人

全身模仿运动控制解决方案

告别无效科研！具身智能方向1v1辅导开放，3位导师带你冲刺顶会！

具身智能之心· 2025-08-15 08:05

具身智能论文辅导服务 - 提供1v1论文辅导服务目前开放3个名额方向包括vla 强化学习 sim2real [2] - 目标会议覆盖CVPR ICCV ECCV ICLR CoRL ICML ICRA等顶级学术会议 [2] - 辅导老师具备具身智能领域活跃研究经验能够提供创新性研究思路 [2] - 咨询方式包括微信添加和扫码需备注"具身论文辅导咨询" [3]

具身智能1v1论文辅导

具身智能1v1论文辅导