强化学习
搜索文档
松延动力小顽童队立定跳远夺冠,姜哲源:优化了机器人跳远算法
贝壳财经· 2025-08-17 14:41
比赛结果 - 松延动力小顽童队以1.25米的成绩获得立定跳远项目冠军 [1] - 宇树科技队以1.20米的成绩获得亚军 [1] - 灵翌科技队以1.13米的成绩获得季军 [1] 松延动力参赛策略 - 公司准备多套方案并派出两支队伍参赛 [4] - "小顽童"使用N2机器人 [4] - "旋风小子"使用K1机器人 [4] - 部署了可以跳得更远的算法 [4] 机器人跳远技术难点 - 硬件层面需要足够大的空间扭矩和相对较好的构型 [4] - 算法层面重新调试了一套算法 [4] - 在仿真环境中对机器人身体简化后再建模 [4] - 通过强化学习调试出最优策略 [4] 公司发展规划 - 预计年底发布一款全尺寸人形机器人产品 [4]
从MIDI乐谱到“类人灵魂”:机器人鼓手用90%+精准度复刻人类演奏魅力
机器人大讲堂· 2025-08-17 13:43
类人机器人音乐演奏研究 - 研究团队开发出能精准演奏鼓乐的人形机器人"RobotDrummer",其演奏由强化学习算法支持,能习得类人行为如动态切换鼓槌、交叉双臂击打等[2][8] - 项目灵感源于机器人能否在音乐领域发挥作用的讨论,击鼓因其节奏感强、肢体动作丰富被选为理想领域[3] 技术实现路径 - 采用MIDI作为音乐语言,提取鼓声道信息映射到物理鼓组,形成"数字化乐谱"[6] - 开发"节奏接触链"系统,明确每次击鼓的时间、位置和手部动作,通过强化学习在模拟环境中训练[8] - 采用"时间分解"策略将长曲目拆分为片段并行训练,最终实现完整演奏流畅性[8] 性能测试结果 - 测试覆盖30首多风格曲目如《In the End》《Take Five》,节奏精准度超90%,复杂曲目F1分数保持高水平[9][10] - 机器人自主产生类人演奏策略如预判击打时机、交叉手臂动作,这些行为未经预先编程[10] 应用前景展望 - 未来或实现机器人为现场乐队伴奏,并拓展至音乐外精准计时技能教学领域[11] - 下一步计划将技能迁移至实体硬件,并开发即兴演奏能力,使机器人能动态调整节奏[11] 行业相关企业 - 人形机器人领域涉及优必选科技、宇树科技、傅利叶智能等18家企业[18] - 核心零部件企业包括绿的谐波、思岚科技、鑫精诚传感器等25家[20]
最近被公司通知不续签了。。。
自动驾驶之心· 2025-08-17 11:23
智能驾驶行业现状 - 行业已进入拼技术和成本的关键期 2024年多家智驾公司未能存活 当前行业壁垒持续提高[2] - 价格战被国家叫停 但行业竞争依然激烈[6] - 小鹏汽车等头部企业形势好转 找到明确发展路径[6] 技术发展趋势 - 传统规划控制技术趋于成熟 面临端到端量产技术冲击[6][7] - BEV感知、端到端控制、扩散模型、模仿学习和强化学习成为新兴技术方向[8] - 具身智能和机器人规控领域出现新机会 技术栈与自动驾驶相通[8] - 视觉语言模型(VLM)和自动驾驶大模型成为2025年重点发展方向[49][83] 人才需求变化 - 社招要求扎实的工程能力、领域深度和量产落地经验[8] - 传统规控工程师需要更新技术栈 学习模型算法[7] - 去年至今已有十几位规控工程师成功转型端到端和大模型方向[8] - 六年工作经验仍处于职业转型窗口期[8] 知识体系架构 - 社区整理40+技术路线 涵盖感知、仿真、规划控制等方向[10][19] - 包含近60+自动驾驶数据集和行业主流仿真平台[19] - 提供BEV感知、扩散模型、世界模型等前沿技术学习路径[19][22] - 汇总100问系列包括TensorRT部署、毫米波雷达融合、规划控制等实战问题[12] 行业资源整合 - 汇集国内外知名高校自动驾驶团队和头部企业资源[19][31][33] - 整理自动驾驶多模态大模型预训练和微调数据集[39] - 汇总3D目标检测、Occupancy Network、在线高精地图等关键技术方案[37][54][60] - 提供模型压缩、部署优化等工程化实践内容[12] 学术产业联动 - 举办超过100场专业技术直播 邀请产业界和学术界专家分享[86] - 涵盖V2X、3D检测、扩散模型规划器等前沿主题[86] - 提供学术界和工业界研究成果交流平台[10][19] - 实时更新顶会最新研究和工业落地应用[27]
理想VLA司机大模型新的36个QA
自动驾驶之心· 2025-08-17 00:04
VLA技术架构与部署 - VLA模型通过"3D局部空间+2D全局理解"实现多模态对齐 解决自动驾驶特有的3D空间理解难题 [3] - 公司自研底层算子与引擎 在Orin芯片上实现2.2B参数模型部署 为业界首个双系统VLM部署方案 [3] - 采用FP8/FP4量化技术优化计算精度 通过分层精细调优实现模型压缩与算力优化 [45][46] 模型设计方法论 - 从并联VLM架构升级为串联VLA架构 实现每一步计算的自主思考能力 [5] - 引入Diffusion模型生成轨迹 基于机器人领域技术验证及年初预研结果确认其可行性 [6][11] - 通过语言思考模块提升决策一致性 解决上一代模型在高速场景中的决策摇摆问题 [20] 感知能力升级 - 整合3D空间编码与全局语义理解 使模型具备距离判断能力(传统VLM仅支持2D输入) [7] - 采用前融合方案结合视觉与激光雷达数据 提升对小物体(如锥桶)的识别置信度 [27][57] - 90%训练数据来自真实场景 10%合成数据用于特殊场景(雪天/事故车)补充 [53] 渐进式技术路线 - 采用L2到L4渐进路径 通过无图方案实现全场景覆盖 与Robotaxi玩家依赖高精地图的方案形成差异 [9][10] - 已储备语音控车、地库漫游等能力 但需配合法规逐步释放 [25][33][38] - 通过世界模型仿真平台测试4000多万公里 使用动态场景库(数十万clips)避免过拟合 [53][54] 算力与模型优化 - 大模型在垂域场景可通过语言压缩技术减少算力需求 同等智力水平下推理性能年提升10倍 [16] - 采用8×0.4 MoE特殊架构优化芯片部署效率 相比开源模型(如千问)具备硬件适配优势 [30] - 通过模型蒸馏与数据配比优化 在参数量不变(如7B)情况下持续提升模型智力 [16] 数据与训练体系 - VLA标注体系与端到端方案完全不同 需对原有数据全部重刷标注 [32] - 强化学习需要推理卡与训练卡交替使用 公司今年显著增加推理卡投入 [13] - 基座模型团队负责通识知识训练(交规/驾驶基础)并提供多尺寸模型蒸馏 [30] 行业技术对比 - 特斯拉FSD V13未使用Language模型 其漫游能力依赖端到端架构而非VLA的寻路能力 [41][42] - 互联网公司开源模型(如千问)缺乏3D数据资产 难以具备物理空间理解能力 [31] - Waymo等Robotaxi玩家受限于高精地图 扩城速度远低于无图方案(如特斯拉奥斯汀覆盖超Waymo) [9] 功能实现与用户交互 - 语音控车简单指令可通过规则实现 但连续组合指令必须依赖语言模型保障扩展性 [55] - EID界面细化需消耗座舱芯片算力 当前仅渲染车辆/车道线等基础元素 [40] - 用户记忆功能实现千人千面需求 解决不同驾驶风格(如超车决策)的个性化适配 [25]
OpenAI掌门人曝GPT-6瓶颈,回答黄仁勋提问,几乎为算力“抵押未来”
36氪· 2025-08-16 12:04
AI技术发展瓶颈 - 随着算力和数据规模快速扩展,算法重要性再次凸显,成为未来AI技术发展的关键瓶颈 [1] - 强化学习成为算法研究新方向之一,但仍存在许多明显能力缺口 [1] - 基础研究正在回归,算法取代数据和算力成为关键制约因素 [21][22] 工程与科研的协同关系 - 工程与科研是驱动AI发展的两大引擎,工程师贡献与研究人员相仿甚至更大 [3][4] - OpenAI坚持工程与研究同等重要,两者需紧密合作解决复杂问题 [5][6] - 工程背景与科研背景人员对系统约束的理解存在根本性差异,需技术谦逊来调和 [6][7] 资源调配与产品化挑战 - 为支撑ChatGPT和ImageGen的海量需求,公司不得不抽调科研算力"抵押未来" [8][9] - 产品上线导致系统崩溃风险增加,需在资源协调中做出取舍 [8][9] - 公司理念是优先满足用户体验,推动技术快速落地 [10] AI编程范式演进 - "氛围编程"正从趣味应用向严肃软件工程转型,可改造遗留代码库 [11][12] - 未来代码库需模块化设计,通过高质量测试让模型填充细节 [13] - 软件工程需回归可维护性实践,最大化模型价值 [13] 训练系统与基础设施 - 长时间训练任务需优化检查点设计,强化学习系统状态保存更复杂 [14][15] - AGI开发需同步建设超级计算机,涉及大规模基础设施投资 [18][19] - 未来AI基础设施需兼顾计算密集型与低延迟两类需求 [16][17] 行业发展趋势 - 多样化模型库正在成形,经济系统将逐步由AI驱动 [24][25] - 特定领域Agent开发需大量定制工作,创造新商业机会 [24][27] - 医疗、教育等垂直领域需专业知识和责任框架 [26]
视觉强化学习最新综述:全领域梳理(新加坡国立&浙大&港中文)
自动驾驶之心· 2025-08-16 08:03
研究背景与综述定位 - 视觉强化学习(Visual RL)的爆发源于强化学习在大语言模型(LLM)中的成功迁移,特别是RLHF(人类反馈强化学习)显著提升了LLM的人类偏好对齐与复杂推理能力[7] - 当前领域面临三大核心挑战:复杂奖励信号下的策略优化稳定性、高维视觉输入的高效处理、长周期决策场景的可扩展奖励函数设计[7] - 综述核心目标包括形式化视觉RL问题、分类200+研究为四大支柱(多模态LLM/视觉生成/统一模型/VLA模型)、分析算法设计与评估体系[8] 视觉强化学习的理论基础 - 问题建模采用马尔可夫决策过程(MDP),将文本/图像/视频生成统一为episodic MDP框架,状态包含用户prompt和已生成动作序列[15] - 三大对齐范式:RLHF(三阶段流程:SFT→奖励模型→PPO优化)、DPO(直接优化偏好数据)、RLVR(可验证奖励替代主观偏好)[18][19][20] - 策略优化算法PPO(带价值网络与KL惩罚)和GRPO(组相对优势+移除价值网络)分别适用于通用场景和内存密集型任务[26][27] 四大核心应用领域 多模态大语言模型(MLLM) - 常规RL驱动型MLLM使用可验证奖励(如精确匹配/IoU)优化VLM骨干,代表模型包括RePIC、GoalLadder、GRPO-CARE[32] - 空间感知方向分为2D(Omni-R1双系统GRPO优化情感识别)和3D(MetaSpatial用渲染深度奖励优化AR场景生成)[34] - 图像推理分为"基于图像思考"(SVQA-R1用视图一致性奖励)和"用图像思考"(GRIT优化答案正确性+框精度)[35] 视觉生成 - 图像生成三大奖励范式:人类中心偏好优化(ImageReward)、多模态推理对齐(UnifiedReward)、Metric驱动优化(DDPO最小化FID)[37][40] - 视频生成通过偏好模型优化(InstructVideo)、组相对优化(DanceGRPO)、领域特定奖励(Phys-AR惩罚物理定律违反)提升时序一致性[41] - 3D生成采用RL优化文本-网格生成(DreamCS融合轮廓IoU与CLIP对齐)、交互式编辑(Nabla-R2D3用实时渲染验证奖励)[41] 视觉-语言-动作模型(VLA) - GUI自动化分桌面(GUI-R1映射点击成功为稠密奖励)和移动场景(AgentCPM-GUI压缩动作空间适配设备)[42] - 视觉导航采用端到端RL(VLN-R1时间衰减奖励处理轨迹)和仿真微调(Flare实现家居场景泛化)[45] - 机器人操纵通过任务接地奖励(TGRPO)、课程式RL(RLVLA提升重排成功率)优化长周期规划[45] 评估指标与未来方向 - 分层评估框架包含集合级(FID/FVD)、样本级(人类偏好分数)、状态级(KL散度监控策略漂移)[46][48][49] - 开放挑战包括有效推理平衡(自适应周期策略)、VLA长周期RL(分层子目标发现)、视觉思考RL(混合动作空间设计)[50][51][52] - 奖励模型设计需融合低阶信号(几何一致性)与高阶偏好,并实现跨模态泛化与动态更新[53][56]
Agent引爆产品新思维、奇点智能研究院正式成立!2025 全球产品经理大会首日精彩速览
AI科技大本营· 2025-08-15 21:56
产品经理角色演变 - PC时代产品经理角色更偏向"需求分析师",移动互联网时代转向"用户体验设计者"[1] - 大模型和Agent技术正在重塑产品经理工作方式,打破角色边界并升级思维模式[1] - 2025全球产品经理大会汇聚40余位专家及1000多位与会者,探讨AI产业趋势[1] 奇点智能研究院成立 - 由CSDN与Boolan联合发起,定位为人工智能前沿技术和产业落地的创新研究机构[3] - 聚焦计算范式、开发范式和交互范式转换,设立六大研究领域[5][7] - 与华东师范大学合作成立"开源创新与变革联合实验室",计划发布全球开源发展报告等研究成果[5] 大模型驱动的AI产业生态 - 基础大模型经历从"训练"到"推理"范式转换,强化学习推动"经验数据时代"[10] - SOTA模型内置Agent和Tool Use能力,大模型从Chatbot进化到Agentic模型[11] - Vibe Coding(氛围编程)创造增量市场,有望实现"可塑软件"和低成本编程[12] - 自然语言对话界面重构智能应用形态,带来应用服务化等新趋势[13] - 未来智能体生态可能由多元设备(眼镜、手机、汽车等)作为交互入口[14] 生成式AI与生产力革命 - 昆仑万维发布全球首款AI Agent架构Office智能体Skywork Super Agents,将8小时工作量缩短至8分钟[18] - 昆仑万维开源多款多模态模型,覆盖音频驱动数字人、交互式世界模型等领域[19] - 海外AI API调用统计显示编程类占比87%,角色扮演类占5.4%[20][22] - 行业化大模型是必然趋势,通用Agent难以覆盖所有行业[23] - ToB场景核心是"增效",ToC场景核心是"降本"[23] GenAI应用交互设计 - 当前GenAI产品多以"助手"形态存在,受现有环境约束明显[25] - 交互设计核心任务:高效获取任务与上下文、便捷审核与应用结果[26][29] - 鼠标双击唤起助手可能成为GenAI时代的新型交互方式[28] AI时代的产品人味 - 当前AI工具存在交付模式单一、环境感知不足、交互设计不直观等问题[34] - 产品设计需平衡"天道(环境)、人道(人类需求)、AI道(技术)"[34] - YouMind通过多模态优化和内容可编辑性提升"人味",实现AI与用户双向协作[36][37] AI时代的产品经理机遇 - AI时代产品方法论面临跳跃式颠覆,产品经理既是受益者也是被颠覆者[40] - 技能边界被打破,"一人公司"模式可能普及[41] - 开源模型推动全产业链协作式创新,对产品经理具有战略意义[44][45] Chat BI与数据挑战 - Chat BI最大挑战是企业数据基础薄弱,原始数据质量影响分析结果[46][47] AI产品用户体验 - AI产品需明确功能优化与数据能力的边界,避免过早依赖语言模型升级[48] - 创业公司应集中资源在关键节点形成差异化优势[49] 行业应用与合作伙伴 - 大会设置12大专题,覆盖生成式AI、Agent设计、企业级应用等领域[51] - 鸿蒙生态、万兴科技等合作伙伴展示创新成果[51]
模仿人类推理修正过程,阶跃星辰提出形式化证明新范式 | 开源
量子位· 2025-08-15 18:05
形式化定理证明新范式发布 - 阶跃星辰正式发布并开源形式化定理证明大模型StepFun-Prover-Preview-7B和StepFun-Prover-Preview-32B [1] - 模型采用基于环境反馈的强化学习训练流程,模拟人类推理过程中的实时交互与修正 [2] - 模型在基准测试集miniF2F-test上表现优异,32B版本pass@1通过率达70%,领先已知模型4%以上 [9][10] 技术架构与训练方法 两阶段监督微调 - 分阶段微调策略使模型获得工具使用基础能力 [4] - 第一阶段利用开源Lean 4数据建立代码补全能力 [5] - 第二阶段通过高质量冷启动数据训练模型理解数学题求解与Lean验证的交互 [5] 工具集成强化学习 - 采用GRPO算法进行强化学习训练,赋予模型自然语言解题能力 [5] - 模型可主动插入<sketch>标签生成Lean 4代码并执行,通过<REPL>反馈实现调试式修正 [5][6] - 奖励函数设计为REPL验证通过得1分,失败得0分 [7] 迭代优化机制 - 采用"RL-SFT-RL"循环优化方法,逐步提升模型推理能力 [8] - 筛选强化学习中成功的高难度样本重新用于监督微调,增强推理鲁棒性 [12] 性能表现与案例 - StepFun-Prover-Preview-7B以66% pass@1准确率超越DeepSeek-Prover-V2-671B(61.9%)和Kimina-Prover-72B(63.9%) [10] - 案例显示模型能主动去除冗余证明步骤、根据超时反馈调整结构、基于环境反馈有效改错 [10][13][15] 资源与后续计划 - 模型已开源在GitHub和Huggingface平台,技术报告发布于arXiv [17] - 团队将持续探索形式化推理模型方向 [16]
跟随音乐舞动节拍!这款机器人集体舞蹈引关注
新浪科技· 2025-08-15 11:26
行业活动与技术创新 - 全球首个以人形机器人为参赛主体的综合性竞技赛事——2025世界人形机器人运动会于8月15日在北京国家速滑馆开幕 涵盖26个赛项、487场比赛 吸引16个国家280支队伍、500余台机器人参赛 [1] - 桥介数物人形机器人在表演赛中通过Deepmimic算法实现协同舞蹈动作 该技术采用"模仿学习+强化学习"双阶模式 支持舞蹈、武术等复杂动作及定制动作 [1] - 技术实现路径包括通过动作捕捉获取人类运动片段 利用模仿学习复刻基础动作框架 再通过强化学习优化物理可行性以确保动作稳定性和流畅度 [1]
告别无效科研!具身智能方向1v1辅导开放,3位导师带你冲刺顶会!
具身智能之心· 2025-08-15 08:05
具身智能论文辅导服务 - 提供1v1论文辅导服务 目前开放3个名额 方向包括vla 强化学习 sim2real [2] - 目标会议覆盖CVPR ICCV ECCV ICLR CoRL ICML ICRA等顶级学术会议 [2] - 辅导老师具备具身智能领域活跃研究经验 能够提供创新性研究思路 [2] - 咨询方式包括微信添加和扫码 需备注"具身论文辅导咨询" [3]