强化学习
搜索文档
迪士尼机器人「摔跤」也内卷:不仅要摔得轻,还要摔得帅!AI新研究把Bug玩成绝活
机器人大讲堂· 2025-12-22 19:26
核心观点 - 迪士尼研究院提出了一种名为“机器人速成班:学习柔软且风格化的摔倒”的全新方法,其核心思想是让机器人不仅能摔得“软”以减少损伤,还能摔得“帅”以摆出指定艺术姿势,从而将潜在事故转化为可控表演,并为机器人安全和快速恢复提供新方案 [2] 技术原理 - 该技术基于一个精心设计的强化学习框架,通过模拟环境中的“摔跤”训练和复杂的“奖励函数”来引导AI学习 [3] - 奖励函数同时关注“冲击最小化”和“姿态跟踪”两个核心目标,通过惩罚接触力过大的碰撞来鼓励“软着陆” [4] - 引入“身体部位敏感度权重”以保护核心部件,例如头部权重设为4.0,肩膀为3.0,腿部为1.0,引导AI优先保护关键部位 [6] - 通过时间调制机制平衡冲突目标:摔倒初始阶段优先考虑冲击最小化,稳定后逐渐增加姿态跟踪权重,引导机器人平滑过渡到最终造型 [8] - 整个过程类似于武术中的“受身”或柔道中的“UKEMI”技术,是主动利用滚动和身体姿态化解冲击力 [9] 数据生成与训练 - 研究团队利用NVIDIA Isaac Sim物理仿真平台进行大规模并行仿真,以高效生成多样化训练数据 [11] - 数据生成步骤:在关节限制内随机生成大量身体姿态;将机器人从低高度(如4厘米)释放进行“自由落体”模拟;记录最终静止的稳定姿态作为目标结束姿势 [11] - 此策略生成了数以万计符合物理规律的静态稳定摔倒姿势,并确保数据多样性,避免某些姿势被过度采样 [11] - 使用大规模生成数据集训练的模型展现出强大的泛化性能和鲁棒性,远优于仅用10个艺术家设计姿势训练的模型 [12][13] 实验验证与效果 - 研究团队在一个定制的高0.84米、重16.2公斤的双足机器人上进行了实地测试,模拟各种突发摔倒情况 [15] - 与传统的“零力矩”、“低增益”或“高增益”摔倒方式相比,新算法使机器人表现出无与伦比的控制力 [16] - 新方法产生的最大冲击力和平均冲击力相比其他方法实现断崖式下降,且方差极小,表明每次摔倒都非常稳定可控 [16] - 在真实世界实验中,机器人能流畅、可控地接触地面并稳稳停在预设艺术造型上,所有实验后机器人均毫发无伤 [16][17] 应用前景与意义 - 该技术为机器人领域开辟了新方向,未来可用于娱乐行业的特技机器人,上演高难度夸张动作 [17] - 也可用于工业、救援等领域机器人,使其在崎岖地形中不慎摔倒时能最大程度自我保护并快速恢复工作 [17] - 研究将潜在的机器人摔倒事故转化为一场充满力量与美的“可控表演” [20]
RL加持的3D生成时代来了!首个「R1 式」文本到3D推理大模型AR3D-R1登场
机器之心· 2025-12-22 16:17
研究突破与核心模型 - 强化学习在文本到3D生成领域取得首次系统性突破,提出了首个强化学习增强的文本到3D自回归模型AR3D-R1 [2] - 该研究系统性地探索了奖励设计、强化学习算法和评估基准,并提出了层次化强化学习范式Hi-GRPO [2] - 实验表明,AR3D-R1在Kernel Distance和CLIP Score上均取得显著提升,分别达到0.156和29.3的优异成绩 [3][30] 技术框架与创新 - AR3D-R1构建了一个推理驱动的3D生成流程,模型先根据文本提示进行高层语义推理,规划物体结构,再指导具体的3D生成过程 [11][13] - 提出了Hi-GRPO层次化强化学习范式,通过分离全局结构推理与局部纹理精修来优化3D生成,其核心是在单次迭代中联合优化层次化生成 [21][24][25] - 该范式包含全局规划阶段和局部精修阶段,并为两个阶段分别集成了专用的奖励模型 [27] 奖励设计与算法研究 - 在奖励设计方面,研究发现与人类审美偏好对齐的奖励信号能显著提升生成质量 [17] - 通用多模态模型在评估3D相关属性时表现出强大的鲁棒性,有时甚至优于专门的3D评估模型 [17] - 在强化学习算法研究中发现,相比响应级优化,token级别的损失平均能更好地捕捉生成过程中的全局结构差异 [22] - 对于文本到3D生成任务,动态采样策略足以稳定训练,无需复杂的训练稳定技术 [22] - 数据规模和迭代次数的扩展均能有效提升性能,但需要精细校准以避免过拟合或模式崩塌 [22] 评估基准与性能表现 - 研究引入了全新的推理型3D基准MME-3DR,用于评估3D生成模型的隐式推理能力,覆盖空间与结构几何、机械可供性、生物与有机形状、依赖世界知识的罕见物体、风格化表达五大高难类别 [2][26][28] - 定量实验表明,AR3D-R1在MME-3DR基准上的CLIP Score达到28.5,Kernel Distance (Inception) 为0.194,在Toys4K数据集上的CLIP Score达到29.3,Kernel Distance (Inception) 为0.156,均显著优于对比模型 [31] - 在MME-3DR这一苛刻场景下,传统文本到3D模型普遍出现崩塌,而经过强化学习训练的AR3D-R1在五大类别上均有明显提升 [26] 应用前景与行业影响 - 该技术的成功为构建更智能、更具推理能力的3D生成模型开辟了新方向 [32] - 未来能力可自然延伸至具身智能与机器人、游戏与内容创作、AR/VR与数字孪生等领域 [32]
2025 文章、播客合集 | 42章经
42章经· 2025-12-21 21:32
公司年度内容回顾与成果 - 2025年是公司“All in AI”战略的第三年,全年共更新22期播客和18篇文章 [2] - 公司播客订阅数增长至近11万,节目3次被小宇宙首页推荐 [2] - 公司播客“42章经”两年内粉丝突破十万,被认为是垂类播客中的头部,已发布51期节目,平均播放量达25000 [36][37] - 公司坚持深度、垂直的内容定位,不接广告,专注于服务对信息密度和认知有高要求的受众 [37][38] 行业核心观点与趋势判断 - 组织能力被严重低估,被认为是AI公司真正的核心壁垒 [3] - AI基础设施不仅是降本的后台支持,更是决定AI公司发展上限的核心战斗力 [6] - 对2025年AI发展持极度乐观态度,认为早入场和乐观的参与者往往会获得回报 [8] - 2024年末市场出现“AI有泡沫”的讨论,但认为泡沫的存在并不重要,关键在于其他因素 [34] - 创业公司在AI时代最大的机会在于设计不同的交互方式 [36] 热门技术领域探讨 - Agent是年初由Manus带火的热门赛道,但其开发的上半场焦点在于环境、工具和上下文如何决定Agent [9] - 强化学习因DeepSeek的发布成为AI从业者必修模块,其原理与人生过程有类比性 [11] - AI发展进入下半场,定义和评估的重要性日益凸显,Benchmark与Evaluation成为关键议题 [24] - Agent基础设施是继Agent应用之后的新热点领域,其中蕴藏着大量机会 [28] 公司增长与商业化路径 - 海外增长方法论强调在每个阶段聚焦做最关键的一件事 [17] - 全球化是AI创业者从第一天起就必须面对的问题,其中包含已验证的方法论和经验教训 [30] - 业务在3个月内实现10倍增长,其关键可能在于“信念感” [21] - 世界上赚钱的方式有两种:组合与拆分,这为分析AI时代提供了有趣的路径 [36] - 对250家公司的AI产品定价经验进行了总结 [36] 市场竞争与案例分析 - 复盘了2018至2020年抖音超越快手的关键三年,涉及关键决策、组织文化和一线交锋 [15] - Dify从被低估的项目成长为全球顶级的开源项目,其成功路径提供了完整答案 [22] - Mercor作为当年的明星公司,其高速增长秘诀和人才策略值得关注 [25] - Figma战胜Adobe的本质、在线强化学习的进展以及AI产品留存率等案例被深入分析 [36]
机器人学习现状!Physical Intelligence内部员工分享(从数采到VLA再到RL)
具身智能之心· 2025-12-21 00:03
文章核心观点 - 截至2025年12月,机器人学习领域的主流技术栈是基于人类专家演示的纯粹行为克隆系统,但其存在分布外状态、误差累积、速度上限等固有局限 [5] - 为提升行为克隆策略的鲁棒性,行业普遍采用DAgger风格的方法,通过迭代收集失败恢复数据来修正策略,但该过程高度依赖人工、耗时且难以规模化 [26][29][31] - 强化学习被视为实现机器人自我改进的理想路径,但由于无法像大语言模型那样从同一状态无限探索,且缺乏强大的基础策略,在真实机器人应用中尚未成功 [40][41][54] - 未来突破的关键在于发展能够高质量模拟通用开放世界交互的“世界模型”,并结合专家示范与真实机器人运行数据,以实现超人性能 [58][73] 现代机器人学习技术栈剖析 - **数据收集方案**:主要依赖三种方式获取人类演示数据 [7] - **主从控制方案**:如GELLO、ALOHA,使用控制器直接远程操控机器人,数据运动学可行但采集速度比人类徒手慢可达10倍,且规模化成本高 [8][9][10] - **智能演示手套**:如通用操作接口,人类手持设备完成任务,通过SLAM和逆运动学重建状态与动作,部署成本更低但会引入严重的域差距和运动学可行性问题 [11][12][18] - **直接人类示范**:利用YouTube或工厂工人佩戴摄像头记录的数据,规模巨大且多样,但存在巨大的状态与动作重建差距,且轨迹往往在运动学上不可行 [12][13][19] 行为克隆系统的核心挑战与应对 - **根本难题**:行为克隆策略在执行时会因环境微小变化、任务不确定性及动作预测误差的递归累积而逐渐偏离,进入训练分布之外的状态 [16][17][23] - **关键应对方法**:采用DAgger方法,通过迭代收集策略在失败状态下的恢复数据,并将这些数据纳入训练,以将策略“拉回”到已知分布 [25][26] - **DAgger的实施痛点**: - 是一个高度迭代、依赖人工判断的繁琐过程,需要与各种失败模式“打地鼠” [29][31] - 通常在预训练好的基础策略上进行,但更新基础模型会清空之前迭代形成的“手感” [32] - 随着策略变鲁棒,评估其性能所需的时间急剧增加,离线指标与真实性能相关性弱 [33][34] 当前技术的能力边界与尝试 - **速度瓶颈**:行为克隆策略的最理想执行速度无法超过人类示范本身,尝试对速度进行条件化建模或高频执行均效果有限或带来新问题 [36][37][47] - **强化学习的应用困境**: - **与大语言模型的差异**:机器人无法从同一物理状态无限次执行探索,也缺乏一个非零成功率的基础策略,使得在线强化学习不可行 [45][46][54] - **仿真中的强化学习**:受限于仿真器与真实世界的巨大差距,除运动控制等特定任务外,在操作任务中收效有限 [56][57] - **真实世界中的强化学习**:核心障碍是无法回答反事实问题,即比较同一状态下不同动作的后果,需要依赖难以学习的Q/V函数或世界模型来“想象” [63][65][70] - **近期进展示例**:Physical Intelligence发布的pi*0.6方法使用优势加权回归变体,相比纯行为克隆仅有小幅提升,且许多任务仍依赖人工DAgger数据 [71] 对未来发展的预测与行业建议 - **技术发展预测**: - 2年内:视觉语言动作模型将被视频模型骨干取代 [73] - 10年内:世界模型将能很好模拟通用开放世界交互,策略可通过在世界模型中“抽取”获得 [73] - 接近专家级的示范数据对微调世界模型仍至关重要,但实现超人性能仍需真实机器人运行数据 [73] - **创业与商业建议**: - 构建能有效降低痛点的软硬件一体人类示范系统是可靠且有价值的路径 [74] - 数据标注是高度商品化的人力成本套利业务,预训练数据售卖需证明能提升模型性能,且并非所有机器人数据都有用 [75] - 评估是模型改进的关键闭环,必须在公司内部完成,无法外包 [73] - 在具身AGI领域,不可能存在通用的“一统天下”的数据平台 [73]
对话小马智行王皓俊:Robotaxi正进入1到1000的阶段
华尔街见闻· 2025-12-20 13:31
行业范式转移与商业化拐点 - 全球智驾行业在2025年正经历从实验室研发到商业化落地的范式转移,行业开始关注财务报表上的硬碰硬表现[2] - 商业化拐点已至,百度萝卜快跑在2025年二季度于武汉实现收支平衡,小马智行在11月宣布其第七代Robotaxi在广州实现单位经济模型(UE)转正[2] - 行业已从0到1的探索阶段,进入1到100、1到1000的规模化扩张阶段,清晰的商业化时间表浮现:2025年底冲击千辆级车队,2026年提升至3000辆,2030年迈向10万辆规模[2] 小马智行的商业化突破与成本控制 - 小马智行第七代Robotaxi在广州实现UE转正,意味着在剔除总研发投入后,单车收入已能覆盖硬件折旧与运营开支,实现了区域市场的商业闭环[4] - 实现UE转正的具体运营数据为:车辆日均23单,日均营收约为299元,接近行业公认能形成正向循环的24单阈值[4] - 成本大幅下降是关键:第七代车自动驾驶套件BOM成本相比第六代骤降70%,通过采用自研域控制器及规模化车规级固态雷达,将激光雷达成本压低了68%[5] - 运营费用显著优化:凭借优异安全记录,Robotaxi商保年费比传统出租车低50%,远程协助员与车辆比值已达1:20并计划压向1:30,地面维护人效也达到近20辆车/人[6] 商业模式转型与生态构建 - 公司从重资产自营模式转向轻资产的生态赋能模式,构建了“主机厂生产-资产公司持有-流量平台分发-小马提供AI司机”的价值链[7] - 在新的轻资产模式下,公司收入来源转变为车辆销售收入、技术授权费(License)以及每笔订单的服务分成[7][15] - 公司明确不做垂直运营,而是赋能给当地有资源、有意愿的合作伙伴,该模式将支持其2026年车队扩容至3000台的目标[7][18] 竞争格局与行业动态 - 2025年Robotaxi赛道竞争激烈,成为科技巨头、出行平台与主机厂共同卷入的行业混战[8] - 国际竞争者方面:Waymo周订单突破45万单,2025年至今出行量超1400万次,但其新车型成本是中国同类车型的4到5倍以上,特斯拉则通过纯视觉方案和百万辆规模野心加速入场[8] - 国内竞争者方面:百度萝卜快跑周订单已超25万单,累计服务单量突破1700万次,小鹏汽车宣布2026年量产纯视觉Robotaxi,哈啰计划在2027年铺开5万辆规模[9][10] - 行业逻辑质变,从技术竞赛演变为资本、供应链与运营人效的综合竞争,技术公司需与主机厂、平台深度捆绑[11] 市场前景与运营重要性 - 瑞银分析预测Robotaxi市场规模:到2030年,中国一线城市部分部署规模为80亿美元,中国全国部署可达1830亿美元,计入除美国外的海外市场则达3940亿美元[12] - 随着硬件成本下降,运营费用(维保、保险、补能)在单车成本结构中的占比将从目前的48%左右升至55%,运营效率成为竞争核心[12] - 规模效应的“黄金节点”被定在10万台,达到此阈值后强大的网络效应将产生质变,对应中国一线城市出行市场5%~10%的份额[12] 技术路线与战略认知 - 公司认为L4的核心是安全性需比人类司机高很多,这必须依靠强化学习和生成式的“世界模型”,而非模仿学习[13][20] - 公司指出L3因仍需人类司机在场,无法节省人力成本,故其UE不可能转正,但L3的成功可能为未来搭载L4功能的私家车铺路[16] - 公司认为车企进入L4赛道是好事,但强调L4是强监管行业,需要系统本身积累安全里程来获取牌照,这为现有玩家留下了窗口期[21] - 在数据方面,公司认为L4的关键不在于数据量优势,而在于是否有好的生成式数据架构,模仿学习路径对L4不奏效[22][23] 海外市场拓展策略 - 海外市场处于早期拓展阶段,预计明年允许示范运营的总量约为小几百辆,达到千辆规模才有商业化机会[18] - 市场优先级上,中国和美国是最大市场,其次是欧盟,日本、韩国、澳大利亚等高人力成本、高出行需求国家也是优先选择[18] - 中东市场被视为独特机会,虽然出行需求不是最大,但政策推动力最强,预计明年可能进入示范运营阶段,是产生可持续收入的市场[6][18] - 在海外市场,公司将坚持轻资产模式,赋能当地合作伙伴,而非亲自进行垂直运营[18]
「一脑多形」圆桌:世界模型、空间智能在具身智能出现了哪些具体进展?丨GAIR 2025
雷峰网· 2025-12-20 12:07
文章核心观点 - 具身智能领域仍处于技术路线发散探索阶段,尚未收敛,这为创新提供了机会,但最终目标是实现通用泛化智能,而非回归传统工业自动化 [3][4] - 世界模型在自动驾驶等特定场景已开始应用,主要用于生成海量合成数据以覆盖长尾场景和进行闭环测试,但其与具身智能的结合仍处于早期探索阶段,定义和技术范式尚未统一 [10][11][12][14] - 空间智能是机器人感知和理解环境的关键,其发展建立在SLAM等技术基础上,并引入AI以增强对语义和复杂空间关系的理解,但目前仍面临数据模态不足等挑战 [20][21][22][23] - 具身智能的落地应用面临技术、成本与商业化现实的巨大鸿沟,需在追求通用智能的“星辰大海”与解决工业自动化等迫切需求的“脚踏实地”之间找到平衡 [25][26][27][30] - 数据是驱动技术发展的关键,其获取方式(真机、仿真、生成)的有效性取决于具体任务,业界正在探索不同数据源的最优组合比例 [34][35][38] 具身智能技术发展现状 - 技术路线仍处于发散探索阶段,尚未收敛,高校与产业界需更好分工合作,高校应聚焦交互、人机协同、世界模型等核心问题突破 [3][4] - 单体机器人研究倾向于采用端到端技术路线以降低系统复合误差和延迟,决策层共识是放大视觉语言模型的能力 [5] - 群体机器人的基础是打造柔性、弹性、分布式、灵活的群体架构 [5] - 端到端是一种工程范式,强化学习是一种具体解法,黑箱是一种模式,三者概念不同,不应等同 [6][7] - 实际研究中采用多种解法,包括大量使用强化学习,并以解决问题为唯一目标 [8][9] 世界模型在自动驾驶领域的应用与挑战 - 世界模型在自动驾驶领域主要用于生成海量合成数据以覆盖数据飞轮积累的corner case和之前布局不到的场景 [11] - 与传统方案相比,世界模型能实现闭环测试,将决策链路放在模型内进行优化,这是最大的不同 [11] - 自动驾驶场景相对简单,且早有“闭环仿真器”概念,生成式AI能力的提升使生成的数据真假难辨,提供了大量有价值的训练样本 [12] - 世界模型的定义尚未统一,例如李飞飞侧重像素级重建,而LeCun认为潜在空间表达也算世界模型 [12] - 自动驾驶领域世界模型的状态表征主流仍是视频生成,同时结合雷达、点云等多模态数据以增强信息量和安全性 [13] - 将世界模型与视觉语言动作模型结合,旨在解决离线数据集无法通过模仿学习获得长程思维和未来预测能力的问题 [15][16] - 世界模型有助于解决长程任务的理解和预测难题,能赋能后续的策略学习 [17] 空间智能的定义与发展 - 空间智能定义尚不清晰,其发展部分源于SLAM技术的延续和演进,现在更多采用基于学习的方法 [20] - 空间智能不仅关注空间几何,还增加了对语义信息的关注,包括物体类别、用途、交互方式等 [21] - 机器人目前处理复杂空间关系(如“第一排左边数第四个瓶子”)的能力仍不成熟,这是空间智能需要解决的问题 [22] - 大模型因训练数据源于语言模态而存在空间关系上的“幻觉”,需构建专门数据集与传统SLAM的强空间能力对齐 [23] - 当前视觉语言模型中的视觉多为2D,3D模态较为欠缺,需补足3D信息以解决空间智能问题 [23] 具身智能的落地应用与商业化挑战 - 无人机应用生态中,航拍、农业植保等易落地应用占比可能不到1%,更多高空作业场景(如灭火、清洗、载人)尚未实现 [26] - 应用未普及的最大卡点之一是“不够智能”,依赖规则编写导致开发成本高,难以算过经济账,AI发展带来了解决希望 [27] - 通过AI与大模型结合改进决策能力,被视为实现通用泛化解决问题能力的关键希望 [29] - 产业界存在迫切需求,希望尽快将机器人用于工业自动化,这与技术创业者的通用智能愿景存在差距 [30] - 人形机器人硬件在负载能力、高负载平衡性、运动稳定性及灵巧手方案等方面仍有诸多挑战,离真正“干活”的应用落地尚有距离 [30] - 中美创业环境存在差异,例如Scale AI估值达140亿美元,而国内创业公司估值多在几亿人民币量级,需同时面对宏大愿景与短期商业化的矛盾 [31] - 创业者认为最终成功做成事情比估值高低更重要,并指出中国投资人对技术的耐心因DeepSeek等案例而有所增加 [31][32] 数据获取策略与有效性 - 机器人数据获取主要有真机采集、仿真和视频生成模型三种方式,其有效性需根据具体任务判断,并非真机数据一定最合理 [34][38] - 数据可视为金字塔结构:底层是大量、低成本的互联网或视频数据,用于预训练;中层是合成数据,用于提高任务泛化性;顶层是真机或遥操数据 [34] - 业界正在探索不同数据源的有效比例,例如一种说法是70%的网络视频数据、20%的合成数据和10%的真机数据 [35] - 合成数据是否有效,关键在于其是否针对特定任务有价值,且其表达形式不一定是视频,也可能是潜在的抽象表征 [35][36][37] - 对于足式机器人的基本运动控制任务,可能在纯仿真环境中无需真实数据即可完成,高度依赖任务形式本身 [38]
最近收到了很多同学关于自驾方向选择的咨询......
自动驾驶之心· 2025-12-19 17:25
自动驾驶领域研究方向与人才需求 - 行业收到大量来自计算机、车辆、自动化和机械方向学生的咨询,显示该领域人才需求旺盛且背景多元 [2] - 对于计算机与自动化背景的学生,行业建议主攻深度学习方向,包括视觉语言模型、端到端自动驾驶和世界模型等前沿领域,这些方向被认为从入门到就业乃至深造均有广阔空间 [2] - 对于机械与车辆工程背景的学生,行业建议可从传统规划与控制、3D高斯泼溅等方向入手,这些方向对算力要求相对较低且更易入门 [2] - 行业指出,新人研究者需要经历大量实践与试错才能形成有价值的创新想法,方法论提升的关键在于广泛阅读论文和积极交流 [2] 前沿与细分技术赛道 - 行业关注的前沿研究方向包括视觉语言模型、端到端自动驾驶、强化学习、3D高斯泼溅和世界模型 [2] - 行业认为开集目标检测、占用网络、小样本/零样本学习等是相对竞争不那么激烈的细分赛道 [2] - 行业提供的论文辅导服务覆盖了广泛的技术方向,包括但不限于端到端、视觉语言模型、世界模型、强化学习、3D目标检测、多传感器融合、3D高斯泼溅、鸟瞰图感知、占用网络、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、流匹配、点云感知、毫米波雷达、单目感知以及车道线/在线高精地图 [3] 学术成果与发表支持服务 - 行业提供的论文辅导服务声称具有很高的中稿率,并已有成果被计算机视觉、人工智能、机器人、自然语言处理等领域的顶级会议和期刊收录,例如CVPR、AAAI、ECCV、CoRL、ICLR、IROS、ICRA、ACL [7] - 服务支持发表的论文级别多样,涵盖自动驾驶顶会/顶刊、中国计算机学会推荐的A/B/C类会议期刊、科学引文索引的一至四区期刊、中科院分区的一至四区期刊、以及工程索引和中文核心期刊 [10] - 服务内容全面,包括论文选题、全流程指导以及实验指导 [6] - 服务范围不仅限于学术论文发表,还扩展至毕业设计论文、申请博士以及竞赛支持 [10] - 服务提供针对不同论文级别的差异化定价 [8]
首个文本到3D生成RL范式诞生,攻克几何与物理合理性
量子位· 2025-12-19 15:20
强化学习在文本到3D生成领域的应用探索 - 核心观点:一项由多所高校及实验室合作的研究,系统性探索了强化学习在文本到3D生成中的应用,发现RL能够提升3D模型的推理与生成质量,并提出了层次化RL范式和首个相关评测基准[1][2][3] 研究背景与挑战 - 在LLM推理和2D文生图领域,强化学习已被证明能显著提升思维链推理能力和生成质量[3] - 3D物体具有更长、更稠密、更具几何约束的特性,为RL的应用带来挑战[3] - 研究方向面临奖励设计、算法适配及缺乏专门评测基准等问题[4][6] 奖励设计层的关键发现 - 对齐人类偏好信号是提升整体3D质量的关键,其他奖励维度单独使用提升有限,但叠加后可带来持续增益[7] - 对于同一奖励维度,专门化的奖励模型通常比大型多模态模型表现出更强的鲁棒性[7] - 通用多模态模型在3D相关属性上出乎意料地鲁棒,为“低成本奖励”提供了可能[7] RL算法与训练策略 - 在3D自回归生成中,强化学习更偏好token级策略,其带来的提升显著大于序列级的重要性采样与剪切方法[8] - 简单的技巧即可稳定训练,例如动态采样,只要策略更新受控[9] - 完全移除KL惩罚会导致性能下降,而鼓励对低概率token探索的方法仍能带来性能增益[9] - 扩大量级的训练数据能有效缓解偏好奖励带来的偏差并提升整体表现[9] - 适度增加RL迭代能进一步优化模型,但过度训练可能损害泛化能力[9] 评测基准MME-3DR的构建与发现 - 研究构建了首个针对3D推理场景的系统评测基准MME-3DR,涵盖空间结构几何、机械可供性与物理合理性、生物有机形态、长尾稀有实体和风格化抽象形态五类[10] - 该基准更关注“在困难约束下是否还能保持一致、合理、可解释”,而非只展示多样性[11] - 近期Text-to-3D模型在机械结构和非刚性生物体上表现尚可,但在其余三个类别上仍存在明显不足[11] - RL训练在所有五类任务上都带来了显著提升[11] - MME-3DR能同时评估隐式推理与通用3D生成能力,验证了其多样化物体覆盖带来的评测有效性[11] 层次化RL范式与模型实现 - 将3D生成视为从粗到细的过程:第一步由高层语义决定整体几何骨架,第二步在几何稳定的前提下细化纹理与局部结构[14] - 针对两个步骤单独设计专有奖励模型进行监督,并基于此提出了层次化RL范式Hi-GRPO[14] - 实现了首个RL加持的Text-to-3D自回归模型AR3D-R1[14] 关键发现与行业洞察 - RL正在帮助3D生成模型“学会思考”,不仅仅是调整美观度,在空间几何、一致性和物理可行性等维度都有显著提升,表现出隐式3D推理能力的增强[15] - 范式对齐结构先验很重要,尊重“先几何、后纹理”的层次结构设计,比简单在最终图像上打分更有效且更可解释[16] - 存在性能与稳定性的二元博弈:奖励过于稀疏或RL迭代数过大会导致训练不稳和模式坍缩;高质量人类偏好或强多模态奖励可在同等训练预算下取得更高回报[17] - 结果清晰显示了当前模型的能力边界:对极复杂几何、长尾概念和强风格化场景,模型仍会“逻辑崩坏”;真正可扩展的3D RL仍受限于算力与奖励获取成本[18]
亚马逊AGI负责人离职,强化学习大佬Pieter Abbeel接任
机器之心· 2025-12-19 08:21
亚马逊AGI团队高层人事变动 - 亚马逊AGI团队高级副总裁兼首席科学家Rohit Prasad已官宣离职,其于2013年加入公司,曾参与打造Alexa并领导Nova基础模型开发[1][3] - 亚马逊CEO Andy Jassy在公告中认可Rohit Prasad的贡献,指出其推动Alexa成长为一项每天触达数亿用户生活的服务,并领导创建了Amazon Nova及AGI组织,打造了12个业界领先的基础模型,已被数以万计的企业采用[4] - 随着Prasad离职,亚马逊宣布将AI研发职权进一步向云计算部门集中,成立由AWS实用计算高级副总裁Peter DeSantis统一领导的新组织,直接向Jassy汇报[5] 新任领导层与组织架构调整 - Peter DeSantis于1998年加入亚马逊,曾负责革命性的EC2服务及AWS基础设施,其领导的新部门职能涵盖AGI与AI模型研究、自研芯片计划及量子计算[5][6][10] - 顶尖学者Pieter Abbeel将接手前沿AI模型研究团队的领导工作,其是加州大学伯克利分校教授,学术引用量高达23.1万次,也是机器人公司Covariant的联合创始人[7][8][12][15] - Pieter Abbeel领导的伯克利人工智能研究实验室诞生了至少12位知名AI初创公司创始人,其培养的学生已成为AI界的重要力量[16] 亚马逊的AI战略与行业竞争 - 亚马逊一直在努力打破其在AI产品研发方面掉队的印象,为在与OpenAI、谷歌和Anthropic的竞争中加速追赶,推出了自有的基础模型系列Nova[5] - 亚马逊同时研发了自家的Trainium定制AI芯片,直接与英伟达展开竞争[5] - Prasad的离职是AWS近期人事震荡的延续,过去一年中,AI副总裁Matt Wood与生成式AI副总裁Vasi Philomin等资深管理层相继离开[6] 人才流动与公司观点 - 为应对人才缺口,亚马逊积极吸纳新鲜血液,包括前微软高管Julia White出任首席营销官,以及David Richardson、Joe Hellerstein和Chet Kapoor等技术专家入职[6] - AWS首席执行官Matt Garman反对用AI替代初级员工,认为这是最愚蠢的想法之一,并指出2025年调查显示超过55%的初级开发者在日常工作中使用AI,比例远超资深同行[19][20] - Garman强调AI最终创造的职位将多于其取代的职位,拥有扎实核心基础知识的新鲜人才对于填补未来高价值角色至关重要[19]
端到端落地中可以参考的七个Project
自动驾驶之心· 2025-12-19 08:05
行业技术趋势与人才需求 - 自动驾驶行业端到端技术路线已被头部玩家验证可行 其他车企正跟进投入人力和资源 [2] - 导航信息、强化学习、扩散模型、自回归、时空联合规划是当前端到端量产落地最重要的技术栈 [2] - 行业面临人才挑战 候选人往往只懂部分技术 在导航信息引入、强化学习调优、轨迹建模优化等具体量产经验上存在痛点 [2] 课程核心内容与结构 - 课程为期三个月 包含七个实战项目 聚焦量产应用 [2] - 课程核心算法涵盖一段式端到端、两段式端到端、导航信息量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等 [2] - 课程最终章节将分享从数据、模型、场景、规则等多视角的量产经验 [14] 技术模块详解 - **第一章:端到端任务概述** 介绍感知任务合并与规控算法learning化的主流趋势 讲解感知模型一体化架构和规控learning化方案 并介绍开源数据集与评测方式 [7] - **第二章:两段式端到端算法** 讲解两段式框架建模及感知与PNC信息传递方式 分析其优缺点 并通过PLUTO算法进行实战 [8] - **第三章:一段式端到端算法** 介绍一段式框架 其可实现信息无损传递 性能优于两段式 涵盖基于VLA和基于Diffusion等方法 并通过VAD系列进行深入学习 [9] - **第四章:导航信息量产应用** 讲解导航地图的格式与内容 及其在端到端模型中的编码与嵌入方式 以更有效发挥导航能力 [10] - **第五章:自动驾驶中的RL算法** 在模仿学习基础上引入强化学习以解决人类驾驶风格差异和corner-case场景数据稀缺问题 实现模型泛化 重点介绍强化学习算法及训练策略 [11] - **第六章:端到端轨迹输出优化** 进行nn planner项目实战 包括基于模仿学习的扩散模型与自回归算法 以及后续的强化学习算法 [12] - **第七章:时空联合规划兜底方案** 介绍量产中用于轨迹平滑优化的后处理兜底逻辑 包括多模态轨迹打分搜索算法和轨迹平滑算法 以保证输出轨迹稳定可靠 [13] 课程安排与学员要求 - 课程采用离线视频教学 配合VIP群答疑及三次线上答疑 答疑服务截止2026年11月30日 [15] - 课程从11月30日开始 按周或双周解锁新章节 至次年2月24日完成全部八章内容 [16][18] - 课程面向进阶学员 建议自备算力在4090及以上的GPU 并熟悉BEV感知、视觉Transformer、端到端算法、强化学习、扩散模型理论 具备Python、PyTorch及mmdet3d框架基础 [17]