机器之心
搜索文档
X上63万人围观的Traning-Free GRPO:把GRPO搬进上下文空间学习
机器之心· 2025-10-22 16:46
GRPO 的核心思路很简单却强大: 这种「多路径并行 + 组内优势」的机制,虽然比传统 PPO 等方法更加简洁,但仍然需要优化模型参数, 太贵了! 这让 GRPO 虽然强大,却几乎只能由巨头来玩,中小团队和个人开发者根本「玩不起」。 能不能不改模型参数,也来跑一遍 GRPO? 腾讯优图的一篇最新论文就提出了一个非常有意思的答案: 既然更新参数这么贵,那就不更新参数,直接把 GRPO 的「学习过程」搬进上下文空间! 对同一个问题,同时生成多条解答路径(rollout) 给这些路径打分,比较组内优劣 再根据优势信号来更新模型参数,让模型越来越偏好高质量解法 在 32B 量级的模型上训练一次 RL,就可能要花掉上万美元 如果是 600B 级别的超大模型,成本和工程难度更是上天 年初的 DeepSeek-R1,带来了大模型强化学习(RL)的火爆。无论是数学推理、工具调用,还是多智能体协作,GRPO(Group Relative Policy Optimization)都成 了最常见的 RL 算法。 Training-Free GRPO 是把 GRPO 训练的整个范式迁移到了上下文学习之中: 论文标题:Training ...
R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式
机器之心· 2025-10-22 16:46
现有评测无法回答这个问题,传统训练数据也无法培养这种能力(如图所示,模型在长程推理场景下性能下降严重)。 一个软件工程师需要连续调试多个相互依赖的代码模块 一个数学研究者需要基于前序定理推导后续结论 一个智能助手需要在多轮对话中逐步完成复杂任务规划 王嘉宁,获得华东师范大学博士学位,曾前往 UCSD 访问学习,在 ACL、EMNLP、AAAI、ICLR 等顶会发表论文数十篇,目前就职于美团, LongCat Team 核 心成员 ,研究方向为大模型训练与复杂推理。 研究背景:从「单步推理」到「长链决策」 OpenAI o1、DeepSeek-R1 等大型推理模型(LRMs)的出现,标志着 AI 推理能力进入了「测试时扩展」的新纪元。通过长链推理 Long Chain-of-Thought (CoT),这些模型在数学推理、代码生成、智能体任务等领域取得了令人瞩目的突破。 然而,当前的训练与评测范式存在一个根本性的局限:几乎所有主流 Benchmark(如 MATH500、AIME)都聚焦于孤立的单步问题,问题之间相互独立,模型只 需「回答一个问题,然后结束」。但真实世界的推理场景往往截然不同: 这些场景要求模型 ...
9998元抱回家!全球首款万元以下人形机器人来了,21自由度,能说会走,会尬舞
机器之心· 2025-10-22 16:46
产品发布与定价 - 全球首款万元以内消费级人形机器人Bumi小布米将在双十一登陆京东首发,价格9998元[4][2] - 价格低于高配旗舰手机,显著低于行业参照系如宇树R1起步价3.99万元和松延动力N2促销价3.99万元,首次将人形机器人门槛打入万元以内[5][6] - 限时优惠价9998元仅在双十一至双十二期间开放[48] 产品性能与设计 - 身高94厘米,体重12公斤,底座长34.5厘米、宽19厘米,设计轻巧紧凑,便于在狭窄空间活动且易于搬运[16] - 全身拥有21个自由度,比公司N2型号多3个,主要集中在腰部和腿部,使动作更稳、更自然、步态更协调[20] - 采用48V平台电池系统,续航时间1到2小时,适用于教育、陪伴等短时场景或具备固定充电设备的业务应用[32][33] - 材料采用高强度塑料躯干与外壳,关键受力部位使用高强度铝合金,兼顾轻量化与强度耐用[18] 智能化与功能应用 - 具备听、说、理解及回应人类语言和动作指令的能力,交互流畅自然[35][36] - 支持图形化编程,零代码门槛,可作为教育工具让孩子通过拖拽积木块式指令学习AI、算法和工程思维[37] - 教育场景是公司重点方向,订单规模大,覆盖多层次教育类场景,如人工智能课堂和幼儿园互动游戏[37] 公司技术与商业化进展 - 公司成立不到两年完成6轮融资,产品成为今年最出圈的人形机器人之一[7] - 自研技术底座包括伺服电机和运动控制算法,采用深度强化学习训练机器人,其N2型号是全球第一台能“一镜到底”完成连续完美空翻的机器人[41][43][45] - 商业化进展突飞猛进,继宇树科技后成为国内又一家销量破千的人形机器人公司,7月单月交付破百台[40][48] - 产品N2在今年四月北京亦庄人形机器人半程马拉松中作为唯一独立完赛机器人获得亚军,后续在世界人形机器人运动会上获得自由体操冠军等成绩[8][9][11] 行业与供应链 - 公司产品策略专注“小个子”人形机器人,相较于全尺寸产品,在科研、教育、文娱等场景更具成本效益和灵活性[40] - 国产供应链成熟推动成本下降,谐波减速器、行星滚柱丝杠等核心部件已实现国产替代,公司产品关键环节高度国产化,主控芯片采用瑞芯微RK3588S[46][47][48] - 摩根士丹利报告指出,减速器、电机等核心部件多数机器人厂商仍需从中国采购[48]
不用强化学习也能推理,哈佛新采样算法竟能让基础模型比肩GRPO后训练版本
机器之心· 2025-10-22 16:46
机器之心报道 编辑:Panda 强化学习能力强大,几乎已经成为推理模型训练流程中的标配,也有不少研究者在探索强化学习可以为大模型带来哪些涌现行为。 现在,问题来了:要让大模型学会推理,强化学习是必需的吗? 近日,哈佛大学一篇论文探索了能否不使用任何额外训练,通过纯粹的采样让基础模型表现出推理能力。 论文标题:Reasoning with Sampling: Your Base Model is Smarter Than You Think 论文地址:https://www.arxiv.org/pdf/2510.14901 项目网站:https://aakaran.github.io/reasoning_with_sampling/ 他们的探索成功了,提出了一种利用基础模型自身似然度的简单迭代采样算法。 代码地址:https://github.com/aakaran/reasoning-with-sampling 他们还证明,在不同的基础模型上,该算法都能大幅提升推理能力。 也就是说: 直接从基础模型进行采样,可以实现与强化学习相媲美的单次推理能力! 更重要的是,该算法无需训练、无需数据集、无需验证器,从而可避 ...
Dexmal原力灵机开源Dexbotic,基于PyTorch的一站式VLA代码库
机器之心· 2025-10-22 14:32
机器之心发布 机器之心编辑部 Dexbotic 是一套基于 PyTorch 框架开发的开源视觉-语言-动作模型(VLA)代码库,由 Dexmal 原力灵机重磅推出,主要面向对象为具身智能领域研究者;其整体 架构包含 Data、Experiment、Model 三大核心组件,具备统一模块化 VLA 框架、高性能预训练基础模型、实验导向型开发框架、云端与本地一体化训练、全链路 机器人训练与部署五大特征。 Dexbotic 提供了一套同时支持多个主流 VLA 算法的代码库,用户只需配置一次环境,基于所提供的预训练模型,即可在各类仿真环境中复现各类主流 VLA 算 法,通过解决这一行业痛点,为具身智能领域从业者提供一站式 VLA 科研服务。同时,Dexmal 原力灵机还将持续更新和支持更多业界领先的 VLA 模型。 Dexbotic 代码库的整体架构主要包含三大核心层级:数据层(Data Layer)、模型层(Model Layer)和实验层 (Experiment Layer)。数据层定义了 Dexdata 统一格 式以整合多源数据并优化存储空间;基于 Dexdata 格式的数据,系统将自动执行数据处理流程,提取图 ...
HumanSense:探索多模态推理边界,打造「察言观色会共情」的全模态交互伙伴
机器之心· 2025-10-22 14:32
目前,该项目以及相关配套工作已在 GitHub 和 HuggingFace 开源,希望能吸引社区更多关注多模态大模型在以人为中心的交互场景的潜力,推动 AI 交互体验的 革新。 本文作者来自蚂蚁集团的多模态认知团队和西安交通大学的人机混合增强智能全国重点实验室。团队持续围绕多模态大模型、内容生成和全模态交互等前沿方向 进行研究,致力于构建领先的大模型基础能力和创新的交互应用体验。 在科幻作品描绘的未来,人工智能不仅仅是完成任务的工具,更是为人类提供情感陪伴与生活支持的伙伴。在实现这一愿景的探索中,多模态大模型已展现出一 定潜力,可以接受视觉、语音等多模态的信息输入,结合上下文做出反馈。 然而,真正融洽的沟通,需要 AI 可以像人类一样从外貌、声音乃至表情动作中感知对方的个人特点和情绪状态,理解深层诉求,进而做出恰当回应。 现有工作对这类以人为中心场景的深入研究还较少见,既缺乏细粒度的评估,也限制了相关能力的优化。这导致在许多交互应用中「AI 感」依然常见,AI 助手们 听得懂语音却读不懂情绪,能回答问题却不理解用户的诉求,纵有一身本领却无法完整表达。 为了填补这一空白,蚂蚁集团与西安交通大学联合提出并开源了 ...
SIGGRAPH Asia 2025|电影级运镜一键克隆!港中文&快手可灵团队发布CamCloneMaster
机器之心· 2025-10-22 14:32
本文第一作者罗亚文,香港中文大学 MMLab 博士一年级在读,研究方向为视频生成,导师为薛天帆教授。个人主页: https://luo0207.github.io/yawenluo/ 作为视频创作者,你是否曾梦想复刻《盗梦空间》里颠覆物理的旋转镜头,或是重现《泰坦尼克号》船头经典的追踪运镜? 在 AI 视频生成中,这些依赖精确相机运动的创意,实现起来却往往异常困难。 一个直接的想法是先用相机位姿估计模型从参考视频中提取相机参数,然后使用相机参数作为控制条件引导视频生成过程。 然而,这条看似容易的路径,实则充满了陷阱:现实场景中的动态物体和复杂遮挡关系,常常导致模型估算出的相机参数出现偏差或错误,让生成的运镜效果与 预期大相径庭。 为了解决这一痛点, 香港中文大学与快手可灵团队联合提出了一种全新的运镜可控的视频生成框架 CamCloneMaster 。它引入了一种「参考即用」的新范式,用 户只需提供一段参考视频,模型就能直接「克隆」其相机运动并应用于新内容,从根本上告别了对相机参数的依赖。 该工作被计算机图形学顶级会议 SIGGRAPH Asia 2025 接收,其训练、测试代码和高质量渲染数据集 CamClo ...
CVPR 2026新规:强制披露算力成本,高效率、高透明度论文可获三项认可奖
机器之心· 2025-10-22 11:30
众所周知,AI 研究背后有一个隐形成本,即计算资源。为了增加研究的透明度和公平性,CVPR 出台了一 个名为「计算资源报告表(CRF)」的试点计划。 该计划规定,从 CVPR2026 开始,所有的论文作者都必须报告他们在研究中使用的计算资源。通过汇总这 些数据,社区能够更好地了解哪些研究团队有能力参与,哪些研究模式是可持续的,同时也能够展示资源 是如何被使用的。 正如学者 Zhengzhong Tu 所说,这是一项很棒的举措,可以明确区分工业研究和学术研究,在一定程度上可 以促进更加公开和公平的研究环境。 机器之心报道 编辑:杨文 CVPR2026 出新规,剑指计算资源。 强制提交计算资源报告 但不影响论文接收决策 CVPR 要求所有论文提交者提供计算资源报告(CRF),详细记录在研究过程中使用的计算资源,比如 GPU 和 CPU 的使用情况、训练时间、模型的效率等。 提交这份报告是强制性的 ,但这不会影响论文的接收决策,数据仅由一个独立的计算资源报告委员会审 查,不会与评审人员、领域主席或高级领域主席共享。 CRF 需要与补充材料一起提交,填写大约需要 10-15 分钟的时间,论文提交者需要提供关于硬件的基 ...
刚刚,ICCV最佳论文出炉,朱俊彦团队用砖块积木摘得桂冠
机器之心· 2025-10-22 11:30
ICCV 2025会议概况 - 国际计算机视觉大会ICCV于10月22日在美国夏威夷揭幕,是全球计算机视觉三大顶会之一,每两年举办一次[1][4] - 本届大会共收到11239份有效投稿,最终录用2699篇论文,录用率为24%,相比上一届论文数量大幅增长[4] 最佳论文奖 - 最佳论文奖由卡耐基梅隆大学获得,获奖论文为《Generating Physically Stable and Buildable Brick Structures from Text》,由知名青年学者朱俊彦带领团队完成[2][5][6] - 论文提出了BrickGPT,是首个能够根据文本提示生成物理稳定的相互连接积木装配模型的方法[9] - 研究团队构建了大规模、物理稳定的积木结构数据集StableText2Brick,包含47000多个积木结构和超过28000个独特三维对象及其文本描述[11] - 该方法在自回归推理中引入有效性检查和基于物理约束的回滚机制,实验结果显示其有效性达100%,稳定性达98.8%,全面优于基线模型[18][20] - 生成的设计可由人类手动装配或机械臂自动组装,并开发了基于文本的积木贴图方法用于生成带颜色和纹理的设计[11] 最佳论文提名奖 - 同样来自卡耐基梅隆大学的论文《Spatially-Varying Autofocus》获得最佳论文提名奖[21] - 该研究突破了传统镜头单一平面成像限制,构建了能够任意调整景深的计算镜头,实现了全场景清晰成像并保持最高空间分辨率[23] 最佳学生论文奖 - 最佳学生论文奖由以色列理工学院获得,获奖论文为《FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models》[2][24][25] - 论文提出FlowEdit方法,创新地绕开传统图像编辑路径,通过构建常微分方程直接在源图像分布与目标图像分布间建立直接映射路径[27][28] - 该方法实现了更低的传输成本,能最大程度保留原始图像结构和内容,在Stable Diffusion 3和FLUX流模型上取得SOTA效果[31] 最佳学生论文提名奖 - 德州大学奥斯丁分校的论文《RayZer: A Self-supervised Large View Synthesis Model》获得最佳学生论文提名奖[32] - 该模型在训练时无需任何3D监督信息,仅需2D图像即可学习并展现出涌现的3D感知能力,在新视角合成任务上表现优异[35] Helmholtz Prize获奖论文 - 该奖项表彰计算机视觉基准测试贡献,有两篇获奖论文[36] - Ross Girshick的《Fast R-CNN》提出快速区域卷积网络,显著提升目标检测的训练、测试速度和检测精度[36] - 何恺明等人的论文《Delving Deep into Rectifiers》引入PReLU激活函数和He初始化方法,首次在ImageNet上达到超越人类水平的分类性能[38] Everingham Prize获奖团队 - 该奖项表彰对社区有重大贡献的研究者,有两个获奖团队[41] - SMPL团队开发了参数化三维可变形人体模型,精准表示人体姿态与形状,广泛应用于动画、虚拟人及生成式AI领域[41] - VQA数据集团队创建了结合图像理解与自然语言问答的大规模基准数据集,推动多模态AI在视觉理解和语言推理方向的研究[43] Significant Researcher Award获奖者 - 该奖项表彰显著推动计算机视觉领域进展的研究人员,颁给David Forsyth和Michal Irani[45][50] - David Forsyth在颜色恒常性方法、人体动作识别与追踪技术方面作出贡献,影响物体识别和动作分析研究[50] - Michal Irani开创图像内部自相似性与空间-时间视频形状研究范式,通过无监督方法解决超分辨和视频结构分析等核心问题[50] Azriel Rosenfeld Award获奖者 - 该终身成就奖表彰在学术界和工业界具有持续影响力的研究者,颁给Rama Chellappa[51][54] - Rama Chellappa作为计算机视觉与模式识别领域先驱,在人脸识别、运动分析、3D建模和生成式视觉理解等方面作出奠基性贡献[54]
智源开源EditScore:为图像编辑解锁在线强化学习的无限可能
机器之心· 2025-10-22 11:30
随着多模态大模型的不断演进,指令引导的图像编辑(Instruction-guided Image Editing)技术取得了显著进展。然而,现有模型在遵循复杂、精细的文本指令方面 仍面临巨大挑战,往往需要用户进行多次尝试和手动筛选,难以实现稳定、高质量的「一步到位」式编辑。 强化学习(RL)为模型实现自我演进、提升指令遵循能力提供了一条极具潜力的路径。但其在图像编辑领域的应用,长期以来受限于一个核心瓶颈: 缺乏一个能 够精确评估编辑质量并提供高保真度反馈的奖励模型(Reward Model)。 没有可靠的「奖励信号」,模型便无法有效判断自身生成结果的优劣,从而难以实现高 效的自我优化。 为攻克这一难题, 北京智源人工智能研究院 VectorSpace Lab 团队 近日发布了全新的高保真奖励模型系列—— EditScore 。该工作直面上述挑战,旨在 为指令引 导的图像编辑任务提供精确、可靠的奖励信号,从而为强化学习在 AIGC 领域的深入应用铺平道路,真正解锁其强大潜力。 EditScore 是智源在成功推出统一图像生成模型 OmniGen 系列之后,对更通用、更可控的生成式 AI 的又一重要探索。为了促进 ...