Workflow
学习
icon
搜索文档
重磅分享!VR-Robo:real2sim2real助力真实场景下的机器人导航和运动控制
具身智能之心· 2025-07-08 17:31
点击下方 卡片 ,关注" 具身智能之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识星球 足式机器人的运动控制得益于强化学习与物理仿真的结合, 但其实际应用受限于"仿真与现实差距" , 特别是缺乏真实感视觉渲染阻碍了需RGB感知的高阶任务(如本体感知导航)。 本文提出"真实-仿真- 真实"框架,通过多视角图像进行3D高斯溅射(3DGS)场景重建,构建兼具照片级真实感与物理交互特性 的"数字孪生"仿真环境,实现视觉导航与运动控制的协同学习 。在仿真器中训练强化学习策略执行视 觉目标追踪任务的实验表明, 该方法支持纯RGB输入的仿真到现实策略迁移,并能促进策略在新环境 中的快速适应与高效探索,在家庭和工厂场景中具有应用潜力。 论文标题:VR-Robo: A Real-to-Sim-to-Real Framework for Visual Robot Navigation and Locomotion 论文链接:https://arxiv.org/abs/2502.01536 项目链接:https://vr-robo.github.io/ ...
感觉捕手
36氪· 2025-07-08 17:04
人工智能与感知智能 - 当前AI系统擅长语言处理但缺乏对物理世界的理解 语言大模型通过词序列共现概率捕捉语义 但无法理解三维空间[21][22] - 世界模型是AI突破方向 通过多视角感知重建三维场景 预测遮挡与运动轨迹 实现物理推理和交互[23][24][27] - 语言大模型与世界模型互补 前者解析意图 后者执行物理操作 二者结合实现"说得明白+做得到"的完整智能[32][34] 智能的本质与进化 - 生物智能通过演化形成高效解决方案 如狗本能选择最优路径 棒球手使用凝视启发法接球 体现"具身认知"原理[41][44][45] - 预测性大脑理论认为智能是大脑-身体-环境统一体 通过最小化预测误差实现优化 不依赖显式计算[47][48][49] - 感知智能具有整体性、预测性、具身性和进化性特征 是超越符号操作的高级认知形式[52][53] 教育理念与认知发展 - 具身学习强调通过身体活动与环境互动培养理解力 挑战传统抽象知识灌输模式[78][79][80] - Taste是高维认知能力 表现为对事物本质的直觉判断 如杨振宁对物理学的鉴赏力 乔布斯的跨领域洞察[54][56][62] - 人类智能的独特性可能被AI超越 但具身体验形成的Taste仍是当前核心优势[71][74][81] 技术前沿与行业趋势 - 神经辐射场(NeRF)等3D视觉技术使AI具备场景重建能力 推动世界模型发展[27] - 多模态Transformer整合文本与3D潜变量 实现语义与空间控制的统一[32] - 莫拉维克悖论揭示感知运动智能的复杂性 是世界模型需攻克的核心难关[75][76]
突破全模态AI理解边界:引入上下文强化学习,赋能全模态模型“意图”推理新高度
量子位· 2025-07-08 15:30
多模态大语言模型技术突破 - 当前多模态推理模型存在两大核心问题:全局上下文理解不足(模型错误解读多模态证据)和捷径问题(忽视关键线索直接给出答案)[2][3][4] - 阿里巴巴通义实验室推出HumanOmniV2解决方案,强调模型需基于全局上下文理解进行推理,避免遗漏多模态线索[4] - 创新性采用强制上下文总结机制,要求模型在推理前先输出对多模态输入的概括,确保全面性[12] 技术架构优化 - 引入三维奖励机制:上下文奖励(评估上下文一致性)、格式奖励、准确性奖励协同作用[13][14] - 通过LLM评估逻辑奖励,激励模型融合反思/演绎/归纳等高级逻辑分析方法[15] - 改进GRPO训练策略:采用令牌级损失解决长序列不平衡、移除问题级归一化项消除优化偏差、动态KL散度提升探索能力[16][19][20] 数据集与基准创新 - 构建全模态推理训练数据集,涵盖图像/视频/音频理解任务,附带多模态输入总结和推理路径[23] - 推出IntentBench评估基准,包含633个视频和2,689个问题,专注测试复杂人类意图理解能力(对比Daily-Omni/WorldSense更侧重社会关系推理)[23] 性能表现 - HumanOmniV2在Daily-Omni达到58.47%、WorldSense 47.1%、IntentBench 69.33%准确率,超越现有开源模型[24] - 在视频-音频多模态任务中,7B版本以58.47%平均准确率显著领先VideoLLaMA2(35.17%)和Qwen2.5-Omni 7B(47.45%)[25] - 在文化/科技等细分领域评估中,7B模型以47.1%平均准确率超越GPT-4o(42.6%)和Claude 3.5 Sonnet(34.8%)[27] 开源与资源 - 完整开源代码/模型/数据,提供GitHub/arXiv/ModelScope/HuggingFace多平台访问入口[29]
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
量子位· 2025-07-08 15:30
核心观点 - 字节与南洋理工大学联合开发的MMSearch-R1系统通过强化学习训练多模态模型实现自主按需搜索能力 在知识密集型视觉问答任务中性能超越同规模传统RAG模型 并减少32 9%搜索次数[1][3][21] - 该系统集成图像和文本搜索工具 采用GRPO强化学习算法 通过奖励函数优化搜索行为 构建了搜索需求均衡的FVQA数据集进行训练[11][13][14][15][17] - 实验显示7B参数的MMSearch-R1模型在FVQA-test和InfoSeek等任务中平均准确率比同规模RAG基线高3 同时达到32B模型RAG基线的性能水平[21][22] 研究方法 多模态搜索工具 - 集成Google Lens图像搜索工具 可匹配网页标题和缩略图以识别视觉元素[13] - 文本搜索工具链路由Google Search JINA Reader和语言模型组成 可获取相关网页内容摘要[13] 强化学习训练 - 采用GRPO算法实现多轮对话与搜索的Rollout过程 模型可选择调用搜索工具或直接回答[14] - 奖励函数包含0 9权重的准确性得分和0 1权重的格式得分 对依赖搜索的正确答案施加0 1惩罚因子[15] 数据集构建 - FVQA数据集通过MetaCLIP元数据采样 GPT-4o生成问答对 InfoSeek样本补充等方式构建 包含3400个需搜索样本和1600个无需搜索样本[17][19][20] 实验结果 - 7B模型在减少32 9%搜索次数(SR)情况下 准确率(Acc)达到54 6 超过同规模RAG基线51 6 接近32B模型RAG基线55 1[21][22] - 强化学习相比监督微调能以更少训练样本获得更大性能提升 搜索惩罚机制有效塑造按需搜索行为[24][25] - 模型同时提升RAG工作流性能(左图)和自主回答能力(右图) 显示更强的知识挖掘与结果处理能力[22]
RL 圈的夏夜之约!12 人唠嗑局:当强化学习撞上大模型 Agent
机器之心· 2025-07-08 12:09
活动档案速报 主题 :强化学习新范式探索之夜:从基础模型到 Agent 的进阶之路 嘿!RL 圈的潮玩咖看过来! 大模型时代卷起技术狂潮,强化学习(RL)早已不是 "小众玩家",当它牵手大模型智能体,直接开启「王 炸组合」模式!想不想潜入神秘据点,边嗨边聊最 in 的 RL 新范式?7 月 26 日晚, 由机器之心主办、东浩 兰生支持,作为 WAIC 官方活动之一的 「强化学习新范式探索之夜」 热力开启, 咱们组个「技术吐槽局」 +「脑洞开黑局」, 等你带「料」赴约~ 时间 :2025 年 7 月 26 日 19:00-21:10(白天逛完 WAIC 直接转场,不耽误你狂卷干货又能嗨聊技术~) 1.「强化学习 × 大模型智能体」:CP 组合如何原地封神? 2. 训练推理两难:探索新策略 VS 守稳基本盘,怎么选? 3. 对齐评估大考:如何让智能体 "听话又能打"? 已锁定的「技术搭子」阵容 ▪️吴翼 | 清华大学交叉信息研究院助理教授 (学术圈「理论脑洞王」本王) 地点 :上海世博展览馆附近 规模 :仅限 12 位,手慢无!主打一个 "小而精" 的深度贴脸交流,拒绝人海战术,每个人都能疯狂输出! 我们聊什么? ...
南农大梨新品种家族集体“出道”
科技日报· 2025-07-08 10:07
新品种研发成果 - 南京农业大学梨工程技术研究中心推出"宁梨早露"等新品种,获得专家和种植企业高度评价[1] - "宁梨早露"具有翠绿端正外形,单果重280-320克,果心小,口感清甜,糖度高[1] - 该品种6月下旬成熟,比传统早熟梨提前半个月,从开花到成熟仅需90天,是发育期最短的品种[1] - 新品种还包括"宁早金""宁晚翠"和红皮梨系列,均为近年培育的优质品种[1] 育种技术创新 - 传统梨树育种周期需12-15年,团队通过技术创新显著缩短育种时间[2] - 应用图像识别、机器学习技术进行梨表型性状评价,开发"云上后稷"育种信息平台提高效率[2] - 采用杂交育种结合芽变、诱变育种,分子标记筛选结合表型评价的技术路线[2] - 构建完善梨杂交育种流程及配套技术,结合表型组和基因组选择技术加快选育效率[2] 产业应用价值 - 新品种覆盖极早熟、中晚熟等不同成熟期,在江苏地区6月下旬至9月上旬持续上市[4] - 新品种满足市场对鲜梨供应期的需求,有助于解决我国梨产业品种结构不合理问题[2][4] - 培育目标为"好吃、好看、好种",实现消费者、果农和市场三方共赢[1]
ETF策略指数跟踪周报-20250707
华宝证券· 2025-07-07 18:07
报告核心观点 - 报告给出几个借助ETF构建的策略指数,并以周度为频率对指数的绩效和持仓进行跟踪,各指数有不同构建方法和收益表现 [4][12] 各策略指数情况 华宝研究大小盘轮动ETF策略指数 - 利用多维度技术指标因子,用机器学习模型预测申万大小盘指数收益差,周度输出信号决定持仓获取超额回报 [4][14] - 截至2025/7/4,2024年以来超额收益17.33%,近一月0.78%,近一周0.29% [4][14] - 近一周收益1.64%,近一月3.52%,2024年以来31.47%,持仓沪深300ETF权重100% [18] 华宝研究SmartBeta增强ETF策略指数 - 用量价类指标对自建barra因子择时,依据ETF在9大barra因子暴露度映射择时信号,涵盖主流宽基及风格、策略ETF [18] - 截至2025/7/4,2024年以来超额收益17.02%,近一月 -2.18%,近一周0.69% [4][18] - 近一周收益2.05%,近一月0.56%,2024年以来31.15%,持仓红利低波ETF权重100% [18][24] 华宝研究量化风火轮ETF策略指数 - 从多因子角度出发,把握中长期基本面、跟踪短期趋势、分析参与者行为,用估值与拥挤度信号提示风险挖掘潜力板块 [21] - 截至2025/7/4,2024年以来超额收益3.01%,近一月0.46%,近一周 -0.09% [5][21] - 近一周收益1.26%,近一月3.20%,2024年以来17.15%,持仓建材ETF等5只基金 [24][25] 华宝研究量化平衡术ETF策略指数 - 采用多因子体系构建量化择时系统研判权益市场趋势,建立大小盘风格预测模型调整仓位分布 [25] - 截至2025/7/4,2024年以来超额收益 -0.42%,近一月 -1.27%,近一周 -0.87% [5][25] - 近一周收益0.68%,近一月1.52%,2024年以来15.64%,持仓十年国债ETF等6只基金 [28][30] 华宝研究热点跟踪ETF策略指数 - 根据市场情绪、行业事件、投资者情绪等策略跟踪挖掘热点指数标的产品,构建ETF组合提供短期趋势参考 [29] - 截至2025/7/4,近一月超额收益 -0.68%,近一周 -1.09% [6][29] - 近一周收益0.04%,近一月2.10%,持仓50ETF等6只基金 [30] 华宝研究债券ETF久期策略指数 - 采用债券市场流动性、量价指标筛选择时因子,用机器学习预测债券收益率,低于阈值减少长久期仓位 [33] - 截至2025/7/4,近一月超额收益 -0.10%,近一周 -0.05% [6][33] - 近一周收益0.10%,近一月0.22%,2024年以来9.48%,成立以来14.63%,持仓十年国债ETF等3只基金 [36][37]
复盘国内外AI,兼论恒生科技
小熊跑的快· 2025-07-07 17:45
股市表现 - 纳斯达克累计涨幅32 9% 恒生科技指数ETF(513180)累计涨幅11 57% 上证涨幅12 16% A股整体涨幅不及美股且结构差异显著 [1] AI芯片趋势 - 资金从训练GPU转向推理ASIC芯片 H100和H200主力云上价格自2月28日后持续下行 [3] - 基础大模型迭代放缓 3月B200交付后模型升级速度明显下降 行业转向RL强化学习路径 [5] - H100和H200租赁价格下降因RL阶段算力需求减少及中国厂商减少高性能芯片堆叠 [5] 数据与推理需求 - GPT5训练数据中合成数据占比达50% 显著高于GPT4 未来高质量数据获取成关键 [6] - 微软25Q1 Token总量超100万亿同比增5倍 谷歌4月Token处理量从9 7万亿飙升至480万亿增幅50倍 国内豆包大模型5月日均Tokens达16 4万亿较24年底增4倍 [7] - 推理芯片价格持续上涨 L4和A10等传统推理芯片需求旺盛 显示模型精度已具备实用价值 [6] ASIC芯片发展 - OpenAI自去年10月启动ASIC设计 2025-2027年为ASIC快速发展期 博通等厂商受益 [7] - 英伟达推出柜式机争夺推理市场 寄望ASIC迭代失败后客户回归B200和GB300 [7] - ASIC芯片前两代即使存在瑕疵也会推进 最快2027年才可能宣告失败 期间行业刺激将持续 [10] 港股科技股 - 港股科技股反弹弱于美股 恒生科技指数成分股如阿里腾讯仍处低位 三季度ASIC芯片供应改善或带动capex触底反弹 [9] - 市场对云收入增长预期保守 但全年目标1350亿以上 Q2同比增速或超15% [9]
代码+视频!国内首个足式机器人算法与实战(双足/四足/人形等)
具身智能之心· 2025-07-07 17:20
具身机器人步态控制的重要性 - 步态控制是具身智能机器人实现空间移动的核心技术 双足或四足机器人需模拟真实生物动作以应对复杂地形如废墟 火灾现场 太空探索等场景[1] - 足式机器人能跨越沟壑 攀爬楼梯 避开障碍物 在轮式/履带式设备无法到达的区域执行救援 科考任务 近20年工业界与学术界持续投入研发[1] - 真实场景应用需解决负重条件下的高难度动作 如跳跃 转向 奔跑 并在碎石 坑洼等复杂路面保持稳定性[1] 人形机器人动作学习的挑战 - 人类步态动作近万种 机器人需学习爬楼梯 跑步 跳舞等高难度动作 自主学习能力是行业痛点[2] - 深度学习加速了动作控制研究 但数十年发展仍未完全突破 相关成果正逐步转化到工业产品[2] 足式机器人的战略地位 - 被誉为"机器人领域下一座里程碑" 可像生物一样适应复杂地形 突破平坦环境限制[4] - 资本青睐巡检 安防 救援 工业自动化等场景 企业高薪争夺人才 当前是进入领域的最佳时机[4] - 技术栈涵盖运动学 动力学 多传感器融合 强化学习等 缺乏系统学习路径导致入门困难[4] 具身足式算法课程核心内容 - 国内首门系统教程 覆盖四足基础 双足进阶 高级算法 Sim2Real迁移 安全机制等全流程技术[5][6] - 采用Isaac Gym/Gazebo/MuJoCo仿真环境 实战案例包括平稳行走 动态平衡 多任务切换等[6][12] - 前沿技术深度解析 如波士顿动力跳跃算法 RMA策略 域随机化等[6][17] 课程实战与硬件部署 - 主流硬件平台分析:Unitree DeepRobotics等 包含碰撞检测 人体交互安全等部署策略[12][17] - 大作业设计多场景训练:斜坡 碎石路 障碍物 成果展示包括训练过程可视化与性能指标[12][17] 目标学员与技能提升 - 面向AI从业者 研究生 转行者等 需具备Python/PyTorch基础及线性代数知识[27] - 培养全栈技能:从运动学基础到强化学习算法 积累1-2年实战经验 掌握Sim2Real迁移能力[27][28] - 课程形式为离线视频+代码+答疑 配套源码与仿真练习 有效期1年[28]
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
量子位· 2025-07-07 14:13
henry 发自 凹非寺 量子位 | 公众号 QbitAI 学好数理化,走遍天下都不怕! 这一点这在大语言模型身上也不例外。 大家普遍认同:具备更强数学能力的模型往往也更智能。 但,常识就是用来打破的。 最近,来自CMU的团队发现,一些数学好的模型并没有将它们的"天赋"带到其他更加通用的领域。 研究发现, 只有用强化学习(RL)训练的模型才能将数学推理技能广泛迁移到其他任务上。而用监督微调(SFT)训练的模型则表现出有限 的迁移甚至没有迁移。 网友直呼:又一个 苦涩的教训(bitter lesson) 。 这数学题,不做也罢? 很明显,人们训练大模型并不只是让它来做数学题的。 研究者之所以热衷于提高模型的数学表现,是因为希望它能够把数学那里学到的严密逻辑应用到其他更广泛的领域。 但在此之前,我们有必要知道,对于一个大模型,专门优化数学推理(math reasoning),它在其他任务(推理任务、非推理任务)上会变 得更好,还是更差? 换句话说: 做数学推理训练,会不会帮助或者损害模型在其他领域的能力? 为了解决这一疑问,研究评估了20多个模型在数学推理、其他推理任务(包含医学推理、医学推理、智能体规划)和非推 ...