Workflow
学习
icon
搜索文档
图像目标导航的核心究竟是什么?
具身智能之心· 2025-07-04 20:07
研究背景与核心问题 - 图像目标导航需要两种关键能力:核心导航技能(如检测自由空间、障碍物)和通过比较视觉观察与目标图像计算方向信息 [2] - 当前主流方法依赖专门的图像匹配或预训练计算机视觉模块进行相对位姿估计 [2] - 研究聚焦于是否可以通过强化学习对完整智能体进行端到端训练来解决该任务 [2] 核心研究内容与方法 - 探讨了多种架构设计对任务性能的影响,核心在于如何支持图像间的隐式对应计算 [3] - 主要架构包括Late Fusion、ChannelCat、SpaceToDepth + ChannelCat、Cross-attention [4] - 实验设计使用Habitat模拟器和Gibson数据集,动作空间包括前进、左右转向和停止 [7] - 评估指标包括成功率(SR)和SPL(成功路径长度与最优路径长度的比值) [7] 主要发现 - 早期patch级融合(如ChannelCat、Cross-attention)比晚期融合(Late Fusion)更关键,能更好支持隐式对应计算 [8] - ChannelCat(ResNet9)在Sliding=True时SR达83.6%,远高于Late Fusion的13.8% [6] - Cross-attention(DEBiT-b)在Sliding=True时SR达90.5% [6] - 低容量架构(如ResNet9)在Sliding=False时SR从83.6%降至31.7%,而DEBiT受影响较小(从90.5%降至81.7%) [8][9] - 能力迁移性:将Sliding=True训练的感知模块权重迁移到Sliding=False并微调后,SR从31.7%提升至38.5% [10][11] 导航与相对位姿估计的关联 - 导航性能与相对位姿估计性能存在相关性,DEBiT在两者上均表现最优 [12] - 导航成功率(SR)与相对位姿估计精度(误差<2m, 20°)呈正相关 [12] 结论 - 支持早期局部融合(如交叉注意力、ChannelCat)的结构对任务成功至关重要 [15] - 模拟器的Sliding设置显著影响性能,但通过迁移感知模块权重可部分迁移至真实环境 [15] - 导航性能与相对位姿估计能力相关,验证了方向信息提取的核心作用 [15] - 简单低容量架构仅通过RL训练难以成功解决图像目标导航,预训练仍不可或缺 [15]
Human2LocoMan:通过人类预训练学习多功能四足机器人操控
自动驾驶之心· 2025-07-04 18:27
四足机器人操作技术突破 - 提出跨实体模仿学习系统Human2LocoMan,通过统一人类与机器人动作空间实现多功能操作,在6项家庭任务中成功率平均提升41.9%,分布外场景提升79.7% [5][6] - 开发模块化跨实体Transformer架构(MXT),支持人类数据预训练与机器人微调,仅用一半机器人数据即可持续优于基线性能 [10][16] - 构建首个涵盖单手/双手模式的四足机器人操作数据集LocoMan,包含300+人类轨迹和150+机器人轨迹,30分钟可采集50条机器人轨迹 [8][25][30] 核心技术架构 - 采用XR头显实现动作映射:人类腕部→机器人末端执行器、头部→躯干、手部→抓手,建立统一参考框架对齐跨实体动作 [11][14] - MXT架构包含实体特定标记器/去标记器与共享Transformer主干,预训练后微调可使OOD场景成功率提升82.7% [16][18][29] - 全身控制器通过零空间投影和二次规划实现多操作模式协调,支持单手/双手模式下工具使用、可变形物体操作等复杂任务 [14][23] 性能验证与行业意义 - 在玩具收集、鞋架整理等任务中,预训练MXT成功率最高达95.8%,任务得分116分,显著优于HIT和HPT基线方法 [27][29][33] - 人类数据预训练使模型在长时序任务中保持83.3%成功率,较基线提升50%,凸显跨实体学习对工业场景的适用性 [29][37] - 系统已开源硬件/数据,为具身智能领域提供首个四足全栈学习方案,推动家庭服务、物流等场景的机器人应用落地 [7][38]
港大强化学习驱动连续环境具身导航方法:VLN-R1
具身智能之心· 2025-07-04 17:48
研究背景 - 视觉语言导航(VLN)是具身人工智能的核心挑战,要求智能体理解自然语言指令并在三维环境中导航,需要实时决策能力以适应变化的环境 [5] - 现有方法通常依赖离散拓扑图进行路径规划,限制了智能体在未见或连续环境中的泛化能力,且需要额外传感器信息如深度图和导航图 [5] - 部分方法使用大型语言模型(LLM)但仍受限于预定义导航图,无法实现真正的具身导航 [6] VLN-R1框架创新 - 提出VLN-R1框架利用大型视觉语言模型(LVLM)处理第一视角视频流,实现连续环境中的视觉语言导航,相比基于离散导航图的方法更接近真实世界场景 [5] - 构建VLN-Ego数据集基于Habitat模拟器生成,包含第一视角视频流及对应未来动作预测,为LVLM训练提供丰富视觉和语言信息 [5] - 采用两阶段训练方法:先通过监督微调(SFT)使模型动作序列预测与专家演示对齐,再利用强化微调(RFT)进一步优化模型 [5] 数据集构建 - 数据来源于Habitat模拟器中的Matterport3D场景(90个场景分训练/验证/测试集) [6] - 每条样本包含三部分:自然语言导航指令、历史帧(Long-Short Memory采样)+当前帧、未来6步动作序列 [6] - 采用长短期记忆采样策略平衡近期细节与长期上下文,短期部分高密度采样,长期部分低密度采样 [6] 训练方法 - 监督微调将导航任务形式化为序列预测问题,使用交叉熵损失对预测动作编号与描述进行监督训练 [8] - 强化学习微调引入GRPO策略优化通过相对奖励对生成结果排序,提升高质量策略 [9] - 设计TDR机制在奖励函数中优先强化前期正确决策,提升整体导航成功率 [9] 实验结果 - R2R任务中VLN-R1在无深度图、地图等条件下实现SR=30.2(7B模型),显著超过传统模型 [11] - RxR任务中仅使用10K样本RFT即优于完全监督模型,体现强跨域适应能力 [12] - 2B模型经RFT后可达7B模型的SFT性能,说明RFT能有效提升小模型性能 [12] 消融实验 - 预测未来6个动作的设置能取得最佳性能,仅预测单个动作会导致性能显著下降 [14] - 长短期记忆采样策略在帧选择方面表现最佳,能有效平衡当前观察与历史上下文 [16] - RFT阶段8次生成能使模型达到收敛,TDR机制在奖励函数中表现最为有效 [16] 未来方向 - 需验证VLN-R1在现实世界中的泛化能力 [16] - 可探索在更复杂现实环境中评估及扩展动作空间实现更精细导航控制 [16] - 可研究将该方法应用于其他具身AI任务如具身问答(EQA)等 [16]
国家能源局主要负责同志为全局党员干部讲授深入贯彻中央八项规定精神学习教育专题党课
国家能源局· 2025-07-04 17:46
作风建设专题党课 - 国家能源局党组书记王宏志围绕贯彻落实中央八项规定精神讲授专题党课 强调作风建设对能源高质量发展的保障作用 [1] - 会议提出要深学细悟习近平总书记关于作风建设的重要论述 增强政治自觉和行动自觉 [1] - 要求以典型案例为镜鉴 警惕作风问题顽固性 破除"四风"并巩固良好政治生态 [1] 作风建设具体部署 - 强调领导干部需身体力行 在转变作风上发挥表率作用 [2] - 推进风腐问题同查同治 并将人民用能需求满足作为作风建设成效的体现 [2] - 提出建立常态化机制 弘扬党的优良传统 打好作风建设持久战 [2] 会议组织情况 - 会议采用主会场加视频分会场形式 覆盖京内外各级党员干部及退休党员代表 [2]
食品监管走进养老机构,以民生实事检验学习教育成效
中国食品网· 2025-07-04 17:41
养老机构食品安全监督检查行动 - 崇义县市场监管局开展养老机构食品安全监督检查行动,提升养老服务机构食堂食品安全管理水平,防范化解食品安全风险隐患,确保养老机构用餐群体身体健康和饮食安全 [1] - 该行动是聚焦群众关切、办好民生实事,推动学习教育落地见效的生动实践 [1] - 该局紧紧围绕群众身边的急难愁盼问题,转变工作作风,了解群众现实需求,把办好民生实事作为开展学习教育、改进工作作风的有效抓手和重要检验 [1] 专项检查与整改情况 - 该局以"部门联动、管查融合"为抓手,联合民政、消防部门在全县开展养老机构食堂专项检查 [2] - 执法人员深入食堂后厨、仓储及就餐区域,对设施设备维护、环境卫生管理、食品原料采购储存、加工操作流程、从业人员健康状况及食品安全制度落实情况进行全方位风险排查 [2] - 2025年以来共出动执法人员24人次,检查养老机构食堂及老年助餐场所10家次,发现问题32项,均已实现整改闭环管理 [2] 食品安全宣传培训 - 联合民政部门组织养老领域食品安全宣传培训,系统阐释餐饮食品危害来源及食物中毒预防措施 [2] - 结合典型案例引导从业人员严格落实管理制度,培训过程中发放宣传手册,重点普及食品安全知识及膳食营养科学常识 [2] - 有效提升老年群体食品安全风险防范能力 [2]
用AI打破超材料设计天花板,上海交大新成果为新材料井喷提供可能
第一财经资讯· 2025-07-04 17:36
人工智能驱动的热辐射超材料设计突破 - 上海交通大学团队在《Nature》发表重大原创成果,构建热辐射超材料逆向设计AI模型,突破传统设计方法的性能上限,能批量生成并筛选最优设计方案[1][3] - AI模型从5万组数据样本中筛选出1500组接近理论极限性能的方案,并实验验证4种典型材料在航天器热控、建筑节能等场景的优异表现[4][5] - 该技术将传统设计周期从数年缩短至三个月,且材料制备采用低成本溶液法,可像涂料般应用于砖墙、金属等多种基底表面[3][4] 超材料应用场景与产业化潜力 - 双波段选择性超材料具备零能耗辐射冷却特性,可应用于建筑外墙、电子产品、户外设施及随身衣物,实测显示其自降温效果显著[3][5] - 已验证的4类材料包括宽带/单双波段选择性热辐射超材料,应用形式涵盖柔性薄膜、涂料、贴片等,适配不同环境需求[5] - AI设计的新材料结构机理均为首次报道,为材料产业带来井喷式创新机会,已申请发明专利并获得软件著作权[5][7] 技术突破的行业影响 - 该AI模型能自主发明自然界不存在的超材料,并优先筛选适合大规模量产的低成本方案,推动高科技降温技术普及化[3][5] - 审稿人评价该研究标志着机器学习驱动超材料设计取得重大进展,实验数据扎实且具备重要产业影响力[7] - 跨国合作团队包括中美新三国院士专家,获得国家自然科学基金等多项资助,凸显技术的前沿性与战略价值[7]
第45届国际预测大会在京落幕 预测研究“中国力量”引全球瞩目
搜狐财经· 2025-07-04 15:10
大会概况 - 第45届国际预测大会(ISF 2025)在北京举办,规模创历史新高,吸引全球35个国家和地区的580位顶尖学者、行业领袖及政策制定者参会 [1] - 大会主题为"预测科学的前沿与创新",聚焦人工智能、大数据、经济管理、能源环境、气候变化等领域 [1] - 设置13场主旨报告、5场工作坊、12个平行论坛及106个专题分论坛,累计开展348场学术报告 [1] - 国际预测者协会主席Laurent Ferrara评价本次大会为"ISF历史上参会人数最多、规模最大、组织程度空前的盛会" [1] 学术交流内容 - 专家学者围绕贝叶斯预测、机器学习、大语言模型、预测不确定性、预测组合等热点议题展开讨论 [1] - 探讨预测科学在宏观经济、金融、供应链、能源、医疗、灾害防控等领域的应用 [1] - 大会促进全球预测科学前沿成果分享,推动国际科研合作与交流 [1] 承办单位与组织 - 大会由国际预测者协会组织,中国科学院数学与系统科学研究院预测科学研究中心联合国内顶尖学术机构共同承办 [2] - 大会主席由中国科学院数学与系统科学研究院预测科学研究中心主任洪永淼教授担任 [2] - 中国科学院数学与系统科学研究院预测科学研究中心在预测科学理论创新及应用方面取得显著成就,国际影响力获认可 [2] 未来安排 - 下一届国际预测大会(ISF 2026)将于明年在加拿大举行 [3]
从实物资产到数据资产:数字化如何重新定义新时代企业价值
36氪· 2025-07-04 10:15
从有形价值到无形价值的转变 - 企业实力衡量标准从实体资产(工厂规模、机车数量、原材料加工量)转变为数据管道、数字生态系统和算法控制回路 [2] - 无形资产成为新资本 初创公司通过SaaS平台无需房地产即可在一年内颠覆传统行业 [2] - 典型案例:Uber无汽车主宰交通 Airbnb非酒店改变酒店业 Netflix无DVD商店重塑娱乐业 [3][4][5] 数字孪生与能力重构 - 物理世界被数字孪生实时映射 包括建筑物、发动机和业务流程 [6] - 数字时代能力体现为:机器学习模型、自动化脚本、实时供应商平台 [6] - 企业战略从"拥有"转向"协调" 董事会关注API可扩展性而非工厂数量 [7] 数字化核心要素 - 数字化本质是将感知、记忆和智能嵌入价值链 包括传感器实时监控(物流、制造、零售) [9][10] - 第二波浪潮引入AI/ML决策 动态定价模型、AI医疗诊断、自适应聊天机器人 [12][13][14][15] - 数字化增强企业认知 通过反馈循环和数字线程实现端到端可追溯性 [16][17][19] 数字化四大力量 - 新颖性:数字系统自我生成新事物 如金融科技应用3周开发获百万用户 [22] - 波动性:技术环境变化快于组织适应 TikTok趋势和供应链数小时内改变 [23][24] - 颠覆性:遗留优势成负担 柯达坚持胶片 Netflix改写交付模式 [26][27] - 范围性:数字化影响全部门 HR行为分析、财务实时预测、合规AI审计 [28] 企业治理与架构转型 - 战略架构需实时更新、分层桥接策略与技术、易于跨层级沟通 [31][32] - 以能力为中心规划 跟踪客户洞察等持久能力 避免跨部门重复 [33][34][35][37] - 治理转向支持性措施:策略即代码、AI可观察性、联邦治理 [38][39][40] 数字神经系统应用 - 组织数字孪生(DTO)实现情景规划、实时可见性和决策预演 [43] - 治理成为无形过滤层 每个决策实时验证调整 [43]
LeCun团队揭示LLM语义压缩本质:极致统计压缩牺牲细节
量子位· 2025-07-04 09:42
语义压缩研究 - 人类具备将不同事物归类到高级概念(如"水果")的语义压缩能力,即使面对新词汇也能通过语义线索快速分类 [1][2][3] - 图灵奖得主LeCun团队提出信息论框架,对比人类与LLM在语义压缩中的策略差异:LLM偏向统计压缩,人类更注重细节与语境 [4][5][17] 研究框架设计 - 构建包含1049个项目、34个语义类别的人类概念分类基准,整合认知科学经典研究数据,包含典型性评分以反映人类概念结构 [5][6][7] - 选取30+种LLM(参数规模3亿至720亿),包括BERT、LlamA、Gemma等,从嵌入层提取静态词元表示以确保与人类分类实验基准一致 [8] - 引入信息论框架,结合速率失真理论和信息瓶颈原理分析压缩效率与语义保真度的权衡 [9][12] 核心研究发现 - LLM概念分类与人类语义分类的对齐度显著高于随机水平,验证其基本语义组织能力 [10][11] - LLM难以处理细粒度语义差异,其内部概念结构与人类直觉不符,典型性判断与余弦相似度的相关系数较弱且大多不显著 [14][16] - 关键差异:LLM追求最小化冗余信息的统计压缩,人类则保持适应性与上下文完整性 [17] 研究团队背景 - 由斯坦福大学与纽约大学联合开展,第一作者为斯坦福博士后Chen Shani,Yann LeCun作为合著者参与 [19][20][22] - LeCun是Meta首席AI科学家、CNN架构先驱,与Hinton、Bengio共获2018图灵奖,推动深度学习工业应用与自监督学习发展 [24][25][26][27][28] 补充信息 - 论文发布于arXiv(编号2505.17117),研究引发AI社区广泛讨论 [29]
民生实事稳推进,监督助推见实效,省人大常委会——以高质量人大监督守护群众“稳稳的幸福”
海南日报· 2025-07-04 09:14
海南日报海口7月3日讯(海南日报全媒体记者 袁宇)打开水龙头,立即就能用上温暖的热水。近 日,海南日报全媒体记者在文昌市琼文中学看到,该校热水供应系统已基本建成,将于秋季学期为住校 学生提供洗浴热水。 "这些项目关系到群众切身利益,也是解决群众急难愁盼的关键。"人大代表们表示,将认真履行代 表监督职责,提出符合实际发展的建议和意见,推动民生实事项目快推进、见成效。 让寄宿学生在校洗上温暖的热水澡,是我省今年实施的一件民生实事。2025年,我省计划为不少于 100所寄宿制中小学校的5000间宿舍提供热水洗浴供应,提高中小学生寄宿生活质量。 八项规定一子落地,作风建设满盘皆活。立足人大职能,省人大常委会重点做好立法、民生事项监 督、代表议案建议办理等工作,切实解决好群众普遍关心的热点难点问题,不断增强群众的获得感、幸 福感、安全感。 特别是结合履职过程中发现的攸关群众切身利益问题,以整改整治为抓手,让人大代表和群众实实 在在感受到人大党员干部作风的转变、人大工作效率和质量的提高。 比如,省人大常委会组建"民生实事项目人大代表票决制研究"课题调研组,践行开门"办实事",深 入基层调研,剖析存在问题,进一步优化完善省 ...