具身AI
搜索文档
Kitchen-R :高层任务规划与低层控制联合评估的移动操作机器人基准
具身智能之心· 2025-08-25 08:04
基准设计背景 - 当前具身AI基准存在显著割裂:高层语言指令遵循类基准假设低层执行完美,低层控制类基准仅依赖简单单步指令,导致无法全面评估任务规划与物理执行集成的系统[4] - Kitchen-R基准填补了该空白,通过仿真厨房环境统一评估任务规划与低层控制,为语言引导机器人代理提供更全面、更贴近真实场景的测试平台[6] 核心功能特点 - 基于Isaac Sim构建真实厨房的数字孪生环境,支持mobile ALOHA移动操作机器人[8][9] - 包含500+条复杂语言指令,覆盖移动操作任务[8][9] - 提供三种评估模式:独立评估规划模块、独立评估控制策略、全系统集成评估[8][9] - 已用于2024年AIJ竞赛具身AI赛道数据收集与验证,累计收集约2700条移动操作轨迹[9] 技术架构 - 任务规划子问题输入自然语言指令和场景俯视图,输出可执行任务计划(如"移动到水槽区→拾取杯子→移动到餐桌区→放置杯子")[19] - 移动操作子问题输入单步任务和双相机视觉信息,输出10维轨迹点序列(含底座速度、末端执行器位姿及夹爪开合度)[19] - 导航模块采用Theta*算法进行路径规划,低层控制器通过动态速度调整实现精准移动[31][37] - 操作模块基于RMPs运动控制和10阶段有限状态机,通过余弦混合运动插值确保动作平滑过渡[33][35] 评估指标体系 - 离线独立评估指标:任务规划采用精确匹配率(EM),移动操作采用均方误差(MSE),综合指标P融合两者性能[20][21][22] - 在线联合评估指标:实时执行任务时计算EM与成功率(SR),最终合并为指标M,高M值表示规划准确且执行可靠[23][26][29] - 单任务成功标准:导航任务要求机器人底座与目标距离≤10cm,操作任务要求物体与目标距离≤5cm,且需在120秒内完成[28] 基线方法性能 - VLM规划基线基于OmniFusion模型,通过添加上下文计划示例使EM指标从0提升至0.612,约束生成进一步优化至0.632[47][48] - 移动操作基线采用Diffusion Policy,融合双相机视觉特征和10维机器人状态,通过交叉注意力机制预测未来16步动作轨迹[49][52] - 执行效率对比:oracle政策单episode耗时约1分钟,而高推理时间政策最长需50分钟[57] 系统扩展性 - 支持场景/物体添加:通过配置USD文件路径实现新场景或物体导入[42] - 支持多模态数据收集:包括RGB-D图像和点云数据,传感器可通过模型配置灵活添加[42] - 任务创建基于"移动、拾取、放置"三个基础动作,通过配置文件定义关键点位和物体列表[42]
首程控股推出全国首个全面开放的“机器人+”自动充电快闪体验站
格隆汇· 2025-08-20 14:54
技术突破与产品创新 - 全国首个全面向社会公众开放的机器人自动充电快闪体验站在成都环贸ICD地下停车场推出 实现不限车型的无感补能 [1] - 项目采用仿生柔韧臂与具身AI技术 通过流体驱动和软材料仿生肌肉模拟人臂动作 结合多传感器融合系统保障复杂环境稳定运作 [1] - 技术方案具备高安全性和强适应性 显著降低部署与运维成本 支持多种商用场景快速推广 [1] 商业模式与战略布局 - 此次项目是公司资本+场景+技术一体化模式的典型实践 借助停车场景资源推动高适应性机器人充电解决方案规模化应用 [1] - 通过提升停车服务科技附加值和用户体验 为未来智慧城市服务型机器人基础设施建设奠定基础 [1] - 公司将继续利用机器人产业资源与优势 推进创新技术在停车及园区等场景的规模化应用 [1] 行业发展里程碑 - 自动充电技术从封闭测试正式迈入规模化商业应用阶段 标志着行业技术商业化取得重大突破 [1] - 机器人充电解决方案在公共停车场景的成功部署 为服务型机器人商用落地提供重要示范案例 [1]
首程控股联合万勋科技,赋能全国首个“机器人+”自动充电体验站落地成都
格隆汇· 2025-08-20 12:15
技术突破与商业化应用 - 首程控股与万勋科技合作推出全国首个面向公众开放的"机器人+"自动充电快闪体验站,实现不限车型的无感补能,标志着自动充电技术进入规模化商业应用阶段[1] - 项目采用"仿生柔韧臂+具身AI"技术,通过流体驱动和软材料仿生肌肉模拟人臂动作,结合多传感器融合系统,保障复杂环境下的稳定运作[1] - 该技术方案安全性高、适应性强,显著降低部署与运维成本,支持多种商用场景快速推广[1] 运营模式与场景价值 - 充电站将长期面向公众开放,提升新能源车主充电便捷性的同时大幅提高停车场运营效率[1] - 项目是首程控股"资本+场景+技术"一体化模式的实践,利用停车场景资源推动机器人充电解决方案规模化应用[1] - 技术应用既提升停车服务科技附加值,又为未来智慧城市的服务型机器人基建奠定基础[1] 战略规划与行业定位 - 公司将继续利用机器人行业产业资源,推进创新技术在停车、园区等场景的规模化应用[2] - 此举旨在强化公司作为中国领先智能基础设施服务商的定位[2]
萤石网络: 中国国际金融股份有限公司关于杭州萤石网络股份有限公司2025年半年度持续督导跟踪报告
证券之星· 2025-08-18 19:25
保荐机构持续督导工作 - 保荐机构已建立健全持续督导工作制度并制定相应工作计划 [1] - 保荐机构与公司签署持续督导协议并报上海证券交易所备案 [1] - 通过日常沟通、定期或不定期回访、现场检查等方式开展持续督导工作 [1][2][3] 公司治理与内部控制 - 公司治理制度完善并严格执行包括股东大会、董事会、监事会议事规则等 [3] - 内控制度符合相关法规要求并得到有效执行涵盖财务管理制度、募集资金使用等 [3] - 保荐机构督促公司严格执行信息披露制度审阅信息披露文件及其他相关文件 [3][4] 财务表现 - 2025年上半年营业收入282,748.51万元同比增长9.45% [11] - 归属于上市公司股东的净利润30,244.56万元同比增长7.38% [11] - 经营活动产生的现金流量净额32,992.25万元同比增长911.00% [11] - 总资产841,629.37万元同比增长0.75%归属于上市公司股东的净资产552,357.97万元同比增长0.55% [11] 研发投入与知识产权 - 研发投入占营业收入的比例14.95%同比减少1.40个百分点 [11][12] - 新增授权发明专利26项软件著作权3项累计拥有授权发明专利345项软件著作权96项 [16] - 以视觉感知技术为基础拓展智能机器人技术、多模态理解及AI生成技术借助蓝海大模型研发万物感知技术等 [12][16] 核心竞争力 - 以视觉感知技术为核心AI与物联云技术双核心驱动打造具身级AI [12] - 发展智能家居+物联网云平台服务的双主业格局具备完整垂直一体化服务能力 [13] - 构建智能生活生态化解决方案从多点破局到生态进化 [13][14] - 国内国际业务均衡发展构筑自主品牌矩阵和渠道营销体系零售业务占比、境外销售占比不断提升 [14][15] - 自建供应链体系拥有精益化供应链管理及稳健交付能力 [15] - 形成体系化数据隐私保护、产品安全及网络安全保障安全技术水平保持业内领先 [15][16] 行业竞争与市场趋势 - 智能家居行业竞争日趋激烈大型科技公司、智能家居产品代表性企业、物联网云平台厂商积极拓展业务 [10] - 行业发展趋势是单品之间互联互通从单品的竞争发展至平台和生态体系的竞争市场集中度将进一步提升 [10] - 居民可支配收入上升和消费观念的升级有利于行业发展但与宏观经济政策和经济运行周期相关 [11] 风险因素 - 产品研发风险包括对市场需求趋势判断失误或新产品的市场接受度未如预期 [6] - 知识产权保护风险如果不能有效保护知识产权或无法有效执行知识产权相关权利可能对业务造成不利影响 [6] - 人才流失风险关键研发技术人员流失可能削弱公司的技术创新能力 [7] - 系统安全与数据合规风险物联网开放环境下存在软件漏洞、网络恶意攻击等可能导致系统故障、数据丢失 [8] - 原材料供应风险上游集成电路行业发展制约智能家居产品产业发展芯片供求失衡可能带来企业成本和利润波动 [8] - 全球化经营风险需遵守境外子公司注册地及相关国家和地区的法律法规受政治及文化环境或经济状况变动的影响 [9] - 存货减值风险若不能准确预期原材料价格波动或下游市场需求的变动可能导致存货减值 [10] - 汇率风险境外销售以欧元及美元等外币结算汇率出现不利变动可能产生大额的汇兑损失 [10] 募集资金使用 - 募集资金总额3,236,625,000.00元发行费用115,259,747.17元募集资金净额3,121,365,252.83元 [16][17][18] - 截至2025年6月30日累计使用募集资金总额2,453,710,490.74元尚未使用的募集资金余额743,816,405.64元 [17][18] - 募集资金存放与使用符合相关规定不存在变相改变募集资金用途和损害股东利益的情形 [19]
ChatGPT见顶后,AI新战场世界模型:中国已经先行一步!
老徐抓AI趋势· 2025-07-31 09:03
AI发展阶段 - AI发展分为三个阶段:感知AI、生成式AI、具身AI [5][7][16] - 感知AI阶段始于2012年,图像识别准确率超越人类,但知识量有限(1400万张图片≈人类10年标注时间)[7][9] - 生成式AI阶段始于2017年,Transformer架构和GPU算力提升推动大语言模型发展,GPT-3训练数据达7500亿Token(≈人类10万年书写量)[12][13] 大语言模型瓶颈 - 互联网训练数据预计2028年枯竭,大语言模型增长面临天花板 [15] - AI需转向新学习方式,通过真实环境交互实现持续进化 [16][18] 世界模型定义与价值 - 世界模型是高精度物理规律模拟器,支持AI虚拟试错训练 [19] - 解决传统AI生成视频的物理错乱问题(如穿车、不合逻辑的物体交互)[20] - 自动驾驶训练成本大幅降低:虚拟场景可定制天气、光线、路况,替代百万小时现实数据采集 [19][22][23] 商汤科技技术突破 - 推出"开悟"世界模型,支持自然语言描述生成多视角物理合规视频 [22] - 发布"悟能"平台,整合世界模型与感知/导航能力,构建机器人虚拟训练环境 [24] - 技术应用覆盖自动驾驶、机器人操作等物理交互场景 [25][26] 行业竞争格局 - 世界模型将重塑AI数据生产方式(自我生成替代互联网采集)、训练效率(秒级仿真)、产业落地(制造业/医疗/教育等)[28] - 类比移动互联网发展:大语言模型类似"智能手机",世界模型类似"App Store",推动AI进入物理世界 [28] - 中国企业在世界模型领域已提前布局,技术升级节奏可能快于大语言模型周期(1-2年内或现突破)[28][30] 经济影响 - 世界模型与具身AI结合将推动机器人从工具向伙伴演进,加速AGI时代到来 [28] - 技术革命有望显著拉动经济增长,类似移动互联网对生产力的提升效应 [29]
通信行业:OpenAI发布chatGPTAgent并预热GPT5,英伟达端侧Thor即将发货
山西证券· 2025-07-25 18:36
报告行业投资评级 - 领先大市 - A(维持) [1] 报告的核心观点 - OpenAI通用智能体上线标志大模型迈入Agent时代,其对算力Token的无上限消耗以及工具调用能力将极大驱动GPU算力和云计算通用服务器的需求 [3][16] - OpenAI全新推理模型在IMO2025上达到金牌水平,且GPT - 5即将发布,此次突破依靠通用强化学习和测试时计算扩展方面的新突破 [4][17] - 英伟达Jetson Thor即将发售,物理AI已到爆发临界点,在云加端配合下英伟达有望推动产业发展,端侧算力芯片有轻、中、大三种类型值得关注 [5][18] - 算力板块多环节龙头股创新高,业绩置信度提升、中美经贸关系改善以及中长期需求预期提升是催化的三重因素,建议把握做多窗口,同时可左侧布局GPU和ASIC新架构相关预期差领域 [8][20] 根据相关目录分别进行总结 周观点和投资建议 周观点 - OpenAI发布全新ChatGPT Agent,完成复杂任务能力大幅提升,对算力和服务器需求有极大驱动作用 [3][16] - OpenAI新推理模型获IMO金牌并预告GPT5即将亮相,在推理和强化学习方面有重大进步 [4][17] - 英伟达Jetson Thor即将销售,有望推动物理AI产业发展,端侧算力芯片分三种类型值得关注 [5][18] - 算力板块多环节龙头股创新高,建议把握做多窗口,左侧布局相关预期差领域 [8][20] 建议关注 - 海外算力关注中际旭创、东山精密、光库科技、仕佳光子、鼎通科技、鼎泰高科 [9][21] - 端侧AI关注瑞芯微、天准科技、中科创达、泰凌微 [9][21] 行情回顾 市场整体行情 - 本周(2025.7.14 - 2025.7.18)市场整体上涨,申万通信指数涨7.56%,创业板指数涨3.17%,深圳成指涨2.04%,科创板指数涨1.32%,沪深300涨1.09%,上证综指涨0.69% [9][21] 细分板块行情 - 涨跌幅:周涨幅最高的前三板块为光模块(+27.45%)、液冷(+10.16%)、IDC(+10.01%) [9][21] 个股公司行情 - 新易盛、中际旭创、博创科技、英维克、光环新网涨幅领先,涨幅分别为+39.01%、+24.33%、+13.12%、+11.49%、+10.46% [9][34] - 中国移动、中国卫通、中天科技跌幅居前,跌幅分别为 - 0.95%、 - 0.80%、 - 0.57% [9][34] 海外动向 - 英伟达副总裁介绍在RISC - V CPU上的发展成果,宣布CUDA软件将支持在RISC - V上全面部署 [38] - ASML发布2025年二季度财报,营收等增长但对后续营收目标低于预期,股价大跌 [38] - 英伟达恢复向中国销售H20,并将推出新的兼容GPU [38]
图像目标导航的核心究竟是什么?
具身智能之心· 2025-07-04 20:07
研究背景与核心问题 - 图像目标导航需要两种关键能力:核心导航技能(如检测自由空间、障碍物)和通过比较视觉观察与目标图像计算方向信息 [2] - 当前主流方法依赖专门的图像匹配或预训练计算机视觉模块进行相对位姿估计 [2] - 研究聚焦于是否可以通过强化学习对完整智能体进行端到端训练来解决该任务 [2] 核心研究内容与方法 - 探讨了多种架构设计对任务性能的影响,核心在于如何支持图像间的隐式对应计算 [3] - 主要架构包括Late Fusion、ChannelCat、SpaceToDepth + ChannelCat、Cross-attention [4] - 实验设计使用Habitat模拟器和Gibson数据集,动作空间包括前进、左右转向和停止 [7] - 评估指标包括成功率(SR)和SPL(成功路径长度与最优路径长度的比值) [7] 主要发现 - 早期patch级融合(如ChannelCat、Cross-attention)比晚期融合(Late Fusion)更关键,能更好支持隐式对应计算 [8] - ChannelCat(ResNet9)在Sliding=True时SR达83.6%,远高于Late Fusion的13.8% [6] - Cross-attention(DEBiT-b)在Sliding=True时SR达90.5% [6] - 低容量架构(如ResNet9)在Sliding=False时SR从83.6%降至31.7%,而DEBiT受影响较小(从90.5%降至81.7%) [8][9] - 能力迁移性:将Sliding=True训练的感知模块权重迁移到Sliding=False并微调后,SR从31.7%提升至38.5% [10][11] 导航与相对位姿估计的关联 - 导航性能与相对位姿估计性能存在相关性,DEBiT在两者上均表现最优 [12] - 导航成功率(SR)与相对位姿估计精度(误差<2m, 20°)呈正相关 [12] 结论 - 支持早期局部融合(如交叉注意力、ChannelCat)的结构对任务成功至关重要 [15] - 模拟器的Sliding设置显著影响性能,但通过迁移感知模块权重可部分迁移至真实环境 [15] - 导航性能与相对位姿估计能力相关,验证了方向信息提取的核心作用 [15] - 简单低容量架构仅通过RL训练难以成功解决图像目标导航,预训练仍不可或缺 [15]
传媒中期策略报告:关注扎实基本面支持下有新业务推进及兑现的龙头标的-20250704
国投证券· 2025-07-04 16:52
核心观点 - 传媒板块需面向AI重新叙事,下半年侧重扎实基本面支持下有新业务推进及兑现的龙头标的,游戏侧重龙头,影视侧重有预期差的黑马标的,关注有产业并购逻辑及预期的标的 [1][2] 传媒行业及传媒板块历史回溯(2008年至今) 回溯传媒互联网,2005年或是起点 - 1994 - 1996年为互联网基础设施建设初期,摸索出互联网四大变现方式,初代互联网公司气质突出 [10] - 1998年前后是“极客当道”的蓬勃时期,众多互联网公司成立,商业模式未清晰 [10] - 2000年互联网泡沫破灭倒逼出四大变现模式,移动梦网提供收入基本盘,“持续改进策略”奠定互联网产品成功模式 [11] - 2002年开启内容运营时代,“持续改进策略”延续至今 [11] - 2003 - 2004年电商和网游崛起,腾讯上市前探索多方向业务和搭建会员体系 [12] - 2005年开启“内容下沉”之路,内容形态创新,分发平台酝酿交接,为后续发展奠定基础 [12][15] - 2006年社交模式兴起,2007 - 2008年进入黄金时代 [14] - AI时代可能率先重塑影视、动漫化制作产业链 [16] 2018年是流量红利的顶峰,传媒互联网行业也因政策开始出清 - 2018年流量红利达顶峰,智能手机出货量、移动互联网用户规模增长见顶,下沉市场用户增长饱和,互联网巨头战略调整,大巨头崛起减少 [20][21] - 强变现模式崛起,传统商业模式变现效率降低,会员经济成重要模式,买量发行和直播电商兴起 [24][25] - 影视单集价格和电影票房攀升后回落,游戏形成稳定竞争格局,出海浪潮被推高 [26][30] - 2017 - 2024年影视、游戏、教育、互联网平台等行业受政策严监管,资本市场估值体系被打断,2024年强监管转入常规监管,出清结束 [35][39] 传媒板块的出清(2017 - 2024) - 2011 - 2013年传媒板块交易额占比提升,指数表现靓丽,受政策支持 [41] - 2015年牛市结束后,传媒板块指数下行,成交额占比宽幅震荡,2017 - 2018年明显下降,受影视、游戏政策严监管影响 [42] - 2019 - 2020年指数和交易额占比有波动,受游戏版号、云游戏、疫情和平台型经济监管影响 [42] - 2021 - 2022年传媒成交额占比达阶段性历史最低,2022年10月指数创阶段性新低 [42] - 传媒板块出清受大盘、政策等多重因素压制,2022年10月和2024年9月为指数历史最低点,2024年因新技术和新内容形态创新出清结束 [43][44] - 近5年机构持仓比例波动,2023年后传媒板块交易额占比与机构持仓不匹配,量化资金偏好交易传媒标的 [45] “老树发新芽”,传媒板块当下的产业逻辑图 - 传媒互联网受益于互联网发展,2005年“内容下沉”带来内容创新,2010年后移动化带来多方面变化,2018年流量红利消退,强变现模式发展,影视和游戏板块有新变化 [48] - 2023年移动互联网用户数饱和,chatGPT出现,2024年平台型经济监管转向常规化,传媒板块需面向AI重新叙事,延伸出产业逻辑线 [49] - 传媒板块当下产业逻辑图包括纵向13个细分方向和横向5个逻辑,生成式AI和具身AI影响深刻,新生态系统评价体系未知,AI时代内容门槛和壁垒将提高 [52][57] 游戏板块回溯及数据分析(财务、估值等) 2013年以来,为何游戏子板块的估值一路下行? - 游戏板块26家上市公司,在财务、人员结构、股权性质等方面有不同特征 [62][65] - 游戏板块2010年后估值变化分三个阶段:2015年牛市顶点前,2013年影游量价齐升,2014年底牛市启动后估值略有下降但仍处高位;2017年影视严监管和2018年版号停发使估值下行,后因版号恢复等回升;2019年云游戏和疫情后估值短暂上行又下行,2024年2季度接近历史底部 [63][68][69] 2013年的高估值,源于端游/页游转向手游的估值切换 - 掌趣科技收购案例表明,端游/页游转向手游时,上市公司市值被整体给予手游估值水平,传媒估值抬升核心在于爆款内容创新,降本增效等难以明显抬升估值 [74][75][76] 游戏出海为何一直未被给予高估值? - 游戏出海业务未获额外估值溢价,市场将其视为正常业务,与“产品形态创新”“玩法创新”不同 [77] 游戏板块最新的基本面梳理及行业格局 - 按毛利率、净利率和ROE筛选出吉比特、巨人网络、恺英网络、三七互娱代表游戏板块龙头 [78] - 2017年后游戏行业格局基本定型,2021年《原神》奠定米哈游手游龙头地位 [80] 出版板块回溯及数据分析(财务、估值等) 2023年出版子板块为何整体估值上行? - 2023年chatGPT演绎中,出版板块因内容版权可作数据语料库面临估值重估 [81] - 2024年市场偏好高分红板块,出版板块主要龙头股息率高,业绩稳健,分红率表现好 [84] 出版板块最新的基本面梳理及行业格局 - 出版板块29家上市公司,按营业收入排序,凤凰传媒等6家公司可代表龙头,龙头公司毛利率、净利率和ROE有一定特征 [87] - 出版板块无明显行业格局,每个省有出版集团,教材教辅业务是普遍主营业务 [89] 传媒板块2025年上半年总结 - 2025年上半年传媒板块涨幅居前,无明显主逻辑,先后受益于《哪吒2》、IP衍生、新游上线和产品形态创新 [90] - 涨幅靠前标的受不同因素催化,跌幅榜多为影视、营销和出版标的,与行业现状有关 [91] 站在年中,审视2024年底传媒2025年策略观点 - 2024年底策略报告强调AI对新内容形态的催化,2025年上半年短剧等景气上行印证观点,游戏和出版是机构配置重点,游戏板块上半年表现好于出版子板块 [93] - 2025年策略观点中并购行情上半年未演绎,关注下半年 [94] 2025年下半年板块策略(修正与强化) - 下半年侧重扎实基本面支持下有新业务推进及兑现的龙头标的,游戏侧重龙头,影视侧重有预期差的黑马标的,营销平淡,出版行情取决于高分红标的偏好,关注有产业并购逻辑及预期的标的 [2][95]
下半年CCF-A/B类会议窗口期收窄,发一篇具身论文还来得及吗?
具身智能之心· 2025-06-29 17:51
下半年CCF会议投稿机会 - 错过上半年顶级会议投稿窗口可能导致研究成果发布延迟和错失学术交流机会 下半年CCF会议提供了关键替代渠道[1] - 高效利用投稿机会面临核心挑战 包括时间压力下确保论文质量 选题新颖性 实验严谨性 写作规范性和投稿策略匹配度[1] - 提供1v1指导课程帮助解决上述挑战 通过资深导师介入论文撰写与修改过程 提供个性化解决方案以提升论文竞争力[1] 论文辅导面向的痛点人群 - 计算机专业本硕博学生面临导师放养 缺乏科研指导[4] - 有科研需求需积累经验提升职称或学术成就的人群[4] - 人工智能领域从业者希望通过科研提升职场竞争力[4] - 考研申博留学需提升简历含金量的群体[4] 论文辅导解决的问题 - 解决导师放养导致的科研指导缺失问题[3] - 帮助建立科研思维和系统知识体系[3] - 掌握经典与前沿算法 形成清晰知识框架[3] - 实现模型理论与代码实践结合 提升实践能力[3] - 将baseline深化拓展形成个人论文成果[3] 论文辅导阶段与交付成果 - 选题阶段:导师引导构思或直接提供论文idea[5] - 实验阶段:全程指导实验设计 模型搭建 调参和idea验证[7] - 写作阶段:指导完成高质量论文写作 符合审稿人要求[9] - 投稿阶段:推荐合适期刊 提供精准投稿建议[14] - 录用阶段:确保论文在周期内完成录用[15] 辅导过程具体内容 - 选题阶段:梳理研究成果 提供文献 指导创新点构思[11] - 实验阶段:完成实验设计 数据处理 代码实现和结果分析[12] - 写作阶段:剖析优秀案例 搭建论文框架 润色论文内容[13] - 投稿阶段:筛选期刊会议 指导回复审稿意见[17] 课程服务与支持 - 腾讯会议在线1v1上课 微信群日常答疑[18] - 班主任全程督学跟进学习进度[16] - 私人群提供与主讲导师直接沟通渠道[24] - 线上语音会议结合文字/语音答疑[24] 课程交付成果 - 产出一篇目标区位的高质量论文[19] - 掌握完整科研流程和论文写作技巧[19] - 提升科研能力和专业素养[19] - 获得投稿选刊技巧和前沿技术认知[23] 课程指导周期 - 总周期=核心指导期+维护期 根据论文区位3-18个月不等[22] - CCF A/SCI 1区:核心36次课+9个月维护[22] - CCF B/SCI 2区:核心28次课+6个月维护[22] - CCF C/SCI 3区:核心28次课+6个月维护[22] - EI期刊/会议:核心24次课无维护期[22] - 硕士论文周期以学员需求为准[26] 课程特色亮点 - 主讲导师为顶会审稿人 提供全方位指导[24] - 每周1次45分钟1v1会议指导课[25] - 维护期通过微信群进行审稿意见答疑[25] - 提供基础课程供学员自主学习[28] - 专属沟通群配备导师和班主任答疑[28]
清华大学最新综述!具身AI中多传感器融合感知:背景、方法、挑战
具身智能之心· 2025-06-27 16:36
具身AI与多传感器融合感知 - 具身AI以物理实体为载体,通过动态环境实时感知实现自主决策和行动能力,是突破AI发展瓶颈、实现通用人工智能(AGI)的关键路径[3] - 多传感器融合感知(MSFP)对实现具身AI的稳健感知和准确决策能力至关重要,需融合视觉相机、毫米波雷达、激光雷达等多模态传感器数据[3] - 当前MSFP方法面临跨模态数据异质性、时空异步和传感器故障等固有挑战[4] 传感器数据与数据集 - 相机数据捕捉丰富外观特征但对光照敏感,激光雷达提供高精度3D点云但对天气敏感,毫米波雷达在恶劣天气性能良好[10] - KITTI数据集包含14,999张图像及相应点云,采集于德国卡尔斯鲁厄及附近城市[13] - nuScenes数据集在波士顿和新加坡采集,包含140万张相机图像、39万次LiDAR扫描和140万次雷达扫描[13] - Waymo Open数据集包括126万个3D边界框和118万个2D边界框,涵盖白天、夜间、黎明、黄昏和雨天场景[14] 感知任务 - 目标检测任务需准确定位和识别物体,2D检测输出类别和2D边界框,3D检测包括3D位置坐标、尺寸和航向角[16] - 语义分割任务将场景中的每个基本单元分类为语义类别[17] - 深度估计任务从传感器数据获取场景深度信息,为具身智能体提供3D几何理解[17] - 占用预测任务提供对3D空间的密集语义理解,通过离散化3D空间为体素预测占用状态和语义类别[17] 多模态融合方法 - 点级融合方法集成点云几何坐标信息与图像语义细节,如PointFusion、PointPainting等方法[23][24] - 体素级融合方法将LiDAR点云转换为规则网格,如CenterFusion、VPFNet等方法[25][26] - 区域级融合方法从2D图像和其他模态聚合特定区域信息,如AVOD、RoarNet等方法[28][29] - 多级融合方法从不同级别集成多模态信息,如MVX-Net、EPNet等方法[30][31] 多智能体融合方法 - 协作感知技术可集成多个智能体和基础设施的感知数据,解决遮挡和传感器故障问题[35] - CoBEVT通过稀疏Transformer生成BEV分割预测进行协作处理[35] - V2VNet基于图神经网络融合多辆车的中间特征表示[36] - When2Com框架学习构建通信组和通信时机,减少带宽使用[37] 时间序列融合方法 - 密集查询方法为高分辨率3D或BEV空间中的每个查询点分配固定位置,如BEVFormer、BEVFormer v2[40][41] - 稀疏查询方法因其效率、准确性和适用于稀疏感知任务而受欢迎,如StreamPETR、Sparse4D系列[42][43] - 混合查询方法结合密集和稀疏查询范式,如UniAD、FusionAD等方法[45][46] 多模态LLM融合方法 - 视觉-语言方法结合视觉和文本数据进行语义对齐,如X-Driver、Mpdrive等方法[50] - 视觉-LiDAR-语言方法集成视觉、LiDAR和语言数据进行3D空间理解,如DriveMLM、MAPLM等方法[51][52]