Workflow
具身智能之心
icon
搜索文档
多任务、全场景、跨本体通用移动:银河通用发布环视导航基座大模型
具身智能之心· 2025-11-06 08:03
核心观点 - 公司联合多所高校发布全球首个跨本体全域环视导航基座大模型NavFoM,实现导航技术从碎片化任务模型到统一智能基座的跨越 [3][8][9] - 该模型通过统一范式、多任务支持、跨本体适配等创新,使机器人具备自主感知与决策能力,推动具身智能规模化商业落地 [9][11][29] - 基于NavFoM衍生的应用模型矩阵已在复杂场景中验证实效,标志公司完成从单一功能创新到智能基础设施建设的升级 [27][28][30] 技术架构创新 - 提出TVI Tokens机制,为视觉数据添加时间与视角标记,使模型理解空间连续变化并兼容多类视觉输入方式 [14] - 采用BATS策略动态采样关键帧,在7B参数规模下实现毫秒级响应,兼顾算力限制与决策精度 [17] - 构建1,200万条跨任务数据集(800万条导航数据+400万条问答数据),训练量达以往工作的两倍,覆盖多机器人形态与场景 [21][23] 性能与泛化能力 - 在VLN-CE、HM3D-OVON、NavSim等国际基准中达到或刷新SOTA水平,展现零样本导航与跨任务泛化能力 [25] - 实测支持四足机器人长程自主跟随、轮式机器人室内外混合导航、无人机复杂地形规划等任务,无需微调即可直接部署 [25] 应用模型衍生 - TrackVLA++实现30分钟以上稳定长程跟随,适应室内外多地形复杂路况 [27] - MM-Nav突破360°厘米级纯视觉避障,解决玻璃、细线等传统方案难以处理的极限场景 [28] - UrbanVLA与第三方地图软件打通,实现街道、天桥等室外环境自主路径规划,复杂度超越汽车自动驾驶 [30]
欢迎具身世界模型&数采相关方向的大佬加入我们!
具身智能之心· 2025-11-05 17:00
合作招募背景 - 行业对具身世界模型、机器人运控、数据采集相关领域咨询需求旺盛[2] - 相关方向存在较高行业门槛但具备显著价值[2] - 公司旨在与领域专家合作研发课程或实战项目以提供行业见解[2] 合作内容与要求 - 合作聚焦于具身世界模型、运控、数据采集相关课程设计与制作[3] - 期望合作者至少发表一篇CCF-A级别会议论文或拥有1年以上工业界经验[3] - 合作形式灵活可兼职并提供高于行业水平的薪资与资源共享[5]
清华团队提出AirScape:动作意图可控的低空世界模型,全面开源!
具身智能之心· 2025-11-05 17:00
文章核心观点 - 清华大学团队提出名为AirScape的生成式世界模型,专为六自由度(6DoF)空中具身智能体设计 [5] - 该模型能基于当前的低空视觉观测和动作意图,推演未来的序列观测,以解决具身智能领域的推演和想象基础问题 [3][6] - 项目包含一个11k视频片段的数据集,并采用两阶段训练方案,在关键指标上相比基线模型有显著提升 [7][11][18][21] 技术挑战与解决方案 - 现有世界模型研究主要聚焦于二维平面操作的人形机器人和自动驾驶,动作空间有限 [4] - 关键挑战包括缺乏第一人称视角的低空飞行数据集、视频基础模型与世界模型的分布差异、以及无人机6DoF运行带来的生成多样性与复杂性 [8] - AirScape通过构建包含11,000个视频-意图对的数据集,并采用两阶段训练方案来解决这些挑战 [7][11] 数据集特点 - 数据集涵盖工业区、住宅区、海边等多种空间场景 [9] - 包含平移、旋转和复合动作等多种动作类型,以及晴天、多云、夜晚等多种光照条件 [9] - 通过多模态大模型生成意图并经过超过1,000小时的人工校正,确保意图描述的准确性和逻辑性 [9] 模型训练方法 - 阶段一:利用11k视频-意图对数据集对视频生成基础模型进行监督微调,学习意图可控性 [11] - 阶段二:引入self-play training机制,通过时空判别器进行拒绝采样,学习时空约束 [14] - 时空判别器评估四个关键特征:意图对齐、时间连续性、动态程度和空间合理性 [14] 性能表现 - 在衡量动作对齐能力的关键指标IAR上,相对表现最佳的基线模型提升超过50% [21] - 在衡量生成视频质量的FID和FVD指标上,分别取得了15.47%和32.73%的提升 [21] - 在平移、旋转和复合动作等任务上,平均IAR达到84.51%,显著优于其他对比模型 [13] 未来发展方向 - 未来目标包括提升实时性能、轻量化设计以及在协助现实世界空中智能体操作决策方面的适用性 [19]
苏州跑出的这只机器狗,在IROS拿了冠军
具身智能之心· 2025-11-05 08:02
公司战略与定位 - 公司成立于2023年,初期战略对标特斯拉研发重载人形机器人,后及时将战略重心转向产业链更成熟、商业化落地更近的四足机器狗 [5] - 公司定位为“具身智能全产业链技术服务商”,旨在将研发与制造紧密捆绑,控制产品完整度、功能、质量及成本,但不直接涉足终端应用场景 [28][31][32] - 公司采取“有所为,有所不为”的策略,专注于将机器人本体做到极致,通过提供标准软硬件接口和二次开发平台赋能行业伙伴 [33] 技术优势与产品特点 - 核心产品“钢镚L1”在IROS 2025四足机器人挑战赛中夺冠,其成功关键在于硬件平台“足够稳定、可靠、好用”,能稳定执行算法指令 [10][12] - 产品设计强调全生命周期可靠性,采用“内骨骼+外软胶”结构思路,具备电气冗余、抗干扰、防雨防淋等工业级防护设计,支持IP54防护等级 [12][13][15] - “钢镚”系列具备高爆发力(能完成后空翻720度)与坚固性;“铜锤”系列轮足产品实现接近1:1的负载自重比,自重30公斤,负重达25-30公斤 [18][19] - 公司自研高功率密度一体化关节CHAMP P65,峰值扭矩48N·m,重量仅520g,峰值扭矩密度达92.3 Nm/kg,处于行业领先水平 [23][24] 研发与工程化能力 - 公司推出结合虚幻引擎和物理引擎的开源高保真仿真平台MATRiX,能将算法迭代周期缩短70%,大幅降低部署成本 [21][22] - 采用“并行工程”作战体系,让设计、研发、质量、测试、供应链等多部门从项目早期并行工作,确保从实验室到工厂的快速顺畅转化 [36] - 研发过程注重弥合“Sim2Real”(仿真到现实)误差,涉及关节模组物理参数准确性、模型仿真曲线精细度等一系列工程细节 [22][26] 市场洞察与商业模式 - 公司观察到市场对机器狗的提问已从基本运动能力转向寿命、环境适应性(高低温、防水)、便携性等实用性问题 [14] - 商业模式提供标品销售、OEM、ODM及从头定制四种合作模式,表现出极大开放性,不在意产品贴牌,核心是与伙伴共同把量做大、打磨产品 [36] - 针对教育科研市场推出EDU版本平台,集成超强算力、激光雷达、深度相机等,并在软硬件及结构设计上极致开放以降低二次开发门槛 [36][40] 行业发展与未来规划 - 四足机器狗运动控制技术虽相对成熟,但技术尚未完全收敛,例如视觉感知与运动控制结合的产品化仍有发挥空间 [34] - 短期规划是继续夯实运动控制能力,并探索让机器狗具备视觉感知等智能化任务能力;长期目标是构建技术飞轮,通过应用落地反哺技术迭代 [41][42] - 公司认为机器人生态是一个全新的产业形态,早期需集中研发和前期产业链以控制产品,待产业链成熟后会开放寻找代工厂支撑更大规模量产 [31][41]
这款平台支持了pi0和pi0.5~
具身智能之心· 2025-11-05 08:02
产品定位与目标客群 - 产品是专为具身智能科研领域打造的轻量级高性价比机械臂Imeta-Y1 [1][2] - 主要目标用户为学生、教育工作者及机器人领域初学者,旨在帮助其低成本、高效率完成算法验证与项目开发 [2] - 产品设计对新手友好,解决价格昂贵或低价产品难上手的问题 [2] 核心性能参数 - 机械臂本体重量为4.2千克,额定负载为3千克,具备6个自由度 [8][18] - 工作半径为612.5毫米,重复定位精度达到±0.1毫米 [8][18] - 供电电压为24V,采用铝合金材质,通讯方式为CAN [8][18] - 各关节运动范围覆盖广泛,例如J1关节为-165°至165°,最大运动速度达180°/s至220°/s [8][18] 产品优势与关键技术特点 - 提供全流程开源工具链与代码示例,支持从数据采集、模型训练到推理部署的端到端算法落地 [3][16][31] - 支持Python与C++双语言接口,并兼容ROS1与ROS2开发环境 [3][17][18] - 提供URDF模型,支持Gazebo等主流仿真环境与真机实时联动,实现仿真验证后一键部署 [3][16][21] - 提供完整的开源软件开发工具包(SDK),包含驱动程序、API接口及示例代码 [25] 硬件配置与生态服务 - 提供快速响应的售后支持,承诺24小时内响应 [3][18] - 支持批量采购优惠,并提供基于产品的项目开发与教学培训服务 [18] - 产品已适配RealSense D435系列、奥比中光DCW2等相机,并逐步适配更多开源模型如lerobot、act等 [45] - 交付周期为1至2周,提供半年非人为损坏质保 [43][44]
KAIST团队:基于双流扩散的世界模型增强VLA模型
具身智能之心· 2025-11-05 08:02
研究背景与核心问题 - 视觉-语言-动作模型是机器人通用策略学习的重要方向,但其关键缺陷是无法建模动作对环境的影响,缺乏对物理过程的显式理解[3] - 现有增强方案面临模态冲突的核心挑战,即强行统一处理动作和视觉两种特性迥异的模态会导致目标互相干扰[3][7] - 本工作提出双流扩散框架,核心目标是在保持模态特异性的同时实现跨模态知识共享,以解决联合预测的模态冲突问题[5] 相关工作梳理 - 视觉-语言-动作模型主要分为自回归生成和扩散生成两类动作生成方式,论文采用扩散生成方案,因其更易建模复杂动作分布[6] - 统一联合扩散架构用单一模型处理拼接后的动作和视觉模态,但强行统一低维动作和高维视觉会导致目标互相干扰[7] - 因果扩散架构用分离模型处理两种模态,但仅支持单向条件传递,无法实现双向知识迁移[7] - 现有模型多聚焦于模仿学习,忽略了动作如何影响未来状态的物理动态建模,这是双流扩散框架需补充的核心方向[8] 方法详解:双流扩散框架 - 框架通过架构设计、训练算法、采样策略三部分协同解决模态冲突,核心是解耦模态处理并保留跨模态交互[10] - 采用双流多模态扩散Transformer架构,动作流和视觉流保持独立传递,仅在跨模态注意力层临时合并以实现信息交换[15] - 采用解耦联合训练算法,核心是模态独立噪声调度,让动作和视觉按自身特性学习,同时捕捉双向因果关系[15] - 提出异步联合采样策略,推理时按模态需求分配去噪步数,视觉嵌入需更多步骤,动作则少量步骤即可收敛[16][18] 实验验证与分析 - 在模拟场景RoboCasa的24个任务中,100个演示数据下双流扩散框架平均成功率比GR00T-N1.5高18%,比FLARE高5%[20] - 在模拟场景GR-1的24个任务中,1000个演示数据下双流扩散框架在拾取放置和关节操作任务中的平均成功率达到0.420,优于基线的0.308[20][22] - 在真实场景Franka Research 3机械臂的4个任务中,双流扩散框架平均成功率为0.677,优于GR00T-N1.5的0.547和FLARE的0.557[24] - 通过无动作视频预训练,双流扩散框架平均成功率从0.501提升至0.585,证明其能利用低成本视频数据学习环境动态[26] - 消融实验显示,12层多模态扩散Transformer结合解耦噪声调度时性能最优,平均成功率达0.501[30] 结论与展望 - 双流扩散框架的核心创新点包括双流多模态扩散Transformer架构、解耦训练算法和异步联合采样策略[33] - 未来可探索结合更多无动作视频进行更大规模预训练,以提升模型对多样环境的适应能力[33] - 未来可融入触觉、力觉等模态,进一步增强机器人对环境的感知与动态建模能力[33]
宾夕法尼亚大学!MAESTRO:基于VLM的零样本通用机器人框架
具身智能之心· 2025-11-05 08:02
文章核心观点 - MAESTRO是一种以视觉语言模型为核心的模块化机器人框架,通过动态组合专用模块,在无需大规模机器人训练数据的情况下,实现了超越现有视觉语言动作模型的零样本操作性能[2] - 该框架选择了一条差异化研发路径,利用VLM的通用能力并整合成熟工具模块,以克服机器人数据稀缺和采集成本高的行业瓶颈[4][6] - 实验证明该框架在桌面操作和移动操作任务中均表现出核心性能优势,尤其在语义推理和长时记忆任务中表现突出,展示了"VLM+模块化工具"路径的有效性[15][17][22] 核心架构与关键设计 - 整体框架以VLM编码代理为核心,接收指令后动态编写代码组合工具模块,并采用闭环交互机制持续监控环境反馈,实时调整代码和动作[5] - 模块设计遵循六大原则,覆盖多维度机器人操作需求,具体包括感知、几何与线性代数、控制、预训练视觉运动策略、图像编辑以及移动操作扩展模块[8][10] - 框架具备基于历史运行的进化机制,通过数据库记录过往任务,为新任务提供上下文示例,实现少量真实世界试验后的性能提升[12] 实验结果与性能分析 - 在7项桌面操作任务中,MAESTRO在6项任务上大幅超越现有VLA模型和代码即策略基线,例如在"旋转立方体使紫色面朝上"任务中得分为60.0 ± 38.1分,而基线模型π₀.₅仅为10.0±0.0分[17][18] - 在4项移动操作任务中均实现高完成度,其中"搜索物品并返回"任务达96.0±8.9分,"按按钮开门"任务达93.3±14.9分[17][18] - 进化机制效果显著,在开门任务中,经过三次进化迭代后,完成度从初始的35%提升至85.0±7.4分[17] 关键模块影响分析 - 去除高级感知模块后,折叠毛巾任务完成度从71.3±21.4分降至40.0±7.1分,旋转立方体任务从60.0±38.1分降至25.0±0.0分,表明精准感知是复杂操作的基础[19][20] - 去除几何模块后,旋转立方体任务完成度降至42.5±31.8分,验证了空间推理工具对需姿态调整的任务至关重要[19][20]
当还在纠结研究方向的时候!别的同学已经CCF-A了......
具身智能之心· 2025-11-04 08:05
服务核心定位 - 公司推出针对具身智能领域的科研论文辅导服务,旨在解决研究人员在论文选题、入门及技术方向选择上的困难 [1] - 服务提供从CCF-A到CCF-C类会议、SCI一区到四区期刊以及毕业论文、申博等全区间辅导 [2] 服务覆盖的技术方向 - 辅导服务覆盖多模态大模型、视觉语言动作模型、强化学习、视觉语言导航、遥操作、数据采集、机器人仿真、虚实迁移、端到端学习、扩散模型等多个前沿顶会方向 [2] - 服务针对具身智能领域的研究方向选择难题,例如在强化学习与视觉语言动作模型之间、传统SLAM与视觉语言导航之间如何选择提供指导 [1] 服务团队与特色 - 导师团队由来自国内外名校的博士及头部大厂研究员组成,拥有在ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR等顶级会议的投稿与审稿经验 [2] - 提供全流程闭环辅导,涵盖从选题创新点挖掘、实验设计、代码调试、论文写作到投稿策略的全方位支持 [2] - 服务兼具工业界与学术界双视角,不仅关注论文发表,更关注技术的落地价值 [3] 咨询与获客策略 - 公司为前10名咨询者提供免费匹配专属导师的服务,可进行深度会议并获得个性化的会议、期刊选投建议 [4]
Dexmal原力灵机发布实时VLA模型!消费级显卡上完成pi0模型30Hz以上推理
具身智能之心· 2025-11-04 08:05
核心观点 - 研究团队提出并验证了一套针对十亿参数级别视觉-语言-动作模型的实时推理优化方案,在单块消费级RTX 4090 GPU上实现了30Hz图像处理与最高480Hz动作生成的性能,突破了传统VLA模型因高延迟而无法应用于动态任务的瓶颈 [3][23][37] 核心优化策略 - 通过四步优化流程将2视图模型的推理时间从初始的106.5毫秒降低至27.3毫秒,满足了实时推理所需的33毫秒阈值 [7][10][22] - 第一步消除基础开销:使用CUDA Graph技术将内核启动开销减半,使推理时间从106.5毫秒降至约53.9毫秒;通过简化计算图进一步降至约45.8毫秒 [9][10][12][14] - 第二步内核深度优化:针对GEMM操作进行底层优化,包括RMS归一化权重折叠、动作-时间嵌入层折叠、QKV投影融合等,并利用Triton框架手动调整tile参数,累计减少约1.5毫秒推理时间 [16][18] - 第三步性能下界验证:通过Roofline模型计算得出理论最低时间为19.7毫秒,叠加同步开销后理论下界为20.6毫秒,实际实现27.3毫秒的差距仅30%,表明优化已接近硬件理论极限 [20][21][22] 全流推理框架 - 提出全流推理框架,通过VLM与动作专家的并发执行,在1秒内可并行运行30个VLM与480个动作专家,实现480Hz的轨迹生成频率 [23][27][30] - 重构动作专家角色,将其从“批量输出”改为“逐步生成”模式,并结合高频传感器数据实时调整动作,确保低延迟响应 [28][30] - 设计三层反馈环:480Hz力环用于紧急停止等快速反应,30Hz视觉环实现图像驱动的动作调整,<1Hz文本环用于任务规划等低速智能场景 [29][30] 真实世界验证 - 通过抓取下落钢笔的实验验证实时VLA的有效性,在200毫秒的时间约束下,10次连续实验成功率达到100%,与人类反应速度相当 [29][32][36] - 实验证明大参数VLA模型在完成此类动态任务时具备泛化优势,可直接迁移至更复杂的动态任务而无需重新设计模型结构 [36]
突发!arXiv CS新规:未经同行评审,一律不收
具身智能之心· 2025-11-04 08:05
arXiv政策变革背景 - arXiv对计算机科学板块的"综述/调研"和"立场"类论文实施新规,要求必须通过同行评审后才能收录[2][7] - 生成式AI和大模型技术导致论文撰写变得轻而易举,特别是那些不包含新研究成果的论文[20] - arXiv所有分类都出现提交量大幅增长,但在计算机科学领域尤为显著[21] - 目前arXiv每月收到数百篇综述文章,其中90%被描述为"带注释的文献清单",缺乏实质性价值[5][32] 新规具体内容 - "综述"和"立场"论文需被期刊或顶会接收并完成同行评审后,才能提交至arXiv[8] - 作者提交时必须提供经同行评审的期刊引用及DOI元数据[9] - 若论文因"未完成同行评审"被拒,后续通过严格评审后可按指引申诉并二次投稿[49] - 研究科学技术对社会影响的论文(如cs.CY或physics.soc-ph分类)不受此政策影响[50] 学术界反应 - MIT EECS副教授Phillip Isola认为此举偏离了arXiv作为"科研界GitHub"的定位[10][11] - 前谷歌DeepMind专家Ahmad Beirami担忧新规会误杀优质内容并拖慢成果发布速度[39] - 艾伦研究所ML专家Nathan Lambert对政策实施效果持保留态度[40] - 研究员Gavin Crooks指出arXiv正从预印本服务器转向"后印本"平台[41] 政策实施目标 - 帮助读者更轻松地找到由领域专家撰写的高质量综述和立场文件[28] - 让审稿人集中精力处理arXiv正式接纳的内容类型,缩短稿件积压时间[28] - 保持arXiv快速、自由分享研究论文的核心宗旨,促进科学发现[23] - 如果其他分类也遭遇AI生成论文泛滥,未来将效仿计算机科学板块调整审核政策[51]