具身智能之心

搜索文档
一篇好的具身论文应该是怎么样的?
具身智能之心· 2025-06-24 15:27
最近收到了许多同学在论文发表上的求助,学校绕不开一篇三区论文硕士毕业,没有三篇CCF-A博 士都毕不了业,老师对这个新的方向不熟悉,开展不了工作。一直在为论文选题绞尽脑汁,实验设 计总遇瓶颈,写作逻辑混乱不清,投稿屡屡被拒! 尤其是在前沿且复杂的自动驾驶、具身智能、机 器人领域,真的有点力不从心。 一篇好的论文需要有好的切入点,哪个方向更容易产出,这一个判断尤为重要!剩下的就是怎么论 证这个idea work,比当前SOTA有效(如果是A类会议)。实验的设计也非常重要,特别是消融实 验,要摸清是什么因素导致的提升。后期的写作技巧,取决于你是否能够让审稿人眼前一亮,如何 回复审稿意见也是需要经验的。 筹备了近1年,我们的论文辅导正式推出了,主要面向自动驾驶/具身智能/机器人领域。 我们是谁? 国内最大的AI类技术自媒体平台,IP包含自动驾驶之心/具身智能之心/3D视觉之心等平台,拥有国内 最顶尖的学术资源。深耕 自动驾驶、具身智能、机器人 方向多年。我们深刻理解这些交叉学科的挑 战与机遇,更明白一篇高质量论文对于学生(尤其是硕博生)学业和未来发展的重要性。 我们目前有300+专职于自动驾驶/具身智能方向的老师。 ...
具身领域的目标导航到底是什么?有哪些主流方法?
具身智能之心· 2025-06-23 22:02
目标驱动导航技术概述 - 具身导航是具身智能的核心领域,涉及语言理解、环境感知、路径规划三大技术支柱 [2] - 目标驱动导航要求智能体在陌生三维环境中仅凭目标描述自主完成探索与路径规划 [2] - 与传统视觉语言导航不同,目标驱动导航需实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁 [2] 技术应用与产业化落地 - 终端配送场景中,美团无人配送车通过动态路径重规划在复杂城市环境执行任务 [3] - Starship Technologies的园区配送机器人已在欧美高校和社区部署 [3] - 医疗、酒店及餐饮场景中,嘉楠科技、云迹科技等公司的商用服务机器人实现药品、餐食自主配送 [3] - 人形机器人领域,宇树科技Unitree系列通过Habitat预训练完成基础导航任务 [3] - 特斯拉Optimus展示了"取放电池"等端到端操作能力 [3] 技术演进与评测体系 - 基于Habitat仿真的具身导航生态完整记录了领域技术迭代轨迹 [4] - 评测体系从点导航扩展到图像导航、目标导航及移动抓取任务,形成闭环 [4] - 当前技术进展呈现梯度:PointNav和闭集ObjectNav接近人类表现,开放词汇导航仍面临挑战 [4] - Meta AI提出的Sim2Real迁移框架为仿真到真实部署提供方法论参考 [4] 三代技术路线迭代 - 第一代端到端方法:基于强化学习与模仿学习框架,在点导航任务中取得突破 [5] - 第二代模块化方法:通过显式构建语义地图,在零样本目标导航任务中展现优势 [5] - 第三代LLM/VLM融合方法:引入大语言模型知识推理能力,提升开放词汇目标匹配精度 [7][8] 技术学习挑战 - 需要掌握自然语言处理、计算机视觉、强化学习等多领域知识 [10] - 各领域论文数量繁多、知识碎片化,入门难度高 [10] - 基于Habitat生态的研究缺少高质量文档,提高学习门槛 [10] 课程特点与内容 - 基于Just-in-Time Learning理念,帮助学员快速掌握核心技术栈 [11] - 梳理目标驱动导航研究发展脉络,构建领域框架 [12] - 理论结合实践,配有实战环节完成闭环学习 [13] - 课程涵盖端到端导航、模块化架构、LLM/VLM驱动系统等核心内容 [16][19][21][23] - 大作业聚焦VLFM算法复现与真实场景部署 [25][31] 课程安排与受众 - 课程开课时间7月25日,3个月完成结课 [33] - 面向机器人抓取从业人员、具身智能研究者、计算机视觉专业人士等 [32] - 学员需具备Python和PyTorch基础,显卡3060及以上算力 [32]
从刮胡子机器人到双臂神技!这家具身独角兽引爆亿级美元融资热潮
具身智能之心· 2025-06-23 21:54
作者丨 新智元 编辑丨 新智元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 【导读】 具身智能可太火了!Generalist AI发布了一段震撼视频,机器人完成高难度任务,全程 动作丝滑流畅。而这背后,竟是来自一款国内自研「拂晓」仿人自适应机器人。 就在刚刚,这家 公司又宣布了新一轮的融资。 日前,由前DeepMind科学家Pete Florence和Andy Zeng创立,且已获英伟达投资的AGI初创企业 Generalist AI发布了一段视频,展示其训练AI模型进行物理世界交互的进展。 不同于以往人形机器人大秀拳脚,视频中,两对机械臂在完全自主状态下完成多个高难度双臂协同操 作,展示出丝滑流畅的手眼协同、持续接触的复杂精细操作能力。 动图经过加速 Generalist AI的演示展示了具身智能技术在「物理交互灵巧性」与「感知—运动策略」上的重大突 破;通过端到端的模型训练,让机器人不再只是预设动作的「机械臂」,而是融合视觉、力觉进行实 时策 ...
等了十年,特斯拉Robotaxi终于上线!马斯克:仅需4.2美元一口价
具身智能之心· 2025-06-23 21:54
作者丨 机器之心 编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 马斯克终于不「画饼」了!4.2美元坐特斯拉Robotaxi初体验:平稳但尚不成熟。 马斯克也在 X 上发文祝贺: 同时还透露,首批乘客将以「固定价格」4.20 美元搭乘。 马斯克兑现了承诺。 早在十年前,埃隆・马斯克就曾多次表示,特斯拉有能力推出无人驾驶服务,但后来却食言了。上周日,特斯拉终于在德克萨斯州奥斯汀正式启动了自动驾驶出 租车服务。 当然也可以付小费。 评论区的网友一片欢呼: 限定试运营,尚未全面开放 目前,特斯拉的 Robotaxi 服务 仅限受邀用户使用 ,并未向公众全面开放。首批试乘者主要为支持特斯拉的知名社交媒体博主和科技内容创作者,因此外界对其初 步评价的客观性仍持保留态度。至于该服务何时正式向公众开放,特斯拉尚未给出明确时间表。 此次小规模试运营共投入约 10 至 20 辆贴有 「Robotaxi」标识的 Model Y 车辆。而去年首次亮相、备受 ...
SwitchVLA:无需额外数据采集,即可实时动态任务切换的轻量化VLA模型
具身智能之心· 2025-06-23 21:54
核心观点 - 提出SwitchVLA方法解决多任务VLA模型在任务切换(Task Switching)时的性能瓶颈问题,通过执行感知机制、轻量化网络架构(0.27B参数)及新型训练范式实现无需额外数据采集的高效任务切换能力[3][5][6] - 在单任务性能持平SOTA模型(如π0的3.3B参数)的同时,任务切换成功率显著提升:仿真环境中长串任务(A->...->F)成功率50%-83.3%,真机实验达54.2%-95.6%,远超现有方法(对比π0的0%)[16][17] 背景与问题定义 - 当前多任务VLA依赖独立采集的离散任务数据,导致任务切换时需严格匹配开始/结束状态,无法应对实时指令变更(如便利店场景中用户中途更改需求)[5] - 现有解决方案存在三大局限:大模型规划延迟(>100ms)、模仿学习需补采连接数据(成本高)、基于规则方法缺乏扩展性[6] 方法创新 1 任务切换表示 - 用"上一任务+当前任务+上一任务阶段(接触前/中/后)"替代传统任务描述输入,通过token拼接实现多模态融合[8][9] 2 模型架构 - 采用轻量级Florence-2-base VLM(0.23B)作为主干网络,结合Instruction & Contact Aggregator模块实现实时阶段感知[9][12] 3 训练流程 - 将任务简化为三阶段并定义对应动作:接触前(forward)、接触中(rollback)、接触后(advance)[12] - 创新数据采样算法:利用时间逆序数据生成rollback动作,通过状态插值生成advance动作,避免额外数据采集[13] 实验结果 - 在8个真机/仿真任务测试中,SwitchVLA在早期切换(Early Switch)场景成功率93.5%,远超π0(40.7%)和Open VLA-OFT(40.6%)[16][17] - 失败分析显示其有效解决四大失败类型:无切换(No Switch)成功率99.3%、中期切换(Mid Switch)75%、晚期切换(Late Switch)94.4%[16][17] 应用展望 - 计划部署于"天工"人形机器人,结合"慧思开物"平台赋能工业柔性生产和商业服务,实现高精度操作与快速响应能力[18][19]
入门具身离不开3个要素,数据+算法+本体
具身智能之心· 2025-06-23 21:54
数据部分:遥操采集依赖本体,成本较高。但前处理和后处理较为简单,质量也最高,适用于机 械臂。VR 遥操+动捕手套方案,操作员会戴上 VR 眼镜用于和机器人的视野对齐,动捕手套捕捉 的手指运动转发到灵巧手上,适用于人形机器人。 算法部分:VLN、VLA、Diffusion Policy、强化学习等是具身常用的技术栈,方法更新较快,需 要保持paper reading。 硬件部分:预算足的实验室有经费购买20-30w的本体,预算不足的同学依赖3D打印自己制作机械 臂或者采购性价比高的硬件平台,甚至在仿真里面做,研究比较受限。 我们的具身社区针对这三个大的模块做了比较充足的分享,包括数据采集方案、本体、仿真以及 算法部分,同时也给大家提供了几款高性价比的机械臂平台,助力研究。 入门具身离不开3个要素,数据+算法+本体,说实话很多同学只懂算法,甚至说懵懵懂!数据的采 集更是需要经验,遥操和retargeting方案,很多人采集不到真实有效的数据。本体更是许多同学触 不可及的东西,高性价比的平台和仿真是很多同学入门的第一步。 社区目标是3年内打造一个万人聚集的地方,这里也非常欢迎优秀的同学加入我们(目前已经有很 多具身 ...
隐式端到端VLA有哪些方法?领域一般是怎么分类的?
具身智能之心· 2025-06-22 22:47
隐式端到端VLA模型概述 - 隐式端到端VLA模型不明确生成未来机械臂运动的图像,与显示、分层VLA方法不同 [1] - 核心模块包含视觉特征提取(V)、视觉语言联合特征学习(V+L)、视觉语言动作联合训练(V+L+A) [1] 视觉特征提取模块(V) - 常用模型包括ResNet-18作为基础选择 [6] - 预训练模型可选R3M、VC-1、Voltron、Theia [6] - 效率优先采用EfficientNet,文本对齐需求选用CLIP/SigLIP [6] 视觉语言联合特征学习(V+L) - 小模型方案采用FiLM或Perceiver结构 [3] - 大模型方案基于MLLM基座如Paligemma [3] 视觉语言动作联合训练(V+L+A) - 关键是通过视觉特征定位对动作有用的区域建立VL-A映射 [7] 模型分类维度 - 按规模分为大模型/小模型VLA [13] - 按架构分为Transformer-based/Diffusion-based [14]
FindingDory:具身智能体记忆评估的基准测试
具身智能之心· 2025-06-22 18:56
点击下方 卡片 ,关注" 具身智能 之心 "公众号 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 一、研究背景与核心问题 长期记忆缺失 是当前具身智能体的关键瓶颈。尽管视觉语言模型(VLMs)在规划与控制任务中表现突 出,但其 处理跨时空的多模态观察数据 能力严重受限: 核心矛盾 :具身智能需整合长期历史经验(如"找到昨天未整理的玩偶"),但缺乏针对性评估框架。 二、基准设计创新点 2.1 任务架构 作者丨 Karmesh Yadav等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 动态环境交互 记忆推理验证 输入限制 :主流VLMs仅能处理数百张图像(远低于真实场景的千帧级输入) 评估缺陷 :现有视频QA基准(如EgoSchema)依赖选择题形式,无法评估 物体操纵/导航 等需细粒 度推理的具身任务 记忆-动作脱节 :传统方法孤立评估记忆召回与决策执行,忽视二者在具身环境中的耦合性 动态环境构建 :脚本代理在Habitat模拟器中执行物体抓取-放置(Pick-and-Place),产生 ...
上海交大最新!DyNaVLM:零样本、端到端导航框架
具身智能之心· 2025-06-22 18:56
出发点与优化目标 - 导航是自主智能体领域的基础能力,需要融合空间推理、实时决策和环境适应能力,但人工系统复现这一能力仍面临巨大挑战 [4] - 传统导航方法存在泛化性差、可扩展性不足和部署困难等问题,因其依赖模块化设计和特定任务工程 [4] - 视觉语言模型(VLM)为导航领域带来新思路,但受限于空间粒度和上下文推理能力不足 [4] - DyNaVLM提出零样本、端到端导航框架,无需微调或接触导航特定数据即可直接作为导航策略使用 [4] DyNaVLM核心创新点 - 动态动作空间构建:通过视觉语言推理实现自由形式目标选择,摒弃固定运动原语,提升运动灵活性和导航效率 [6] - 协作图记忆机制:受检索增强生成(RAG)启发,开发动态知识图捕捉空间关系和语义对象信息 [8] - 无需训练的部署模式:无需任务特定微调即可直接应用于新场景,降低部署成本并提高泛化能力 [8] 系统架构与方法 - 问题形式化定义:输入包括目标描述、RGB-D观测和机器人位姿,输出为动作,采用极坐标参数化动作空间 [11] - 记忆管理器:维护动态知识图,实现持久空间知识表示、跨机器人记忆共享和上下文感知记忆检索 [12][13] - 动作Proposer:采用基于候选的离散化策略,将连续搜索空间简化为有限均匀采样点集合 [14] - 动作Selector:综合几何候选点、感知上下文和记忆生成最终导航动作,包括空间采样和安全感知过滤 [14][16] 实验评估 - 模拟环境评估:在ObjectNav基准上取得45%成功率和0.232 SPL,优于PIVOT和VLMnav等框架 [19][22] - 真实世界评估:部署在Unitree Go2机器人上,在定位多个目标任务中成功率和行进距离显著优于VLMnav [25][27] - 协作图记忆机制在长且复杂导航任务中表现关键,帮助跟踪已访问位置并有效规划未来移动 [22]
具身智能领域的行业周期有多久?
具身智能之心· 2025-06-22 11:59
昨天和朋友聊天,对比了自驾和具身的发展周期。自驾从15年许多硅谷的同学回来创业,到现在 规模化、商业化已经近10年了。然而机器人产业已经发展了很多年了,相比于自驾我们认为后续 更多是算法和数据上的突破(当然硬件也有,只是说已经取得了一定发展)。我们期望5-8年有真 的可以商业化落地的机器人,这一点要比自驾来得快些。 智元和宇树都在为上市做准备,如果真的有好消息,这对整个产业将会是一个极大的振奋。大家 更要抓住这一波行业的机会,对我们来说,我们也一直在探讨究竟要做一个什么样的具身社区? 能够承接学术和产业界!其中一个答案比较符合我们的思路,那就是一个能够凝聚行业人群、遇 到问题能够快速响应、影响到整个行业的地方。 我们目标是3年内打造一个万人聚集的具身社区,这里也非常欢迎优秀的同学加入我们。 我们和多 家具身公司搭建了学术+产品+招聘完整的桥梁和链路,同时内部在教研板块也基本形成了闭环 (课程 + 硬件 + 问答)。社区里也能看到很多最新的行业观点、技术输出。现在本体是怎么样 的?有哪些不足?数据采集的成功率和有效率怎么提升?sim2real怎么做的有效点?这些都是我们 一直关注的。 前面一直在想怎么帮助刚入门 ...