Workflow
具身智能之心
icon
搜索文档
【圆桌正当时】机器人不能没有方向盘,你的遥操够丝滑吗?
具身智能之心· 2025-06-20 08:44
行业趋势与概念发展 - 具身智能概念诞生于1950年 但当前热潮本质是Robot Learning学科从规则驱动范式转向数据驱动范式的变革 类似AI 1.0时代人脸识别领域的技术跃迁 [3] - 基于遥操作采集数据训练的模型已能完成叠衣服、系鞋带等传统规则驱动难以实现的任务 标志着技术路径的根本转变 [3] - 人形机器人热潮推动中国机器人供应链快速成熟 本体构型呈现百花齐放态势 遥操作技术从辅助工具升级为行业核心要素 [3] 技术发展阶段类比 - 当前机器人行业处于马车向汽车过渡的早期阶段 如同手机行业在功能机时代的多样化探索 缺乏标准化操作硬件和软件架构 [4] - 机器人领域尚未形成类似汽车方向盘或手机安卓系统的统一交互标准 操作系统的工程化水平仍处于初级阶段 [4] - 即使模型驱动算法短期难突破 开发人类友好型机器人操作系统仍可成为推动行业发展的第二引擎 [4] 商业化路径与生态建设 - 行业需要并行推进全无人方案与渐进式辅助驾驶方案 类似自动驾驶领域的技术落地策略 [5] - 亟需构建ROS3.0级别的具身机器人操作系统 形成类似柳树街车库的开发者生态 联合工程师、研究机构与工业企业共同推进 [4][5] - 大模型技术加速机器人行业进步 催生多元化供应链体系 为新产品品类诞生创造条件 [4] 技术研讨方向 - 重点关注遥操作技术的标准化进程 其可能成为机器人领域的"方向盘"或"安卓系统" [5] - 探索具身智能渐进式落地方案 平衡技术理想与商业化可行性 [5] - 优化遥操作硬件/软件交互设计 提升人机协同效率 [5]
直击CVPR现场:中国玩家展商面前人从众,腾讯40+篇接收论文亮眼
具身智能之心· 2025-06-18 18:41
CVPR 2025核心趋势 - 多模态和3D生成成为论文接收与研讨的热门方向 其中高斯泼溅技术是论文标题出现频率前五的关键词之一 [8][17] - 基础模型讨论深入并延伸至产业落地 具身智能和机器人AI成为独立Workshop板块 [8] - 中国企业参与度创纪录 腾讯、字节等大公司主导展区 但参与主体仍集中于成熟商业化企业 [4][9][32] 技术研究热点 - 多模态以75次出现频率位列论文标题关键词榜首 扩散模型(153次)、大语言模型(129次)紧随其后 [16] - 3D生成领域突破显著 高斯泼溅技术推动神经渲染研究 腾讯Hunyuan 3D 21版本实现几何与纹理双重优化并全面开源 [17][21][23] - 计算机视觉与图形学加速融合 3D重建相关论文数量激增 国内技术跃迁速度加快 [19][20] 企业参与动态 - 腾讯表现突出:40+篇论文入选 覆盖混元大模型团队(多模态推理/3D生成)、优图实验室(DeepFake检测/自监督生成)等方向 [34] - 中国企业赞助力度加大:6家中国机构进入赞助商名单 腾讯与字节跻身白金赞助商行列 投入规模创历史新高 [36][37] - 人才争夺策略升级:腾讯派出20人技术团队现场交流 通过Demo展示、学术活动直接对接顶尖人才 [38][44] 产业应用延伸 - Workshop议题设计呈现双轮驱动:既深化视觉概念等基础研究 又拓展3D场景理解、数字孪生等产业应用场景 [27][30] - 腾讯形成商业反哺技术闭环:2024年研发开支70686亿元 累计研发投入达3403亿元 专利授权超45万件支撑AI持续投入 [46] - AI商业化成效显现:腾讯AI能力已驱动广告与游戏业务增长 微信生态内新AI应用成为重点投入方向 [50]
工业界和学术界在具身智能数据采集上有哪些方案?
具身智能之心· 2025-06-18 18:41
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 具身智能的数据采集方案有哪些? 具身领域,机器人运动控制大部分都是用 RL 进行训练,而机械臂操作任务一般使用模仿学习方 式。其中数据采集部分则成为了核心,直接决定了后期模型的性能。今天我们一起看看有哪些数据 采集方式,以及优缺点。所有内容出自具身智能之心知识星球,欢迎和近200家具身公司和机构一起 交流。 3)合成数据 不依赖本体,采集成本低,但相关前处理较为麻烦。需要搭建和真实场景类似的仿真环境,需要处 理sim2real和real2sim问题。 4)互联网数据 采集方式 1)遥操采集 遥操采集依赖本体,成本较高。但前处理和后处理较为简单,质量也最高。 2)开放场景采集 不依赖于本体,需要一定的前处理后处理。采集成本低,不受限于机械臂可达的环境,一次采集后 续可以映射到很多本体上。但采集数据和真实部署存在一定gap,传感器信息可能不全。 互联 ...
ForceVLA:通过力感知MoE增强接触丰富操作的VLA模型
具身智能之心· 2025-06-18 18:41
研究背景与问题提出 - 视觉-语言-动作(VLA)模型在机器人操作领域推动通用机器人发展,但处理接触丰富任务时存在局限性,尤其在视觉遮挡或动态不确定性情况下表现不佳[4] - 现有VLA模型依赖视觉和语言线索,忽略力传感模态,导致在插入、工具使用或装配等任务中行为脆弱或失败[4] - 不同任务阶段需要不同形式的力调制,如精细抓取、受控插入和顺应性表面接触,现有方法缺乏感知和适应动态变化的机制[4] 核心创新点 - ForceVLA框架将外部力传感作为VLA系统中的一等模态,引入FVLMoE融合模块动态集成视觉-语言嵌入与实时6轴力反馈[6] - FVLMoE模块通过门控机制计算专家子网络的动态路由权重,专门处理不同模态,实现力、视觉和语言特征的动态处理和深度集成[7][8] - ForceVLA-Data数据集包含五个接触丰富操作任务的同步视觉、本体感受和力-扭矩信号,共244条轨迹和14万个同步时间步[9][15] 方法细节 - ForceVLA基于π₀框架构建,集成视觉、语言、本体感受和6轴力反馈,通过条件流匹配模型生成动作[11] - FVLMoE模块将6轴力-扭矩数据转换为力token embedding,与视觉-语言特征连接后输入模块,通过稀疏混合专家层动态路由[12] - 数据采集使用Flexiv Rizon 7-DOF机械臂,配备Dahuan自适应夹具和两个RGB-D摄像头,通过Quest3 VR界面进行人类遥操作[15] 实验与结果 - ForceVLA在五个接触丰富操作任务上的平均成功率为60.5%,显著优于不使用力反馈的π₀-base模型(37.3%)[25] - 在黄瓜削皮任务中,ForceVLA平均削皮长度达14.12厘米,仅需7次strokes即可完成,优于To-base w/F的13.17厘米和10次strokes[19] - 在视觉遮挡场景下ForceVLA成功率高达90%,在五种挑战性实验条件下平均成功率达63.78%[20][22][25] - 消融研究显示ForceVLA通过FVLMoE模块实现的自适应融合成功率达80%,显著高于晚期融合(60%)和早期融合(55%)[23][26] - 多任务联合训练中ForceVLA平均成功率达67.5%,在插头插入任务中成功率100%,瓶子按压和白板擦拭任务达80%[27]
还不知道发什么方向论文?别人已经投稿CCF-A了......
具身智能之心· 2025-06-18 11:03
具身智能之心论文辅导服务 - 核心观点:提供具身智能领域的论文辅导服务,帮助学员冲击顶级会议 [1] - 辅导方向包括多模态大模型、机器人导航、机器人抓取、具身泛化、具身合成数据、端到端具身智能体、3DGS等 [2] - 辅导老师均在CVPR、ICCV、ECCV、ICLR、RSS、ICML、ICRA等顶级会议发表过论文 [3] 学员要求 - 需要自带简历,学校背景要求国内TOP100高校或国外QS200以内 [5] - 详细内容可通过微信咨询 [5]
从扭秧歌到跑半马:机器人离「iPhone时刻」还有多远?
具身智能之心· 2025-06-17 20:53
具身智能行业现状 - 过去半年机器人技术取得显著突破,从表演性功能扩展到半程马拉松等复杂任务,推动行业认知从想象进入现实[3] - 行业面临核心技术瓶颈、落地场景选择、真实需求匹配和量产成本控制等关键问题,目前尚无统一解决方案[3] - 平台型企业加速布局计算开发平台赛道,英伟达推出Jetson Thor,高通、英特尔跟进,国内地平线推出RDK S100算控一体化套件[4] RDK S100产品特性 - 采用80 TOPS算力设计,已覆盖20+头部客户合作和50+合作伙伴测评,成为英伟达之外的主流选择[4] - 独创CPU+BPU+MCU超级异构架构,实现单SoC"算控一体",支持感知-决策-执行闭环[8] - 6核A78AE CPU负责逻辑处理,BPU支持160+ONNX算子加速视觉/点云/LLM等模型,4核R52+MCU提供低延迟运动控制[10] - 开发套件成本控制在5000元以内,已实现双臂自主叠衣等应用验证[16] 技术路径选择 - 行业存在端到端VLA模型和分层决策两条技术路径,前者通用性强但资源消耗大,后者可控性高但泛化性弱[6] - 分层"大小脑"架构被视为当前最可行方案,大脑负责感知决策(CPU+BPU),小脑负责运动控制(MCU)[7] - RDK S100精准卡位未来三年最可能量产的轮足机器人/机械臂等场景,百TOPS级算力可满足需求[12] 开发者生态建设 - 提供ModelZoo算法仓包含110+预训练模型,配套工具链支持快速算法迁移和部署[14] - 构建端云一体数据闭环和Sim2Real仿真系统,解决高质量训练数据短缺问题[15] - 推出"地心引力计划"汇聚200+初创公司,提供硬件优惠、技术支持及产业链资源对接[18] 商业化落地进展 - 已在宇树G1人形机器人实现运动控制,BPU推理使CPU占用率降低250%[16] - 验证四足机器人多地形步态控制、双臂自主操作等场景,覆盖商业清洁/工业制造等五大领域[16] - 20多家合作客户中部分已进入量产开发阶段,涵盖人形/四足等多种形态[16]
正在筹划做一个万人的具身社区!
具身智能之心· 2025-06-17 20:53
这几天刚和团队小伙伴沟通完后期工作建设,探讨究竟要做一个什么样的具身社区?其中一个答 案比较符合我们的思路,那就是一个能够凝聚行业人群、遇到问题能够快速响应、影响到整个行 业的地方。 我们目标是3年内打造一个万人聚集的具身社区,这里也非常欢迎优秀的同学加入我们 (目前已经 有华为天才少年、具身领域研究前沿的几个大佬加入)。 我们和多家具身公司搭建了学术+产品 +招聘完整的桥梁和链路,同时内部在教研板块也基本形成了闭环(课程 + 硬件 + 问答)。社区里 也能看到很多最新的行业观点、技术输出。现在本体是怎么样的?有哪些不足?数据采集的成功 率和有效率怎么提升?sim2real怎么做的有效点?这些都是我们一直关注的。 前面一直在想怎么帮助刚入门的小白快速收拢技术栈,社区内部也为大家整理了一系列配套内 容,完整的入门路线。 已经从事相关研究的同学,我们也给大家提供了很多有价值的产业体系和项目方案。 还有源源不断的求职、岗位分享哦,欢迎和我们一起打造完整的具身生态。 具身智能之心知识星球 社区创建的出发点是给大家提供一个具身相关的技术交流平台,交流学术和工程上的问题。星球 内部的成员来自国内外知名高校实验室、具身相关 ...
迈向通用具身智能:具身智能的综述与发展路线
具身智能之心· 2025-06-17 20:53
具身AGI的定义 - 具身AGI被定义为能够以人类水平的熟练度完成多样化、开放式现实世界任务的具身AI系统,强调其人类交互能力和任务执行能力 [3] 通用具身智能路线 - 论文提出从L1到L5的五级路线图,衡量和指导具身AGI的发展,每个级别基于四个核心维度:模态、类人认知能力、实时响应能力和泛化能力 [4] - L1(单一任务完成):机器人能够可靠地完成单一、明确定义的任务,但功能局限于特定任务领域 [7] - L2(组合任务完成):机器人能够处理组合任务,通过将高级人类指令分解为简单动作序列来执行,但能力仍限于预定义任务和技能库 [7] - L3(有条件的一般任务完成):机器人能够处理多种任务类别,表现出对任务、环境和人类指令的有条件泛化能力,但对全新或开放式任务的可靠性不足 [7] - L4(高度通用机器人):机器人展现出对广泛未见任务的稳健泛化能力,具备强大的多模态理解和推理能力 [7] - L5(全功能机器人):机器人能够满足人类日常生活的广泛需求,展现出类似人类的认知行为 [7] 现状和挑战 - 当前具身AI的能力处于L1和L2之间 [7] - 现有的具身AI模型大多仅支持视觉和语言输入,并且输出仅限于动作空间 [8] - 现有的机器人主要专注于任务特定的操作,缺乏高级的推理和社交互动能力 [11] - 大多数现有的具身AI系统以半双工方式运行,即在完全接收和处理指令后才开始行动,这使得它们在动态环境中表现不佳 [14] - 具身AI需要在推理和对话智能方面表现出色,类似于复杂的聊天机器人,并展示与人类偏好和伦理价值观的一致性 [17] L3∼L5核心能力组件 - 全模态能力:L3+机器人需处理超越视觉和文本的多模态输入(如听觉、触觉、热感等),并生成多模态响应(动作、语音、推理等) [18] - 类人认知行为:包括自我意识、社会关联理解、程序性记忆和记忆重组 [18] - 实时交互:现有模型因参数量限制难以支持全模态实时响应,且计算复杂度随序列长度平方增长 [19] - 开放任务泛化:当前模型依赖任务特定数据,缺乏物理规律的内化 [19] L3+机器人大脑框架 - 模型结构设计原则包括全模态流式处理和动态响应 [19] - 训练范式包括全模态从头训练、终身学习集成和物理导向训练 [20] 总结与未来挑战 - 具身AGI的发展路线图具有长期相关性 [20] - 未来挑战包括技术障碍以及伦理、安全和社会影响等方面的挑战 [20]