Workflow
具身智能
icon
搜索文档
端到端模型!GraphCoT-VLA:面向模糊指令的操作任务的VLA模型
具身智能之心· 2025-08-13 08:04
领域介绍 - 视觉-语言-动作(VLA)模型正成为机器人领域的核心范式,旨在实现自然高效的人机交互 [5] - 现有VLA模型基于预训练视觉-语言模型(VLMs)构建,利用其强大的视觉接地和语言理解能力 [5] - 当前模型依赖清晰结构化指令,难以处理现实场景中的模糊指令(如"我想吃辣味河鲜") [6] 技术挑战 - 现有模型无法关联多模态感知与上下文,导致动作规划脱离真实环境 [8] - 观测模态局限在静态二维视图,缺乏对三维交互的建模能力 [8] - 思维链(CoT)方法存在情境感知有限、无法处理模糊指令等缺陷 [8] 解决方案 - 提出GraphCoT-VLA模型,整合结构化CoT推理与实时3D姿态-物体图 [9] - 结构化CoT模块包含:高层任务理解与规划、失败任务反馈、低层未来想象推理 [3] - 姿态-物体图实时捕捉机器人关节配置与物体三维拓扑关系 [13] - 采用dropout混合推理策略平衡深度推理与实时控制需求 [15] 模型架构 - 姿态-物体图构建:通过YOLO-World检测物体,结合深度信息投影为三维点,与机器人末端执行器形成全连接图 [13] - 图编码器使用两层GNN处理空间关系,输出节点特征输入VLM [17][18] - CoT推理流程:场景理解→可行性分析→反馈生成→未来预测(间隔ΔT帧) [19][20] - 整体框架整合多视角图像、本体感受、语言指令和图数据,输出动作序列分布 [22][23] 训练策略 - CoT监督采用交叉熵损失,动作优化采用条件流匹配损失 [24][26] - 联合训练引入CoT监督dropout(概率p),支持推理引导与直接预测双模式 [27][28] - 推理时混合策略:首帧生成完整CoT,后续帧跳过推理直接预测动作 [28] 实验结果 - 在"食物准备"任务中成功率比最优基线Octo提升10%,"服装选择"任务比π₀提升18.33% [37] - 姿态-物体图使成功率最高提升18.33%,动作更连贯自然 [40] - CoT模块显著增强模糊指令下的任务规划能力,减少动作不足或持续挥舞等问题 [41] - 推理频率保持10Hz,与基线π₀相当,满足实时控制需求 [44][45] 技术验证 - 姿态-物体图可视化显示其有效编码机器人与物体的空间配置 [42] - CoT能根据环境变化动态调整决策,预测物体位置与实际高度匹配 [43] - 在双臂机器人上验证,涉及600个训练演示和20次/任务的测试协议 [29][36]
近2000人了!这个具身社区偷偷做了这么多事情了......
具身智能之心· 2025-08-13 08:04
具身智能社区概述 - 社区定位为国内首个具身全栈技术交流平台,聚焦学术与工程问题,成员来自斯坦福大学、清华大学等顶尖高校及智元机器人、优必选等头部企业[13][14] - 已形成产业、学术、求职、问答的闭环生态,日均运营复盘优化社区内容[1] - 核心目标是缩短技术检索时间,提供从入门到进阶的全链条资源[14] 核心资源体系 学术与产业资源 - 汇总40+开源项目、60+具身数据集及主流仿真平台[14] - 梳理30+技术路线,覆盖强化学习、多模态大模型、机械臂控制等24个细分方向[14][41][43][45] - 收录近30家国内外具身机器人公司资料,涉及教育、医疗等应用领域[21] 人才发展支持 - 建立与智元机器人等企业的内推机制,直接对接招聘需求[6] - 提供职业路径规划,包括实习项目包装建议(如Isaac Sim仿真项目)[74][75] - 汇总国内外50+高校实验室信息,助力升学与科研发展[19] 技术内容矩阵 学习体系 - 入门者可通过技术栈路线(如Diffusion Policy学习路线)快速上手[57][7] - 进阶者获取产业级项目方案与VLA模型等前沿技术资料[9][55] - 配套50+机器人专业书籍与行业研报,覆盖动力学、导航等基础领域[24][27] 行业动态追踪 - 实时更新具身智能在自动驾驶迁移、大模型部署等领域的融合应用案例[77][81] - 分析技术趋势:传统SLAM向端到端导航演进,Transformer架构逐步渗透[77][79] - 跟踪零部件供应链,汇总芯片、激光雷达等关键设备厂商信息[29][33] 社区运营特色 - 定期举办圆桌论坛,邀请产业界嘉宾解析算法落地挑战[2] - 成员可自由提问,获得职业转型建议(如SLAM从业者转向具身感知的路径)[78][80] - 提供仿真平台对比数据与触觉感知等多模态技术集成方案[37][47]
VLA还是VTLA?这家企业用“超人类触觉”技术颠覆机器人未来!
具身智能之心· 2025-08-13 08:04
行业现状与技术瓶颈 - 具身机器人硬件和技术相比去年有较大提升,但感知大脑落后于硬件 [1] - 端到端VLA模型是行业关注重点,但视觉在物理交互中存在材质、硬度、摩擦力感知不足的问题 [1] - 触觉感知可弥补视觉缺陷,VTLA(视觉-触觉-语言-动作)被认为是下一代端到端模型范式 [1] - 触觉传感器行业存在分辨率低、实时性差、耐用性不足等技术瓶颈 [2][3] 公司技术与产品突破 - 戴盟机器人研发出基于单色光的高分辨率视触觉感知技术,通过光学变化生成触觉"图像" [4] - 核心产品DM-Tac W是全球首款多维高分辨率高频率视触觉传感器,每平方厘米覆盖4万个感知单元,远超人类手指的240个和传统传感器的数百倍 [4] - 推出多维触觉灵巧手DM-Hand1,集成毫米级超薄视触觉传感器,提升灵活性和感知能力 [6] - 产品通过500万次按压测试,获欧盟CE和美国FCC双认证,实现千片级规模量产 [9] 融资与商业化进展 - 完成亿元级天使++轮融资,三轮融资总额达数亿元,刷新全球触觉感知领域天使轮融资纪录 [3] - 融资资金将用于推动高分辨率视触觉感知技术和灵巧操作技术的产业化落地 [3] - 在世界机器人大会(WRC)展示核心产品,与京东联合展示真实应用场景 [8] 应用场景与行业影响 - 技术可应用于工业装配、医疗手术、家庭服务等需要高精度任务的场景 [1] - DM-Hand1能为工业制造、医疗康复等领域提供全新解决方案 [6] - 产品已从"样机时代"迈向"规模部署时代",推动触觉传感技术商业化应用 [9] - 公司致力于构建覆盖感知、操作、学习的完整产品生态,助力行业进入触觉智能新纪元 [10]
AI如何一步步「看懂」时空结构?一篇综述解析通往四维世界的五大层次
具身智能之心· 2025-08-13 08:04
编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 4D 空间智能重建 是计算机视觉领域的核心挑战,其目标在于从视觉数据中还原三维空间的动态演化过程。这一技术通过整合静态场景结构与时空动态变化,构建 出具有时间维度的空间表征系统,在虚拟现实、数字孪生和智能交互等领域展现出关键价值。 当前研究主要围绕两大技术维度展开: 基础重建层面聚焦深度估计、相机定位、动态点云等底层视觉要素的精准提取;高阶理解层面则致力于解析场景组件的时 空关联与物理约束。 arXiv: https://arxiv.org/abs/2507.21045 Project Page: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence 他们提出了一种新的分析视角,将已有方法按照空间智能的建构深度划分为五个递进的层次: 这种多维度的空间建模能力正成为新一代人工智能发展的基础设施——无论是构建具身智能的环境认 ...
世界机器人大会很火!百花齐放,但也同质化严重!
Robot猎场备忘录· 2025-08-13 08:04
2025世界机器人大会盛况 - 展会汇聚200多家国内外机器人企业,展出1500余件展品,其中首发新品超100款,50家人形机器人整机企业参展(A馆22家、B馆29家、C馆8家),数量创同类展会之最[4] - 现场盛况被形容为"真的火爆",人形机器人展示从2024年的"挂起来"升级到2025年的"动起来",但商业化价值验证仍需时间[7][12] 人形机器人行业现状 - 同质化现象严重,缺乏技术壁垒,产品形态大同小异,尤其是轮式仿生机器人,软硬件均未实现技术收敛[8] - 具身智能领域头部创企尚未建立真正护城河,软硬件全栈自研的技术壁垒仍有待验证[10] - 科研教育、娱乐、展览是当前主要落地场景,工业、家庭场景尚不成熟,商业化逻辑依赖低价策略和流量爆单[11][13] 技术路线与商业化挑战 - 国内人形机器人创企分为两大阵营:"硬件派"(如宇树科技)以运动能力为亮点,"软件派"(如智元机器人、银河通用)以AI能力为亮点[11] - 硬件派优先选择教育、科研场景落地,软件派侧重战略合作但实际商业化多处于POC阶段,优必选等企业鲜少公布订单和交付数据[13][15] - 人形机器人仍依赖预编程或遥操作,智能化交互能力薄弱,批量化生产和场景有效应用是核心难点[17] 行业泡沫与资本动态 - 人形机器人赛道受资本和政策扶持,但存在"揠苗助长"趋势,头部创企如智元机器人、宇树科技争相IPO,技术未突破可能加速泡沫破裂[18] - 上游核心供应链公司(如T链、H链、宇树链)已率先获利,摩根士丹利和高盛研报对此有详细梳理[18][19] 未来展望与产业链机会 - 人形机器人赛道共识是长周期和广阔前景,但技术突破和商业化仍需时间[17] - 协作机器人公司(如Neura Robotics、越疆科技)入局人形机器人赛道,华为等科技大厂也在布局具身智能领域[22][23]
中信建投:国产机器人百花齐放 继续看好板块整体行情
新浪财经· 2025-08-13 07:34
机器人产业政策支持 - 近期各地发布机器人相关产业支持政策 给予一定产业补贴或消费补贴 [1] - 世界机器人大会保持空前热度 国产机器人百花齐放 [1] 产业链发展现状 - 灵巧手 关节模组零部件 传感器等环节均有多种方案齐头并进 [1] - 具身智能机器人迭代有望加速 [1] - 具身智能产业链相关进步正不断被看到 [1] 未来潜在催化剂 - 后续有世界人形机器人运动会 智元机器人合作伙伴大会等事件 [1] - Optimus三代机发布 国产机器人招投标等值得关注 [1] 投资机会 - 看好板块整体行情 [1] - 推荐产业趋势更优 放量更快的传感器 灵巧手 垂类应用端 国产供应链条等环节 [1]
卧龙电驱多元布局半年赚5.37亿 构建高壁垒两年半研发费15亿
长江商报· 2025-08-13 07:20
业绩表现 - 2025年上半年营业收入80.31亿元,同比增长0.66%,归母净利润5.37亿元,同比增长36.76%,扣非净利润4.81亿元,同比增长38.25% [2][3] - 2024年全年营业收入162.47亿元,同比增长4.37%,归母净利润7.93亿元,同比增长49.63%,扣非净利润6.35亿元,同比增长33.13% [2] - 2025年上半年经营活动现金流量净额7.10亿元,同比大幅提升100.57%,净现比超过1 [3] 业务布局与调整 - 主动调整业务结构,年初以7.26亿元剥离四家新能源公司资产,聚焦电机及驱控主业 [4] - 布局人形机器人业务,分为具身智能(仿生机器人和机器狗)和工业智能化解决方案两大板块,旗下希尔公司为工业机器人系统集成商,与浙江人形机器人创新中心、智元机器人等展开合作 [4] - 2025年上半年与智元机器人完成战略投资签约,成为其战略股东 [4] 海外市场与全球化战略 - 海外市场收入占比接近40%,2023年、2024年中国市场收入分别为96.26亿元、101.38亿元,占比61.84%、62.40% [5] - 拥有BrookCrompton、Morley、LaurenceScott等国际百年品牌,并获得GE 10年品牌使用权 [5] - 2025年上半年深入推进"出海战略",组建产品线总监及海外SR团队,实施"三个三分之一"战略(OEM业务深化+分销布局+新兴行业拓展) [6] - 6月18日发布赴港上市公告,7月21日聘请信永中和香港为审计机构 [6] 研发与技术优势 - 2023年至2025年上半年研发费用合计15.15亿元(2023年5.57亿元、2024年6.42亿元、2025年上半年3.16亿元),研发费用率稳定在3.58%-3.95% [2][7] - 全球布局42个制造工厂和5大研发中心,在高效电机、永磁电机、电机+变频等领域技术领先 [6] - 构建IPD研发体系,拓展产学研合作,与东北大学等签署战略协议 [7] 成本与经营效率 - 2025年上半年期间费用降至13.85亿元(2024年同期15.12亿元),费用率从18.95%降至17.24% [3] - 整体毛利率从2024年底24.05%提升至2025年上半年25.49%,增加1.44个百分点 [4]
在世界机器人大会上感受“未来已来”(新时代画卷)
人民网· 2025-08-13 06:24
机器人行业发展趋势 - 2025世界机器人大会以"让机器人更智慧,让具身体更智能"为主题,展示机器人技术在竞技、互动、服务等领域的广泛应用 [20] - 大会汇聚220家国内外机器人企业,发布123款新产品,展示1569件产品,搭建超500个应用场景 [20] - 现场售出机器人及相关产品1.9万台,销售额超2亿元,参会人数达27.1万人次,直播观看人数达5200万人次 [20] 机器人技术创新 - 国产机器人通过算法优化实现毫秒级动作响应,稳定性、灵活性和连贯性持续提升 [20] - 人形机器人作为智能机器人的最高形态和具身智能的最佳载体,正在加速创新迭代,迈向产品化、产业化 [21] - 机器人具备更聪慧的"大脑"、更敏捷的"小脑"和更灵活的"肢体",能够完成跳舞、洗碗、售药等复杂任务 [20] 机器人应用场景拓展 - 机器人在生产制造、仓储物流、安全防护、家政服务、教育医疗等场景中发挥重要作用 [21] - 具体应用包括银河通用机器人抓取商品、机械臂叠衣服、人形机器人演奏扬琴等 [12][14][16] - 竞技和互动场景展示机器人踢足球、拳击表演、陪伴互动等功能 [4][6][10] 机器人产业前景 - 世界机器人大会成为观察全球机器人前沿技术和产业发展的重要窗口 [22] - 机器人科技赋能千行百业,有望拉动新消费、催生新产业,助力经济发展和改善民生 [22] - "应用"、"量产"、"订单"成为展会高频词,反映产业加速商业化进程 [21]
8月8日至12日 220家国内外企业汇聚北京亦庄 集中展示1569件产品 在世界机器人大会上感受“未来已来”(新时代画卷)
人民日报· 2025-08-13 05:53
行业动态 - 2025世界机器人大会在北京亦庄举办,主题为"让机器人更智慧,让具身体更智能",展示机器人打拳击、陪下棋、做家务、当主持人等多种功能 [1] - 大会汇聚220家国内外机器人企业,发布123款新产品,展示1569件产品,搭建超500个应用场景 [1] - 现场售出机器人及相关产品1.9万台,销售额超2亿元,参会人数达27.1万人次,观看直播人数达5200万人次 [1] 技术进展 - 国产机器人通过算法优化实现毫秒级动作响应,稳定性、灵活性、连贯性持续提升 [2] - 机器人拥有更聪慧的"大脑"、更敏捷的"小脑"、更灵活的"肢体",能与真人组队跳舞、收拾碗筷、值守药房等 [2] - 人形机器人作为智能机器人的最高形态和具身智能的最佳载体,正在加速创新迭代,迈向产品化、产业化 [2] 应用场景 - 机器人在生产制造、仓储物流、安全防护、家政服务、教育医疗等场景中发挥重要作用 [2] - 展会中"应用"、"量产"、"订单"成为高频词,显示机器人正深度融入社会生产与日常生活 [2] 产业前景 - 世界机器人大会成为观察全球机器人前沿技术和产业发展的重要窗口 [2] - 以机器人科技为代表的智能产业赋能千行百业,前景广阔、潜力巨大 [2] - 各领域正积极布局机器人产业,深化应用,有望拉动新消费、催生新产业,助力经济发展和改善民生 [2]
北京机器人应用场景全面开花
北京青年报· 2025-08-13 02:53
2025世界机器人大会核心成果 - 大会集中展示200余家国内外机器人企业最新技术和应用成果 [6] - 北京市提前完成"双百工程"目标(培育100种高附加值机器人产品+100种可推广应用场景) [6] - 机器人产业覆盖医疗/物流/制造/服务等领域,产业规模持续扩大 [6] 前沿技术产品展示 - 傲鲨推出首款消费级VIATRIX增程动力外骨骼机器人,实现《流浪地球2》同款技术 [7] - FESTO展示22厘米仿生蜜蜂,具备10只群体自主协同飞行能力 [7] - 宇树科技G1格斗机器人完成高难度回旋踢动作,采用最新铝合金腿部技术 [7] - 乐聚夸父人形机器人实现全场景任务演示(配送/太极/搬运等) [7] - 特种机器人完成洪涝救援/电力排查等任务,障碍规避精度达预设路线 [7] 医疗物流领域应用 - 北京协和医院完成30例机器人辅助颌面外科手术,含国内首例经口口咽肿瘤切除 [7] - 京东亚洲一号物流中心实现全流程自动化,AGV/AMR拣选效率提升5倍 [7] - 北京开展智能康养机器人应用大赛,展示外骨骼/康复训练/AI陪护等产品 [7] 教育与生活场景融合 - 北京14所中小学部署38台教育机器人,形成4类"机器人+教育"解决方案 [7] - 推广210余台服务机器人,包括拉花咖啡机/炒菜机器人等10余款产品 [7] - 人形机器人半马比赛创全球纪录,"天工Ultra"成为首个完赛机器人 [8] 产业集群发展现状 - 亦庄集聚300余家机器人企业,产业规模超百亿,形成完整产业链 [8] - 昌平区入驻超百家机器人企业,松延动力三个月实现N2人形机器人量产 [8] - 北京2024年机器人产业营收超300亿元(同比+50%),拥有400余家骨干企业 [8] 产业协同与政策支持 - 成立具身智能测评实验室联合体,推动标准互认与产业闭环 [8] - 设立百亿机器人产业发展基金,支持38家企业78款创新产品首试首用 [8] - 建设共享加工中心缩短研发周期,完善京津冀配套服务能力 [8] 未来发展规划 - 将建设人形机器人中试验证平台,推动规模化生产 [8] - 开放全域公共服务场景,打造"机器人+智慧生活"北京方案 [8] - 目标2025年形成300亿核心产业收入,建成国际先进产业集群 [8]