Workflow
具身智能之心
icon
搜索文档
准备搞一个具身的吃瓜群!
具身智能之心· 2025-09-24 14:32
文章核心观点 - 公众号“具身智能之心”的运营者“峰哥”为满足社区粉丝需求,创建了一个非正式的、专注于行业交流的社群 [1][2] - 该社群旨在提供一个轻松的环境,供成员讨论行业动态、产品、学术、工作、求职及创业等话题,而非转发公众号的正式内容 [2] - 社群规模限定为500人,满员后将关闭加入通道,目标用户为具身智能工业界从业者或相关科研人员 [2][3] 社群创建背景与目的 - 创建动因源于粉丝反馈,希望有一个不那么学术化、可以日常交流行业八卦、求职等话题的社群 [1] - 运营者认识到现有社群过于学术化,与教育科技IP属性有关,因此决定创建一个更有趣的交流群 [2] - 新社群明确不会转发公众号文章和直播内容,专注于行业交流、产品讨论、学术讨论及工作生活话题 [2] 社群运营规则与加入方式 - 社群规模严格限制在500人以内,满员后即停止接纳新成员 [2] - 目标成员需为正在具身智能工业界任职或从事相关科研活动的人员 [2] - 加入方式为添加指定微信,并备注“昵称+机构/公司+入群”以完成验证 [3]
今日Talk来啦!具身智能新基建:从大模型到真实世界
具身智能之心· 2025-09-24 10:30
活动概览 - 北京智源人工智能研究院将于2025年9月24日周三14:00-17:30举办一场关于具身智能新基建的行业分享活动 [1][2] - 活动地点位于北京市海淀区智源大厦一层报告厅 [2] - 活动由北京智源人工智能研究院主办,并由百度飞桨、具身智能之心、机器人大讲堂、始智AI Wisemodel、中国互联网协会人工智能工委会等多家行业机构协办 [2] 活动日程与核心议题 - 活动开场将由北京智源人工智能研究院副院长兼总工程师致辞 [3] - 议题一:介绍“具身智能的创新基座 - 智源具身一站式平台”,由该院具身数据负责人姚国才主讲 [3] - 议题二:介绍“智源DataCube(数据魔方)智能视频半台”,由该院算法研究专家主讲 [3] - 议题三:探讨“具身大小脑操作框架与具身大小脑模型构建”,由该院具身大小脑大模型负责人陈贤生主讲 [5] - 议题四:进行“智源评测全面升级:从大模型到真实世界”的发布,包括“模型评测分析及智源评测2025秋季榜单发布”,由该院智能评测负责人及高级研究员主讲 [5] - 议题五:分享“FlagScale在具身智能场景下的技术实践与价值验证”,由该院AI框架研发组具身智能方向负责人何宸锐主讲 [5] - 活动日程中包含一段休息时间 [4] 活动参与方式 - 活动提供线上转播,由“具身智能之心”全程转播 [1] - 参与者可通过扫码报名参加线下活动 [6] - 参与者可通过扫码加入“智源具身微信交流群”进行行业交流 [6]
【CEAIS 2025】全日程公布,参会早鸟报名火热进行中!
具身智能之心· 2025-09-24 08:04
会议概况 - 第二届中国具身智能与系统大会(CEAIS 2025)将于2025年11月1日在陕西西安建国饭店举办 [4] - 大会预计将吸引超过1000名与会者 [4] - 会议日程包括2025年10月31日的报到、晚餐及专委会增选会议,以及11月1日的开幕式、4场主旨报告和15场技术分论坛 [7][8] 主办方背景 - 西安交通大学于1986年成立了国内最早的人工智能专职研究机构“人工智能与机器人研究所”(人机所),并于2018年12月在此基础上成立“人工智能学院” [2] 会议核心议题与专家阵容 - 大会特邀十余位院士及近百位资深专家,深入探讨具身智能基础模型、世界模型与具身学习、网联具身智能、计算架构与芯片、智能驾驶、人形与仿生机器人等热点议题 [4] - 技术分论坛涵盖具身智能基础模型、计算架构与芯片、网联具身智能、具身智能驾驶、自动化实验室、机器人传感器、教育实践、世界模型与具身学习、人形与仿生机器人、标准化、情感具身智能、照护机器人等方向 [8][9][10][11][12] 会议注册与合作信息 - 会议注册费分为非会员、会员和学生三类,早鸟注册费(2025年9月30日及以前)分别为1800元、1200元和800元,普通注册费(2025年10月1日-10月31日)分别为2000元、1400元和1000元 [41] - 大会招募钻石合作单位(20万元)、金牌合作单位(10万元)、银牌合作单位(5万元)和展位合作(2万元),并提供相应的宣传权益和参会名额 [45][46]
跨越仿真与真实数据鸿沟:Real2Sim2Real重要工作一览!
具身智能之心· 2025-09-24 08:04
行业研究趋势 - 具身智能领域的研究重点正从高成本的真实数据采集转向利用仿真技术进行数据生成和策略迁移,即Real2Sim2Real技术路线 [1] - 该技术路线旨在通过仿真与真实数据之间的迁移学习,在少量或零真机数据下实现良好的机器人操作效果 [1] - 近三年该领域的研究成果集中发表在ICRA、CoRL、IROS、CVPR等顶级机器人及人工智能会议上 [1] 关键技术进展 - 3D高斯溅射(3D Gaussian Splatting)技术被广泛应用于提升仿真环境的真实感和物理一致性,例如RL-GSBridge和RoboGSim等项目 [3][18] - 针对复杂操作任务,如双手机器人灵巧操作(DexMimicGen)和可变形线性物体操作,开发了专用的数据生成和策略适应方法 [5][9] - 大规模生成模型和基础模型被集成到仿真流程中,用于示范生成(如Real2Gen、CyberDemo)和奖励设计(如R*项目利用大语言模型) [13][16] 学术机构与产业参与 - 全球顶尖学术机构是该领域研究的主力,包括加州大学伯克利分校、斯坦福大学、麻省理工学院、卡内基梅隆大学、清华大学、上海交通大学等 [4][5][9][13][15] - 领先的科技公司如英伟达、Google DeepMind、地平线机器人已深度参与相关技术研发 [5][6][9] - 研究社区规模显著,例如具身智能之心知识星球已聚集近2000名成员进行交流 [1][19] 应用场景拓展 - 技术应用覆盖广泛的机器人操作场景,包括蘑菇采摘、食品制备、水下软鳍运动、机器人辅助喂养等特定领域 [4][11][13][18] - 在机器人导航、运动规划以及群体机器人行为涌现等宏观系统层面也有深入研究 [6][9][15] - 部分研究开始探索跨具身(Cross-Embodiment)学习,旨在实现不同形态机器人之间的知识迁移 [10]
西湖大学发布世界模型WorldForge,让普通视频模型秒变「世界引擎」
具身智能之心· 2025-09-24 08:04
文章核心观点 - 西湖大学AGI实验室的研究团队提出了一种名为WorldForge的全新免训练引导框架,旨在解决AI视频生成中可控性与生成质量难以兼得的瓶颈问题 [2][3] - 该框架通过在推理阶段对视频扩散模型进行“即插即用”式的干预,成功实现了从单张静态照片生成360°环绕视频以及对现有视频进行电影级复杂运镜等任务,无需重新训练模型 [3][6][13] 方法概述:免训练引导框架 - WorldForge的核心思想是在生成过程的每一步进行“干预”和“校准”,而非在训练阶段改造模型,通过用户定义的相机轨迹指令确保时空几何一致性 [13] - 框架包含三个关键创新模块:步内递归修正(IRR)、流门控潜在融合(FLF)和双路径自校正引导(DSG) [15][16][17] - **IRR模块**:通过步内递归优化机制,在每一步推理中先用真实内容替换模型预测的“已知区域”,以增量式校正来精准注入轨迹控制信号,防止轨迹漂移 [15] - **FLF模块**:在VAE潜在空间中,基于光流相似性区分“运动通道”与“外观通道”,仅向运动通道注入控制信号,实现动静分离以保护画面细节 [16] - **DSG策略**:利用IRR产生的“即兴创作”(非引导路径)和“精准描摹”(引导路径)两条并行路径,计算差异形成动态校正项,在轨迹精确性与画面质量间取得平衡 [17][18] 技术亮点与应用 - **单图生成360°环绕视图**:仅需一张静态照片,即可生成清晰、稳定、几何一致的360°环绕视频,尤其适合以目标为中心的复杂开放场景 [21] - **视频的电影级可控重摄影**:用户可为任意视频指定希区柯克变焦、弧形环绕、升降摇移等复杂相机轨迹,WorldForge能稳定“重拍”并自动补全新视角内容,在人脸、动态物体与复杂环境中表现更稳定 [23] - **视频内容的编辑与再创作**:框架支持视频去抖与视角切换、物体擦除与添加、主体变换与虚拟试穿等多种编辑功能,保持几何一致性与环境融合 [29] - **免训练特性带来的优势**:WorldForge无需训练,作为一个即插即用的模块可灵活迁移至多种主流视频模型,具有卓越的跨域适应性,同时因免去重训与数据筹备而成本友好,降低了高质量3D/4D内容的创作门槛 [31][34] 行业意义与展望 - WorldForge代表了一种新范式,即在不牺牲大模型先验知识、不增加训练成本的前提下,于推理阶段实现对生成过程的精准控制,证明视频模型不仅是内容“生成者”,也能成为听懂指令的“执行者” [32] - 该技术极大地降低了影视预览、游戏开发、数字孪生等领域的高质量3D/4D视觉内容创作门槛 [32] - 展望未来,若将这种精准的时空控制能力与更强的多模态理解(如语言、草图)相结合,有望实现通过口头描述或简单勾画就能导演AI生成的“时空大片”,为通往“可控世界模型”提供了一条前景光明的技术路径 [32]
每当有人咨询具身入门的路线时,我一定会推荐这套完整的教程
具身智能之心· 2025-09-24 08:04
文章核心观点 - 具身智能技术架构围绕“大脑”(感知与规划)和“小脑”(运动执行)两大模块构建,技术演进经历了从低层感知到高层任务理解与泛化的多个阶段,目前正进入多技术融合创新期 [3] - 技术发展推动产品在人形机器人、机械臂、四足机器人等形态上落地,应用于工业、家居、餐饮、医疗康复等领域,行业呈现融资和岗位爆发式增长 [12] - 为应对行业对体系化知识的迫切需求,推出了覆盖具身智能全栈技术的课程,旨在帮助从业者和学习者系统掌握从基础任务到前沿模型应用的完整知识体系 [12][14] 技术架构与细分领域 - 具身智能领域主要划分为负责思考感知和任务规划的“大脑”,以及负责高精度运动执行的“小脑” [3] - 细分技术模块包括仿真、VLA(视觉-语言-行动)、Diffusion Policy、VLN(视觉语言导航)、世界模型、强化学习等 [5] - VLA和世界模型是当前在自动驾驶和具身领域同时发力的两大技术路线 [5] 关键技术方案 - VLA模型主要研究热点为基于大模型的端到端方案和基于Diffusion技术的分层方案,VLA与强化学习结合方案正成为新探索方向 [5] - Diffusion Policy作为行动模块,负责学习具体动作执行,主要研究方向包括状态扩散、动作空间扩散、三维空间扩散等 [6] - 仿真技术当前重点在于Sim2Real和Real2Sim2Real方案,以解决真机泛化差的问题,该方案已获多家具身公司认可 [6] - VLN当前更关注于目标导航,与移动操作相关联,Map-free方案有利于任务泛化 [6] 技术演进阶段 - 第一阶段技术研究聚焦于抓取位姿检测,通过点云或图像预测末端执行器姿态,实现静态物体抓取,但缺乏对任务上下文和动作序列的建模 [7] - 第二阶段进入行为克隆阶段,机器人借助专家演示数据学习从感知到控制的端到端映射,具备模仿人类完成复杂任务的能力,但存在泛化能力弱、误差累积等问题 [7] - 第三阶段(2023年起)兴起Diffusion Policy方法,通过扩散模型生成整个动作轨迹,提升策略稳定性与泛化能力;2024年进入VLA模型阶段,实现多模态协同与任务泛化能力提升 [8] - 第四阶段(2025年以来)探索VLA模型与强化学习、世界模型、触觉感知等模块融合,以弥补VLA模型在反馈、未来预测、多模态感知方面的局限 [10] 行业应用与影响 - 技术发展推动人形机器人、机械臂、四足机器人等产品落地,服务于工业、家居、餐饮、医疗康复等多个领域 [12] - 行业融资和岗位呈现爆发式增长,吸引大量人员转入具身智能领域进行研究 [12] - 产业界重视推动具身智能从“论文”走向“部署”,对工程与系统能力需求激增 [17]
VLA及其相关方向占据了顶会近一半的具身工作,特别是这几个......
具身智能之心· 2025-09-23 12:00
行业技术趋势:VLA成为具身智能关键驱动力 - 从今年各机器人与AI顶会来看,Vision-Language-Action模型及其相关衍生方向占据了近一半的具身智能产出,特别是在长程操作、泛化、少样本学习、VLA与强化学习结合以及人形机器人相关领域[1] - VLA模型打破了传统机器人方法的单任务局限,使机器人能在多样化场景中自主决策,灵活应对未见过的环境,广泛应用于制造业、物流和家庭服务等领域[1] - VLA模型已成为研究热点,推动了多个前沿项目的发展,如pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA,这些研究促进了学术界与工业界的合作[1][4] - VLA模型的适应性体现在能应用于机械臂、四足机器人和人形机器人等多种平台,为各类智能机器人的发展提供了广泛的潜力和实际应用价值[1] 产业发展与竞争格局 - 国内外具身智能领域正处于蓬勃发展阶段,Unitree、智元、星海图、银河通用、逐际动力等团队正从实验室走向商业化[3] - 华为、京东、腾讯等国内科技巨头积极布局具身智能领域,与国外的Tesla、Figure AI等公司共同推动该领域发展[3] 技术演进与核心挑战 - VLA范式是具身智能领域的新范式,能从给定的语言指令和视觉信号直接生成机器人可执行的动作,使机器人模型向更通用和泛化的方向发展[4] - 技术演进路径包括从早期的抓取位姿检测到行为克隆,再到近期的Diffusion Policy和多模态基础模型[7] - 前沿模型如RT-2、OpenVLA和PI0实现了从视觉输入和语言指令到机器人动作的端到端映射,应用于复杂任务规划和执行[7] - 领域面临的核心挑战包括跨域泛化、长期规划与世界模型构建[8] - 研究前沿包括将大型语言模型的推理能力与机器人控制系统结合,实现从高级任务描述到低级运动规划的有效转换,以及通过PaLM-E、RT-X等模型的多模态预训练和微调策略增强机器人在开放环境中的适应性和鲁棒性[8] - 前沿发展方向包括多模态感知融合、触觉反馈整合、基于物理的推理以及社会互动能力,旨在突破“看得见但摸不着”、“只关注当下不能预测未来”等局限性[8] 研究热点与未解难题 - 具身智能领域存在大量未解决的研究难点,包括长期记忆、VLA与强化学习结合的原子技能库构建、动作解码问题、多模态思维链等多个前沿方向[13] - VLA模型体系可系统梳理为隐式端到端、显式端到端、分层端到端三大类[9]
具身智能之心近20个交流群来啦!欢迎加入
具身智能之心· 2025-09-23 12:00
文章核心观点 - 成立具身智能之心技术交流群,旨在聚集行业专业人士共同承担具身智能领域未来领导者的角色 [1] 技术交流群定位与目标 - 交流群覆盖近20个具身智能子技术方向 [1] - 目标是与成员共同承担该领域未来领导者的角色 [1] 目标成员与研究方向 - 欢迎从事人形机器人、四足机器人、机械臂等本体研究的专业人士加入 [1] - 研究方向包括视觉语言导航、大模型、视觉语言交互、强化学习、移动操作、多模态感知、仿真、数据采集等 [1] 加入方式 - 可通过添加指定微信账号并备注“加群+昵称+研究方向”的方式申请加入 [1]
为什么 VLA 能叠毛巾,却测不准物体位姿?解读具身 “空间感知” 补全
具身智能之心· 2025-09-23 08:03
技术方案核心观点 - 提出了一种名为OnePoseViaGen的颠覆性解决方案,旨在解决具身智能在6D物体位姿估计上的关键瓶颈,该方法无需预设3D模型,仅凭一张参考图即可完成对未知物体的6D位姿估计 [2] - 该方案通过“单视图3D生成 + 粗精对齐 + 文本引导域随机化”的组合拳,构建了“生成模型-真实物体-空间姿态”的闭环关联,为机器人与物理世界的精准交互提供了关键的空间感知能力 [2] - OnePoseViaGen是首个将单图3D生成与位姿估计融合的技术流程,证明生成式建模可直接提升位姿估计性能,无需依赖3D模型或多视图 [31] 技术框架与实现路径 - 方案遵循“先解决3D模型缺失问题,再校准真实尺度与位姿,最后缩小域差距提升鲁棒性”的递进逻辑,逐步突破单样本6D位姿估计的三大核心挑战 [5] - 基于法向量引导从单张RGB-D锚点图像生成3D纹理网格,无需多视图或预训练3D模型即可快速生成高保真的3D表示 [8][9] - 设计了“粗到精”的两步尺度-位姿联合对齐策略,通过多视图渲染、特征匹配、PnP算法和迭代优化,将归一化模型与真实世界进行精准对齐 [10][12][13] - 采用文本引导的生成式域随机化策略,通过生成纹理多样的3D变体和合成数据渲染来微调位姿估计器,显著提升模型在面对遮挡、光照变化等真实场景时的鲁棒性 [14] 性能表现与基准测试 - 在YCBInEOAT数据集上,OnePoseViaGen的平均ADD指标达到81.27%,平均ADD-S指标达到93.10%,远超Oryon(ADD 1.1%)、LoFTR(ADD 4.0%)和Any6D(ADD 45.6%)等主流方法 [16][17] - 在高挑战性物体上表现突出,例如在“sugar box1”任务中ADD达到75.63%(Any6D为14.3%),在“tomato soup can yalehand0”任务中ADD达到77.72%(Any6D为0.0%完全失效) [17][19] - 在TOYL数据集上,AR指标达到55.7%,比次优方法Any6D(43.3%)高出12.4个百分点,距离类指标MSSD(67.0%)和MSPD(65.1%)也显著领先 [18] - 在高遮挡无纹理的LM-O数据集上,整体AR达到74.8%,远超GigaPose(17.5%)和Any6D(28.6%),证明了其强大的抗遮挡能力 [20] 真实世界应用验证 - 在真实机器人操作实验中,OnePoseViaGen支撑机械臂完成灵巧抓取的整体成功率高达73.3%,远超基线方法SRT3D(6.7%)和DeepAC(16.7%) [24][25] - 实验设计包括单臂抓取-放置和双臂交接两类任务,成功标准严格,涵盖了抓取稳定、运输无碰撞、放置后稳定等多个环节 [23] - 即使在抓取过程中出现手部遮挡,该方法仍能通过3D模型的几何约束精准估计位姿,避免因遮挡导致的抓取失败,展示了其在实际应用中的实用性 [27] 核心模块有效性验证 - 消融实验证实,“粗到精对齐”和“生成式域随机化微调”是提升方法性能与鲁棒性的关键模块 [28] - 在TYOL数据集上,完整模型的AR为55.7%,而移除精对齐模块后AR降至32.9%,移除整个对齐模块后AR降至0.0%,凸显了尺度-位姿联合优化的必要性 [30] - 生成式域随机化微调对提升模型在真实世界的适应性起到了决定性作用 [28][30]
具身智能绕不开的“四数”为什么这么难:数采、数据飞轮、数据工厂、仿真合成数据
具身智能之心· 2025-09-23 08:03
具身智能的哲学与理论基础 - 具身智能的思想可追溯至中国古代"知行合一"理念,强调认识活动离不开身体与物理世界的交互[4] - 1943年沃伦·麦卡洛克提出人类心智形成根植于个体与外部环境的持续物理交互,为具身认知理论发展提供重要启发[5] - 1963年理查德·赫尔德通过"被动运动猫"实验证明感知依赖于主体在行动中的主动探索与反馈机制,对行为模式建立具有决定性意义[5] - 具身智能强调完整的闭环系统,包含感知与决策、动作执行、环境反馈以及身体在时间维度上的适应与成长[7] 沉浸式感知环境构建 - 构建沉浸式感知需要物理属性、触觉、听觉以及物体相互作用产生的反应行为[9] - 第一代数字孪生环境使用视觉点云和AI语义理解,通过强化学习训练各种策略[10] - 第二代数字孪生环境将物理学的各种感知过程融入,包括物体的重量、转动惯量、泊松比等物理属性[10] - 引入触觉、听觉和操作物体的物理属性后,从虚拟环境迁移到物理世界的策略误差上限变小,鲁棒性和泛化能力远超视觉点云环境[11] 机器人训练场建设现状 - 国内已涌现多个高水平机器人训练平台,包括上海浦东智源研究院训练场、张江人工智能岛实验平台等[12] - 训练场建设面临基础设施布局碎片化、重复建设现象以及不同平台间标准不一等挑战[12] - 理想的机器人训练场应具备虚实一体功能,打通仿真环境与真实世界的边界,支持从模拟到现实的平滑迁移[14] - 训练场的关键技术挑战在于沉浸感与物理真实性,要求仿真系统准确建模重力、摩擦力、弹性、惯性等力学特性[14] 数据采集与多模态感知 - 具身智能发展高度依赖高质量、多样化的行为数据,主要采集视觉数据、行为交互数据和语义理解数据[15] - 视觉信息不仅可用于重建空间结构,还可通过学习模型间接推断力、材质、滑动趋势等非视觉属性,实现跨模态映射[17] - 触觉感知包含分布式压力、剪切力、重量感知、温度变化等多种信号,对于精细操作至关重要[17] - 遥操作仍是主流的数据采集方式,包括主从式遥操作、运动捕捉辅助采集等四类方法[20] 具身智能与大模型融合 - 具身智能与大模型的深度融合成为推动机器人技术实现产业落地的核心方向[26] - 大模型的核心价值在于其强大的场景泛化与策略泛化能力,可通过学习已有经验推演至未见过的相似场景[28] - 云-边-端协同架构形成新型工业范式,由中国研发团队在本地构建核心算法,远程赋能海外工厂的机器人系统[29] - 该模式不仅保障核心技术不外泄,还可规避高额关税壁垒,已在广东省惠州市比亚迪工厂开展试点[29] 具身智能四大发展支柱 - 人形机器人因其高度仿生结构被视为最具潜力的通用平台,具有极高的负重比和强平衡控制能力[31] - 训练场建设是推动具身智能从感知走向行动的关键支撑,必须构建真实与虚拟融合的训练环境[34] - 未来机器人应具备差异化专长,出现工程师型、艺术家型、服务型等多种智能体,服务于不同行业与任务场景[35] - 智能的本质在于持续进步,具身智能系统应具备逐年优化操作能力的进化特性[36] 训练场建设新范式 - 人形机器人发展重构了传统AI+机器人研发范式,从模型驱动走向数据驱动[47] - 训练场建设经历三个阶段技术迭代:人体动作捕捉采集、遥操作人形机器人采集、虚实融合的高保真训练环境构建[48][49][50] - 训练场不仅是基础设施,更是一项关键技术,承担高质量数据的规模化采集、工艺知识沉淀与标准化等职能[51] - 国内已有近20家主流人形机器人品牌接入麒麟训练场,涵盖双足、轮足等多种形态[52] 仿真合成数据驱动 - 银河通用坚持仿真合成数据为核心的技术路线,相较于真实数据采集具有更高可控性、更强一致性和卓越可扩展性[103] - 提出"动作用仿真,语义补真实"的混合学习范式,构建完整的仿真合成数据pipeline[104] - 采用两阶段训练范式:第一阶段利用百亿级仿真合成数据进行通识预训练,第二阶段通过少量真实世界数据进行场景微调[105] - 实证表明,引入大规模仿真预训练后,仅需约200条真实样本即可完成技能迁移,样本效率提升达千倍以上[105] 商业化落地实践 - 具身智能系统已在零售、工业、教育与服务多个领域实现商业化部署[108] - 在零售领域与美团等企业合作推进智能仓储全流程自动化,计划启动"十城百店"战略[108] - 工业应用方面与国内外车企合作开展零部件识别与货箱搬运任务,展现高度泛化能力[108] - 与博世联合成立合资公司,致力于推动具身大模型在高端制造场景的深度落地[109]