具身智能之心
搜索文档
具身智能之心运营实习生招募来啦!合伙人1v1培养(只有1个名额哦)
具身智能之心· 2025-08-07 20:00
大家好,我们是自动驾驶之心/具身智能/大模型之心Tech团队。非常高兴在这里和你相遇,如果你也认同技 术内容可以改变世界,那你可能就是我们在找的人! 1. 自驾、大模型、具身相关研究方向,本科及以上学历,硕士优先; 2. 对技术相关的前沿进展和事件有极高的研究热情和分享欲; 3. 较强的执行力、效率意识和沟通意识; 4. 有一定的文字功底,逻辑清晰,表达流畅; 5. 具备较强的学习能力和知识梳理能力; 6. 加分项: 有技术背景,独立解读学术论文,运行部署开源项目和撰写代码demo; 有产品背景,能深入体验和拆解AI产品,提炼核心价值; 有运营背景,主导运营过原创科技自媒体账号; 我们在做什么? 我们希望通过技术内容连接学术界和工业界,成为企业和学校沟通的桥梁,更乃至数十万的AI开发者和创 业者。我们致力于为大家带来全网最新最权威的技术信息,团队聚焦在自动驾驶、具身智能、大模型等AI 最前沿的技术领域,涵盖学术论文解读、业内量产方案分析、大模型评测、商业动态、行业招聘、开源项 目等,并通过公众号、社群、视频号、知乎、小红书、B站等平台进行内容分享、粉丝交流及企业联系。 目前自动驾驶和具身智能两个方向我们已经和 ...
具身智能之心项目与论文辅导来了!
具身智能之心· 2025-08-07 20:00
公司业务与服务 - 公司正式推出项目与论文指导系列课程 [1] - 服务内容包括项目辅导、论文辅导和求职辅导 [1] - 课程方向涵盖大模型、视觉语言导航、视觉语言交互、强化学习、DP、sim2real、仿真等多个前沿领域 [1] - 公司提供专业的学术资源和一线的工程算法人员支持 [1] 目标客户与需求 - 目标客户为在技术研发和求职过程中遇到困难的群体 [1] - 具体需求包括解决技术卡点、代码编写与调试、简历撰写和面试准备等 [1]
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-07 10:38
具身智能技术交流群成立 - 交流群聚焦VLA、VLN、遥操作、Diffusion Policy、强化学习、VLA+RL、sim2real、多模态大模型、仿真、运动控制、目标导航、建图定位、导航等技术方向 [1] - 社群通过微信小助理AIDriver005邀请加入 [2] - 入群需备注机构/学校+姓名+研究方向以加速审核 [3]
国内首个具身大脑+小脑算法实战全栈教程
具身智能之心· 2025-08-07 10:38
具身智能概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦于感知环境 理解任务 执行动作并反馈学习的能力 [1] - 大脑模块负责语义理解和任务规划 小脑模块负责高精度运动执行 构成具身机器人核心架构 [1] 产业动态 - 2024年华为启动"全球具身智能产业创新中心" 联合乐聚机器人 大族机器人等企业共建大脑 小脑关键技术 [5] - 京东2025年起连续投资智元机器人 千寻智能 逐际动力等公司 强化物流科技与家庭服务场景能力 [5] - 腾讯 蚂蚁集团 小米通过战略投资加速构建具身智能产业生态 [5] - 国外Tesla/Figure AI聚焦工业与物流机器人 Wayve Apptronik获资本支持推进自动驾驶与仓储机器人应用 [5] 技术演进路径 - **第一阶段**:抓取位姿检测技术依赖单步决策 缺乏任务上下文建模能力 [6] - **第二阶段**:行为克隆技术通过专家数据实现端到端映射 但存在泛化能力弱 误差累积缺陷 [6] - **第三阶段**:2023年Diffusion Policy采用扩散模型生成动作轨迹 提升策略稳定性与泛化能力 [6] - **第四阶段**:2024年VLA模型融合视觉 语言与动作模块 支持零样本快速泛化 实现"感知+推理+行动"范式跃迁 [7] - 2025年技术探索聚焦VLA与强化学习 世界模型 触觉感知的融合 突破环境预测与多模态感知边界 [8] 商业化应用 - 技术演进推动人形机器人 机械臂 四足机器人在工业 家居 餐饮 医疗康复领域落地 [9] - 行业岗位呈现爆发式增长 吸引大量跨领域人才转入具身智能研究 [9] 工程化挑战 - 产业界需求推动从论文向部署转型 对Mujoco IsaacGym Pybullet等仿真平台训练能力要求提升 [13] - 需解决Diffusion Policy/VLA模型训练部署 强化学习反馈微调 世界建模一体化架构等工程难题 [13] 人才能力需求 - 从业者需掌握Python/Pytorch基础 具备3090ti及以上算力设备 [17] - 核心技能覆盖仿真环境搭建 模型训练优化 触觉信息融合 世界模型应用等全栈能力 [17]
谷歌“世界模拟器”深夜上线!一句话生成3D世界,支持分钟级超长记忆
具身智能之心· 2025-08-07 08:03
谷歌DeepMind Genie 3技术突破 - 新一代通用世界模型Genie 3支持720P画质、每秒24帧实时导航及分钟级一致性保持,性能显著优于Genie 2的360P画质和非实时交互 [3][4][12] - 生成内容具备3D空间一致性,可逐帧创建动态丰富的世界,支持长达57秒的连续场景生成 [5][13] - 能够模拟物理特性(如水面效果)和复杂环境相互作用,并可构建虚拟场景(如童话世界、魔法森林) [14][16][18][20][21] 技术对比与优势 - 横向对比显示Genie 3在分辨率(720P)、交互时长(分钟级)、控制方式(支持文本提示事件)上超越GameNGen、Genie 2等同类模型 [13] - 长期环境一致性表现突出:物体在几分钟内保持物理一致性,视觉记忆可追溯至一分钟前(如雅典建筑场景中树木的一致性) [25][26][28][29] - 支持基于文本提示动态生成事件(如草原背景中替换拖拉机为棕熊,或伦敦河畔添加恐龙) [31][33] 应用与行业影响 - 推动具身智能体研究:与SIMA智能体兼容,可模拟未来事件以支持复杂目标训练(如面包店、农贸市场场景交互) [35][37][38][39][41] - 被行业评价为“通往AGI的关键拼图”,潜在应用包括开放式学习、机器人技术及虚拟环境开发 [9][44] - 目前以研究预览形式开放测试,主要面向专业研究者和创作者 [11] (注:社群推广、论文辅导等非技术内容已按规则跳过)
这个2000人的具身社区,帮助大家解决了各种各样的难题!
具身智能之心· 2025-08-07 08:03
具身智能社区核心价值 - 提供具身智能全栈技术交流平台,覆盖产业、学术、求职等多领域闭环 [3] - 解决实际问题如机器人调试、数据采集、VA/VLA模型部署等痛点 [1][3] - 汇聚30+技术路线与60+数据集,缩短检索时间 [5][17] 社区资源体系 学术与产业资源 - 链接斯坦福、清华等高校及优必选、小米等40+头部企业资源 [17] - 汇总40+开源项目、60+数据集及主流仿真平台 [17][31][39] - 梳理30家具身机器人公司研报与零部件品牌 [22][24][29] 技术学习路线 - 提供20+专项学习路径,包括强化学习、VLA、Diffusion Policy等 [17][41][61] - 覆盖感知、交互、导航等方向,如触觉感知路线提升3D视觉能力 [45][51] - 整合多模态大模型理解与生成技术,涵盖Image/Video/Audio+Text应用 [53][55] 职业发展支持 - 建立企业内推机制,直通智元机器人等头部公司岗位 [11][18] - 针对SLAM/自动驾驶从业者提供转岗具身智能的技术过渡方案 [81][83] - 汇总国内外高校实验室信息,助力升学与科研规划 [19][21] 行业前沿动态 - 定期举办圆桌论坛与直播,解析本体、算法等最新进展 [5][77] - 跟踪VLA+RL、sim2real等热点技术落地案例 [43][67] - 分析具身智能发展阶段,对标自动驾驶2017-2018年窗口期 [83] 典型用户案例 - 自动驾驶工程师转型视觉语言导航,衔接DL与Transformer技术栈 [81] - SLAM从业者通过强化学习路线切入人形机器人高薪岗位 [82][83] - 学生利用Isaac Sim仿真环境快速构建具身项目经验 [80]
XRoboToolkit:延迟低、可扩展、质量高的数据采集框架
具身智能之心· 2025-08-07 08:03
核心背景与目标 - 视觉-语言-动作模型(VLAs)快速发展,对大规模、高质量机器人演示数据集需求迫切 [3] - 现有遥操作方案存在可扩展性有限、设置复杂、数据质量欠佳等问题 [3] - XRoboToolkit基于OpenXR标准,通过低延迟立体视觉反馈、优化逆运动学算法及模块化架构解决现有局限 [3] 现有遥操作方案的局限 - Leader-follower方案:延迟低但依赖定制硬件,可扩展性受限 [5] - 视觉基遥操作系统:硬件兼容性强但跟踪性能不稳定、延迟高 [5] - XR方案:跨平台通用但配置复杂,缺乏标准化数据格式,新设备集成工作量大 [5] XRoboToolkit的核心设计 整体架构 - 三层结构:XR端(Unity-Client)、服务端(PC-Service)、机器人端(模块化接口) [4] - 支持多种机器人平台(UR5、ARX R5机械臂等)和模拟器(MuJoCo) [5] 数据流式传输 - 异步回调驱动架构实现实时数据传输 [7] - 数据格式:6自由度位姿数据以7个浮点数表示,90Hz频率传输,封装为JSON对象 [9] - 跟踪数据类型涵盖头、控制器、手、全身及运动跟踪器,具体字段见Table 1 [7][9] 机器人控制模块 - 逆运动学求解:基于二次规划(QP)的IK solver,优化目标函数生成平滑运动 [8] - 灵巧手重定向:将OpenXR手模型26个关节点映射到机器人手关节,优化函数实现平滑运动 [10] - 移动基座控制:XR控制器摇杆实现全向移动平台控制,左摇杆线速度,右摇杆角速度 [10] XR Unity应用与立体视觉反馈 - 应用界面包含5个面板(Network、Tracking、Remote Vision等),支持PICO 4 Ultra和Meta Quest 3 [16] - 立体视觉支持PICO 4 Ultra和ZED Mini,自定义着色器调整瞳距,优化深度感知 [16] 应用场景与验证 多平台适配 - 双臂系统完成地毯折叠,移动操纵器完成运输放置 [16] - 双UR5机械臂实现3mm螺丝刀插入4mm孔(公差±0.5mm) [16] - 冗余机械臂控制通过肘部运动跟踪器引入约束,实现类人化运动 [16] 性能评估 - 延迟对比:XRoboToolkit(ZED Mini-PICO 4 Ultra)平均延迟82ms,显著低于Open-TeleVision的121.5ms [11] - PICO 4 Ultra自传输配置延迟100.5ms,稳定性最优(标准差3.12ms) [11] - 数据质量验证:ARX R5双臂折叠地毯数据微调模型后,30分钟连续运行成功率100% [13]
成功率提高57%,VLA+RL最新!CO-RFT:实现VLA模型的高效微调(北航&清华等)
具身智能之心· 2025-08-07 08:03
核心观点 - VLA模型在现实世界机器人控制中展现出巨大潜力 但传统监督微调方法面临样本效率低和泛化能力差的问题[4] - 提出分块强化学习框架(Chunked RL)和CO-RFT算法 通过结合动作分块的离线强化学习显著提升模型性能[8] - CO-RFT采用两阶段训练 先通过模仿学习初始化网络 再用离线RL优化策略 在6个任务中平均成功率提升57% 周期时间减少22 3%[29][30] - 该方法展现出强大位置泛化能力 在未见过的位置上达到44 3%成功率 显著优于传统方法[30] 技术框架 - 分块强化学习框架扩展了时间差分学习 采用自注意力和因果掩码设计 仅需一个网络即可学习所有Q值[13][15] - CO-RFT算法第一阶段通过全参数微调进行模仿学习 第二阶段实施带动作分块的离线RL优化[16] - 采用CalQL作为基础算法 其保守正则化器可防止Q值高估 并解决稀疏奖励问题[16][18] - 模型架构基于RoboVLMs 使用Kosmos2作为VLM主干 并采用TD3算法生成确定性动作[18] 实验结果 - 在6个灵巧操作任务评估中 CO-RFT在4个任务达到近100%成功率 显著优于SFT方法[29] - 抓取消毒剂和取回马克杯等困难任务中 CO-RFT分别实现36%和30%成功率 展示处理复杂场景能力[29] - 数据多样性对性能影响显著 随机初始化数据集训练的模型OOD性能仅下降10-15% 而固定初始化下降55 3%[32][33] - 奖励上采样策略有效缓解稀疏奖励问题 提升价值学习效率[18] 应用价值 - 该方法使用30-60个样本即可有效微调 大幅降低数据需求 提升样本效率[4][29] - 在Realman单臂平台和Inspire灵巧手上验证 展示实际机器人应用潜力[23] - 解决VLA模型在现实场景部署的关键挑战 包括样本效率 训练稳定性和泛化能力[8][30] - 为具身智能领域提供新思路 结合离线RL和动作分块技术突破性能瓶颈[34]
VLA和VLN技术交流群来啦!
具身智能之心· 2025-08-06 16:30
社群信息 - 具身智能之心建立多个VLA和VLN技术交流群 旨在促进学术界和工业界相关领域的讨论 [1] - 社群聚焦VLA和VLN技术发展动态及产品落地情况 涵盖学术研究与产业应用方向 [1] - 加入社群需通过微信小助理AIDriver005 备注格式为VLA/VLN+昵称+加群 [2]
具身智能之心招募科研辅导老师了!学术圈的大佬看过来~
具身智能之心· 2025-08-06 16:30
招募科研辅导老师 - 具身智能方向招募科研辅导老师 旨在带动学术界发展 [1] - 研究方向包括VLA VLN 遥操作 Diffusion Policy 强化学习 VLA+RL sim2real 多模态大模型 仿真 运动控制 目标导航等 [2] - 要求博士及以上学历 包含在读 需有2篇A会或一区以上期刊/会议 有辅导经验者优先 [3] - 提供行业资源共享 论文署名与现金激励 [4]