具身智能之心
搜索文档
小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)
具身智能之心· 2025-07-01 20:07
职位描述 - 公司正在招聘研究员/科学家加入前沿探索团队,致力于构建下一代自动驾驶与机器人的"大脑",重点研究具身基座模型 (Embodied Foundation Model) [1] - 该模型将深度融合视觉-语言-行动 (VLA) 能力,并具备卓越的空间感知与空间推理能力 [1] 核心职责 - 前沿算法研究与构建:设计和实现领先的具身多模态大模型,探索构建能够理解复杂三维世界并进行长时序、多步骤任务规划的世界模型 (World Model) [2] - 核心模型能力攻关:主导模型在多模态场景理解、复杂语义推理与决策、学习与适应机制等方面的突破 [3] - 技术愿景与路线图:构建可泛化、高效率的具身智能基座模型,为未来1-3年的技术演进提供核心支撑,并探索其在自动驾驶和通用机器人领域的统一应用潜力 [3] - 学术影响力与合作:与全球顶尖高校及研究机构合作,探索表征学习、因果推理、世界模型等长期议题,在顶级会议上发表高水平论文 [3] 职位要求 - 教育与研究背景:计算机科学、人工智能、机器人学、自动驾驶或相关领域的博士学位,或具备同等深度的研究经验 [4] - 核心研究经验:在多模态大模型、自动驾驶与具身智能、强化学习等领域有深入的研究和实践经验 [5] - 三维视觉与空间智能:具备扎实的3D计算机视觉、几何学和空间推理能力,熟悉NeRF, 3D Gaussian Splatting等技术 [6] - 理论与编程能力:在顶级会议上发表过高质量论文,具备跨学科视野,能够融会贯通大模型、自然语言处理、计算机视觉、强化学习与机器人学知识 [7] 加分项 - 拥有坚实的机器学习和深度学习理论基础,精通Python及主流深度学习框架 [10] - 具备世界模型研究经验、大规模预训练经验、机器人平台经验或开源社区贡献 [11] 工作地点 - 工作地点以北京为主,少量上海职位 [9] - 简历投递至指定邮箱,需备注社招/校招+姓名+岗位+自动驾驶之心推荐 [9]
3天搞定机械臂上的VLA完整部署:算法&项目实践
具身智能之心· 2025-07-01 20:07
具身智能与机械臂行业趋势 - 2025年政府工作报告首次将"具身智能"写入政策文件 显示该领域已成为国家战略方向[1] - 机械臂作为具身智能落地的核心载体 在工业 医疗 服务等领域应用广泛[1] 行业技术痛点 - 算法从仿真环境部署到硬件存在两大核心障碍:工程实践能力不足 以及 对机械臂操作与抓取方法掌握不系统[2] - 当前VLA算法在机械臂上的部署效果不佳 阻碍了具身智能的实际场景应用[2] 产学研合作项目 - 深蓝学院联合华为天才少年秦通与松灵机器人推出具身智能线下实训营 聚焦机械臂操作与抓取技术[3] - 课程提供真实机械臂实操机会 覆盖运动规划 视觉反馈 模仿学习 VLA等关键技术[5] - 实训项目包括RViz模型与真机1:1映射 以及机器视觉引导的自适应抓取等实战内容[5] 课程技术亮点 - 实现全栈技术闭环 涵盖算法到硬件的工程化能力培养[16] - 采用松灵硬件平台支撑沉浸式项目实操 每组配备1-2条机械臂[9][16] - 结合产学研资源 由VINS作者秦通等顶尖学者提供技术指导[7][16] 目标受众 - 机器人与自动化专业在校学生[18] - 机械臂和具身智能领域研发工程师[18] - 工业自动化与智能制造工程师[18]
从感知能力提升到轻量化落地,具身这条路还要走很长一段时间~
具身智能之心· 2025-06-30 20:21
具身智能技术发展趋势 - 感知能力升级与多模态融合成为技术发展重点 触觉感知特别是灵巧手领域的力控技术显著提升操作精细度及反馈能力 多模态传感器融合技术实现视觉、听觉、触觉信息的硬件与算法深度整合 [1] - 大模型驱动认知能力突破 基于多模态数据提升人形机器人感知与自主学习能力 轻量化模型设计成为行业落地关键需求 需低算力、跨平台的多模态模型支撑 [1] - 仿真环境与数据生态加速训练效率 通过物理世界规律建模实现运动、形变、环境变化的模拟仿真 sim2real技术推动虚拟与现实环境对齐 大规模仿真数据应用于真实场景是当前研究难点 [1] 行业技术资源体系 - 全栈技术社区覆盖40+开源项目与60+数据集 包含强化学习、视觉语言导航、多模态大模型、机械臂策略等16个技术路线 整合主流仿真平台与学习路径 [6] - 数据生态支持本体多样化 双足、轮式、轮足复合等形态数据需抽象共同特征 关节与执行器数据标准化是技术突破基础 [2] 产业应用与研究方向 - 国内外200+头部机构参与生态 涵盖斯坦福、清华等高校及优必选、小米等企业 涉及教育、医疗、物流等8大应用领域 [6][12] - 前沿技术应用场景明确 包括VLM在机器人抓取规划、分层决策优化、Diffusion Policy生成等20+细分方向 [7][44] 行业知识库建设 - 研报与文献覆盖大模型、人形机器人等热点 汇总30+企业研报及机器人动力学、视觉控制等专业书籍 [14][16] - 零部件供应链体系完善 整合芯片、激光雷达、ToF相机等核心部件厂商技术手册与产品数据 [18][22] 人才发展与技术交流 - 提供高校实验室与公司岗位双通道 汇总国内外知名研究机构方向 同步头部企业招聘需求 [9][11] - 实时技术问题讨论平台 涉及仿真平台选型、模仿学习方法、研报获取等实操性议题 [7][58]
当无人机遇到AI智能体:多领域自主空中智能和无人机智能体综述
具身智能之心· 2025-06-30 20:17
研究背景与动机 - 无人机从遥控平台发展为自主智能体系统,受AI特别是认知架构推动[6] - Agentic AI的出现标志着无人机设计根本性转变,使其具备自主性、目标导向和情境感知能力[6] - 农业、物流、环境监测等领域对无人机自主性需求日益增长,操作环境日趋动态化[6] 核心定义与架构 - Agentic UAVs定义为具有认知能力、情境适应性和目标导向行为的新型自主空中系统[11] - 核心架构包含感知层(多模态传感器)、认知层(推理与规划)、控制层(飞行执行)、通信层(交互协同)[12] - 相比传统无人机,Agentic UAVs在自主性水平(Level 4-5)、决策架构(RL-based)和系统集成方面有显著差异[9] 关键技术推动因素 - 边缘AI模块(NVIDIA Jetson等)支持实时深度学习推理[14] - 多模态传感器融合(RGB/热成像/LiDAR)实现环境联合观测[14] - 视觉-语言模型(VLMs)使无人机能理解执行自然语言指令[14] 主要应用领域 精准农业 - 作物健康监测:通过NDVI/EVI指数动态调整飞行路径[17] - 精准喷洒:AI驱动目标识别优化滴液大小与路径[17] - 自主播种:地形分析动态调整轨迹适应复杂田地[17] 灾难响应 - 幸存者检测:热成像+运动跟踪生成概率热图[21] - 群体协调:V2V通信实现去中心化覆盖与冗余[21] - 野火监测:多光谱相机动态跟踪火势蔓延[21] 城市基础设施检查 - 桥梁检查:SLAM+深度学习缺陷分类生成3D语义地图[27] - 道路监测:卷积网络检测坑洼裂缝[27] - 自动报告:结构化输出符合工程标准[27] 物流配送 - 最后一公里配送:多模态感知实现GPS拒止环境导航[28] - 自适应投放:实例分割识别合适着陆点[31] - 群体协调:V2V通信优化能耗与任务分配[31] 技术挑战 - 电池寿命:机载AI推理使飞行时间降至20-45分钟[45] - 传感器集成:多模态感知增加重量与功耗[45] - 实时导航:GPS拒止环境下VIO/SLAM易受环境噪声影响[47] 未来发展方向 - VTOL平台结合旋翼机敏捷性与固定翼耐力[55] - 联邦学习实现跨异构环境模型共享[58] - 数字孪生技术支持预测性维护与场景测试[70]
WorldVLA:世界模型实现视觉-动作双向增强,抓取精度显著提升
具身智能之心· 2025-06-30 20:17
WorldVLA功能与定义 - WorldVLA是一种将视觉-语言-动作(VLA)模型与世界模型结合的自回归动作世界模型,通过集成动作与图像理解和生成实现双向增强 [3] - 模型采用注意力掩码策略解决自回归动作生成中的误差传播问题,在动作块生成任务中抓取成功率提升4%-23% [3][7] - 实验显示WorldVLA抓取成功率比独立动作模型高4%,视频生成能力优于普通世界模型,Fréchet视频距离(FVD)降低10% [7] VLA模型与行业背景 - 当前VLA模型依赖多模态大语言模型(MLLM)但缺乏对动作的深度集成分析,世界模型虽能预测未来状态但无法直接生成动作 [5] - WorldVLA通过统一tokenizer架构实现跨模态理解,图像tokenizer压缩比16,codebook大小8192,256×256图像生成256个token [6][14] - 动作tokenizer将连续动作离散化为7个token(3位置+3角度+1抓取状态),文本tokenizer词汇量65,536含8192图像token [14] 技术架构与训练策略 - 模型基于Chameleon架构初始化,混合动作模型数据(交叉熵损失)和世界模型数据(α=0.04平衡损失)进行联合训练 [11][15][20] - 动作模型输入含2帧历史图像,输出K个动作;世界模型输入当前帧和动作,输出下一帧预测 [16][17] - 注意力掩码机制使动作生成仅依赖视觉输入而非历史动作,避免误差累积 [18][19] 实验验证与性能表现 - 在LIBERO基准测试中,512×512分辨率WorldVLA平均抓取成功率81.8%,优于OpenVLA(76.5%)等离散动作模型 [27] - 消融实验显示集成世界模型使动作模型平均成功率从62.8%提升至78.1%,长序列任务提升显著(52.4% vs 23%) [29] - 世界模型预训练使50帧视频生成的PSNR从23.98提升至24.30,LPIPS从15.60降至15.44 [35] 创新贡献与应用潜力 - 首次提出统一动作与图像理解/生成的自回归框架,实现动作模型与世界模型的双向性能增强 [8] - 动作注意力掩码策略突破自回归模型在长动作序列生成中的局限性,为机器人连续操作提供新方案 [7][31] - 高分辨率输入(512×512)显著提升性能,验证视觉细节对机器人操作精度的关键影响 [26][27]
UCLA提出PEVA:具身Agents的世界模型时代
具身智能之心· 2025-06-30 11:47
背景与动机 - 具身智能体面临理解物理动作与视觉感知关系的根本挑战,人类通过全身动作主动改变第一人称视角的视觉输入,这对环境交互和长期规划至关重要 [3] - 现有世界模型(如基于速度控制的导航模型)存在显著局限,阻碍智能体在真实场景中的物理交互能力 [3] - 研究提出PEVA模型,首次将全身3D姿态作为条件信号预测第一人称视频,为具身智能提供物理基础更扎实的仿真环境 [3] 核心创新点 结构化全身动作表征 - 将动作定义为48维向量,融合全局身体运动(骨盆位移)与局部关节旋转(15个上半身关节的欧拉角变化),通过运动学树结构保留层次关系 [4] - 区别于二维导航控制,该表征在运动自由度上提升24倍,支持从步行到抓取的精细控制 [9] - 动作定义为相邻帧间的位姿变化量,直接关联物理运动与视觉结果 [9] 条件扩散Transformer架构创新 - 轻量级动作嵌入:直接拼接动作向量输入AdaLN层,在保持性能的同时降低计算负载 [8] - 随机时间跳跃:训练时随机采样间隔帧(如16帧覆盖32秒视频),将时间间隔作为附加条件,解决长时动作建模的计算效率问题 [10] - 序列级训练:采用自回归扩散损失,通过前缀序列并行训练保持时序连贯性,克服单帧预测的碎片化问题 [10] 分层评估协议 - 提出四级评测框架:长时预测(16秒视频连贯性分析)、单帧预测(2秒间隔的感知质量与语义一致性)、原子动作解构(关节级控制精度)、规划能力(反事实模拟选择最优动作序列) [11][12] 方法实现 模型架构与训练 - 输入编码:视频帧通过VAE编码器压缩为潜变量,动作向量按Xsens骨架标准化拼接 [16] - 扩散过程:基于DDPM框架,定义状态转移,损失函数融合简化损失与变分下界 [17][20] - 推理优化:自回归滚动物理动作序列,通过交叉熵法优化动作候选,注意力掩码限制跨帧交互提升推理效率 [20] 关键结果 全面超越基线 - PEVA在LPIPS(0.303)、DreamSim(0.193)、FID(62.29)上优于CDiT与Diffusion Forcing [19] - 长时预测中FID增长最缓,证明时序一致性优势 [19] 原子动作控制 - 手部运动预测误差比导航任务低15%(如右手下移DreamSim 0.248 vs. 前移0.329) [22] - 旋转动作预测仍是挑战(左转DreamSim 0.269),反映全局位姿建模难度 [22] 消融实验 - 上下文窗口从3帧增至15帧,DreamSim提升3%(0.199→0.193) [25] - 动作直接拼接比嵌入层更有效(DreamSim 0.193 vs. 0.202) [25] 规划应用 - 通过反事实模拟筛选动作序列,如排除走向水槽/户外的动作,选择打开冰箱的序列 [26] - 当前规划仅支持单臂12维控制,未实现全身协调 [26] 局限与展望 - 场景约束:依赖静态环境假设,动态物体交互未建模 [27] - 规划简化:仅基于图像相似度的开环优化,未整合高层语义目标 [27] - 计算开销:CDiT-XXL模型训练成本高,实时应用受限 [27] - 未来方向:结合物体中心表征提升交互真实性,探索闭环控制与多智能体协作 [27]
具身智能入门必备的技术栈:从零基础到强化学习与Sim2Real
具身智能之心· 2025-06-30 11:47
具身智能技术发展 - 具身智能正在全面崛起,重新定义人类与机器的关系,从理解语言指令到在复杂环境中灵活移动和精确操作物体[1] - 全球顶尖科技公司如Tesla、Boston Dynamics、OpenAI、Google等都在竞相布局具身智能领域[1] - 具身智能将彻底改变制造业、服务业、医疗健康、太空探索等多个行业[1] MuJoCo技术优势 - MuJoCo是连接虚拟世界与现实世界的重要桥梁,为机器人学习提供高保真、高效率的训练环境[4] - MuJoCo能够加速学习过程,仿真速度比现实时间快数百倍,并支持极端情况下的试验而不用担心硬件损坏[6] - MuJoCo采用先进的接触动力学算法,支持高度并行化计算,提供丰富的传感器模型,并具有出色的稳定性和数值精度[6] - MuJoCo已成为学术界和工业界的标准工具,被Google、OpenAI、DeepMind等科技巨头广泛使用[7] 具身智能实战教程 - 课程系统性讲解MuJoCo技术细节,涵盖物理仿真原理、深度强化学习、机器人控制理论、Sim-to-Real迁移技术等[8] - 课程采用项目驱动学习方式,学员将构建多个机器人应用,从机械臂控制到人形机器人行走、灵巧手抓取、多智能体协作等[8] - 课程提供丰富的实践机会,使用最新工具和框架如MuJoCo、Stable Baselines3、PyTorch等[9] 课程模块与项目设计 - 课程分为六个学习模块,每周有明确的学习目标和实践项目[10] - 六个实战项目包括智能机械臂控制系统、视觉引导的抓取系统、强化学习驱动的运动技能、模型预测控制、多机器人协作系统、Sim-to-Real迁移验证[11][14][16][18][20][21][23] - 每个项目配有详细的中文指导文档、参考代码、调试技巧和扩展建议,来自中国机器人企业的实际应用场景[24] 学后收获与职业发展 - 学员将掌握MuJoCo各项功能、强化学习核心算法、机器人控制理论与实践、Sim-to-Real迁移技术[27] - 学员将具备完整的项目开发经验,熟悉现代AI开发工具链,培养良好的工程习惯[28] - 职业发展方向包括技术专家(机器人算法工程师、AI研究工程师、仿真技术专家)和产品经理路径,年薪可达30-150万[30] 课程安排 - 开课时间为2025年7月15日,每周更新一章,6周结课,采用离线视频教学和VIP群内答疑[32]
港科大 | LiDAR端到端四足机器人全向避障系统 (宇树G1/Go2+PPO)
具身智能之心· 2025-06-29 17:51
核心观点 - 香港科技大学团队提出Omni-Perception框架,通过直接处理原始LiDAR点云数据,实现四足机器人全向避障能力,解决了传统方法在复杂三维环境中的局限性 [2][4] - 该框架结合PD-RiskNet感知网络、高保真LiDAR仿真工具和风险感知强化学习策略,形成端到端的闭环控制系统 [4][5] - 在动态障碍、空中障碍等复杂场景中表现优于传统方法,成功率显著提升 [24][27] 技术架构 Omni-Perception框架组成 - **PD-RiskNet感知网络**:分层处理近场和远场点云,近场采用最远点采样(FPS)和GRU提取局部动态特征,远场通过平均下采样和GRU捕捉全局路径特征 [8][18] - **高保真LiDAR仿真工具**:支持4096个并行环境,渲染速度比Isaac Sim提升300%,并模拟噪声和自遮挡效应 [19][21] - **风险感知强化学习策略**:将避障任务建模为马尔可夫决策过程,直接输出关节控制信号,跳过运动学逆解 [9][11] 强化学习设计 - **状态空间**:包含本体状态(关节位置、速度)、外感知状态(10帧LiDAR历史点云)和任务指令(目标速度) [10] - **奖励函数**:结合避障速度追踪奖励(36个扇区障碍检测)和距离最大化奖励(LiDAR射线优化),辅以稳定性惩罚项 [12][13][14] - **训练参数**:PPO算法,4096个并行环境,学习率1e-3,折扣因子γ=0.99 [19] 性能优势 计算效率 - 相比传统SLAM+规划流水线,减少中间处理环节,计算开销更低 [7] - LiDAR仿真工具在4096环境、32k射线场景下无内存溢出,速度达Isaac Sim的5-10倍 [21][22] 场景适应性 - **动态障碍**:成功率76.7%,碰撞率56.7%,显著优于FPS+MLP(33.3%)和FPS+GRU(30.0%) [23][24] - **空中障碍**:成功率70%(传统方法0%),静态障碍成功率100% [27] - **极端场景**:密集植被中成功率60%,细长障碍(直径<1cm)需进一步优化 [28] 实现细节 PD-RiskNet网络 - **近场路径**:输入垂直角度θ>阈值的点云,输出187维特征向量,监督信号为特权高度信息 [18] - **远场路径**:输入θ<阈值的点云,输出64维特征向量,关注全局路径规划 [18] - **动作网络**:4层全连接(1024→512→256→128),输出12维关节目标位置 [19] 域随机化策略 - **物理参数**:附加质量-1.0kg至5.0kg,质心位置偏移±0.2m,电机强度缩放0.8-1.2倍 [20] - **环境参数**:地面摩擦系数0.4-1.0,重力偏移±1.0m/s²,LiDAR噪声率10% [20] 验证结果 - **真实数据对比**:仿真复现了LiDAR非重复扫描模式和自遮挡效应,几何结构匹配度高 [21] - **多场景测试**:在动态障碍场景中,传统高程图方法成功率0%,而Omni-Perception有效应对 [24][27]
下半年CCF-A/B类会议窗口期收窄,发一篇具身论文还来得及吗?
具身智能之心· 2025-06-29 17:51
下半年CCF会议投稿机会 - 错过上半年顶级会议投稿窗口可能导致研究成果发布延迟和错失学术交流机会 下半年CCF会议提供了关键替代渠道[1] - 高效利用投稿机会面临核心挑战 包括时间压力下确保论文质量 选题新颖性 实验严谨性 写作规范性和投稿策略匹配度[1] - 提供1v1指导课程帮助解决上述挑战 通过资深导师介入论文撰写与修改过程 提供个性化解决方案以提升论文竞争力[1] 论文辅导面向的痛点人群 - 计算机专业本硕博学生面临导师放养 缺乏科研指导[4] - 有科研需求需积累经验提升职称或学术成就的人群[4] - 人工智能领域从业者希望通过科研提升职场竞争力[4] - 考研申博留学需提升简历含金量的群体[4] 论文辅导解决的问题 - 解决导师放养导致的科研指导缺失问题[3] - 帮助建立科研思维和系统知识体系[3] - 掌握经典与前沿算法 形成清晰知识框架[3] - 实现模型理论与代码实践结合 提升实践能力[3] - 将baseline深化拓展形成个人论文成果[3] 论文辅导阶段与交付成果 - 选题阶段:导师引导构思或直接提供论文idea[5] - 实验阶段:全程指导实验设计 模型搭建 调参和idea验证[7] - 写作阶段:指导完成高质量论文写作 符合审稿人要求[9] - 投稿阶段:推荐合适期刊 提供精准投稿建议[14] - 录用阶段:确保论文在周期内完成录用[15] 辅导过程具体内容 - 选题阶段:梳理研究成果 提供文献 指导创新点构思[11] - 实验阶段:完成实验设计 数据处理 代码实现和结果分析[12] - 写作阶段:剖析优秀案例 搭建论文框架 润色论文内容[13] - 投稿阶段:筛选期刊会议 指导回复审稿意见[17] 课程服务与支持 - 腾讯会议在线1v1上课 微信群日常答疑[18] - 班主任全程督学跟进学习进度[16] - 私人群提供与主讲导师直接沟通渠道[24] - 线上语音会议结合文字/语音答疑[24] 课程交付成果 - 产出一篇目标区位的高质量论文[19] - 掌握完整科研流程和论文写作技巧[19] - 提升科研能力和专业素养[19] - 获得投稿选刊技巧和前沿技术认知[23] 课程指导周期 - 总周期=核心指导期+维护期 根据论文区位3-18个月不等[22] - CCF A/SCI 1区:核心36次课+9个月维护[22] - CCF B/SCI 2区:核心28次课+6个月维护[22] - CCF C/SCI 3区:核心28次课+6个月维护[22] - EI期刊/会议:核心24次课无维护期[22] - 硕士论文周期以学员需求为准[26] 课程特色亮点 - 主讲导师为顶会审稿人 提供全方位指导[24] - 每周1次45分钟1v1会议指导课[25] - 维护期通过微信群进行审稿意见答疑[25] - 提供基础课程供学员自主学习[28] - 专属沟通群配备导师和班主任答疑[28]