具身智能之心 - 财报，业绩电话会，研报，新闻 - Reportify

具身智能之心

搜索文档

小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)

具身智能之心· 2025-07-01 20:07

核心职责包括前沿算法研究与构建：负责设计和实现领先的具身多模态大模型。您的研究将不仅限于现有的VLA框架，更将探索如何构建能够理解复杂三维世界、并进行长时序、多步骤任务规划的世界模型 (World Model)。核心模型能力攻关：主导模型在以下关键能力上的突破：多模态场景理解：融合视觉、语言、雷达等多源信息，实现对动态、开放环境的深刻理解和空间感知。职位描述我们正在寻找一位杰出的研究员/科学家，加入我们的前沿探索团队，共同定义和构建下一代自动驾驶与机器人的"大脑"。您将致力于突破性的具身基座模型 (Embodied Foundation Model) 的研究，该模型将深度融合视觉-语言-行动 (VLA) 能力，并具备卓越的空间感知与空间推理能力。复杂语义推理与决策：让模型能够理解模糊、抽象的人类指令，并结合对物理世界的空间推理，生成安全、合理、可解释的行动序列。学习与适应机制：深入研究强化学习 (RL)、模仿学习 (IL) 及自监督学习方法，使模型能从海量数据和与环境的交互中持续学习和进化。技术愿景与路线图：主导构建可泛化、高效率的具身智能基座模型，为未来1-3年的技术演进提供核心支 ...

小米集团(HK:01810)

多模态大模型

多模态大模型

3天搞定机械臂上的VLA完整部署：算法&项目实践

具身智能之心· 2025-07-01 20:07

2025年政府工作报告中首次将" 具身智能 "写入，它成为了当下企业与院校竞相研究的热点。而机械臂作为具身智能落地的核心载体，在工业、医疗、服务等领域应用广泛。许多研究者和工程师往往会在将算法从仿真环境部署到硬件本体时，经常面临诸多卡点。核心主要有2个方面的原因： 1.工程实践能力不足，难以将理论算法有效转化为实际可运行的硬件操作； 2.对机械臂操作与抓取的经典方法、模仿学习方法和端到端VLA方法掌握不透彻；这使得他们在实际部署时，难以有效整合这些方法的优势，导致VLA算法在机械臂上的部署和运行效果不佳，阻碍了具身智能在实际场景中的应用。（遥操作数据驱动的模仿学习实战）因此，深蓝学院联合首批华为天才少年， VINS作者，上海交通大学副教授秦通老师与知名机器人技术平台型企业松灵机器人，共同开设了「具身智能线下实训营：机械臂操作与抓取」。仅剩 9个学习名额扫码抢占，咨询详情实训营不仅提供真实机械臂的实操机会，还会结合行业最新技术趋势，全面讲解运动规划、视觉反馈、模仿学习、VLA 等关键技术，贯穿 "感知 - 决策 - 控制" 全流程，通过线下理 ...

从感知能力提升到轻量化落地，具身这条路还要走很长一段时间~

具身智能之心· 2025-06-30 20:21

技术驱动与应用牵引的双重作用下，2025年具身智能产业呈现爆发式的增长，这些趋势不仅塑造着行业的技术路线，也深刻影响着商业化落地的路径与节奏。这里也为大家盘一下这两年具身重点关注的技术领域。感知能力升级与多模态融合是具身技术路线发展的重要一环，在视觉感知之外，触觉感知则是这两年发力的重点，特别是灵巧手领域，力控能大幅提升操作的精细度及结果反馈能力。多模态传感器融合技术使机器人能够同时处理视觉、听觉、触觉等多种信息，这种融合不仅体现在硬件层面，更在于算法层面的深度整合。大幅提升了环境感知的准确性和全面性。大模型驱动的大脑算法正在不断地提升机器人对世界的经验认知与理解。特别是在人形机器人领域，大模型基于多模态数据提升机器人的感知能力，推动机器人的自主学习、决策规划能力，并结合动作训练、行为交互训练，有望提升动作的泛化能力。同时，轻量化的模型设计也成为行业落地的迫切需求，我们更需要低算力、多模态、跨平台的轻量化模型作为支撑！同时，仿真环境与数据生态建设也极为重要！仿真环境与世界模型的持续完善为具身智能提供了高效的训练平台。基于对物理世界的规律认知经验，利用仿真平台进行物体运动、形变，环境的光 ...

仿真环境与数据生态建设

多模态融合

人形机器人

仿真环境与数据生态建设

多模态融合

人形机器人

WorldVLA：世界模型实现视觉-动作双向增强，抓取精度显著提升

具身智能之心· 2025-06-30 20:17

WorldVLA功能与定义 - WorldVLA是一种将视觉-语言-动作（VLA）模型与世界模型结合的自回归动作世界模型，通过集成动作与图像理解和生成实现双向增强 [3] - 模型采用注意力掩码策略解决自回归动作生成中的误差传播问题，在动作块生成任务中抓取成功率提升4%-23% [3][7] - 实验显示WorldVLA抓取成功率比独立动作模型高4%，视频生成能力优于普通世界模型，Fréchet视频距离（FVD）降低10% [7] VLA模型与行业背景 - 当前VLA模型依赖多模态大语言模型（MLLM）但缺乏对动作的深度集成分析，世界模型虽能预测未来状态但无法直接生成动作 [5] - WorldVLA通过统一tokenizer架构实现跨模态理解，图像tokenizer压缩比16，codebook大小8192，256×256图像生成256个token [6][14] - 动作tokenizer将连续动作离散化为7个token（3位置+3角度+1抓取状态），文本tokenizer词汇量65,536含8192图像token [14] 技术架构与训练策略 - 模型基于Chameleon架构初始化，混合动作模型数据（交叉熵损失）和世界模型数据（α=0.04平衡损失）进行联合训练 [11][15][20] - 动作模型输入含2帧历史图像，输出K个动作；世界模型输入当前帧和动作，输出下一帧预测 [16][17] - 注意力掩码机制使动作生成仅依赖视觉输入而非历史动作，避免误差累积 [18][19] 实验验证与性能表现 - 在LIBERO基准测试中，512×512分辨率WorldVLA平均抓取成功率81.8%，优于OpenVLA（76.5%）等离散动作模型 [27] - 消融实验显示集成世界模型使动作模型平均成功率从62.8%提升至78.1%，长序列任务提升显著（52.4% vs 23%） [29] - 世界模型预训练使50帧视频生成的PSNR从23.98提升至24.30，LPIPS从15.60降至15.44 [35] 创新贡献与应用潜力 - 首次提出统一动作与图像理解/生成的自回归框架，实现动作模型与世界模型的双向性能增强 [8] - 动作注意力掩码策略突破自回归模型在长动作序列生成中的局限性，为机器人连续操作提供新方案 [7][31] - 高分辨率输入（512×512）显著提升性能，验证视觉细节对机器人操作精度的关键影响 [26][27]

自回归动作世界模型

自回归动作世界模型

重磅直播！CVPR冠军方案BridgeVLA，真机性能提升32%

具身智能之心· 2025-06-30 20:17

>>直播和内容获取转到 → 具身智能之心知识星球点击下方卡片，关注" 具身智能之心 "公众号 ...

UCLA提出PEVA：具身Agents的世界模型时代

具身智能之心· 2025-06-30 11:47

点击下方卡片，关注" 具身智能之心 "公众号作者丨 Yutong Bai等编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。背景与动机本篇论文探讨了具身智能体理解物理动作与视觉感知关系的根本挑战。人类通过全身动作（如转身、伸手）主动改变第一人称视角的视觉输入，这对智能体的环境交互和长期规划至关重要。现有世界模型（如基于速度控制的导航模型）存在显著局限：这些局限阻碍了智能体在真实场景中的物理交互能力。该研究提出 PEVA模型，首次将全身3D姿态作为条件信号预测第一人称视频，为具身智能提供物理基础更扎实的仿真环境。内容出自国内首个具身智能全栈学习社区：具身智能之心知识星球，欢迎和近200家公司和机构交流。核心创新点 1. 结构化全身动作表征关键突破：将动作定义为48维向量，融合全局身体运动（骨盆位移）与局部关节旋转（15个上半身关节的欧拉角变化），通过运动学树结构保留层次关系。 1. 动作表征简化：多数模型采用低 ...

具身智能入门必备的技术栈：从零基础到强化学习与Sim2Real

具身智能之心· 2025-06-30 11:47

在近20年AI发展的路线上，我们正站在⼀个前所未有的转折点。从早期的符号推理到深度学习的突破，再到如今⼤语⾔模型的惊艳表现， AI 技术的每⼀次⻜跃都在重新定义着⼈类与机器的关系。⽽如今，具身智能正在全面崛起。想象⼀下这样的场景：⼀个机器⼈不仅能够理解你的语⾔指令，还能在复杂的现实环境中灵活移动，精确操作各种物体，甚⾄在⾯对突发情况时做出智能决策。这不再是科幻电影中的幻想，⽽是正在快速成为现实的技术⾰命。从Tesla的Optimus⼈形机器⼈到Boston Dynamics的Atlas，从OpenAI的机械⼿到Google的RT-X项⽬，全球顶尖的科技公司都在竞相布局这⼀颠覆性领域。具身智能的核⼼理念在于让AI系统不仅拥有"⼤脑"，更要拥有能够感知和改变物理世界的"身体"。这种AI不再局限于虚拟的数字空间，⽽是能够真正理解物理定律、掌握运动技能、适应复杂环境。它们可以在⼯⼚中进⾏精密装配，在医院⾥协助⼿术操作，在家庭中提供贴⼼服务，在危险环境中执⾏救援任务。这种技术的潜在影响⼒是⾰命性的：它将彻底改变制造业、服务业、医疗健康、太空探索等⼏乎所有⾏业。从顶级会议ICRA 、IROS到Neu ...

Sim-to-Real迁移技术

Optimus人形机器人

Sim-to-Real迁移技术

Optimus人形机器人

下半年CCF-A/B类会议窗口期收窄，发一篇具身论文还来得及吗？

具身智能之心· 2025-06-29 17:51

面向人群课程内容解决导师放养，无人指导，不知道如何做科研的问题解决只了解零散知识，没有清晰的体系的问题帮助同学建立科研思维，熟悉科研流程帮助同学系统掌握掌握经典与前沿算法，形成清晰的体系协助同学将模型理论与代码实践相结合，提升实践能力助力同学将baseline深化拓展，形成自己的论文在读计算机专业本、硕、博，导师放养，无人指导，希望获取论文创新思路有科研需求，积累科研经验，提升职称，提高学术科研研成就从事人工智能领域相关工作，想升职加薪，提高竞争力考研申博留学，提升简历含金量 1v1科研论文指导各阶段指导内容主要包含以下内容：对自驾和具身的研究者而言，错过上半年顶级会议的投稿窗口，不仅意味着研究成果发布延迟，更可能错失重要的学术交流与合作机会。所幸，下半年的CCF提供了关键的替代和补充渠道。为帮助研究者把握发表时间，我们特别整理了下半年CCF推荐会议列表（涵盖A/B/C类），供大家参考与规划。然而，高效利用这些宝贵机会仍然存在一定难度，核心挑战在于：如何在时间压力下，确保论文质量达到高水平会议的标准？选题是否足够新颖突出？实验是否严谨充分？写作是否清晰有力、符合规范？投 ...

科研论文指导

Artificial Intelligence

AI科研论文1v1指导课程

科研论文指导

Artificial Intelligence

AI科研论文1v1指导课程

港科大 | LiDAR端到端四足机器人全向避障系统 (宇树G1/Go2+PPO)

具身智能之心· 2025-06-29 17:51

核心观点 - 香港科技大学团队提出Omni-Perception框架，通过直接处理原始LiDAR点云数据，实现四足机器人全向避障能力，解决了传统方法在复杂三维环境中的局限性 [2][4] - 该框架结合PD-RiskNet感知网络、高保真LiDAR仿真工具和风险感知强化学习策略，形成端到端的闭环控制系统 [4][5] - 在动态障碍、空中障碍等复杂场景中表现优于传统方法，成功率显著提升 [24][27] 技术架构 Omni-Perception框架组成 - **PD-RiskNet感知网络**：分层处理近场和远场点云，近场采用最远点采样（FPS）和GRU提取局部动态特征，远场通过平均下采样和GRU捕捉全局路径特征 [8][18] - **高保真LiDAR仿真工具**：支持4096个并行环境，渲染速度比Isaac Sim提升300%，并模拟噪声和自遮挡效应 [19][21] - **风险感知强化学习策略**：将避障任务建模为马尔可夫决策过程，直接输出关节控制信号，跳过运动学逆解 [9][11] 强化学习设计 - **状态空间**：包含本体状态（关节位置、速度）、外感知状态（10帧LiDAR历史点云）和任务指令（目标速度） [10] - **奖励函数**：结合避障速度追踪奖励（36个扇区障碍检测）和距离最大化奖励（LiDAR射线优化），辅以稳定性惩罚项 [12][13][14] - **训练参数**：PPO算法，4096个并行环境，学习率1e-3，折扣因子γ=0.99 [19] 性能优势计算效率 - 相比传统SLAM+规划流水线，减少中间处理环节，计算开销更低 [7] - LiDAR仿真工具在4096环境、32k射线场景下无内存溢出，速度达Isaac Sim的5-10倍 [21][22] 场景适应性 - **动态障碍**：成功率76.7%，碰撞率56.7%，显著优于FPS+MLP（33.3%）和FPS+GRU（30.0%） [23][24] - **空中障碍**：成功率70%（传统方法0%），静态障碍成功率100% [27] - **极端场景**：密集植被中成功率60%，细长障碍（直径<1cm）需进一步优化 [28] 实现细节 PD-RiskNet网络 - **近场路径**：输入垂直角度θ>阈值的点云，输出187维特征向量，监督信号为特权高度信息 [18] - **远场路径**：输入θ<阈值的点云，输出64维特征向量，关注全局路径规划 [18] - **动作网络**：4层全连接（1024→512→256→128），输出12维关节目标位置 [19] 域随机化策略 - **物理参数**：附加质量-1.0kg至5.0kg，质心位置偏移±0.2m，电机强度缩放0.8-1.2倍 [20] - **环境参数**：地面摩擦系数0.4-1.0，重力偏移±1.0m/s²，LiDAR噪声率10% [20] 验证结果 - **真实数据对比**：仿真复现了LiDAR非重复扫描模式和自遮挡效应，几何结构匹配度高 [21] - **多场景测试**：在动态障碍场景中，传统高程图方法成功率0%，而Omni-Perception有效应对 [24][27]

深度强化学习

马尔可夫决策过程

Omni - Perception 框架

Unitree G1 机器人

深度强化学习

马尔可夫决策过程

Omni - Perception 框架

Unitree G1 机器人

中科院自动化所最新综述！VLA模型后训练与类人运动学习的共性

具身智能之心· 2025-06-29 17:51

点击下方卡片，关注" 具身智能之心 "公众号作者丨 Tian-Yu Xiang等编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。想象学习走路的情景：尽管祖先的经验让一些与生俱来的能力（例如：平衡感、反应）被编码到我们的 DNA中，但要真正学会走路，仍需要在真实环境中不断练习、摔倒、再爬起。经过一段时间的训练，我们的大脑和身体会逐渐协调一致，形成与环境交互的策略。这种由通用能力到特定技能的转变过程在人类中十分常见，而如今，智能机器人也面临着类似的挑战：即便拥有强大的预训练模型作为"大脑"，在执行具体复杂任务前，仍需要经过类似于人类学习的"后训练"阶段，才能在新环境、新任务下达到理想表现。 1. 概述这项工作从人类运动技能学习的角度系统性地对总结 VLA模型（视觉-语言-动作模型）的后训练（post- training）策略。其主要贡献如下： (1) 从人类运动学习视角讨论了VLA模型后训练方法：将人类运动技能 ...

VLA模型后训练

人类运动技能学习

可解释性与安全

神经科学启发的人工智能技术

VLA模型后训练

人类运动技能学习

可解释性与安全

神经科学启发的人工智能技术