Workflow
具身智能之心
icon
搜索文档
论具身智能的持久战
具身智能之心· 2025-07-17 22:22
行业变革趋势 - 汽车行业技术变革分为三场:电动化接近尾声、智能化进行中、工厂无人化处于早期概念探索阶段[1] - 某头部车企成立无人工厂战略委员会,由CEO亲自领导,探索具身智能在工厂无人化中的应用[1] - 工厂无人化是大型工业企业的终极目标,可大幅降低人力成本和管理复杂度[1] 技术发展阶段 - 具身智能目前处于"不堪用"阶段,连可演示的demo都难以实现[2] - 技术成熟度划分为堪用、可用、好用三阶段,当前尚未达到最低标准[2] - 头部公司虽获融资但保持审慎,未大规模扩张团队[4][12] 硬件挑战 - 灵巧手存在成本与寿命矛盾:15自由度以上产品价格超万元但寿命仅数周[6] - 电机控制精度随使用时间下降,导致动作偏差[6] - 机器人本体存在散热问题,长时间任务可能导致失控或宕机[7] - 边缘算力不足,难以支持大参数模型部署[8] 软件与算法瓶颈 - 训练数据采集难度大、成本高,难以形成有效迭代闭环[9] - VLA模型在特定任务表现优异但缺乏跨场景泛化能力[10] - 算法在不同硬件平台间迁移困难,数据无法共享[11] 行业竞争格局 - 融资能力被视为核心竞争要素,算法壁垒易被突破[16][21] - 自动驾驶经验显示算法优势仅能维持6-12个月,通过人才流动快速扩散[17][18] - 头部公司通过资金储备实现永续经营,部分企业理财收入可覆盖运营成本[15] 发展策略 - 行业需采取持久战策略,避免重蹈自动驾驶领域盲目烧钱的覆辙[13][22] - 技术突破拐点尚未显现,探索周期充满不确定性[12] - 资本寒冬风险已被部分头部公司通过审慎财务管控规避[15]
一个为具身智能量身打造的移动底盘应该是怎么样的?
具身智能之心· 2025-07-17 17:07
具身智能产业发展 - 全球具身智能产业正迎来爆发式增长 机器人经历从"感知智能"到"决策智能"再到"行动智能"的三级跳演进 [1] - 语言大模型与机器人领域深度融合推动产业升级 [1] 48V赫尔墨斯具身智能机器人通用底盘 - 公司推出全新升级的48V赫尔墨斯具身智能机器人通用底盘 专为机械臂所需的48V供电环境设计 [1] - 突破性电源系统 高兼容性设计 行业领先空间定位导航能力 重新定义具身智能机器人底盘标准 [1] - 用户可快速将多臂系统结合运动底盘组成复合型机器人并应用于实际场景 [1] 48V大功率电源系统 - 48V电压平台 大功率输出 无需额外升压装置 峰值30A电流 可同时驱动双机械臂+多关节模组全负载运行 [3] - 支持1C放电倍率 瞬间释放1440W峰值功率 性能较24V方案提升200% [5] 超长续航能力 - 30AH超大电池 双机械臂持续工作场景下提供8-12小时稳定运行 [6] - 动态调节输出策略 优化能耗分配 电池循环寿命高达2000次 [8] 多场景适配性 - 双雷达配置+全新视觉SLAM 应对复杂、低矮障碍物识别 实现稳定可靠定位导航 [9] - 已在多家顶尖具身智能企业实现规模化应用 适配不同机械臂、传感器及行业定制需求 [11] - 内置可扩展安卓系统 支持CAN/RS485通信 无缝对接导航、视觉等上层系统 [13] 应用场景 - 工业制造与仓储物流 柔性产线协作机器人 AMR 高危环境巡检 [14] - 智慧医疗 药品运输 器械配送 [14] - 商业服务与公共设施 跨楼层配送 超长待机 [14] 技术参数与市场定位 - 48V赫尔墨斯底盘为下一代具身智能机器人铺就"动力高速公路" [16] - 现已开放订购 官网可了解更多技术参数与行业解决方案 [16]
这家具身公司落地场景竟然是这个?待遇最高100w招募算法研究员
具身智能之心· 2025-07-17 17:07
公司核心定位与战略 - 公司由吉利集团孵化,核心定位为“真实 数据驱动的智能进化机器人”,锚定大工业场景,通过积累真实场景数据让机器人在实践中实现智能迭代 [1] - 公司融合全球顶尖多模态大模型、FastUMI数采技术以及吉利新能源汽车的三电与智能能力,构建“模型+数据+本体”的综合竞争力 [1] - 公司聚焦多模态扩散大模型开发与高精度真机数据采集,依托整车制造等大工业场景加速商业化落地,旨在将“高精数据驱动的智能进化机器人”从概念推向实践 [1] 人才招聘与薪酬待遇 - 公司为正式员工提供极具竞争力的薪酬:博士年薪70-100万人民币,硕士年薪40-60万人民币,优秀者可面议,并设有丰厚的年度绩效激励 [9] - 公司设有技术团队专属激励:项目盈利的10%归属技术团队分配 [9] - 公司为实习生提供优厚待遇:硕士实习生300元/天,博士实习生400元/天,并免费提供住宿 [9] - 公司提供完善的福利保障,包括足额缴纳五险一金,其中公积金按双边合计24%的顶格比例缴纳,额外提供房补与饭补,并有全天候零食饮料补给 [13] 关联求职社区资源 - AutoRobo知识星球是一个覆盖机器人、自动驾驶、具身智能方向的求职社区,也是国内首个以该方向为主的社区,目前有近1000名成员 [12][15] - 社区成员背景广泛,包含来自地平线、理想汽车、华为、小米汽车、momenta、元戎启行等公司的社招人员,以及2024、2025年秋招的应届生 [15] - 星球内部提供面试题目、面经、行业研报、谈薪技巧、内推公司、简历优化建议等服务 [15] - 星球日常分享算法、开发、产品等岗位的招聘信息,涉及校招、社招、实习,信息来自公司第一时间分享 [16] 专业知识与面试准备资料 - 社区汇总了自动驾驶与具身智能方向的“面试一百问”,内容均为工作与求职中的干货 [20] - 自动驾驶相关一百问涵盖毫米波视觉融合、3D&4D毫米波雷达量产、车道线检测、规划控制、BEV感知、多传感器标定、3D目标检测、传感器融合与跟踪、Cuda与TensorRT模型部署等多个细分领域 [21] - 具身智能相关一百问涵盖Nerf、轨迹预测、Occupancy感知、相机标定、端到端自动驾驶、VLA、VLN视觉语言导航、Diffusion Policy等方向 [25] - 社区汇总了大量行业研报,如《世界机器人报告》、《中国具身智能创投报告》、《具身智能产业发展研究报告》、《中国人形机器人发展蓝皮书》等,帮助成员了解行业动态、发展状态、前景及上下游产业 [26][27] - 社区提供了大量成功与失败的面经,涵盖社招、校招、实习,从一面到三面,涉及代码题目、项目细节等,并汇总了面试心得与谈薪技巧 [28][29][30] - 社区分享了来自滴滴、英伟达、上海AI Lab、美团、小米、华为、理想、小鹏、智加科技等公司的具体岗位面经 [32] - 社区还提供如“面试算法岗基础技能树”、“转行到自动驾驶行业的心血历程”、“岗位谈薪关键回答”、“HR面常见问题汇总”等综合性求职指导内容 [33]
PhysX:南洋理工与上海AI Lab首创物理基础3D资产生成框架
具身智能之心· 2025-07-17 17:07
研究背景与动机 - 3D资产生成在游戏、机器人和具身仿真器等领域应用日益广泛,但现有研究多聚焦于外观和几何结构,忽视了真实世界目标固有的物理属性[4] - 真实目标除了结构特征外,还包含绝对尺度、材料、交互可能性、运动学参数和功能描述等物理与语义特性,这些特性是物理仿真、机器人操作等场景的关键基础[4] - 现有数据集存在明显局限:PartNet-Mobility虽包含2.7K带运动约束的3D模型,但缺乏尺寸、材料等物理描述;ABO数据集虽有材料元数据,但仅停留在目标层面,无法支持部件级应用[4] 核心贡献 - 首次提出端到端物理驱动3D资产生成范式:突破现有仅关注结构的局限,将物理属性融入3D生成全流程,为仿真等下游应用开辟新可能[8] - 构建首个物理驱动3D数据集PhysXNet:通过人机协同标注流程,将现有几何导向数据集转化为细粒度物理标注数据集,其扩展版PhysXNet-XL包含超600万通过程序生成的标注3D目标[8] - 设计双分支前馈框架PhysXGen:建模结构与物理特征的潜在关联,在保持几何质量的同时,生成具有合理物理属性的3D资产[8] PhysXNet数据集物理属性定义 - 数据集系统定义了三类属性:识别层(绝对尺度和材料)、功能层(交互优先级和功能描述)、操作层(运动学参数)[12] - 识别层包含绝对尺度(物理尺寸)和材料(包括杨氏模量E、泊松比ν、密度等)[12] - 功能层包含交互优先级(1-10的评分)和功能描述(基础、功能、运动学描述)[12] - 操作层包含运动学参数,包括5种运动类型(A无约束、B平移关节、C旋转关节、D铰链关节、E刚性关节,及组合类型CB),并标注父子部件、运动方向、范围等细节[12] 人机协同标注流程 - 标注流程分两阶段:初步数据获取(利用GPT-4o生成基础标注,经人工校验确保质量)和运动学参数确定(包括接触区域计算、平面拟合、候选生成与选择,最终经人工审核确定参数)[13] - 该流程高效将现有3D库(如PartNet)转化为物理标注数据集,平衡了效率与准确性[10] 数据分布 - PhysXNet包含超26K 3D目标,部件数量呈长尾分布,平均每个目标含约5个部件[11] - 物理尺寸跨度大(1-1000cm),呈长尾分布;运动类型中刚性关节(E)和旋转关节(C)占比最高[11] - 扩展版PhysXNet-XL通过程序生成,涵盖家具、容器等多类别,标签词云反映高频目标类型[11] PhysXGen框架设计 - 框架分两阶段:物理3D VAE latent空间学习和物理感知生成过程,核心是建模结构与物理属性的关联[15] - 属性编码将物理属性(绝对尺度、交互优先级、密度、运动学参数)和功能描述(经CLIP编码为文本嵌入)编码为统一物理latent空间[16] - 采用transformer架构的扩散模型,通过双分支结构融合结构与物理特征,利用条件流匹配作为优化目标[17] 定量实验结果 - 与基线方法对比:PhysXGen在几何指标(PSNR 24.53、CD 12.7、F-Score 77.3)和物理属性(绝对尺度误差6.63、材料误差0.141等)上均优于TRELLIS+PhysPre[18] - 消融实验表明:同时利用VAE和扩散模型中的结构与物理关联时性能最优,说明双分支协同的有效性[20] 定性实验结果 - 给定单张图像提示,PhysXGen能生成包含详细物理属性(如尺寸、材料、运动范围)的3D资产[22] - 在绝对尺度、材料、运动学等方面,PhysXGen的生成结果与真实值更接近,尤其在部件级功能描述和交互优先级上表现更稳定[24] 局限性与未来方向 - 当前方法在细粒度属性学习上存在局限,易产生伪影[26] - 未来将改进细粒度属性学习,扩展数据集多样性,增加物理属性和运动类型以更好仿真材料行为和运动[26]
这家具身公司的定位很工业化?!待遇最高100w招募算法研究员
具身智能之心· 2025-07-17 10:58
公司定位与技术优势 - OneStar由吉利集团孵化 定位为"真实数据驱动的智能进化机器人" 聚焦大工业场景 通过真实场景数据积累实现机器人智能迭代 为工业智能化升级提供新思路 [1] - 技术整合全球顶尖多模态大模型与FastUMI数采团队 融合吉利新能源汽车三电与智能能力 构建"模型+数据+本体"综合竞争力 [1] - 核心开发方向包括多模态扩散大模型与高精度真机数据采集 依托整车制造等工业场景加速商业化落地 [1] 人才招聘与薪酬体系 - 热招岗位覆盖具身智能算法(研究员/工程师)、软件开发(全栈/网络工程师)、硬件开发(嵌入式)等方向 提供全职/实习机会 [3] - 薪酬体系:博士年薪70-100万 硕士40-60万(优秀者可面议) 技术团队可获得项目盈利10%的分配 实习生待遇硕士300元/天 博士400元/天 [4] - 福利包含顶格24%公积金缴纳 房补/饭补 零食饮料补给等 [5] 行业社区资源 - AutoRobo知识星球专注自动驾驶/具身智能/机器人领域 成员近1000人 涵盖地平线/理想/华为/小米等企业员工及应届生 [7] - 社区内容包含:面试题库(毫米波融合/BEV感知等12类技术专题)、行业研报(世界机器人报告/具身智能创投报告等10份)、企业面经(滴滴/英伟达/小米等9家公司案例) [14][20][22] - 提供岗位内推服务 覆盖算法/开发/产品等校招/社招/实习岗位 信息更新速度领先市场 [8][9] 技术发展动态 - 行业研报显示具身智能进入发展奇点 重点关注人形机器人量产技术路线(中国蓝皮书) 多模态3D检测(GTC大会) 特种机器人延伸方向等前沿领域 [20] - 技术题库深度覆盖自动驾驶全链路:从传感器标定到规划控制 包含Diffusion Policy/VLA等新兴算法方向面试要点 [14][19]
果然!秋招会惩罚每一个本末倒置的研究生!
具身智能之心· 2025-07-17 08:53
就业与科研辅导需求 - 当前就业形势变化快,毕业生普遍存在焦虑和内耗,建议校招社招两手抓并注重资源整合[1] - 在读学生需主动积累科研成果以提升就业或深造竞争力,避免被动等待[1] - 具身智能之心提供系统性科研辅导课程,针对不同阶段学生需求设计服务[1][3] 公司背景与资源 - 具身智能之心为国内最大具身类技术自媒体平台,旗下拥有自动驾驶之心/3D视觉之心等IP[3] - 拥有300+专职导师团队,均来自全球QS前100高校,发表过顶会/子刊论文[3] - 近3年辅导学员超400名,中稿率达96%,覆盖自动驾驶/具身智能/机器人等交叉学科[3] 服务内容与流程 - 12周标准化论文产出流程:从选题到投稿分阶段完成,含文献综述/实验设计/润色等环节[5] - 解决导师放养/知识碎片化问题,帮助建立科研思维体系及掌握经典与前沿算法[6] - 提供1v1在线授课+微信群答疑,含个性化指导/录播回看/24小时督学服务[12][16] 目标用户群体 - 计算机专业硕博生(尤其导师放养群体)及人工智能领域从业者[11] - 需提升职称/竞争力者,或考研申博留学需提升简历含金量者[11] - 目标产出CCF-A/B/C、SCI1-4区或EI会议论文的科研人员[12] 附加价值与保障 - 优秀学员可获清北/MIT推荐信或阿里达摩院/华为诺亚方舟内推机会[15] - 提供精准导师匹配系统,预收定金可试听,不满意可更换或退款[14][17] - 零基础学员通过6个月基础课程+文献带读可完成小论文产出[14]
小模型逆袭!复旦&创智邱锡鹏团队造出「世界感知」具身智能体,代码数据完全开源!
具身智能之心· 2025-07-16 17:12
核心观点 - 复旦大学与上海创新研究院提出的WAP框架通过四维认知叙事和三阶段课程学习,显著提升了视觉-语言大模型在具身规划任务中的表现 [2][5][6] - WAP框架使7B级开源Qwen2.5-VL模型在EB-ALFRED基准上的成功率从2提升至62.7(+60.7pp),超越GPT-4o和Claude-3.5-Sonnet等商业模型 [2][14] - 该方法仅依赖视觉闭环(RGB+指令),无需特权信息或外部模块,更贴近真实机器人应用场景 [4][6] 技术方法 - 四维认知叙事增强:在数据层注入视觉、空间、功能和句法四个维度的环境上下文信息 [9] - 三阶段课程学习:从基础感知到环境理解再到高阶语义的渐进式训练策略 [12] - 闭环观察机制:仅使用RGB观测和自然语言指令,不依赖动作成功信号等特权信息 [6] 性能表现 - Qwen2.5-VL-7B模型在完整WAP框架下达到62.7的平均成功率,长程任务成功率从0提升至70 [14][15] - InternVL3-8B模型同样实现显著提升,从6提升至61.0,长程任务成功率增长17.5倍 [14] - 消融实验显示完整框架(62.7)优于仅视觉/空间增强(46.7)或部分推理(54.0)的配置 [15][20] 应用案例 - 在"冰镇苹果切块后丢弃"任务中,WAP-Qwen成功拆解18个步骤并正确处理隐式条件,而基线模型直接失败 [16] - 模型展现出对复杂指令中隐式条件和因果顺序的准确理解能力 [16] 未来方向 - 计划拓展至连续控制和动态场景应用 [21] - 探索自监督叙事自进化机制,实现数据-模型闭环迭代 [21] - 框架已开源代码和数据集,促进社区发展 [19]
一周年啦,心酸历程!从野路子到一个专业的具身教育平台
具身智能之心· 2025-07-16 17:12
具身智能之心平台发展 - 平台成立一周年 从自动驾驶领域孵化而来 具身智能业务筹备历时1年 [1] - 产品、融资、技术层面均实现快速扩张 2家明星公司即将上市提振行业信心 [1] - 已研发VLA、VLN、DP、Sim2Real、强化学习等课程 技术路线沉淀至知识星球 吸引1500+成员加入 [1] - 业务从线上教育拓展至硬件研发 提供教具与配套教育方案 [1] 知识星球升级与福利 - 7月20日起价格上调至279元 转型为付费知识社区 [2] - 会员福利包括:自研平台购买优惠(最高7折)、课程优惠、内推求职、内部直播、产业学术进度追踪 [2] - 提供30+技术路线梳理 涵盖Benchmark检索、综述学习等 缩短用户研究时间 [2] - 邀请数十位产业界/学术界嘉宾入驻 来自顶级会议和访谈专家 [2] - 建立与多家具身公司的内推机制 可直接对接企业招聘 [8] 社区资源与内容体系 - 覆盖40+开源项目、60+数据集、主流仿真平台及技术学习路线 [13] - 技术路线包括:具身感知/交互、强化学习、多模态大模型、机械臂控制等13个方向 [13] - 汇总国内外30+高校实验室(如斯坦福、清华等)及头部公司(智元机器人、优必选等) [13][18] - 提供行业研报、机器人书籍、零部件品牌、开源项目等10类资源库 [21][24][26][28] - 专项内容涵盖ToF相机、3D视觉感知、触觉感知、Diffusion Policy等前沿领域 [30][38][44][54] 用户支持与互动 - 组织圆桌论坛和直播 分享本体/数据/算法等实战经验 [2] - 成员可自由提问工作选择、研究方向等问题 获得专家解答 [72] - 案例:指导研一学生优化实习项目 建议聚焦问题解决过程与仿真框架应用 [73] 行业定位与愿景 - 定位国内首个具身全栈社区 连接高校实验室与头部企业资源 [13] - 目标成为未来5-10年技术输出与行业关注的核心平台 [75]
ICCV 2025满分论文:一个模型实现空间理解与主动探索大统一
具身智能之心· 2025-07-16 17:12
具身智能导航技术突破 - 清华大学联合团队提出统一空间理解与主动探索的新型模型MTU3D,实现动态环境中的高效空间感知与自主导航,被ICCV 2025接收并获满分评价[3] - 模型突破传统静态观察局限,通过探索-理解闭环协同机制,使智能体在移动中逐步构建环境认知,成功率最高提升20%[3][29] - 技术核心将强化学习的探索能力与3D视觉语言模型的语义理解融合,形成端到端协同训练框架[13][14] 模型架构与数据策略 - 采用双模块设计:在线空间记忆构建模块实时处理RGB-D流数据,空间推理模块通过Cross-Attention实现指令匹配[16][17][22] - 创新性使用物体查询(Object Queries)和边界查询(Frontier Queries)结构化表征空间,支持动态记忆更新[19][20][21] - 虚实结合数据策略整合ScanNet和HM3D的90万条导航轨迹,覆盖视觉指引/探索行为/目标定位等多元任务[25][26] 性能表现与行业影响 - 在GOAT-Bench多模态长期导航测试中,MTU3D成功率达52.2%,较基线提升20%以上,展现卓越任务规划能力[29][30] - SG3D-Nav多步骤任务中关键指标s-SR提升至23.8,显著优于强化学习方法[31] - 真机实验验证技术落地性,A-EQA任务中GPT-4V成功率从41.8%提升至44.2%,推动具身问答发展[32][37] 技术演进方向 - 研究团队来自北京通用人工智能研究院,负责人李庆博士专注多模态智能体与具身智能领域[2] - 行业正经历从虚拟空间向物理世界的范式迁移,MTU3D为AI实体化提供关键空间认知解决方案[3][40] - 方法论突破体现为:语义地图实时构建、探索-理解联合优化、低成本虚实数据融合三大创新点[18]
BeDAViN:大规模音频-视觉数据集与多声源架构研究
具身智能之心· 2025-07-16 17:12
作者丨 视觉语言导航 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 主要贡献 研究背景 具身导航的重要性 :具身导航是具身智能(Embodied AI)的一个基本且关键的组成部分,要求自主智能体 通过与未见过的环境交互来解决复杂的导航任务。近年来,具身导航技术被广泛应用于家庭服务、仓储和物 流等领域。 | Dataset | Total number Total duration | | --- | --- | | | of audio of samples | | SAVi-dataset (Chen, Al-Halah, and | 1.157 144 seconds | | Grauman 2021) | | | BeDAViN (Ours) | 2.258 | 现有研究的局限性 : 数据集限制 :现有的音频-视觉导航数据集样本有限,难以模拟多样化的多声源场景。 框架限制 :大多数现有的导航框架是为单声源场景设计的,在多声源场景下的性能大幅下 ...