具身智能之心
搜索文档
社区准备做一些访谈了,关于求职,读博/转方向......
具身智能之心· 2025-11-01 13:40
社区活动与访谈 - 社区正筹备博士访谈和行业开拓者分享 为刚入行的同学提供科研建议和行业见解 [1] - 今年是具身智能规模化招聘年 领域资金规模相比去年明显扩大 提供更多岗位机会 [1] - 将邀请企业招聘负责人和已获多个offer的求职者分享面试经验和公司需求 [1] 社区资源与内容 - 社区已完成技术路线分享、直播、问答、求职、赛事等多个版块建设 实现产业、学术、求职、问答交流的闭环 [2] - 社区汇总近40+开源项目、近60+具身智能相关数据集、行业主流仿真平台及各类技术学习路线 [12] - 社区汇总国内外具身智能高校和公司 涉及教育、宠物、工业、救援、物流、交互、医疗等方向 [15][17] 技术专题覆盖范围 - 技术内容涵盖数据采集、灵巧手、VLA模型、VLN模型、多传感器融合、分层感知操作、机器人操作系统等15个主要领域 [6] - 具体技术点包括遥操作算法、灵巧手硬件设计、VLA泛化方法、视觉语言导航、协同感知、人型机器人运动智能等40余个子专题 [6] - 社区提供持续直播分享 包括圆桌论坛和专题讲解 涵盖从本体、数据到算法的全链条内容 [4][5] 会员服务与福利 - 社区与多家具身公司建立内推机制 可第一时间将简历送达心仪公司 [11] - 会员可向数十位一线产业界和学术界嘉宾提问 获得专业解答 [11] - 社区提供行业研报汇总、机器人相关书籍、零部件品牌信息等增值内容 [19][22][24] 社区规模与影响力 - 社区拥有近2000名成员 来自斯坦福、清华等国内外知名高校和智元、优必选等头部机器人公司 [11][12] - 社区定位为国内首个具身全栈技术交流平台 旨在培养行业未来领袖 [11]
招募VLA+RL方向的合伙人!
具身智能之心· 2025-10-31 12:00
招募背景与目的 - 公司收到大量关于视觉语言动作与强化学习方向的咨询,显示该领域存在显著的知识需求 [1] - 公司计划开发视觉语言动作与强化学习方向的在线课程,旨在进行更深入的技术讲解 [1] - 公司是国内首个具身全栈技术交流社区,已聚集大量视觉语言动作与强化学习方向的研究者 [3] 讲师资格要求 - 应聘者需专注于视觉语言动作与强化学习的研究方向 [2] - 学术界应聘者需为博士及以上学历(含在读),并拥有相关方向的顶级会议成果 [2] - 工业界应聘者需具备实战经验和真机调试经验 [2] 合作待遇与资源 - 公司将提供高于行业平均水平的薪酬 [4] - 公司将提供丰富的行业资源 [4] - 详细合作内容需通过指定微信联系方式进行咨询 [5]
再创历史!英伟达市值一夜突破5万亿美元!
具身智能之心· 2025-10-31 08:04
市值里程碑与市场地位 - 英伟达成为全球首家市值突破5万亿美元的公司,达到5.03万亿美元 [2][4][11] - 公司股价在2025年开年至今的10个月内已暴涨56% [6] - 英伟达当前市值超过了AMD、Arm、ASML、博通、英特尔、泛林集团、美光科技、高通和台积电的总和 [6] - 其市值也超过了标普500指数中的整个公用事业、工业和消费品板块 [7] - 与全球市值第二的微软(4.03万亿美元)和第三的苹果(4.00万亿美元)相比,英伟达已拉开一万亿美元的差距 [14][15] 市值增长轨迹与速度 - 英伟达市值从1万亿美元飙升至5万亿美元仅用了约两年半时间 [10][23][24] - 公司市值从3万亿美元到4万亿美元用时1年1个月,从4万亿美元到5万亿美元仅用了3个多月 [24] - 相比之下,微软市值从1万亿美元到4万亿美元花了近6年时间,苹果则用了7年有余 [16][17][19][20] - 以员工数计算,公司约3.6万名员工人均创造了1.38亿美元的市值 [12][13] 近期股价表现与GTC大会驱动因素 - 2025年10月29日,英伟达股价一度上涨5.44%,盘中触及212.19美元/股,收盘价为207.04美元/股 [3][10][11] - 本轮市值创新高的直接原因是GTC开发者大会宣布的技术革新和产业合作计划 [26] - 大会关键点包括:计划与美国能源部合作打造7台新型超级计算机,其中一台将采用10000块Blackwell系列GPU [27] - Blackwell芯片在投产的五个季度内预计出货量达600万个处理器单元,增长速度是上一代产品Hopper的五倍 [28] - 发布了旨在加速量子超级计算机研发的全新开放系统架构Nvidia NVQLink [29] 未来业绩预期与产品路线图 - 宣布Blackwell芯片正在全面生产,下一代架构Rubin超级芯片平台加速部署,预计到2026年底这两个产品的累计营收有望达到5000亿美元 [32] - 该5000亿美元预期远高于公司2025财年上半年刚刚突破的1000亿美元营收 [33] - 公布了GPU未来三年计划,承诺每年一次重大更新,计划到2028年推出Feynman架构 [35][36] - Blackwell芯片系列全年产能已被锁定,明年的订单仍在追加 [42] 行业生态与战略合作 - 自2022年底ChatGPT问世以来,AI热潮是公司增长的重要背景,英伟达是这股浪潮的最大获益者,两年间股价上涨了12倍 [38][39][40] - 全球AI大模型头部公司,包括OpenAI、Anthropic、Google DeepMind、Meta、亚马逊、微软Azure等,其核心基础设施都在使用英伟达GPU [40] - 上个月与OpenAI达成战略合作意向,OpenAI将建成并部署至少10吉瓦的AI数据中心,配备数百万块英伟达GPU [40] - 在此过程中,英伟达将向OpenAI投资至多1000亿美元 [41] 创始人财富与公司文化 - 创始人兼CEO黄仁勋因其在英伟达的持股,个人财富价值约1792亿美元,跃居福布斯全球富豪榜第八位 [8][48][50] - 公司推崇专注“0亿美元市场”的哲学,即投资于当前规模小但未来潜力巨大的创新领域 [55] - 公司以高强度工作文化著称,但同时也是离职率最低的公司之一,部分原因在于其丰厚的薪酬回报 [55]
OmniDexGrasp 揭秘:基础模型 + 力反馈,让机器人 “看懂指令、灵活抓握” 的通用方案
具身智能之心· 2025-10-31 08:04
技术方案核心创新 - 提出“基础模型生成人类抓握图像 + 动作迁移 + 力反馈控制”的三段式框架,以解决灵巧抓取领域“泛化性”与“物理可行性”难以兼顾的瓶颈 [1] - 核心设计是不直接生成机器人动作,而是以人类抓握作为通用中间表示,串联泛化生成、动作迁移和力控执行,既保留基础模型的泛化能力,又通过精准转化解决物理落地问题 [4] - 该方案在模拟与真实场景中实现了跨指令、跨机器人、跨任务的全能灵巧抓取 [1] 方案模块详解 - **模块1:基础模型生成人类抓握图像**:输入支持全场景指令,包括自然语言、视觉提示或单张演示图,通过正负提示模板优化生成图像质量,确保符合指令且具备物理合理性 [6] - **模块2:人类图像到机器人动作迁移**:通过手-物三维重建、灵巧重定向和可执行动作转换三步策略,将人类抓握意图转化为适配不同机器人手型且符合真实场景物体位姿的关节动作 [9] - **模块3:力感知自适应抓取**:采用双阶段位姿设计和力约束位置控制策略,通过力传感器实时监测接触力,使脆弱物体抓取成功率从56%提升至88%且无损坏风险 [12][13] 性能评估与对比 - 在6类真实世界灵巧抓取任务测试中,平均成功率达到87.9%,其中Human-Robot Handover任务成功率高达100% [15] - 与传统方法相比优势显著,例如在语义抓取任务中,“液体容器”抓取成功率从25%升至80%,“手柄”从20%升至60%,“脆弱物体”从55.6%升至91.7% [16][17] - 在模拟场景的33类物体测试中,面对“新类别”物体,传统方法性能暴跌,而该方案凭借基础模型泛化能力保持稳定,是唯一能应对完全陌生物体的方案 [18][19] 技术通用性与扩展性 - 方案能适配多种灵巧手,包括Inspire Hand、Leap Hand、RoboSense Hand和Shadow Hand [20] - 技术可自然扩展到操控任务,通过生成抓取后物体运动轨迹,实现“抓取-移动-放置”的完整操控,为通用机器人操控提供延伸可能 [20] - 模型适配性强,兼容闭源与开源基础模型,开源模型经任务微调后性能可大幅提升,如Wan2.2微调后稳定性得分从2.52升至3.49 [8] 行业影响与未来方向 - 该方案为灵巧抓取技术产业化提供了兼顾泛化性与实用性的参考范本,尤其适用于追求快速落地的工业场景或家庭服务机器人 [23] - 未来方向包括多模态观测融合以提升复杂场景抓取精度,以及深化操控任务以实现端到端的通用操控 [22] - 关键启示在于“人类抓握”是绝佳的中间表示,有效衔接了基础模型的泛化能力与不同机器人的适配需求 [21]
面向实习/校招:京东具身智能算法岗位开放投递
具身智能之心· 2025-10-31 08:04
公司招聘信息 - 京东探索研究院具身智能实验室在北京亦庄招聘实习或校招岗位 [2] - 招聘岗位涉及视觉-语言-动作模型算法研发,包括模型架构设计、数据利用及模型训练方法 [3] - 岗位职责包括收集并规范化处理视频或机器人操作数据,以及VLA模型在仿真环境和真实机器人上的部署测试 [6] - 任职资格要求本科及以上学历,人工智能、计算机科学、自动化或机器学习相关领域 [6] - 要求熟悉VLA模型训练及测试,例如pi0、pi0.5、Gr00t N1.5、OpenVLA等 [6] - 要求精通Python/C++,熟练使用PyTorch深度学习框架 [6] - 具备独立分析和解决问题的能力以及较强的协作沟通能力是任职资格之一 [6][7][11] - 有VLA模型真机部署经验者优先考虑 [6] - 另一岗位职责涉及虚实仿真数据合成算法研发,包括Real-to-Sim、3DGS、4DGS等相关算法 [6] - 负责视频数据或机器人数据增强工作,例如背景变换、操作物体改变、轨迹增强等 [6] - 负责搭建虚实仿真平台,构建虚实仿真数据生成链路 [6] - 任职资格要求精通一种主流机器人仿真器,如NVIDIA Isaac Sim、Mujoco、Gazebo、 PyBullet [6] - 要求在虚实仿真重建技术上有深入研究,例如3DGS、4DGS等 [6] - 具备较强的编程能力,有虚实仿真数据增强经验者优先 [6] - 另有岗位负责双目摄像头的标定、校准、去畸变,深度估计等算法选型及部署 [11] - 负责手物交互检测、手势识别、SLAM等算法研发和部署 [11] - 任职资格要求熟悉机器人视觉软硬件知识,了解三角测距、畸变矫正及图像检测算法等 [11] - 在手物交互检测、手势识别、SLAM等任一领域有深入研究经验 [11] - 在TRO, RSS, ICRA, IROS, ICCV, CVPR等顶会及顶刊发表过相关论文或竞赛获奖者具备优势 [11] 行业社区与资源 - 具身智能之心知识星球是国内首个具身智能开发者社区,关注数据集、仿真平台、VLA、VLN等多个方向 [12] - 该社区汇总了近30+学习路线、40+开源项目、近60+具身智能相关数据集 [12] - 社区欢迎近200家公司和机构一起交流学术和产业 [13] - 具身智能之心社群拥有近60+技术交流群,覆盖大模型、VLN、VLA、足式机器人等多个方向 [14]
阿里新研究:一统VLA和世界模型
具身智能之心· 2025-10-31 08:04
WorldVLA框架概述 - 核心创新是将视觉语言动作模型与世界模型融合的统一框架,由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出[2] - 该自回归动作世界模型通过结合动作与图像理解来预测未来图像,同时基于图像观测生成后续动作[5][6] - 实验结果显示其表现显著优于独立的动作模型与世界模型,体现二者相互增强效应[3] 技术架构设计 - 基于Chameleon模型初始化,采用三套独立分词器处理图像、文本和动作编码[9] - 图像分词器使用VQ-GAN模型,压缩比为16,码本大小8192:256×256图像生成256个token,512×512图像生成1024个token[9] - 动作分词器将连续机器人动作的每个维度离散化为256个区间,动作由7个token表示[9] - 创新设计替代注意力掩码,使动作生成仅依赖文本和视觉输入,屏蔽之前动作影响,实现并行生成多个动作[12][13] 性能基准测试 - 在离散动作模型对比中,WorldVLA(256×256)平均成功率79.1%,优于OpenVLA的76.5%[22] - 分辨率提升至512×512时性能进一步提高,平均成功率81.8%,显示分辨率与性能正相关[22] - 在连续动作模型对比中,WorldVLA未使用预训练即超越部分预训练模型,证明架构有效性[20][22] 世界模型对动作模型的增强 - 引入世界模型后动作模型成功率从62.8%提升至78.1%,特别是在长序列任务中从23.0%提升至52.4%[26][27] - 世界模型赋予系统前瞻推演能力,通过预判动作后果优化决策,案例显示能持续尝试直到操作成功[26][28] - 环境物理理解、动作风险评估和精确动作解析是三方面主要增强机制[15][16][17] 动作模型对世界模型的提升 - 在视频生成质量上,动作世界模型在50帧序列的FVD指标从718.6优化至674.1,PSNR从23.98提升至24.30[33] - 纯世界模型出现抽屉无法拉开、物体消失等缺陷,而动作世界模型生成连贯且符合物理规律的后续状态[33] - 动作模型通过增强视觉理解能力进一步支持世界模型的视觉生成[18] 行业专家观点 - 小米汽车高级研究总监陈龙认为VLA与世界模型可结合相互促进,分别负责"抽象思考"和"物理感知"[37] - VLA与世界模型结合被视为通往具身智能的重要路径[37]
ICCV 2025 | Mamba-3VL:单一模型攻克18类异构任务,重新定义具身智能大模型能力边界
具身智能之心· 2025-10-30 18:00
核心观点 - 清华大学、上海交大人工智能学院、腾讯ARC Lab、Anyverse Intelligence等机构联合提出通用具身大模型Mamba-3VL,该模型将状态空间模型Mamba引入3D视觉-语言学习,旨在解决具身智能的“任务适配性”难题,突破“单任务专精”局限 [2] - 模型通过三大核心方法创新,精准支持18类异构任务,从基础3D感知到高级具身交互全覆盖,系统性探索并刷新了具身模型的能力上限 [3] - Mamba-3VL在多个基准测试中刷新性能纪录,并展现出极强的泛化能力,仅需微调1%的LLM参数即可快速适配新任务,为低成本拓展任务边界提供了可能 [11][13] 核心方法创新 - **多模态 Mamba Mixer 模块**:创新设计“双扫描 + 通道扭曲”机制,通过关系优先空间扫描(融合近邻实例扫描NIS与远距实例扫描FIS)捕捉局部与长程空间关联,并通过通道扭曲实现视觉几何与语言语义的深度绑定,解决3D点云无序性问题并适配不同任务的模态交互需求 [5] - **实例感知动态位置编码(IDPA)**:实现“几何先验 + 语义调制”双驱动的动态位置编码,通过EdgeConv几何嵌入注入3D物体几何先验,并利用语言调制实例适配器(LISA)基于文本语义动态扭曲3D实例空间特征,提升异构任务适配灵活性 [6][9] - **统一查询解码框架与多任务输出头**:采用“统一输入-灵活输出”设计,将多种3D数据统一编码为实例查询,通过堆叠Mamba Mixer与IDPA层进行统一特征提取,并设计分割头、Grounding头、生成头三大通用输出头,实现无需修改架构即可适配不同类型任务 [6][9] 18类异构任务能力 - **3D视觉-语言基础理解任务(6类)**:包括单目标指代分割、多目标指代分割、边界框引导指代分割、单目标视觉Grounding、多目标视觉Grounding、3D密集描述生成,筑牢具身智能的感知与理解基石 [8][10] - **3D语言推理与问答任务(4类)**:包括基础3D问答、情境推理问答、多跳推理问答、3D场景对话生成,赋予具身智能逻辑思考能力 [9][10] - **3D实例分割任务(2类)**:包括闭集3D实例分割与开集3D实例分割,强化具身智能的精细感知能力,后者无需重新训练即可分割未见类别 [9][14] - **高级具身交互与规划任务(6类)**:包括任务规划、具身导航、机器人操作、3D场景对话交互、跨模态检索、开放场景适配任务,迈向能行动、会规划的实用具身智能 [11][14] 性能与效率突破 - 在ScanRefer数据集上,Unique指标达79.9%,Multiple指标达48.9%,超越PQ3D等SOTA模型 [15] - 在Scan2Cap密集描述任务中,Cider@25指标达91.2%,Cider@50指标达84.0%,生成描述更精准连贯 [15] - 在机器人操作与具身导航任务中,unseen任务成功率远超CLIPort、LEO等模型 [15] - 线性计算复杂度较Transformer模型效率提升显著,处理大规模3D场景时无性能衰减 [15] 行业意义与发展方向 - 研究打破了任务壁垒,证明具身模型可通过统一架构适配感知-理解-推理-交互全链路任务,无需为单一任务设计专属模块 [17][20] - 效率与性能兼得,为真实场景部署奠定基础,并首次系统性验证了具身模型处理18类异构任务的可行性,为探索百任务、千任务通用具身智能提供了蓝本 [17][20] - 相关技术可直接应用于机器人交互、自动驾驶场景理解、虚拟现实、智能家居控制等领域,推动具身智能从“单场景专精”迈向“全场景通用” [17][18]
具身智能之心交流群成立来!VLA/RL/导航/数采等多个方向
具身智能之心· 2025-10-30 18:00
文章核心观点 - 技术交流群成立旨在汇聚行业力量共同承担具身智能领域未来领导者的角色 [1] 技术交流群信息 - 交流群覆盖近20个具身智能子研究方向 [1] - 目标群体涉及人形机器人、四足机器人、机械臂等本体研发人员 [1] - 研究方向包括视觉语言导航、大模型、视觉语言交互、强化学习、移动操作、多模态感知、仿真及数据采集等 [1] - 邀请相关领域从业者加入群聊进行技术和行业交流 [1]
能部署ACT和pi0,专为具身领域打造的高性价比机械臂来啦!
具身智能之心· 2025-10-30 11:43
产品定位与目标客群 - 产品是专为具身智能科研领域打造的轻量级高性价比机械臂Imeta-Y1 [1] - 目标解决行业痛点:高端机械臂价格昂贵,低端产品难用且难上手 [2] - 主要面向学生、教育工作者及机器人领域初学者,旨在帮助其低成本、高效率完成算法验证与项目开发 [2] 核心产品优势 - 提供全流程开源工具链及代码示例,覆盖从数据采集到模型部署的全过程,对新手友好 [3][17] - 支持Python与C++双语言接口,并兼容ROS1与ROS2,提供URDF模型以实现仿真与真机无缝切换 [3][18][19] - 提供快速响应的售后支持,承诺24小时内响应 [3][19] - 采用开放软硬件架构,支持与Gazebo等主流仿真环境实时联动,降低开发风险与调试成本 [5][17][22] - 后期将持续升级,计划开放VLA、VA相关源码,新老客户均可享受升级服务 [19] 关键性能参数 - 机械臂本体重量为4.2千克,额定负载为3千克,具备6个自由度 [8][19] - 工作半径为612.5毫米,重复定位精度达到±0.1毫米 [8][19] - 供电电压为24V,采用PC作为控制器,通讯方式为CAN [8][19] - 关节运动最大速度:J1、J2、J3关节为180°/秒,J4、J5、J6关节为220°/秒 [8][19] 技术支持与开发生态 - 提供完整的开源软件开发工具包(SDK),包含驱动程序、API接口及示例代码 [26] - 工具链支持视觉、力控等多模态数据融合,并兼容TensorFlow、PyTorch等主流AI框架 [17][32] - 目前已适配Intel RealSense D435系列及奥比中光DCW2等相机 [46] - 在硬件配置方面,适配的ALOHA ACT算法可在NVIDIA 4060显卡上进行训练与推理 [46] 交付与售后政策 - 产品交付周期为1至2周 [44] - 质保政策为非人为损坏提供半年质保,质保期后按市场价收取售后费用 [45] - 销售政策为单臂出售,不支持无理由退货或测试 [46]
近500页史上最全扩散模型修炼宝典,一书覆盖三大主流视角
具身智能之心· 2025-10-30 08:03
书籍概述 - 书籍《The Principles of Diffusion Models》由来自Sony AI、OpenAI和斯坦福大学的团队编写,旨在系统梳理扩散模型的发展脉络与核心思想,为研究者和初学者提供可靠指南 [5] - 该书长达460多页,以严密的数学推导贯穿始终,主要面向具备深度学习基础或深度生成建模初步认识的研究人员、研究生及从业者 [9] - 书籍通过统一的数学框架串联了变分、得分与流等多种视角,探讨了扩散模型如何工作、为何有效以及未来发展方向 [6] 扩散模型核心原理 - 扩散模型将生成过程视为一种随时间逐步演化的变换,通过多阶段推理将粗略结构细化为精致细节,与传统生成模型直接学习噪声到数据的映射不同 [12] - 该领域存在三种主要互补的理论框架:变分方法、基于得分的方法和基于流的方法,它们都包含正向过程(逐步加噪)和反向过程(逐步去噪) [12][22] - 这三种视角在数学上等价,共同构成了扩散建模的统一理论图景,并可与变分自编码器、能量模型和归一化流等经典生成建模方法联系起来 [17][23] 模型加速与可控生成 - 通过分类器引导和无分类器引导等方法,可以在生成过程中根据用户定义的目标或属性进行条件控制,实现偏好对齐,提升生成的可控性 [29] - 采用先进的数值求解器可以在更少的反向积分步骤中近似模拟扩散反过程,从而显著降低计算成本,同时保持生成质量,实现高效快速采样 [29] - 基于蒸馏的方法训练学生模型模仿教师扩散模型的行为,能以显著更少的积分步数(甚至单步)重现采样轨迹,从根本上提升生成速度 [30] 下一代生成模型发展 - 流图模型族(如一致性模型、一致性轨迹模型、平均流)的兴起正在塑造下一代生成式人工智能 [15] - 从零开始学习常微分方程的解映射(流映射)的框架,允许模型直接将噪声映射为数据样本,或执行任意时刻间的跳跃式生成,消除了多步采样的时间瓶颈 [31][32] - 该方法旨在学习连接任意源分布与目标分布的流动过程,为端到端的快速生成系统提供了严谨的数学基础与可行的实现路径 [24]