Embodied Intelligence

搜索文档
南大等8家单位,38页、400+参考文献,物理模拟器与世界模型驱动的机器人具身智能综述
机器之心· 2025-07-15 13:37
具身智能技术综述 - 具身智能是机器人与人工智能领域的前沿课题,关注智能体在物理世界中感知、推理并行动的能力,被视为实现通用人工智能(AGI)的关键路径[1][5] - 物理模拟器与世界模型的深度融合是当前最具潜力的技术方向:物理模拟器提供安全高效的虚拟训练环境,世界模型则赋予智能体内部预测与规划能力[1][5] - 该领域研究由多所顶尖高校与机构(南京大学、香港大学、清华大学等)联合推进,论文整合25张图表、6张表格及超400篇参考文献[1][4] 核心技术框架 - **物理模拟器**:主流平台包括Webots、Gazebo、MuJoCo、Isaac系列,差异体现在物理引擎精度(ODE/DART/PhysX)、渲染质量(OpenGL/Vulkan/RTX)及对柔性体/流体等特殊场景的支持[12][18][19] - **世界模型**:架构涵盖预测网络、生成式模型和多任务复合模型,应用于自动驾驶轨迹预测、关节机器人仿真-现实闭环校准等场景[13][20] - 技术协同效应:物理模拟器提供外部训练环境,世界模型构建内部认知框架,二者结合推动从虚拟训练到真实部署的跨越[5][9] 机器人能力分级体系 - 提出IR-L0至IR-L4五级标准:从基础执行(L0)到完全自主(L4),涵盖环境感知、多模态交互、目标生成与伦理决策等维度[10][15] - 关键技术里程碑包括:L2级实现多模态感知与避障,L3级突破动态场景人机协作,L4级需具备自我目标生成与长期学习能力[15] 行业应用进展 - **运动控制**:深度强化学习推动腿式机器人从模型预测控制(MPC)向端到端策略演进,双足行走与摔倒恢复技术显著提升[16] - **操作交互**:视觉-语言-动作一体化模型(VLM/LLM驱动)实现单臂抓取到全身协同控制,认知协作与社会嵌入成为研究热点[16] - **自动驾驶**:世界模型在nuScenes、Waymo等数据集上实现轨迹预测、BEV语义建模等突破,扩散模型与Transformer架构主导前沿研究[20] 开源生态 - 论文团队维护持续更新的文献与开源项目仓库(GitHub),涵盖物理模拟器配置、世界模型实现及跨平台部署方案[4][5]
倒计时2天,即将开课啦!从0基础到强化学习,再到sim2real
具身智能之心· 2025-07-12 21:59
具身智能技术发展 - 具身智能技术正在快速成为现实 全球顶尖科技公司如Tesla、Boston Dynamics、OpenAI、Google等都在布局这一领域 该技术将彻底改变制造业、服务业、医疗健康、太空探索等行业 [1] - 具身智能的核心在于让AI系统不仅拥有"大脑" 还要拥有能够感知和改变物理世界的"身体" 使其能够理解物理定律、掌握运动技能、适应复杂环境 [1] - 该技术的应用场景包括工厂精密装配、医院手术协助、家庭贴心服务、危险环境救援等 潜在影响力是革命性的 [1] MuJoCo技术优势 - MuJoCo是连接虚拟世界与现实世界的重要桥梁 为机器人学习提供高保真、高效率的训练环境 [3] - 相比传统方法 MuJoCo可使仿真速度比现实时间快数百倍 支持高度并行化计算 可同时运行成千上万个仿真实例 [5] - MuJoCo采用先进接触动力学算法 精确模拟机器人与环境的复杂交互 提供视觉、触觉、力觉等多种感知模态 具有出色稳定性和数值精度 [5] 行业应用与认可 - MuJoCo已成为学术界和工业界标准工具 大量前沿研究基于MuJoCo进行 Google、OpenAI、DeepMind等科技巨头都在使用该技术 [7] - 掌握MuJoCo意味着站在具身智能技术最前沿 拥有参与技术革命的入场券 [7] 课程内容设计 - 课程采用项目驱动学习方式 包含六个递进式实战项目 从机械臂控制到人形机器人行走、灵巧手抓取、多智能体协作等前沿应用 [9][15] - 项目一:智能机械臂控制系统 涉及MuJoCo建模、物理仿真、基础控制等技术 构建六自由度机械臂模型 [17][18] - 项目二:视觉引导的抓取系统 添加视觉感知能力 实现物体检测和抓取 理解感知与控制的关系 [19] - 项目三:强化学习驱动的运动技能 训练智能体学会复杂运动技能 如机械臂抛接球、四足机器人奔跑等 [20] - 项目四:自适应控制与轨迹优化 实现模型预测控制算法 进行实时轨迹优化 [21] - 项目五:多机器人协作系统 设计多机器人协调配合 共同完成复杂任务 [22] - 项目六:Sim-to-Real迁移验证 通过域随机化技术提高鲁棒性 在真实机器人上进行验证 [23] 技术能力培养 - 课程将培养学员掌握MuJoCo各项功能 构建复杂机器人仿真环境 实现高保真物理交互 [25] - 深入理解强化学习核心算法 掌握机器人控制理论基础和实践技巧 实现精确运动控制和轨迹跟踪 [25] - 掌握Sim-to-Real迁移技术 将仿真成果成功应用到真实世界 [25] - 培养完整项目开发经验 熟悉现代AI开发工具链 包括Python生态、深度学习框架等 [25] - 通过六个递进式项目实践 培养独立解决复杂问题的能力 成为具身智能领域复合型人才 [26] 课程安排 - 课程采用六周渐进式学习设计 每周有明确学习目标和实践项目 [14] - 每周内容:MuJoCo基础入门、高级建模与传感器集成、强化学习与智能决策、机器人控制理论、多智能体系统、Sim-to-Real迁移 [17] - 开课时间为2025年7月15日 采用离线视频教学 vip群内答疑方式 [27] 目标人群 - 机器人/强化学习方向研究生、本科生 期望快速补齐实战能力 [29] - 具身与机器人从业者 已有编程或算法基础 想进军该领域 [29] - 从传统CV、自动驾驶、机械臂转向具身机器人研究或工程的转行者 [29] - 对前沿技术感兴趣的爱好者 [29]
从科研到落地,从端到端到VLA!一个近4000人的智驾社区,大家在这里报团取暖~
自动驾驶之心· 2025-07-11 19:23
自动驾驶社区建设 - 目标在3年内打造万人规模的智能驾驶与具身智能社区,已吸引华为天才少年及多位领域专家加入[2] - 构建了学术+产品+招聘的完整生态链,形成课程+硬件+问答的教研闭环[2] - 社区内容涵盖技术动态分享、入门问答、求职信息及行业前沿讨论[2] 技术课程体系 - 提供超千元价值的自动驾驶技术论文解读免费视频教程[2] - 原创直播课程覆盖自动驾驶9大方向:综述/感知融合/标定/SLAM/决策规划/数据工程等[2] - 自研硬件包括标定板、黑武士、天工开物及具身智能机械臂等设备[2] - 网络公开课包含自动驾驶基础、深度学习、机器学习等十余门课程[2] 学习路线规划 - 整理15个自动驾驶学习方向路线图,包含新人指南/提问技巧/问答精选等模块[3] - 汇总国内外高校著名自动驾驶团队及企业信息[3][4] - 提供自动驾驶数据集、仿真工具、标注工具等资源[3] 行业资源对接 - 与近200家自动驾驶公司建立内推渠道,简历可直达企业[4] - 覆盖小米/地平线/理想/小鹏/英伟达/比亚迪/华为等头部企业资源[6] - 针对创业者/高管/产品经理等角色开放资源对接通道[6] 技术发展趋势 - 2025年技术基调确定为VLA(视觉语言行动)驱动的端到端2.0系统[7] - 关键技术包括视觉大语言模型基座、扩散模型轨迹预测、3DGS生成技术等[7] - 技术迭代周期从2024年下半年开始明显缩短[7] 知识星球内容 - 国内最大自动驾驶技术社区,成员近4000人,含100+行业专家[14] - 每周活跃度居国内前20,日均成本约0.5元[14] - 四大核心板块:学术进展追踪/技术分类汇总/求职资料/问题解答[16] 前沿技术方向 - 重点布局VLA/大模型/扩散模型/具身智能等方向[24] - 视觉语言模型应用涵盖预训练/迁移学习/知识蒸馏等技术路线[27][28][29] - 世界模型研究聚焦3D场景理解与生成、驾驶视频生成等方向[45][46] 数据集资源 - 整理超30个自动驾驶数据集,包含KITTI/Cityscapes/nuScenes等标杆数据集[37] - 语言增强数据集涵盖视觉问答、导航指令、车辆检索等场景[38] - 图像文本数据集规模从百万级(COCO)到百亿级(WebLI)不等[31] 求职与职业发展 - 提供面经覆盖SLAM/计算机视觉/感知融合等方向[4] - 专家建议传统SLAM从业者转向3DGS重建或规控领域[106] - 多模态3D检测方向建议向端到端/大模型/数据闭环转型[108]
MuJoCo实战教程即将开课啦!从0基础到强化学习,再到sim2real
具身智能之心· 2025-07-10 16:05
具身智能技术发展现状 - 全球顶尖科技公司如Tesla、Boston Dynamics、OpenAI、Google等正在竞相布局具身智能领域,代表性产品包括Optimus人形机器人、Atlas、机械手和RT-X项目 [1] - 具身智能的核心在于让AI系统不仅拥有"大脑",还具备感知和改变物理世界的"身体",能够理解物理定律、掌握运动技能并适应复杂环境 [1] - 该技术将革命性改变制造业、服务业、医疗健康、太空探索等多个行业,应用场景包括精密装配、手术协助、家庭服务和危险环境救援 [1] MuJoCo技术的关键作用 - MuJoCo(Multi-Joint dynamics with Contact)是连接虚拟与现实世界的重要桥梁,为机器人学习提供高保真、高效率的训练环境 [3] - 解决了传统机器人学习方法的痛点:避免昂贵硬件损坏、加速学习过程(仿真速度比现实快数百倍)、支持极端情况测试 [5] - 技术优势包括:先进的接触动力学算法、高度并行化计算、丰富的传感器模型(视觉/触觉/力觉)、出色的稳定性和数值精度 [5] - 已成为学术界和工业界标准工具,被Google、OpenAI、DeepMind等科技巨头广泛使用 [7] 具身智能实战课程体系 - 课程采用六周模块化设计,包含MuJoCo基础、高级建模、强化学习、机器人控制、多智能体系统和Sim-to-Real迁移等完整知识体系 [13][17] - 设计了六个递进式实战项目:智能机械臂控制(六自由度模型/PID控制器)、视觉引导抓取系统、强化学习运动技能、自适应控制(MPC算法)、多机器人协作、Sim-to-Real迁移验证 [16][18][19][20][21][22] - 教学特色:项目驱动学习、中英双语资料、真实产业应用场景、多难度级别设计、完整工具链实践(PyTorch/Stable Baselines3) [9][10][22] 技术能力培养目标 - 技术能力:掌握MuJoCo高级功能、强化学习核心算法、机器人控制理论和Sim-to-Real迁移技术 [24] - 工程能力:具备完整项目开发经验,熟悉AI工具链(Python生态/深度学习框架),培养代码规范、文档编写等专业素养 [24] - 创新能力:通过六个项目培养需求分析、方案设计、实施验证、迭代优化的完整研发流程,成为复合型人才 [25] 目标受众与课程安排 - 主要面向四类人群:机器人从业者、相关领域学生、行业转行者和技术爱好者 [28] - 课程将于2025年7月15日开课,采用6周离线视频教学+vip群答疑模式 [26]
上海累计82款大模型通过备案
快讯· 2025-07-10 10:35
人工智能产业发展 - 上海累计82款大模型通过备案,显示行业监管合规化进程加速[1] - 实施"模塑申城"工程聚焦"5+6"重点领域,深化"人工智能+"行动推动产业融合[1] - 垂类模型在制造、金融、医疗、教育等领域建设国家AI示范应用基地[1] 技术研发突破 - 科学智能领域实施"百团百项"计划加速AI4S创新成果落地[1] - "伏羲"气象大模型和"启明星"蛋白质设计模型达到行业领先水平[1] - 具身智能领域发布全球首个具身运动大模型"龙跃"[1] 产业应用落地 - 人形机器人创新中心开源公版机"青龙"推动具身智能量产[1] - 具身智能技术赋能工业制造和物流运输等实际场景[1]
具身智能机器人公司星海图再获超1亿美金融资,美团、美团龙珠、今日资本联合领投
快讯· 2025-07-09 09:21
融资情况 - 星海图完成A4轮及A5轮战略融资 两轮合计融资金额超过1亿美元 [1] - A4轮融资由今日资本、美团龙珠联合领投 中金保时捷基金、襄禾资本、米哈游、无锡创投集团跟投 [1] - A5轮由美团龙珠、美团战投联合领投 北京机器人基金超额加注 亦庄国投跟投 [1] - IDG资本、BV百度风投、凯辉基金、今日资本、襄禾资本等老股东持续追投 [1] 投资者背景 - 融资方包括顶级战略投资方、国家级产业基金以及一线财务投资机构 [1] - 美团系资本(美团龙珠、美团战投)在两轮融资中均担任领投角色 [1] - 国家级资本参与包括中金保时捷基金、亦庄国投等 [1] - 产业资本如米哈游、北京机器人基金等参与投资 [1] 融资历程 - 公司自2025年开启A轮系列融资以来持续获得资本加持 [1] - 老股东表现出强烈信心 多机构连续追投 [1]
2025秋招开始了,这一段时间有些迷茫。。。
自动驾驶之心· 2025-07-08 15:53
自动驾驶行业就业趋势 - 双非研究生在自动驾驶和具身智能领域面临就业挑战,需提升技术实力和背景竞争力 [2] - 行业需求集中在端到端、大模型、VLA、强化学习、3DGS等前沿方向,传统技术人才已相对饱和 [3] - 机器人/具身智能初创公司融资活跃,技术栈培养全面,深圳、杭州是产业聚集地 [3][4] 技术发展方向 - 视觉大语言模型、世界模型、扩散模型和端到端自动驾驶是四大前沿技术方向 [8] - 视觉大语言模型领域涵盖预训练、迁移学习、知识蒸馏等技术,涉及图像分类、文本检索、行为识别等任务 [10][13][14] - 世界模型在自动驾驶中实现3D场景理解和生成一体化,如HERMES、DrivingGPT等模型 [31][32] - 扩散模型应用于自动驾驶视频生成、3D视觉、轨迹预测等领域,技术成熟度快速提升 [33][35][40] 数据集与评估体系 - VLM预训练数据集规模从百万级到百亿级,如LAION5B含50亿图文对,WebLI含120亿数据 [16] - 自动驾驶专用数据集覆盖2D/3D目标检测、语义分割、轨迹预测等任务,如NuScenes、Waymo Open Dataset等 [22][23] - 评估指标包括mAP(目标检测)、mIoU(语义分割)、Recall(文本检索)等,不同任务有标准化测试集 [17][20][21] 应用领域创新 - 智能交通领域采用语言引导的车辆检索技术,如Multi-granularity Retrieval System提升自然语言交互能力 [24] - 自动驾驶感知系统集成VLM技术,实现开放词汇检测(OpenScene)和语言引导3D检测(Language-Guided 3D Object Detection) [25] - 决策控制系统结合LLM,如GPT-Driver、DriveGPT4实现可解释的轨迹规划和运动控制 [26][27] 端到端自动驾驶进展 - 端到端方法整合感知、预测、规划模块,DriveGPT4、DriveMLM等模型实现行为状态对齐 [28][48] - 技术挑战包括长尾分布处理(BEVGPT)、开环控制优化(MiniDrive)和安全性验证(CAT) [50][56] - 行业报告指出端到端技术需平衡模块化与一体化,特斯拉FSD验证了大规模数据驱动的可行性 [45] 行业资源与社区 - 知识星球提供自动驾驶课程、硬件代码资料及招聘信息,已吸引华为天才少年等专家加入 [5][60] - GitHub资源库汇总Awesome系列,如Awesome-Diffusion-Models、Awesome-End-to-End-Autonomous-Driving等 [34][42] - 学术会议(CVPR、ICRA)设立自动驾驶专题研讨会,推动技术标准化和产学研合作 [46]
MuJoCo具身智能实战:从零基础到强化学习与Sim2Real
具身智能之心· 2025-07-07 17:20
具身智能技术发展 - 具身智能正在全面崛起 重新定义人类与机器的关系 从Tesla的Optimus到Boston Dynamics的Atlas 全球顶尖科技公司都在布局这一领域 [1] - 具身智能将彻底改变制造业、服务业、医疗健康、太空探索等行业 使机器人在复杂环境中灵活移动并做出智能决策 [1] MuJoCo技术优势 - MuJoCo是连接虚拟世界与现实世界的重要桥梁 提供高保真、高效率的机器人训练环境 支持高度并行化计算 可同时运行成千上万个仿真实例 [4][6] - MuJoCo采用先进接触动力学算法 精确模拟机器人与环境的交互 提供视觉、触觉、力觉等多种感知模态 具有出色稳定性和数值精度 [6] - MuJoCo已成为学术界和工业界标准工具 Google、OpenAI、DeepMind等科技巨头都在使用 [8] 具身智能实战教程 - 课程采用项目驱动学习方式 包含六个递进式实战项目 从机械臂控制到人形机器人行走 再到多智能体协作和Sim-to-Real迁移 [9][12][13] - 项目一:构建六自由度机械臂模型 实现正逆运动学求解和PID控制 [15][16] - 项目二:为机械臂添加视觉感知能力 实现基于视觉的物体检测和抓取 [17][18] - 项目三:训练智能体学会复杂运动技能 如机械臂抛接球或四足机器人奔跑 [19][20] - 项目四:实现模型预测控制算法 进行实时轨迹优化 [21][22][23] - 项目五:设计多机器人协作系统 共同完成复杂任务 [24][25] - 项目六:通过域随机化技术实现Sim-to-Real迁移 在真实机器人上验证 [26][27] 技术能力提升 - 学员将掌握MuJoCo各项功能 能够构建复杂机器人仿真环境 实现高保真物理交互 [29] - 深入理解强化学习核心算法 掌握机器人控制理论和实践技巧 实现精确运动控制和轨迹跟踪 [29] - 具备完整项目开发经验 熟悉现代AI开发工具链 培养良好工程习惯 [31] 职业发展路径 - 技术专家方向:机器人算法工程师年薪30-60万 一线城市可达80-150万 [33] - 产品经理方向:年薪30-80万 有机会发展为技术总监或创业者 [33]
研选 | 光大研究每周重点报告20250628-20250704
光大证券研究· 2025-07-04 22:17
越疆投资价值分析 - 全球协作机器人龙头地位,商业化能力有望持续验证 [3] - 技术壁垒全球领先,全栈自研构筑护城河,为后续发展及降本奠定基础 [3] - 全球化布局成效显著,受益制造业转移红利 [3] - 积极切入具身智能及人形机器人行业,打开长期成长空间 [3] 行业与公司研究 - 市场观点纷繁芜杂,研究聚焦总量、行业及公司领域,筛选有价值信息 [2] - 越疆(2432 HK)作为全球协作机器人龙头厂商,加速实现具身智能商业化 [3]
李飞飞最新对话
投资界· 2025-07-04 20:05
李飞飞对AGI与空间智能的核心观点 - 空间智能是实现通用人工智能(AGI)不可或缺的组成部分 没有空间智能 AGI就不完整 [1][4][29][33] - 3D世界建模是人工智能领域最基础且最具挑战性的问题之一 包括理解三维世界 生成三维世界 推理三维世界和在三维世界中行动 [7][8][33] - 创建超越平面像素 跨越语言障碍 真正捕捉三维世界结构和空间智能的世界模型是当前AI研究的终极目标之一 [9][33] ImageNet项目的历史意义 - ImageNet项目始于2007年 旨在通过互联网下载十亿张图片并创建视觉分类体系 为机器学习提供数据基础 [17][18] - 该项目包含14,197,122张图片和21,841个synsets索引 为计算机视觉研究建立了标准化数据集 [20] - 2012年AlexNet在ImageNet挑战赛中取得突破性进展 识别错误率从30%大幅下降 标志着数据 GPU和神经网络首次成功结合 [22][23][24] 计算机视觉的发展历程 - 从物体识别(如ImageNet解决的"识别猫或椅子")发展到场景描述 再扩展到三维世界理解 是计算机视觉研究的自然演进 [25][26][30] - 2015年左右 图像字幕生成技术取得重大突破 为后来的生成式AI发展奠定了基础 [27] - 视觉智能的进化历史长达5.4亿年 远比语言进化(3-5亿年)更复杂 这解释了为什么空间智能研究更具挑战性 [32][33] 空间智能研究的挑战 - 空间智能面临数据严重缺失的问题 与语言数据不同 三维世界的信息主要存在于人类大脑中 难以直接获取 [36] - 3D建模的数学复杂度远高于一维语言处理 需要将2D投影反向推导为3D结构 并遵守物理规律 [34][35] - 人类视觉皮层处理数据的神经元数量远超语言处理区域 这暗示了空间智能模型的架构可能需要与LLMs完全不同 [37][38] World Labs的研究方向 - 公司专注于解决空间智能这一AI领域最困难的问题 正在构建能够输出3D世界的基础模型 [31][40][41] - 研究团队由多位顶尖专家组成 包括Pulsar创造者 Justin Johnson和Nerf作者等 [34] - 应用场景涵盖设计 建筑 游戏开发 机器人学习以及元宇宙内容生成等多个领域 [41][42][44] 行业研究方法论 - 数据驱动方法需要与高质量数据并重 避免"输入垃圾输出垃圾"的问题 [73] - 鼓励跨学科研究 特别是在科学发现领域与AI的结合 [60] - 小数据研究和理论突破是学术界在资源受限情况下的重要方向 [61][62]