Workflow
具身智能之心
icon
搜索文档
Meta再推WorldGen,一句话「盖」出50×50米一座城
具身智能之心· 2025-11-25 08:03
文章核心观点 - Meta公司推出名为WorldGen的突破性生成式AI系统,能够仅通过一段文本提示生成完整、可交互、可导航的3D世界,覆盖面积达50x50米,并在整个区域内保持风格和几何结构的一致性[12][13][19] - 该技术融合了程序化推理、扩散模型3D生成以及面向对象的场景分解,代表了生成式AI从2D内容创作向复杂3D环境构建的重大跨越[13][17] - WorldGen的输出可直接兼容Unity、Unreal等主流游戏引擎,无需额外转换,展示了在游戏开发、仿真和沉浸式社交环境等领域的巨大应用潜力[22][29] 技术方法与创新 - 系统采用多阶段流程:规划(程序化blockout生成、导航网格提取)、重建(图像到3D基础模型)、分解(场景部件提取)、精修(网格与纹理优化)[21] - 与基于Gaussian Splatting等技术(如World Labs的Marble)相比,WorldGen以网格为基础输出几何结构,原生支持物理模拟、碰撞检测和导航,功能性更强[29] - 传统方法通常从单一视角向外扩展,移动3-5米后质量骤降,而WorldGen能生成50x50米完整纹理化场景并保持一致性[18][19] 应用前景与行业影响 - 该技术有望大幅降低3D内容制作门槛,使普通人无需编写代码即可从文本提示创建虚拟世界,推动内容创作大众化[22][30] - 对游戏开发、技术美术和关卡设计师等工作流程将产生变革,从业者可从手动建模转向使用AI提示词驱动并筛选编辑输出[30][31] - 生成过程算力需求较高,开发者需评估本地与云端渲染能力以确定合适部署方式[31] 当前状态与发展方向 - WorldGen目前仍处于研究阶段,尚未对开发者开放,但已展示出跨行业节省时间和成本的潜力[22] - 未来版本计划支持更大规模世界生成并降低生成延迟,进一步提升实用性[20][22]
新国立提出VLA-4D:4D感知VLA模型,实现时空连贯的机器人操作
具身智能之心· 2025-11-25 08:03
文章核心观点 - 提出VLA-4D模型,通过融合3D空间与1D时间信息,将4D感知嵌入视觉-语言-动作模型,旨在解决通用机器人任务中时空连贯操作的瓶颈问题 [2][4][5] - 该模型的核心创新在于双重视空融合,通过4D感知视觉表征和时空动作表征,统一提升机器人操作的视觉推理精细度和动作规划的时间连贯性 [4][5] - 在LIBERO基准测试中,VLA-4D模型在多项任务上取得显著领先性能,平均成功率高达97.4%,远超现有2D、3D及4D模型 [19] 模型提出的背景与动机 - 现有2D VLA模型依赖单帧图像输入,存在视觉推理粗糙和2D-3D坐标不匹配问题,导致动作空间精度不足和时空不连续 [6] - 3D VLA模型虽提升了空间平滑性,但缺乏对时间维度的显式建模,易出现动作卡顿、抖动等时间连贯性问题 [6] - 核心目标是通过融合空间与时间信息,同时增强视觉推理和动作规划的精细度,实现机器人操作的空间平滑性与时间连贯性统一 [4] 核心设计与技术细节 - 整体框架采用双重视空融合,将4D信息嵌入视觉表征用于推理,将时间变量融入动作表征用于规划,通过多模态对齐让大语言模型输出时空连贯的动作指令 [5] - 4D感知视觉表征设计包含3D空间与1D时间编码,以及交叉注意力融合机制,生成兼具语义、几何与时空特性的视觉表征 [7][10] - 交叉注意力融合策略相比拼接和加权策略表现更优,在LIBERO-Spatial任务中成功率高达97.9%,完成时间仅4.1秒 [11] - 时空动作表征在传统空间动作参数基础上新增时间变量Δt,用于调控动作执行节奏,形成完整的时空动作表征 [12] 数据集与训练流程 - 基于LIBERO数据集进行扩展,新增时间标注,最终包含40个子任务、15万组视觉-语言-动作样本,覆盖四大场景 [16] - 采用两阶段训练策略:第一阶段进行4D视觉-语言对齐,第二阶段进行机器人任务微调 [15][22] - 两阶段训练相比单一微调能显著提升性能,在LIBERO-Goal任务中成功率从90.7%提升至97.8% [17][18] 实验验证与性能表现 - 在LIBERO基准测试中,VLA-4D在空间推理、物体理解、目标达成和长时规划任务的成功率分别为97.9%、98.6%、97.8%、94.8%,平均成功率97.4%,完成时间仅5.8秒 [19] - 在零样本任务中仍保持高成功率和短执行时间,证明时空表征具有较强的泛化能力 [19] - 动作轨迹全局平滑、局部速度稳定,无卡顿或抖动,时空规划质量显著优于对比模型 [21] 消融实验与关键发现 - 视觉表征模块中,空间嵌入、时间嵌入、特征融合三者缺一不可,同时启用时空间推理任务成功率从89.4%提升至97.9%,完成时间从5.7秒缩短至4.1秒 [24] - 动作表征模块加入时间参数后,完成时间从5.0秒降至4.1秒,效率显著提升 [27] - 视频输入+4D线索是核心,单图像输入的成功率仅85.9%,验证了视频和4D信息的重要性 [27] - 特征分布分析显示,4D视觉特征形成连续的时空流形,对应的动作特征时空连贯,实现高成功率与短耗时的统一 [25]
把具身开发变简单,地瓜机器人S600与一站式平台正式亮相
具身智能之心· 2025-11-25 08:03
核心观点 - 公司于11月21日举办开发者大会,发布S600具身智能机器人大算力开发平台和一站式开发平台,旨在通过“软硬结合、端云一体”的全链路开发体系,加速具身智能机器人的开发、部署和商业化落地 [1] 战略愿景与定位 - 公司CEO认为具身智能是驱动产业变革的新生产力,公司将通过全链路开发基础设施帮助客户和开发者降低门槛、提升效率,并与行业伙伴共研共创以加速技术转化和商业闭环 [2] - 公司致力于重新定义机器人开发底座,从算力到效率进行全面优化 [4] 产品与技术平台 - 公司推出“软硬结合+端云一体”的全链路开发体系:端侧依托BPU架构提供旭日与RDK双系列产品矩阵;云端提供一站式开发平台,整合数百种可直接部署的机器人智能算法 [5] - 旗舰产品S600具身智能机器人大算力开发平台算力达560 TOPS (INT8),采用大小脑架构设计,大脑配置18核A78AE CPU和全新BPU Nash,支持多种大模型算法端侧部署,在适配Pi0和Qwen2.5-VL-7B时性能超越主流平台2.3倍和2.2倍;小脑专为人形机器人优化运动控制能力 [8][9] - 一站式开发平台提供三大服务:数据闭环系统(支持数据生成、标注及模型训练-仿真评测-硬件在环);具身智能训练场(提供全链路支持,曾支撑CVPR等顶尖赛事);Agent开发服务(如RDK Agent可实现一句话完成应用开发与部署) [11] 算法创新 - 公司自研双目算法行业领先,包括精度媲美激光雷达的双目Depth、智能驾驶级别的双目OCC避障、以及业界首个多双目全景Occupancy感知方案Omni-OCC [14] - 自研的VO-DP纯视觉抓取方案性能超越行业SOTA,成功率和泛化性达到工业场景应用要求 [14] 生态合作与市场进展 - 公司宣布傅利叶、加速进化、广汽集团等成为S600全球首批战略客户 [20] - 公司与知行科技、立讯精密等汽车产业Tier1厂商成为S600生态首批合作伙伴,共同打造机器人控制器 [22] - 公司与超60家产业链伙伴合作,推出高度集成的软硬一体化解决方案 [24] - 公司RDK已覆盖全球20多个国家,服务10万+开发者,通过DGP地心引力计划赋能500+中小团队,并携手产学研界构建教育和科研生态 [27] 未来发展方向 - 公司围绕三大方向推进:赋能已量产机器人产品迭代升级;加速机器人在各类场景下的广泛落地;为通用具身智能机器人打基础 [24] - 公司将继续以生态建设为核心、以开发者为中心,与全球伙伴共同推动具身智能规模化应用 [29]
不知道选择哪个作为具身科研平台?别人已经把π0.5部署上了.......
具身智能之心· 2025-11-24 18:02
产品定位与核心优势 - 公司推出专为具身智能科研领域设计的轻量级高性价比机械臂Imeta-Y1,旨在解决该领域硬件选择中价格过高或低价产品难用、难上手的问题 [3] - 产品定位为面向学生、教育工作者及机器人领域初入行开发者的低成本、高效率算法验证与项目开发工具 [3] - 核心优势在于融合高精度运动控制(重复定位精度±0.1mm)、低功耗设计与开放软硬件架构,支持仿真到真机的无缝联调 [6][20][45] - 产品采用紧凑型结构与模块化接口,重量为4.2KG,额定负载3KG,工作半径612.5mm,特别适用于嵌入式AI与机器人学习平台 [7][9][20] 技术规格与性能参数 - 机械臂本体具备6个自由度,供电电压24V,通讯方式为CAN,控制方式支持轨迹跟踪、示教及API [9][20] - 各关节运动范围覆盖J1轴-165°至165°,J2轴-180°至0°,J3轴0°至180°,J4轴-95°至86°,J5轴-90°至90°,J6轴-150°至150° [20][22] - 关节运动最大速度达J1/J2/J3轴180°/秒,J4/J5/J6轴220°/秒 [20][22] - 末端执行器(如夹爪)重量约631g至704g,行程0-80mm,定位精度±0.5mm [11][12][14] 开发支持与工具链 - 提供全流程开源工具链与代码示例,涵盖数据采集、模型训练到推理部署,支持视觉、力控等多模态数据融合 [4][18][37] - 软件开发工具包兼容Python与C++双语言接口,并支持ROS1与ROS2开发框架 [4][19][20] - 提供URDF模型,支持Gazebo等主流仿真环境与真机实时联动,实现算法仿真验证后一键部署至物理设备 [18][23] - 工具链兼容TensorFlow、PyTorch等主流AI框架,目前已开源适配ACT算法示例,未来将陆续升级VLA、VA相关源码 [18][20][51] 售后服务与市场应用 - 公司提供24小时快速售后响应,产品交付周期为1-2周,非人为损坏质保半年 [4][49][50] - 产品支持批量采购优惠,并可用于项目开发与教学培训等场景 [20] - 硬件已适配Realsense D435系列、奥比中光DCW2等相机,软件层面用户可自行微调所有开源模型,公司正逐步适配并开源lerobot、act、robotwin、pi0等模型 [51]
VLA+RL方向的合伙人招募了~
具身智能之心· 2025-11-24 18:02
招聘背景与需求 - 公司收到大量关于视觉语言动作与强化学习方向的咨询 希望进行更深入的内容讲解[1] - 公司向全平台粉丝招募该方向课程和项目辅导老师 共同输出高质量内容[1] 岗位要求 - 研究方向需聚焦视觉语言动作与强化学习领域[2] - 学术界应聘者需博士及以上学历 拥有相关方向顶级会议成果[2] - 工业界应聘者需具备实战经验和真机调试经验[2] 平台优势与待遇 - 公司是国内首个具身全栈技术交流社区 聚集大量视觉语言动作与强化学习方向人才[3] - 公司将提供高于行业平均水平的薪酬待遇[4] - 公司将提供丰富的行业资源支持[4] 联系方式 - 详细招聘内容可通过指定微信账号进行咨询[5]
华科&清华最新DeepThinkVLA:如何让模型 “会思考、能落地”?
具身智能之心· 2025-11-24 18:02
核心观点 - DeepThinkVLA模型通过“混合注意力解码器+两阶段训练pipeline”的创新设计,解决了视觉-语言-动作模型中推理与动作生成的模态冲突问题[2] - 该模型在LIBERO基准测试中实现了97.0%的平均任务成功率,树立了VLA模型的性能新标杆[2] - 架构实现了推理与动作的深度协同,既让模型具备连贯推理能力,又保障动作生成的高效与精准[2][3] 技术架构创新 - 采用混合注意力解码器,在推理生成阶段使用自回归因果注意力,在动作生成阶段切换为双向注意力以支持高维动作向量的并行解码[4] - 通过两阶段训练pipeline(监督微调+强化学习)强化推理与动作的因果关联[6] - 将传统的“观察-指令→动作”直接映射分解为“观察-指令→推理”与“观察-指令-推理→动作”两步概率分解[10] 性能表现 - 在LIBERO基准的四大任务套件中平均成功率达97.0%,其中Object任务成功率99.0%、Goal任务96.4%、Long长程任务96.2%[15] - 相较于顶级自回归模型UniVLA(平均95.2%)和扩散模型π₀(平均94.2%)形成显著优势[15] - 推理延迟大幅降低,相对推理时间仅为0.175倍,为大规模强化学习的高速rollout提供可能[16] 训练与数据策略 - 构建包含273,465个标注帧的具身CoT数据集,通过两阶段标注pipeline平衡标注成本与数据质量[8][10] - 采用基于结果的稀疏奖励+格式正则化奖励设计,仅关注任务最终成功与否[11] - 引入KL散度惩罚正则化机制,避免模型遗忘SFT阶段学到的基础推理能力[11] 技术优势 - 推理学习更高效,复用VLM已有能力,无需海量数据[12] - 动作学习更简单,推理作为显式规划将“一对多”的模糊映射转化为明确映射[12] - 具备错误恢复机制,模型在执行错误时能通过思维链显式引导实现自我修正[10]
Aloha硬件交流群来了!
具身智能之心· 2025-11-24 08:04
公众号推广内容 - 公众号名称为"具身智能之心"专注于学术分享和技术交流 [1][2] - 提供具身智能全栈学习社区"具身智能之心知识星球" [2] - 建立Aloha技术交流群用于讨论移动操作相关技术问题 [2] - 交流群涵盖Aloha Mobile Aloha MiniAloha等各类本体的硬件和算法 [2] - 加入方式为添加微信AIDriver005并备注aloha进群+姓名+机构 [2]
具身智能下半场:南方阵营的崛起
具身智能之心· 2025-11-24 08:04
行业整体趋势 - 2025年具身智能行业热度持续处于高位,超出年初预期 [1] - 行业发展趋势清晰,南方阵营正在悄然崛起 [1] - 行业存在难以回避的问题,产品大多停留在"情绪价值"层面,真正能转化为生产力的寥寥无几 [3] 南方阵营代表企业:自变量科技 - 自变量科技2023年底成立,在不到两年时间里完成多轮融资,投资方包括美团等巨头 [1] - 公司近期传出即将完成100亿估值融资的消息,一旦落地将跻身全国第一梯队 [1] - 公司采用"大小脑协同"的技术路线,与硬件驱动型公司差异显著 [2] - 关于公司搬迁至海淀的说法大概率是捕风捉影 [1] 深圳具身智能产业格局 - 深圳作为南方科技桥头堡,目前头部具身企业似乎只有自变量一家,显得单薄 [2] - 逐际动力近期低调,核心聚焦本体研发,在通用具身大模型上投入和声量不足 [2] - 优必选、众擎机器人等玩家偏向传统机器人领域或处于初创培育期,尚未形成真正集群效应 [2] 香港及大湾区发展潜力 - 香港创业氛围升温,"港派创业"有望成为下一个看点 [2] - 香港大学、香港中文大学、香港科技大学在机器人感知、运动控制等领域研究积累深厚 [2] - 港科大孵化的戴盟机器人等企业已露出苗头 [2] - 香港的崛起能与深圳形成互补:深圳负责供应链整合、场景落地和商业化推进 [2] - 广州在具身智能赛道目前看不到诞生独角兽的迹象 [2] 行业应用与市场挑战 - 常见应用场景包括机器人跳舞、引流型自动售货机、文旅场馆仿生表演 [4] - 巡逻机器狗市场出现分化:在国内广泛应用于电力巡检、园区安防,成为国企和政府机构采购热点,但在海外市场鲜有人问津 [4] - 海外客户逻辑直接,认为可通过监控解决的问题无需花费数倍价格购买移动摄像头 [5] - 需求差异暴露了当前很多具身产品的核心困境,即并非不可替代,只是在特定市场环境下被"赋予"了价值 [5] 行业前景与挑战 - 南方阵营崛起之路并不平坦,深圳的"一家独大"需要更多梯队企业支撑 [5] - 香港的技术转化需要跨越"实验室到市场"的鸿沟 [5] - 整个行业亟待突破"情绪价值陷阱",找到真正能落地的生产力场景 [5] - 行业成功关键在于用技术解决实际问题,而非融资估值高低或产品噱头 [5]
小米的MiMo-Embodied:整合自驾和具身任务,29项SOTA!
具身智能之心· 2025-11-24 08:04
文章核心观点 - 小米推出首个跨领域统一模型MiMo-Embodied,成功整合自动驾驶与具身智能两大领域,在29项相关基准测试中取得SOTA性能[5] - 该模型基于MiMo-VL架构,由自驾与具身团队主导开发,采用四阶段训练策略实现跨领域能力协同提升[3][9][20] - MiMo-Embodied为7B参数规模的开源模型,在动态物理环境中的理解与推理提供统一解决方案[5][7][22] 模型解决的问题与创新点 - 解决现有模型局限于单一领域、缺乏跨场景泛化能力的问题,首次实现自动驾驶与具身智能任务整合[5][7] - 能力全面覆盖自动驾驶的环境感知、状态预测、驾驶规划三大核心能力,以及具身智能的可用性预测、任务规划、空间理解三大核心能力[8] - 通过精心设计的数据集与四阶段训练策略突破跨领域任务干扰,实现性能协同提升[9][20] 模型架构设计 - 核心组件包括基于MiMo-VL的ViT视觉编码器、MLP投影器和继承MiMo-VL权重的大语言模型[12][13] - 视觉输入处理采用高分辨率数据编码生成结构化视觉tokens,通过MLP转换确保与LLM输入空间兼容[14][15] - 支持单图、多图、视频等多种视觉输入,通过自注意力机制提取复杂特征[12] 训练数据集与策略 - 数据集涵盖通用数据集、具身智能数据集和自动驾驶数据集三大类别[17][18] - 四阶段训练策略包括:阶段1通用与具身知识学习、阶段2自动驾驶知识学习、阶段3思维链推理微调、阶段4强化学习微调[20][21] - 训练参数设置统一:批量大小512(阶段4为32)、学习率2×10⁻⁶(阶段4为1×10⁻⁶)、最大序列长度32768[20] 核心性能表现 - 在17项具身智能基准测试中,可用性预测在VABench-Point等5项基准取得SOTA,空间理解在CV-Bench等9项基准领先[23][24] - 在12项自动驾驶基准测试中,环境感知在CODA-LM等基准超越专用模型,驾驶规划在NAVSIM公开基准实现最优性能[23][25] - 具体性能指标:可用性预测VABench-Point得分82.30,空间理解CV-Bench得分88.82,自动驾驶MME-RealWorld得分58.55[22][26] 消融实验与真实任务验证 - 四阶段训练策略使具身任务平均性能达62.4%(较混合训练提升4%),自动驾驶性能达63.3%(较混合训练提升8.1%)[27][37] - 真实世界部署测试显示在具身导航任务中目标物体定位准确,在自动驾驶任务中生成轨迹更贴合人类驾驶逻辑[31][33][36] - 在具身操作任务中成功执行"将锅盖放在锅左侧"、"抓取左边面包放入第二高盘子"等复杂指令[33][34]
FreeAskWorld:交互式具身闭环仿真框架
具身智能之心· 2025-11-24 08:04
文章核心观点 - 清华大学提出的FreeAskWorld框架通过“LLM驱动的交互仿真+方向询问任务”的创新思路,解决了现有视觉-语言导航方案在社交交互性、动态适应性和场景真实性方面的三重困境 [1] - 该方案借助大语言模型实现人类行为模拟与动态指令生成,并通过闭环交互框架支持机器人主动求助与实时适应,最终在室内外混合场景中实现了社交化、动态化、真实化的具身导航与交互 [1] - FreeAskWorld的价值在于为具身智能提供了“用LLM模拟社交行为,用闭环交互实现动态适应”的清晰路径,为服务机器人的真实世界产业化提供了参考范本 [17] 技术方案设计 - 核心设计概括为“以LLM为行为中枢,以闭环交互为核心流程”,串联人类行为模拟、动态指令生成、社交导航执行和多模态数据记录 [5] - 包含三大核心组件:LLM驱动的人类仿真模块、方向询问任务以及数据集生成pipeline [5][7] - 具备四大核心功能:动态环境系统、机器人导航系统、闭环交互框架和场景重建能力 [11] 核心组件细节 - **人类仿真模块**:围绕“外观-行为-语言”三个维度展开,基于SMPL-X模型生成多样化虚拟人类形象,结合LLM生成人类档案和日程,并通过MotionX动画库实现平滑的社交动作 [7] - **方向询问任务**:允许机器人在导航过程中主动向人类求助,通过多轮交互获取关键信息,其流程包括自主导航、主动询问、指令解析和路径调整 [7] - **数据集优势**:涵盖室内外混合场景,包含63,429帧标注样本与17小时以上交互数据,平均指令长度达148词,支持连续动作空间 [8][12] 实验结果与性能 - **人类基线验证**:允许主动询问后,导航成功率从40.2%大幅提升至82.6%,导航误差从18.3降至3.49 [13][16] - **模型性能对比**:在开放环设置下,微调后的ETPNav-FT与BEVBert-FT模型的L2误差较基线降低约50%,其中BEVBert-FT表现最优 [13][16] - **场景适应性**:在包含相同店铺、动态行人的复杂场景中,支持询问的模型能通过与人类交互修正路径,证明该框架能有效评估机器人的高阶认知能力 [14] 行业启示与未来方向 - **核心启示**:主动社交交互是获取环境信息的重要途径,能弥补静态感知的不足;真实仿真需兼顾场景动态性、人类真实性和导航连续性 [19] - **现有挑战**:尽管微调后模型性能提升,但在社交合规导航、长程规划、动态障碍应对上与人类表现仍有较大差距 [16][19] - **未来方向**:包括支持更复杂的社交任务(如谈判、协作)、整合触觉与声音等多模态信息、开发更易用的端到端软件以及利用生成模型提升视觉保真度 [19]