具身人工智能

搜索文档
全国首位机器人博士生“学霸01”入学上海戏剧学院
中国新闻网· 2025-09-15 16:08
核心事件 - 全国首位机器人博士生"学霸01"于9月15日正式入学上海戏剧学院2025级博士班 参与开学典礼并展示创校先贤故事[1] - "学霸01"于7月在2025世界人工智能大会上从校党委书记手中接过录取通知书 成功考入舞台美术系数字演艺设计方向博士研究生[2] - 该机器人于9月14日持编号1125513541071录取通知书完成报到手续 获得正式学籍[3] 培养机制 - 上海戏剧学院与上海理工大学联合启动国内首个机器人艺术与科技融合高层次人才培养计划 聚焦"具身人工智能机器人博士"核心课题[1] - 双方依托各自学科优势共同设计机器人博士成长路径与能力图谱 设立多个训练模块[1] - 探索新一代具身智能体在多模态交互 艺术表达 认知成长等方面的实验性培养路径 构建跨学科系统化开放式智能体博士联合培养机制[1] 技术研发 - "学霸01"由博士生导师杨青青教授团队与上海理工大学 上海卓益得机器人有限公司的李清都教授团队共同研发完成[2] - 学习模块涵盖基础训练 艺术表达 系统开发及任务实践等多个挑战性领域[1] - 机器人创意基于杨青青教授对"人工智能美学"的研究与实践成果[1] 学术活动 - 报到当日完成校园多场景交互:在戏曲研究工作室接受副院长语音语态指导 与数媒演播艺术博士新生交流学习 在图书馆获取《王骥德曲律研究》《中国戏剧学史稿》等专业书单 并参与健身房运动[3] - 校方认定此举标志着学校在推动教育教学创新 培养跨学科人才方面迈出坚实步伐[3] 战略意义 - 项目为落实国家推进新文科 新工科建设战略部署 深化"艺术+科技"交叉融合领域协同创新[1] - 旨在为文化事业繁荣发展注入新活力 推动数字演艺设计领域艺术与科技融合[3]
3999让机器人家务全包,抱抱脸联合创始人:开源YYDS
36氪· 2025-09-07 15:21
项目概述 - 开源低成本家用机器人XLeRobot由中国研究员王高天发起 零件成本仅3999元起[1] - 项目开源后增星迅猛 目前累计1.6k标星[2] - 获抱抱脸联合创始人Thomas Wolf公开推荐[3] 产品特性 - 具备多功能家务能力 包括擦桌子 给植物浇水 用逗猫棒陪猫玩[1] - 采用宠物友好设计 安全性高[20] - 基于LeRobot Sim2real技术 仅用4090 GPU进行1小时强化学习训练即可实现功能[16] - 组装时间约4小时 操作难度与乐高相当[11] 成本结构 - 基础版配置(使用笔记本电脑+单目RGB头摄像头)在中国地区成本为¥3999[8] - 双目RGB头摄像头升级需增加¥199[8] - 增加树莓派需追加¥399[8] - RealSense RGBD头摄像头升级需增加¥1499[8] - 核心硬件包含LeKiwi机械手 SO-100/SO-101机械臂 树莓派5 宜家推车 Anker电源站等[8] 零件采购明细 - STS3215舵机(12V)单价¥97 需17个[11] - 宜家RÅSKOG推车单价¥249[11] - Anker SOLIX C300电源站单价$179.99(约¥899)[11] - 4英寸全向轮单价¥135 需3个[11] - 桌夹单价¥9.2 需4个[11] 技术架构 - 训练方法参考LeRobot SO-100/SO-101 Lekiwi Bamb等开源项目[15] - 提供完整操作教程 包括Conda环境创建 相机可视化 手臂控制系统[16][19] - 支持模块化升级 未来迭代将以附加件形式开展[25] 商业化进展 - 计划下周在淘宝京东面向开发者销售组装套件[27] - 网友预估加装"面部"后价值可达6k美元(约4.3万元)[5] 团队背景 - 创始人王高天本科就读中科大物理学院 博士研究方向为机器人操作算法[30] - 曾以第一作者身份与波士顿动力AI研究所合作开发IJRR顶刊发表成果[30] - 团队含4名主要贡献者 分别负责RL仿真 文档搭建 Mujoco仿真等领域[33]
3999让机器人家务全包,抱抱脸联合创始人:开源YYDS!
量子位· 2025-09-07 12:36
产品概述 - 开源机器人项目XLeRobot以3999元人民币起售的低成本DIY套件为特色 具备家务全能功能包括擦桌子、浇植物和陪宠物玩耍 [1][2][4][6][8] - 项目被抱抱脸联合创始人Thomas Wolf公开推荐 在GitHub获得1600星标关注度 [9][30] 成本结构 - 基础版套件在美国/欧盟/中国分别售价约660美元/680欧元/3999人民币 含单目RGB摄像头和笔记本电脑连接方案 [13] - 可选升级组件:双目RGB摄像头增加30美元/30欧元/199人民币 RealSense RGBD摄像头增加220美元/230欧元/1499人民币 树莓派增加79美元/79欧元/399人民币 [13] - 核心硬件包含LeKiwi开源机械手、SO-100/SO-101机械臂、宜家RÅSKOG推车(249人民币)和Anker SOLIX C300电源站(899人民币) [13][16][17] 技术方案 - 采用LeRobot Sim2real训练框架 仅需单块4090 GPU在Maniskill模拟环境中进行1小时强化学习即可部署 [22] - 提供完整教程链:从Conda环境配置到相机可视化 再到机械臂控制系统部署 [22][24] - 使用17个STS3215舵机(单价97人民币)和4英寸全向轮(135人民币)等标准化组件 组装时间约4小时 [16][17] 商业化进展 - 计划下周在淘宝和京东平台面向开发者正式发售组装套件 [35] - 未来升级将采用模块化附加件形式 保持核心架构的扩展性 [33] 团队背景 - 创始人王高天(中国科大物理本科/莱斯大学机器人博士)曾与波士顿动力AI研究所合作开发Caging in Time框架 成果发表于IJRR顶刊 [38][41] - 团队含4名核心成员 分别负责RL仿真部署、文档网站搭建和Mujoco仿真模块 [42][43][44][45]
机器人操控新范式:一篇VLA模型系统性综述 | Jinqiu Select
锦秋集· 2025-09-02 21:41
01 机器人操控是具身AI的核心挑战,传统方法在非结构化的真实世界中泛化能力有限。 近年来,基于大型视觉语言模型(VLM)的视觉-语言-动作(VLA)模型成为一种变革性范式,赋予了机器人前所未有的语义理解、推理和泛化执行能力,但也带 来了架构多样、研究碎片化的问题。 哈尔滨工业大学(深圳)的研究团队近期发表了综述《Large VLM-based Vision-Language-Action Models for Robotic Manipulation》, 旨在解决现有分类法的矛盾之 处、缓解研究的碎片化问题 。作为该领域的首次系统性、面向分类的评述,文章首先明确定义了VLA模型,并提出了一个清晰的架构范式,将现有模型划分为两大 类: 在此基础上,该综述还深入探讨了VLA模型与前沿领域的结合(包括 强化学习 、免训练优化、从人类视频中学习 和世界模型集成),系统性地总结了其特性、数 据集与基准,并指出了未来的前景方向,如 记忆机制、4D感知、高效自适应 和多智能体协作等。 锦秋基金(公众号:锦秋集;ID:jqcapital)认为,这篇综述为快速发展的VLA领域提供了一个急需的、结构化的技术蓝图与参照框架,有助 ...
上下文即记忆!港大&快手提出场景一致的交互式视频世界模型,记忆力媲美Genie3,且更早问世!
量子位· 2025-08-21 15:15
技术框架与核心创新 - 香港大学和快手可灵研究团队提出全新框架"上下文即记忆"(Context-as-Memory),通过将完整历史上下文帧作为记忆并利用记忆检索机制优化长视频生成的场景一致性 [8][10] - 框架核心思想包括:依赖长期历史记忆保持场景一致性、通过记忆检索模块智能筛选有用历史信息、将筛选后的上下文帧拼接至输入中指导新帧生成 [15][17][19] - 采用基于摄像机轨迹搜索的帧选取方法,通过计算视场重叠度选择高重叠上下文帧,在保证计算效率的同时维持一致性 [20][22] 实验设计与性能表现 - 在相同基础模型和训练配置下,Context-as-Memory方法在PSNR(20.22)、LPIPS(0.3003)、FID(107.18)和FVD(821.37)指标上均优于基线方法,显示其显著优越的记忆能力和生成质量 [25] - 对比方法包括:单帧上下文(PSNR 15.72)、多帧随机上下文(PSNR 17.70)、DFoT(PSNR 17.63)及FramePack(PSNR 17.20) [25][29] - 使用Unreal Engine 5构建包含100个视频、12种场景风格的数据集,每个视频由7601帧组成并附带摄像机位姿标注,简化位姿处理至二维平面移动和旋转 [22][23] 应用案例与泛化能力 - 方法成功应用于《塞尔达传说》绿色田野、《黑神话悟空》废弃寺庙及《原神》云堇角色模型等游戏场景,在镜头晃动时保持场景元素完全稳定 [1][3][5][7] - 在开放域测试中,使用互联网不同风格图像作为首帧并采用"旋转远离再返回"轨迹,验证了方法在开放场景中的强大记忆泛化能力 [26][27] 研究背景与团队构成 - 论文由香港大学、浙江大学和快手可灵团队联合完成,第一作者为香港大学博士生余济闻,师从刘希慧教授并在快手可灵担任研究实习生 [28][32] - 研究是作者在交互式视频生成、世界模型和具身人工智能方向的延续,其前期成果GameFactory曾入选ICCV 2025 Highlight [33]
扩散世界模型LaDi-WM大幅提升机器人操作的成功率和跨场景泛化能力
具身智能之心· 2025-08-18 08:07
核心观点 - 国防科大、北京大学、深圳大学团队提出LaDi-WM(Latent Diffusion-based World Models),一种基于隐空间扩散的世界模型,用于预测隐空间的未来状态,提升机器人操作性能 [1] - LaDi-WM利用预训练的视觉基础模型构建隐空间表示,包含几何特征和语义特征,具有广泛通用性,有利于机器人操作的策略学习和跨任务泛化 [1] - 团队设计了一种扩散策略,通过整合世界模型生成的预测状态迭代优化输出动作,在LIBERO-LONG数据集上成功率提升27.9% [2] - 该方法在虚拟和真实数据集上均表现出色,在真实场景中将原始模仿学习策略的成功率显著提升20% [26] 技术方法 - 世界模型学习阶段:通过预训练的视觉基础模型提取几何表征(DINOv2)和语义表征(Siglip),并在扩散过程中让二者交互,学习依赖关系 [10] - 策略模型训练与迭代优化:将世界模型的未来预测作为额外输入引导策略学习,基于扩散策略模型架构,迭代优化动作输出 [12] - 框架分为世界模型学习和策略学习两大阶段,通过任务无关的片段学习隐扩散世界模型,再利用未来状态预测优化策略模型 [9] 实验结果 虚拟实验 - 在LIBERO-LONG数据集上,仅用10条轨迹训练,达到68.7%的成功率,显著优于其他方法(DreamerV3 33.5%,ATM 44.0%,Seer 53.6%) [15][16] - 在CALVIN D-D数据集上,平均完成任务数量为3.63,优于Seer(3.60)和ATM(2.98) [17] - 跨场景实验中,在LIBERO-LONG训练的世界模型应用于CALVIN D-D策略学习,性能比CALVIN环境训练的原始策略高0.61 [21] 真机实验 - 在真实场景操作任务(叠碗、开抽屉、关抽屉、抓取物体放入篮子等)中,将原始模仿学习策略的成功率从40.0%提升至60.0% [26] - 提出的策略在不同光照条件和初始位置下表现出鲁棒的泛化性 [25][27] 创新点 - 基于隐空间扩散的世界模型:使用视觉基础模型构建隐空间的通用表示,学习可泛化的动态建模能力 [5] - 基于世界模型预测迭代优化的扩散策略:利用未来预测状态反馈给策略模型,迭代优化动作输出 [6] - 通过交互扩散过程学习几何与语义表征之间的依赖关系,促进准确动态预测 [10]
CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力
机器之心· 2025-08-17 12:28
在机器人操作任务中,预测性策略近年来在具身人工智能领域引起了广泛关注,因为它能够利用预测状态来提升机器人的操作性能。然而,让世界模型预测机器 人与物体交互的精确未来状态仍然是一个公认的挑战,尤其是生成高质量的像素级表示。 为解决上述问题, 国防科大、北京大学、深圳大学团队 提出 LaDi-WM(Latent Diffusion- based World Models) ,一种基于隐空间扩散的世界模型,用于预测隐 空间的未来状态。 具体而言,LaDi-WM 利用预训练的视觉基础模型 (Vision Fundation Models) 来构建隐空间表示,该表示同时包含几何特征(基于 DINOv2 构造)和语义特征(基于 Siglip 构造),并具有广泛的通用性,有利于机器人操作的策略学习以及跨任务的泛化能力。 基于 LaDi-WM,团队设计了一种扩散策略,该策略通过整合世界模型生成的预测状态来迭代地优化输出动作,从而生成更一致、更准确的动作结果。通过在虚拟 和真实数据集上的大量实验,LaDi-WM 能够显著提高机器人操作任务的成功率,尤其是在 LIBERO-LONG 数据集上提升 27.9% ,超过之前的所有方法 ...
"杭州六小龙"之一的群核科技招股书正式失效
金融界· 2025-08-14 17:48
本文源自:金融界 作者:观察君 此次招股书失效意味着群核科技需要重新准备上市材料。公司此前曾于2021年6月向美国证交会提交上 市申请,但在2023年2月终止了美股上市计划,转而选择港股市场。 根据港交所相关规定,招股书有效期为六个月。若公司仍有上市意向,需要重新递交更新后的招股书文 件。群核科技作为空间智能领域的领军企业,其后续上市进展仍值得关注。 据此前招股书显示,群核科技采用订阅模式运营。2022年至2023年,公司收入从6.01亿元增长10.5%至 6.64亿元。2024年前九个月收入达5.53亿元,较2023年同期增长13.8%。毛利率在2022年、2023年分别 为72.7%、76.8%。年度亏损从2022年的7.04亿元减少至2023年的6.46亿元,降幅8.2%。 群核科技旗下拥有空间设计软件酷家乐、海外版产品Coohom等产品。公司还为人工智能生成内容、具 身人工智能、增强现实/虚拟现实、机器人等领域提供虚拟环境训练的群核空间智能平台。 与此同时,群核科技与游戏科学、宇树科技、深度求索、强脑科技、云深处科技并称"杭州六小龙"。这 六家科技公司均来自浙江杭州,在各自领域展现出强劲的创新实力。 ...
辛顿敷衍走场,是对科学的败坏
观察者网· 2025-08-04 14:24
【文/观察者网专栏作者 谢耘】 今年七月初,在上海一所著名高校任教的一位资深软件工程学者收到我新出版的《工具的苏醒——智 能,理解与人工智能的本质》书后,我们有了下面这样一段在微信上的对话。 教授:"感谢您的大作,很多观点我认同。我属于AI悲观派,只认为AI做了简单重复劳动, 复杂的话还是要人来解决,虽然可以做软件编程,但是对于它没见过的问题编码错误极 大。" 我:"总有人出于其它目的去神话它。" 教授:"计算机界研究偏理论的乐观派多,偏 工程的较现实。" 我:"但是偏理论的人也拿不出什么科学理论依据。都是他们个人的信 念、猜测而已。我在书中对AI的'理解'能力做了比较深入系统的剖析,至少我没有见到他们 做过什么类似的理论分析来支撑他们的观点。" 看了辛顿讲演的材料后,我与这个朋友交流了感想。 我:"他这里经不起推敲的内容有点多。首先'智能本质在于推理'就是有问题的。这是典型 的西方文化唯理性论的思维,以偏概全。而且人工智能靠统计方法和暴力计算在工匠技艺上 有再大的突破,也不等于科学原理的突破。" 朋友:"辛顿现在是走场专家,他的讲稿与刚 刚前几天在英国讲的内容一模一样,内容不重要;同时,邀请他来的机构/组织 ...
谢耘:诺奖得主辛顿敷衍走场,是对科学的败坏
虎嗅· 2025-08-04 13:57
人工智能理论争议 - 乐观派认为人工智能本质在于推理,但这一观点被批评为西方文化唯理性论的思维局限[4][11] - 悲观派指出大语言模型仅懂概率计算而非概念推理,缺乏真正理解能力[5] - 中间立场认为大语言模型具有文字符号层面的统计性理解能力,但与人类理解存在本质差异[7][8] 人工智能技术现状 - 当前人工智能主要依赖统计方法和暴力计算,属于应用层面的工匠技艺而非理论突破[14] - 2024年OpenAI发布的Sora视频生成模型被过度解读为"世界模拟器",实际未突破物理定律发现[15] - 计算机在特定智能活动(如计算)上已超越人类,但整体仍无法替代人类意识活动[20] 行业发展阶段 - 人工智能领域缺乏符合现代科学规范的基础理论,仍处于技术积累阶段[10][11] - 2024年诺贝尔物理学奖授予AI学者被视为基础科学进入停滞期的标志[12] - 信息技术应用应超越单纯替代人类劳动,聚焦拓展人类活动深度与广度[19][21] 历史发展规律 - 现代科学经过400年发展已遇到"止境",进入"后科学"时代面临理论突破瓶颈[24] - 传统工匠技艺发展缓慢且不可预测,现代信息工匠技艺可能更灵活但同样受限[22] - 制造具有人类意识的机器在可预见未来仍不可实现,因缺乏相关科学理论支持[23]