具身人工智能
搜索文档
10%训练数据超越100%表现,机器人学习领域迎来重要突破
机器之心· 2025-06-11 11:54
研究团队与背景 - 第一作者陈昌和是美国密歇根大学研究生,研究方向为基础模型、机器人学习与具身人工智能,专注于机器人操控、物理交互与控制优化[1] - 第二作者徐晓豪是密歇根大学机器人学院博士生,研究涵盖3D感知、视觉语言模型驱动的多模态异常检测及鲁棒三维重建[2] - 共同第一作者Quantao Yang是瑞典皇家理工学院博士后,研究聚焦于利用视觉语言模型与大型语言模型提升自主系统在动态环境中的感知与导航能力[3] ViSA-Flow框架创新 - 提出革命性的机器人技能学习方法ViSA-Flow,能够从大规模人类视频中提取语义动作流,显著提升数据稀缺情况下的学习效率[4] - 在CALVIN基准测试中表现卓越,仅使用10%训练数据就超越使用100%数据的现有最佳方法[4] - 引入语义动作流作为中间表示,捕捉操作器-物体交互的本质时空特征,不受表面视觉差异影响[10] - 包含三个关键组件:语义实体定位、手-物体交互跟踪、流条件特征编码[11][12][13] 技术实现与评估 - 采用两阶段学习框架:预训练阶段学习ViSA-Flow动态先验,微调阶段进行策略适应[16] - 在CALVIN基准测试中,ViSA-Flow仅使用10%数据(1,768个)就超越所有基线方法,包括使用100%数据的方法[18][19] - 在5个连续任务完成方面达到31.4%成功率,是使用10%数据的次佳方法GR-MG(16.2%)的近两倍,甚至超过使用100%数据训练的SuSIE(26.0%)[19] - 平均序列长度达到2.96,证明其在处理长时程操作任务方面的有效性[20] 技术优势与局限性 - 技术优势包括数据效率高、跨域泛化能力强、长时程稳定性好、语义一致性佳[40] - 当前局限性包括缺乏显式3D几何和接触动力学建模、依赖预训练VLM组件、在精细物理交互任务中可能存在限制[40] - 未来发展方向包括增强物理建模、减少对预训练组件的依赖、与强化学习算法结合、扩展到网络规模视频语料库进行预训练[40] 研究意义与展望 - 为机器人学习领域带来重要突破,证明从大规模人类视频中提取语义表示进行机器人技能学习的可行性[36] - 成功桥接人类演示视频观察与机器人执行之间的差距,为构建更智能、高效的机器人学习系统开辟新方向[37] - 有望在工业自动化、家庭服务机器人、医疗辅助等多个领域发挥重要作用,推动机器人技术向更加智能化和普适化方向发展[38]
“AI教母”李飞飞揭秘“世界模型”:要让AI像人类一样理解三维空间
36氪· 2025-06-06 20:31
公司概况 - World Labs由李飞飞创办,专注于研究前所未有的深度技术,目标是构建能够理解和推理三维物理世界的AI系统[4] - 公司寻找的投资者需具备计算机科学、人工智能、市场和产品等多方面专业知识,并能与创始人展开深度知识对话[4] - 李飞飞认为当前是集结行业资源(计算能力、数据、人才)实现"世界模型"理想的最佳时机[9] 技术方向 - World Labs致力于解决"空间智能"挑战,这是AI理解三维物理世界和虚拟数字宇宙的核心能力[2] - "世界模型"指能全面理解三维世界结构、形态和组成的AI系统,超越语言局限[4][6] - 技术突破点在于让AI具备类人的空间感知能力,这是实现"具身智能"的关键[11] 行业应用 - 创造力领域:将改变设计、电影、建筑和工业产品设计等视觉化和空间化的工作方式[12] - 机器人领域:赋能各类"具身智能机器"在三维环境中与人类协作[12] - 虚拟宇宙:结合生成模型和重建模型,创造"无限宇宙"的新体验[12][13] 技术比较 - 大语言模型存在局限性,无法完美捕捉三维世界的复杂性[6][7] - 3D计算机视觉相比2D具有显著优势,能解决机器人空间操作等实际问题[14] - 空间感知系统在进化史上早于语言系统出现,是更基础的智能组成部分[11] 发展前景 - "世界模型"将重新定义机器人、创意产业和计算本身[2] - 技术成熟后将推动人类突破二维思维框架,进入三维智能新时代[13] - 应用场景涵盖生产力、制造业、工程、社交、旅行等多个领域[12][13]
AI Agents:从工具到伙伴 | 2025 HongShan AI Day(上篇)
红杉汇· 2025-05-30 14:40
活动概述 - 红杉中国第三届AI Day以“AI Agents:From Copilot to Colleague”为主题 为200多位成员企业CEO和技术高管举办峰会 [2] AI Agents行业趋势与机遇 - AI Agents正临近从工具到伙伴的转折点 AI创业公司面临巨大的结构性机遇 [2] - Agent能够承载知识、技能与决策能力 将智力劳动以结果形式跨越边界高效传递 推动智力全球化 [8] - 创业者应具备“生而全球”的思维 而不仅仅是考虑出海 [8] 具身AI与机器人发展路径 - 具身AI技术的发展不会出现陡然的转折点 而是逐步渗透进To B应用场景 再经年打磨升级后进入家庭领域 [6] - 乐观预计机器人技术有望在约3年左右实现关键性突破 迎来真正意义上的商业化转折 [6] - 无论是硬件机器人还是软件Agent 共同特点是获得信息同时有进一步交付的能力 [4] 公司战略与产品理念 - Genesis致力于彻底改变具身AI和物理AI [2] - Manus旨在为用户提供全能执行 其核心理念是打造“Single Agent” 专注于“more context, less control”以弥补语言模型处理上下文能力的不足 [2][10] - 企业选择不同级别的智能目标(如Leval 2或Leval 4) 将导致智能能力和商业结果大不相同 [4] 未来展望 - 期待“世界模型”的重要进展 以及下一个AI智能的Aha Moment出现 [4] - 会议探讨了在AI的“下半场” 如何用“更好的问题”去判断基础模型和Agent的能力 [2]
快讯|我国自研国际首创深水海管铺设智能装备完成海试;MIT研发高速精准乒乓球机器人;Persona AI融资2700万美元等
机器人大讲堂· 2025-05-19 21:12
深水海管铺设智能装备 - 我国自主研发的"海卫"系统完成海试 采用国际首创"无人船+水下自主遥控机器人+中继器+光通信"技术 设计作业水深达1500米 [1] - 系统包含国内首艘18米级无人船"守护者" 作为水面基站提供能源和控制信号 首个自主研发的1500米级水下机器人"领航者"具备3节抗流与10天续航能力 [1] - 关键技术突破包括高耐波无人船、水下自主机器人、光通信等 性能指标均达设计要求 标志深水海洋油气装备智能化无人化领域取得进展 [1] Persona AI融资与团队 - Persona AI完成2700万美元种子轮前融资 资金将用于加速造船和制造业专用机器人平台开发 [2][4] - 公司由机器人领域资深人士创立 核心团队包括NASA前首席研究员Nic Radford(CEO)、Figure AI前CTO Jerry Pratt(CTO)及Nauticus Robotics前工程副总裁Jide Akinyode(COO) [4] MIT乒乓球机器人技术 - MIT研发的轻量化乒乓球机器人回球速度达19米/秒(42英里/小时) 接近人类顶尖选手21-25米/秒水平 命中率88% [7] - 通过三台计算机协同处理 300毫秒内完成从识别到挥拍动作 连续击打150次不同旋转球路测试中保持稳定表现 [7] - 技术结合多关节机械臂与优化算法 突破传统机器人反应速度与精准度平衡难题 可应用于体育训练及提升人形机器人动态响应 [7] GCR仿生多足机器人商用化 - GCR推出首款商用仿生多足机器人 采用模块化腿足结构与"无脑"运动控制技术 适应葡萄园等复杂地形 [10] - 通过分布式机械智能设计实现低成本(千美元级)自主作业 可组建24小时作业群组 解决农业人力短缺与农药依赖问题 [10] - 目前与佐治亚州农户合作试点 未来计划拓展至灾害救援领域 标志仿生机器人从学术验证向实用化跨越 [10] 反拉伸超材料突破 - 荷兰团队研发"Countersnapping"超材料 拉伸时自动收缩 颠覆传统材料力学行为 发表于《美国国家科学院院刊》 [13] - 应用包括:1)医疗内窥镜机器人单向无动力运动 2)外骨骼刚度动态调节 3)飞机与建筑自阻尼振动控制 [13] - 模块化设计实现"受拉收缩"特性 项目负责人称其为机械系统的"新基因" 潜在应用覆盖软体机器人、智能穿戴及抗震技术 [13] 机器人行业企业分类 - 工业机器人领域包含埃斯顿自动化、埃夫特机器人等12家企业 [18] - 人形机器人领域涵盖优必选科技、宇树等18家企业 [18] - 核心零部件企业涉及绿的谐波、因时机器人等23家 覆盖谐波减速器、传感器等关键部件 [20]