具身AGI
搜索文档
原神Agent,字节出品
猿大侠· 2025-11-16 12:11
文章核心观点 - 字节公司开发出名为Lumine的原神Agent,该智能体不仅能自主完成《原神》游戏内的跑图、战斗、解谜等复杂任务,还具备强大的跨游戏泛化能力,可在《鸣潮》、《崩坏:星穹铁道》及《黑神话:悟空》等未学习过的游戏中执行任务,代表了在3D开放世界中构建通用智能体(AGI)的重要进展[1][4][46][55] Lumine Agent的核心能力 - 在《原神》中能动态追踪敌人位置、精准射击、流畅切换角色并收集宝箱[4] - 具备超强理解能力,可应对Boss战[6]和空间感知能力,能完成沿风场收集风神瞳等解谜关卡[8] - 能在多NPC环境中锁定指定对象并完成对话[10],并通过鼠标移动完成材料制作、使用传送锚点等GUI操作[12] - 对于复杂长指令,只需提供任务先验信息或步骤即可执行,例如切换特定角色并释放技能以完成收集任务[14] 技术架构与核心机制 - 基于Qwen2-VL-7B-Base模型搭建,继承其多模态理解与生成能力[16] - 采用类人交互范式,通过统一语言空间建模所有操作和推理,实现感知、推理、行动的无缝融合[17] - 感知空间将游戏画面帧调整至720P,以每200ms速度处理一帧,并保留历史推理轨迹与动作记录以提供决策上下文[20][21] - 采用混合思考策略,仅在关键场景生成内心独白式推理,简单场景则直接输出动作以提高效率[22] - 将所有键盘与鼠标操作纳入语言空间,定义为鼠标位移和按键序列的格式[23] 三阶段训练流程 - 第一阶段预训练混合80%游戏动作数据和20%多模态网页数据,使模型掌握基础视觉运动能力,涌现出物体交互、基础战斗等核心能力[25][26] - 第二阶段指令跟随训练使用38类任务场景下的200小时数据,使模型理解自然语言指令,关联动作与语言,可完成10秒至数分钟短周期任务且成功率超80%[27][28] - 第三阶段决策推理训练使用15小时人工标注推理数据,让模型学会自主规划、反思与修正,从而能自主完成数小时以上的长周期任务[29][30] 性能优化与实验结果 - 通过上下文管理和多维度实时优化,包括滑动窗口机制与推理触发刷新策略,并将端到端延迟降至129.8ms[31][32][33] - Lumine-Base在无语言指令下,基础交互能力总成功率超90%,能自发运用元素反应和理解体力值限制等游戏机制[39] - Lumine-Instruct在语言指令驱动的短周期任务中,简单任务成功率达92.5%,困难任务成功率达76.8%,远超其他主流视觉语言模型[41] - Lumine-Thinking在长剧情任务中,完成蒙德主线第一章耗时56分钟且完成率100%,第二、三章合计耗时4.7小时且完成率98.2%[44][45] 跨游戏泛化能力 - 在相似玩法的《鸣潮》中,前100分钟剧情总耗时102分钟且完成率100%[48] - 在玩法差异较大的《崩坏:星穹铁道》中,通过第一章主线总耗时7.2小时且完成率92.3%,是唯一能完整通关的模型[48] - 在高难度3A游戏《黑神话:悟空》中,完成新手教程和第一章前半段耗时2.1小时且完成率85.7%[49] 行业趋势与意义 - 谷歌等公司也在使用游戏场景训练Agent,例如其基于Gemini模型的SIMA 2,具备遵循指令和强大推理能力[52][53] - 字节和谷歌DeepMind代表了一条清晰的Agent发展路径:在大型3D游戏中构建具身AGI,并相信游戏内的通用Agent终将进入现实物理世界[55][56]
迈向通用具身智能:具身智能的综述与发展路线
具身智能之心· 2025-06-17 20:53
具身AGI的定义 - 具身AGI被定义为能够以人类水平的熟练度完成多样化、开放式现实世界任务的具身AI系统,强调其人类交互能力和任务执行能力 [3] 通用具身智能路线 - 论文提出从L1到L5的五级路线图,衡量和指导具身AGI的发展,每个级别基于四个核心维度:模态、类人认知能力、实时响应能力和泛化能力 [4] - L1(单一任务完成):机器人能够可靠地完成单一、明确定义的任务,但功能局限于特定任务领域 [7] - L2(组合任务完成):机器人能够处理组合任务,通过将高级人类指令分解为简单动作序列来执行,但能力仍限于预定义任务和技能库 [7] - L3(有条件的一般任务完成):机器人能够处理多种任务类别,表现出对任务、环境和人类指令的有条件泛化能力,但对全新或开放式任务的可靠性不足 [7] - L4(高度通用机器人):机器人展现出对广泛未见任务的稳健泛化能力,具备强大的多模态理解和推理能力 [7] - L5(全功能机器人):机器人能够满足人类日常生活的广泛需求,展现出类似人类的认知行为 [7] 现状和挑战 - 当前具身AI的能力处于L1和L2之间 [7] - 现有的具身AI模型大多仅支持视觉和语言输入,并且输出仅限于动作空间 [8] - 现有的机器人主要专注于任务特定的操作,缺乏高级的推理和社交互动能力 [11] - 大多数现有的具身AI系统以半双工方式运行,即在完全接收和处理指令后才开始行动,这使得它们在动态环境中表现不佳 [14] - 具身AI需要在推理和对话智能方面表现出色,类似于复杂的聊天机器人,并展示与人类偏好和伦理价值观的一致性 [17] L3∼L5核心能力组件 - 全模态能力:L3+机器人需处理超越视觉和文本的多模态输入(如听觉、触觉、热感等),并生成多模态响应(动作、语音、推理等) [18] - 类人认知行为:包括自我意识、社会关联理解、程序性记忆和记忆重组 [18] - 实时交互:现有模型因参数量限制难以支持全模态实时响应,且计算复杂度随序列长度平方增长 [19] - 开放任务泛化:当前模型依赖任务特定数据,缺乏物理规律的内化 [19] L3+机器人大脑框架 - 模型结构设计原则包括全模态流式处理和动态响应 [19] - 训练范式包括全模态从头训练、终身学习集成和物理导向训练 [20] 总结与未来挑战 - 具身AGI的发展路线图具有长期相关性 [20] - 未来挑战包括技术障碍以及伦理、安全和社会影响等方面的挑战 [20]
机器人行业周报:联想、美的等大厂加速布局人形机器人-20250511
西南证券· 2025-05-11 13:30
报告行业投资评级 - 强于大市(维持) [1] 报告的核心观点 - 本周(5月5日 - 5月11日)机器人指数跑输大盘,中证机器人指数上涨1.6%,跑输上证指数0.3个百分点,跑输沪深300指数0.4个百分点,跑输创业板指1.6个百分点 [5][12] - 联想、美的等大厂加速布局人形机器人,行业动态丰富,包括高校采购、企业产品落地、赛事举办、模型开源、新机器人推出及企业融资等 [1][5] 各目录总结 行情回顾 - 本周机器人指数跑输大盘,中证机器人指数涨1.6%,跑输上证指数0.3个百分点、沪深300指数0.4个百分点、创业板指1.6个百分点 [5][12] - 展示了机器人各细分板块行情回顾,如减速器、电机、丝杠等环节部分公司的市值、本周收盘价、涨跌幅、25E归母净利及25E对应PE等数据 [14][15] 产业动态 - 同济大学采购10台宇树通用人形机器人(型号:H1 - 2),中标金额8256600元,此次采购在众多高校中数量最多、金额最大 [5][16] - 美的自主研发的类人形机器人5月进湖北荆州洗衣机工厂,用于机器运维等场景,下半年进线下门店,用于商业导览等场景,产业化或需3 - 5年 [5][17] - 联想在“联想Tech World 2025创新科技大会”发布“联想乐享壹号”人形机器人,展示了肢体协调和业务问答能力,此前能与顾客互动 [5][20] - 2025世界人形机器人运动会8月15 - 17日在北京“双奥场馆”举行,分主体赛事和外围赛事,有明确参赛条件和规定 [5][23] - 清华大学叉院ISRLab与星动纪元开源首个AIGC生成式机器人大模型VPP,优势显著,将推动机器人技术发展 [5][24] - 亚马逊推出首款触觉机器人Vulcan,能处理仓储中心约75%商品,计划未来几年在欧美站点部署 [5][25] 融资动态 - 傲鲨智能完成数千万元B轮融资,由彬复资本领投,老股东国仪资本跟投,融资用于产品线拓展等,巩固双轨竞争力 [5][27]
快讯|2025世界人形机器人运动会8月落地北京;清华、星动纪元开源首个AIGC机器人大模型;亚马逊推出首款触觉机器人Vulcan
机器人大讲堂· 2025-05-08 14:38
2025世界人形机器人运动会 - 赛事将于2025年8月15日至17日在北京国家体育场(鸟巢)和国家速滑馆(冰丝带)举行,由中央广播电视总台等多方联合主办[1] - 主体赛事包括竞技赛(11个小项)、表演赛(单机/群体舞蹈)和场景赛(工业/医院/酒店场景6个项目),外围赛事有非人形机器人参与的3个项目[1] - 参赛机器人需满足自研或采购等六个条件,国内外单位均可报名,对参赛队人数、项目数量及场地人员有明确规定[1] 清华与星动纪元开源AIGC机器人大模型 - 清华大学叉院ISRLab与星动纪元联合开源首个AIGC生成式机器人大模型VPP,获ICML2025 Spotlight认可[4] - VPP利用互联网视频数据训练,降低对真机数据依赖,支持跨人形机器人切换,控制频率超50Hz[4] - 模型实现实时未来预测与动作执行,在基准测试和真实世界任务中表现领先,预测视觉表示具可解释性[4] 长木谷智能手术机器人 - 长木谷骨科手术机器人术前5-10分钟即可基于CT数据制定个性化方案,术后患者恢复期大幅缩短至次日出院[6] - 公司2018年切入骨科AI赛道,通过标注医学影像和转化专家经验,开发出"数智脑""数智手""数智眼"系统[6] - 2023年起产品获中、美、欧、东南亚认证,落地超1000家医院,配合集采降低患者治疗成本[6] 有鹿机器人教育合作 - 有鹿机器人与上海圣华紫竹双语学校签约,提供定制化机器人教学方案,涵盖课程、实践及竞赛指导[10] - 合作旨在通过机器人互动提升学生编程、逻辑思维和创新能力,推动科技与教育深度融合[10] 亚马逊触觉机器人Vulcan - Vulcan机器人具备触觉感知能力,可处理仓储中心75%的商品,速度与员工相当,并能识别需人工处理的物品[13] - 该机器人基于物理AI技术开发,优化货舱空间利用,减少员工梯上作业时间,计划未来几年在欧美站点部署[13] 行业企业名录 - 工业机器人领域涵盖埃斯顿自动化、埃夫特机器人等12家企业[18] - 医疗机器人包括元化智能、天智航等12家,人形机器人涉及优必选科技、宇树等21家[20][21] - 核心零部件企业如绿的谐波、因时机器人等24家,教育机器人含硅步机器人等3家[21]