具身AGI - 财报，业绩电话会，研报，新闻

具身AGI

搜索文档

观察者网· 2026-02-25 16:52

国家战略定位与产业共识 - 无人驾驶被定位为国家抢占未来产业竞争制高点、催生新质生产力的关键，是人工智能与实体经济深度融合的重要应用 [1] - 产业发展正处于“奇点时刻”，亟需通过政策创新、场景开放和制度重构，推动从测试验证迈向规模化应用 [1][4] - 高阶自动驾驶与具身智能被视为智能原生应用的典型代表，是让AI从数字空间走向实体经济、布局未来产业的关键 [3] 国际竞争格局与立法进展 - 美国国会众议院能源与商务委员会已通过《自动驾驶法案》，进入全院审议，这是美国联邦层面首次建立全国统一监管框架，并允许无方向盘、无脚踏板的无人驾驶车辆合法化 [1] - 美国企业加速商业化，特斯拉首辆无脚踏板、无方向盘的Cybercab已下线并计划在2026年4月投入量产，Waymo在扩张美国市场的同时正加速进入日本东京、英国伦敦等全球市场 [1] - 中国无人驾驶技术加速出海，例如萝卜快跑已落地迪拜、阿布扎比等全球22个城市，并成为2026年迪拜世界政府峰会唯一指定的全无人试乘车队 [6] 规模化应用面临的挑战与“卡点” - 当前自动驾驶试点和测试仍是“小规模、区域性”的，多数城市仅开放部分路网，缺乏区域级联动的场景验证，成为推动规模化产业化的“关键卡点” [8] - 从领先技术到落地应用，最耗时的是“技术-社会系统”的完善，需提前为L4级及以上自动驾驶考虑驾驶主体法律地位、事故责任认定、保险机制、数据合规等社会治理问题 [5] - 需压缩技术扩散的自然演进过程，先让技术用起来，在应用中迭代系统 [5] 政策与制度创新建议 - 建议将自动驾驶纳入国家“十五五”规划顶层设计，因地制宜支持有条件的地方拓展更大范围、更多场景的应用 [4] - 建议扩大试点、场景驱动，选择有条件的都市圈（如京津冀、长三角、大湾区、成渝、海南岛）建立5到10个区域级工程验证平台，打造全球影响力的自动驾驶应用集群 [8] - 建议在《智能网联汽车道路测试与示范应用管理规范（试行）》等政策文件中，为新车型、新服务、新模式的验证及规模化落地提供制度型开放空间，支持地方先行先试 [9] - 建议为自动驾驶等创新提供先行先试的政策空间，以重构物流、出行、交通管理及城市空间利用方式 [9] 产业发展方向与商业价值 - 新能源汽车的自动化正超越“汽车+AI”模式，迈向以AI为核心基因、创造全新产品形态和商业模式的智能原生产业阶段 [4] - 自动驾驶将发展成智能性综合平台，成为一种移动的生活平台、工作平台、服务平台，技术价值、产业价值、社会价值巨大 [8] - 自动驾驶将出行服务转变为“移动私密空间”，创造了超越单纯位移的“增量服务价值”，用户调研显示约95%的乘客体验后明确表示将继续使用，超七成用户期待其成为未来主要出行模式 [10] 法律与监管框架需求 - 未来汽车监管需解决三方面新需求：新增自动驾驶车辆的法律地位、责任和义务；更新人类驾驶员的责任和义务；对汽车产品生产一致性进行动态监管，包括相关法规与标准 [10] - 需通过系统施策，形成政府引导、企业主导、科研支撑、多方协同的系统推进机制，推动AI原生应用从试点示范向规模化落地 [9]

猿大侠· 2025-11-16 12:11

文章核心观点 - 字节公司开发出名为Lumine的原神Agent，该智能体不仅能自主完成《原神》游戏内的跑图、战斗、解谜等复杂任务，还具备强大的跨游戏泛化能力，可在《鸣潮》、《崩坏：星穹铁道》及《黑神话：悟空》等未学习过的游戏中执行任务，代表了在3D开放世界中构建通用智能体（AGI）的重要进展[1][4][46][55] Lumine Agent的核心能力 - 在《原神》中能动态追踪敌人位置、精准射击、流畅切换角色并收集宝箱[4] - 具备超强理解能力，可应对Boss战[6]和空间感知能力，能完成沿风场收集风神瞳等解谜关卡[8] - 能在多NPC环境中锁定指定对象并完成对话[10]，并通过鼠标移动完成材料制作、使用传送锚点等GUI操作[12] - 对于复杂长指令，只需提供任务先验信息或步骤即可执行，例如切换特定角色并释放技能以完成收集任务[14] 技术架构与核心机制 - 基于Qwen2-VL-7B-Base模型搭建，继承其多模态理解与生成能力[16] - 采用类人交互范式，通过统一语言空间建模所有操作和推理，实现感知、推理、行动的无缝融合[17] - 感知空间将游戏画面帧调整至720P，以每200ms速度处理一帧，并保留历史推理轨迹与动作记录以提供决策上下文[20][21] - 采用混合思考策略，仅在关键场景生成内心独白式推理，简单场景则直接输出动作以提高效率[22] - 将所有键盘与鼠标操作纳入语言空间，定义为鼠标位移和按键序列的格式[23] 三阶段训练流程 - 第一阶段预训练混合80%游戏动作数据和20%多模态网页数据，使模型掌握基础视觉运动能力，涌现出物体交互、基础战斗等核心能力[25][26] - 第二阶段指令跟随训练使用38类任务场景下的200小时数据，使模型理解自然语言指令，关联动作与语言，可完成10秒至数分钟短周期任务且成功率超80%[27][28] - 第三阶段决策推理训练使用15小时人工标注推理数据，让模型学会自主规划、反思与修正，从而能自主完成数小时以上的长周期任务[29][30] 性能优化与实验结果 - 通过上下文管理和多维度实时优化，包括滑动窗口机制与推理触发刷新策略，并将端到端延迟降至129.8ms[31][32][33] - Lumine-Base在无语言指令下，基础交互能力总成功率超90%，能自发运用元素反应和理解体力值限制等游戏机制[39] - Lumine-Instruct在语言指令驱动的短周期任务中，简单任务成功率达92.5%，困难任务成功率达76.8%，远超其他主流视觉语言模型[41] - Lumine-Thinking在长剧情任务中，完成蒙德主线第一章耗时56分钟且完成率100%，第二、三章合计耗时4.7小时且完成率98.2%[44][45] 跨游戏泛化能力 - 在相似玩法的《鸣潮》中，前100分钟剧情总耗时102分钟且完成率100%[48] - 在玩法差异较大的《崩坏：星穹铁道》中，通过第一章主线总耗时7.2小时且完成率92.3%，是唯一能完整通关的模型[48] - 在高难度3A游戏《黑神话：悟空》中，完成新手教程和第一章前半段耗时2.1小时且完成率85.7%[49] 行业趋势与意义 - 谷歌等公司也在使用游戏场景训练Agent，例如其基于Gemini模型的SIMA 2，具备遵循指令和强大推理能力[52][53] - 字节和谷歌DeepMind代表了一条清晰的Agent发展路径：在大型3D游戏中构建具身AGI，并相信游戏内的通用Agent终将进入现实物理世界[55][56]

迈向通用具身智能：具身智能的综述与发展路线

具身智能之心· 2025-06-17 20:53

具身AGI的定义 - 具身AGI被定义为能够以人类水平的熟练度完成多样化、开放式现实世界任务的具身AI系统，强调其人类交互能力和任务执行能力 [3] 通用具身智能路线 - 论文提出从L1到L5的五级路线图，衡量和指导具身AGI的发展，每个级别基于四个核心维度：模态、类人认知能力、实时响应能力和泛化能力 [4] - L1（单一任务完成）：机器人能够可靠地完成单一、明确定义的任务，但功能局限于特定任务领域 [7] - L2（组合任务完成）：机器人能够处理组合任务，通过将高级人类指令分解为简单动作序列来执行，但能力仍限于预定义任务和技能库 [7] - L3（有条件的一般任务完成）：机器人能够处理多种任务类别，表现出对任务、环境和人类指令的有条件泛化能力，但对全新或开放式任务的可靠性不足 [7] - L4（高度通用机器人）：机器人展现出对广泛未见任务的稳健泛化能力，具备强大的多模态理解和推理能力 [7] - L5（全功能机器人）：机器人能够满足人类日常生活的广泛需求，展现出类似人类的认知行为 [7] 现状和挑战 - 当前具身AI的能力处于L1和L2之间 [7] - 现有的具身AI模型大多仅支持视觉和语言输入，并且输出仅限于动作空间 [8] - 现有的机器人主要专注于任务特定的操作，缺乏高级的推理和社交互动能力 [11] - 大多数现有的具身AI系统以半双工方式运行，即在完全接收和处理指令后才开始行动，这使得它们在动态环境中表现不佳 [14] - 具身AI需要在推理和对话智能方面表现出色，类似于复杂的聊天机器人，并展示与人类偏好和伦理价值观的一致性 [17] L3∼L5核心能力组件 - 全模态能力：L3+机器人需处理超越视觉和文本的多模态输入（如听觉、触觉、热感等），并生成多模态响应（动作、语音、推理等） [18] - 类人认知行为：包括自我意识、社会关联理解、程序性记忆和记忆重组 [18] - 实时交互：现有模型因参数量限制难以支持全模态实时响应，且计算复杂度随序列长度平方增长 [19] - 开放任务泛化：当前模型依赖任务特定数据，缺乏物理规律的内化 [19] L3+机器人大脑框架 - 模型结构设计原则包括全模态流式处理和动态响应 [19] - 训练范式包括全模态从头训练、终身学习集成和物理导向训练 [20] 总结与未来挑战 - 具身AGI的发展路线图具有长期相关性 [20] - 未来挑战包括技术障碍以及伦理、安全和社会影响等方面的挑战 [20]

机器人行业周报：联想、美的等大厂加速布局人形机器人-20250511

西南证券· 2025-05-11 13:30

报告行业投资评级 - 强于大市（维持） [1] 报告的核心观点 - 本周（5月5日 - 5月11日）机器人指数跑输大盘，中证机器人指数上涨1.6%，跑输上证指数0.3个百分点，跑输沪深300指数0.4个百分点，跑输创业板指1.6个百分点 [5][12] - 联想、美的等大厂加速布局人形机器人，行业动态丰富，包括高校采购、企业产品落地、赛事举办、模型开源、新机器人推出及企业融资等 [1][5] 各目录总结行情回顾 - 本周机器人指数跑输大盘，中证机器人指数涨1.6%，跑输上证指数0.3个百分点、沪深300指数0.4个百分点、创业板指1.6个百分点 [5][12] - 展示了机器人各细分板块行情回顾，如减速器、电机、丝杠等环节部分公司的市值、本周收盘价、涨跌幅、25E归母净利及25E对应PE等数据 [14][15] 产业动态 - 同济大学采购10台宇树通用人形机器人（型号：H1 - 2），中标金额8256600元，此次采购在众多高校中数量最多、金额最大 [5][16] - 美的自主研发的类人形机器人5月进湖北荆州洗衣机工厂，用于机器运维等场景，下半年进线下门店，用于商业导览等场景，产业化或需3 - 5年 [5][17] - 联想在“联想Tech World 2025创新科技大会”发布“联想乐享壹号”人形机器人，展示了肢体协调和业务问答能力，此前能与顾客互动 [5][20] - 2025世界人形机器人运动会8月15 - 17日在北京“双奥场馆”举行，分主体赛事和外围赛事，有明确参赛条件和规定 [5][23] - 清华大学叉院ISRLab与星动纪元开源首个AIGC生成式机器人大模型VPP，优势显著，将推动机器人技术发展 [5][24] - 亚马逊推出首款触觉机器人Vulcan，能处理仓储中心约75%商品，计划未来几年在欧美站点部署 [5][25] 融资动态 - 傲鲨智能完成数千万元B轮融资，由彬复资本领投，老股东国仪资本跟投，融资用于产品线拓展等，巩固双轨竞争力 [5][27]

快讯|2025世界人形机器人运动会8月落地北京；清华、星动纪元开源首个AIGC机器人大模型；亚马逊推出首款触觉机器人Vulcan

机器人大讲堂· 2025-05-08 14:38

2025世界人形机器人运动会 - 赛事将于2025年8月15日至17日在北京国家体育场（鸟巢）和国家速滑馆（冰丝带）举行，由中央广播电视总台等多方联合主办[1] - 主体赛事包括竞技赛（11个小项）、表演赛（单机/群体舞蹈）和场景赛（工业/医院/酒店场景6个项目），外围赛事有非人形机器人参与的3个项目[1] - 参赛机器人需满足自研或采购等六个条件，国内外单位均可报名，对参赛队人数、项目数量及场地人员有明确规定[1] 清华与星动纪元开源AIGC机器人大模型 - 清华大学叉院ISRLab与星动纪元联合开源首个AIGC生成式机器人大模型VPP，获ICML2025 Spotlight认可[4] - VPP利用互联网视频数据训练，降低对真机数据依赖，支持跨人形机器人切换，控制频率超50Hz[4] - 模型实现实时未来预测与动作执行，在基准测试和真实世界任务中表现领先，预测视觉表示具可解释性[4] 长木谷智能手术机器人 - 长木谷骨科手术机器人术前5-10分钟即可基于CT数据制定个性化方案，术后患者恢复期大幅缩短至次日出院[6] - 公司2018年切入骨科AI赛道，通过标注医学影像和转化专家经验，开发出"数智脑""数智手""数智眼"系统[6] - 2023年起产品获中、美、欧、东南亚认证，落地超1000家医院，配合集采降低患者治疗成本[6] 有鹿机器人教育合作 - 有鹿机器人与上海圣华紫竹双语学校签约，提供定制化机器人教学方案，涵盖课程、实践及竞赛指导[10] - 合作旨在通过机器人互动提升学生编程、逻辑思维和创新能力，推动科技与教育深度融合[10] 亚马逊触觉机器人Vulcan - Vulcan机器人具备触觉感知能力，可处理仓储中心75%的商品，速度与员工相当，并能识别需人工处理的物品[13] - 该机器人基于物理AI技术开发，优化货舱空间利用，减少员工梯上作业时间，计划未来几年在欧美站点部署[13] 行业企业名录 - 工业机器人领域涵盖埃斯顿自动化、埃夫特机器人等12家企业[18] - 医疗机器人包括元化智能、天智航等12家，人形机器人涉及优必选科技、宇树等21家[20][21] - 核心零部件企业如绿的谐波、因时机器人等24家，教育机器人含硅步机器人等3家[21]