交互式AI
搜索文档
腾讯首席科学家张正友:走向“身智融合”,突破具身智能的割裂时代
财经网· 2025-12-20 16:04
文章核心观点 - 腾讯首席科学家张正友提出,具身智能的发展需从当前“身智割裂”的状态过渡到“身智融合”,让机器人在与环境的持续闭环交互中实现动态协同进化,从而涌现出真正的智能 [1][18] 具身智能的定义与兴起原因 - 具身智能是相对于“离身智能”(如ChatGPT)而言,指拥有物理身体(如机器人、无人机)或虚拟身体(如数字人)的智能体,其关键特征在于能通过主动感知、规划和控制来改变真实物理世界,并基于反馈调整策略 [2][6] - 具身智能是涉及机械工程、自动化、机器学习、人工智能、认知科学、神经科学等多学科融合的技术,其兴起是因为各支撑技术已发展到一定成熟度 [2][7] 人工智能系统的演进趋势 - 人工智能系统正从第一代被动搜索引擎、第二代生成式AI,演进到第三代“交互式AI”即智能体时代 [3][9] - 智能体能感知环境、构建世界模型、自主规划决策并采取行动以完成任务,具备记忆连续性、认知全息性和进化内生性等潜在优势 [3][10] 具身智能的实现路径与技术范式 - 当前具身智能领域存在“智能与本体割裂”的普遍问题,简单将大模型嵌入机器人难以实现真正的自主交互 [3][11] - 智能可分为无需思考的快速“反应式智能”和需要深思熟虑的“有意识自主”,传统机器人的“感知-规划-行动”范式无法有效处理反应式智能 [3][11] - 张正友于2018年提出SLAP范式,其核心是让感知与行动紧密闭环以应对快速本能反应,处理复杂任务时才启用更高层规划 [3][11] - SLAP范式的演进版本通过构建类似“左脑”(规划大模型)、“右脑”(多模态感知模型)和“小脑”(感知行动联合大模型)的分工协作模型,打通从看见到做到的关键环节 [3][13] 技术平台与应用演示 - 公司通过其主导开发的Tairos平台演示了如何将大模型能力与机器人本体结合,完成从复杂任务分解到具体执行的闭环 [4][14] - 该平台安装在宇树机器人G1身上进行了实时演示,机器人能在不同场景下与参观者进行随机互动 [15] 计算、感知与人机交互趋势 - 计算平台正朝着更连续化、个人化的方向演进,从大型计算机到个人计算机、智能手机、可穿戴设备、AI眼镜,再到机器人 [7] - 感知技术从传统被动、标准的单一信息走向主动的个人化和多模态感知技术 [2][7] - 人机交互技术正朝平民化、多模态感知和虚实融合的方向发展,交互壁垒从机器语言、高级语言降低到自然语言,未来将进入使用五官与机器交互的时代 [2][8] 面临的挑战与未来机遇 - 挑战包括深化虚实世界融合、构建精准的物理世界模型、实现虚拟训练向真实场景的高效迁移、提升通用泛化能力、强化智能体的长短期记忆管理与人格化塑造、完善多模态感知(整合嗅觉、味觉等)、以及降低技术门槛 [4][15] - 特别关注利用机器人应对中国社会老龄化的应用场景 [4][15] - 公司团队设计了轮足融合机器人“小五”,其设计理念是结合轮式的高效与足式的越障能力,形态基于功能与效率,而非单纯仿生 [4][16] 对机器人形态的重新思考 - 机器人(Robot)的本质是“为人类服务的苦力”,形态不必拘泥于仿人,可以借鉴人的优势,同时探索多种模态 [4][17] - 以轮足融合机器人“小五”为例,在平地上使用轮式运行以提高效率,在复杂地形切换为足式,这种设计超越了单纯仿生思维 [16][18] - 技术进化是指数级的,而人类进化缓慢,因此机器人可以具备人类没有的形态(如屏幕、轮子)以实现更高效的功能 [17]
Sora2甚至可以预测ChatGPT的输出
量子位· 2025-10-02 13:30
文章核心观点 - Sora2展现出超越视频生成的多模态能力,包括预测大语言模型输出、渲染HTML代码、理解物理现象和精准还原游戏细节,模糊了视频生成与交互式AI的边界 [6][13][26] 多模态交互能力 - Sora2能够模拟与ChatGPT的交互过程,生成包含问题提问和语音回答的完整视频,例如根据提示生成关于猫的俳句并配以机械女声回答 [4][5] - 该模型展现出理解并执行复杂指令的能力,其生成的俳句音节严丝合缝,体现了对语言结构的把握 [5] 代码渲染与浏览器模拟功能 - Sora2具备渲染HTML代码的能力,根据粘贴的HTML代码生成的视觉效果与真实浏览器渲染效果高度相似 [7][8][10][12] - 该功能表明模型可能超越了传统视频生成器的范畴,展现出类似浏览器的渲染能力 [13] 物理现象理解能力 - 在未明确提示的情况下,Sora2能够准确模拟玻璃折射的物理现象,如通过装满水的玻璃杯展现箭头图像的翻转效果 [14][15][16][18] - 这种对物理世界的深入理解能力获得了行业观察者的高度评价 [19] 游戏内容还原精度 - 根据《赛博朋克2077》支线任务的提示词,Sora2能够精准还原游戏中的关键要素,包括地图位置、生物群落、地形、车辆设计和帮派名称 [21][22][24] - 尽管在巨蜥坦克移动方式和帕纳姆位置两个细节上存在微小误差,但从海量信息中准确提取并整合支线任务要素的能力反映了模型较强的信息处理智能 [25]