Workflow
交互智能
icon
搜索文档
智元机器人宣布将直播首个机器人晚会
财经网· 2026-02-03 19:44
公司动态 - 智元机器人将于2月8日20:00全球直播全球首个大型机器人专属晚会《机器人奇妙夜》[1] - 晚会最大亮点为“全机器人主导”,由两百余台机器人包揽整场表演与观众互动[1] - 晚会将在芒果TV、智元AGIBOT官方平台及“稚晖君”全网账号同步直播[1] - 观众可通过官方直播渠道观看并参与互动,有机会赢取惊喜好礼[1] 技术展示与战略意义 - 晚会内容将挑战并刷新一系列行业“首创”纪录[1] - 晚会旨在展示交互智能、运动智能、作业智能与多机协同等前沿机器人技术[1] - 公司旨在通过“最智能、有温度”的创新舞台,展现中国机器人实力[1] - 此举不仅是公司技术集成能力的展现,更是推动机器人从“功能载体”向“文化参与者”乃至“情感表达者”演进的重要探索[1]
深度 | 拆解数字华夏:交互与场景智能正成为人形机器人下半场竞争关键
机器人大讲堂· 2026-01-26 18:17
文章核心观点 - 人形机器人行业竞争焦点正从运动智能转向交互智能与场景智能,这成为决定其商业价值与应用深度的关键胜负手 [2][28] - 数字华夏作为一家成立仅一年多的中国公司,凭借在仿生头、交互智能、场景智能三大支柱上的全栈技术布局,已在商业化落地层面取得迅速突破,获得头部客户亿元级订单 [2] - 公司的技术路线核心是构建“高效、自然、有温度的交互”,并以此为基础,通过平台化解决方案撬动具身智能的规模化商业落地 [3][28] 仿生头:沉浸式情感链接的物理基础 - 公司判断未来将有10%的机器人带有人脸用于商业服务,并已聚焦于B端交互/陪伴场景进行仿生头的研发和量产 [4] - 其仿生机器人“夏澜”的头部拥有近30个主动自由度及若干被动自由度,能够复现多达7大类高精度表情及数十种微表情 [7] - 通过建立亚毫米级数字孪生模型并引入贝叶斯优化算法,解决了微表情数据采集与物理复现的精度缺失问题 [7] - 开发虚拟-物理向量映射模型,实现了从数字动画空间到物理执行空间的实时精密对齐,确保表情转换平滑 [11] - 集成绝对时间对齐与速度预测算法,将口型同步时延压降至50ms以内,一致率突破95% [11] - 在硬件工艺上实现突破,采用厚度仅1.2mm的超薄硅胶皮肤,通过精密成型工艺兼顾了血管纹理、微孔结构与生物级回弹特性 [12] 交互智能:机器人的认知核心 - 公司的交互智能系统是一个具备多层次处理能力的全栈架构,并非简单调用大模型API [13] - 第一层是多模态融合感知与前置语义理解,通过类似BERT的语义理解模型进行意图分析,判断所需感知模块 [15] - 第二层是差异化的情感计算引擎,其核心是一个基于超过50万条真实交互数据集训练的情商模型,构建了复杂的28维心理向量,能够深度理解用户的显性情感与隐性情感 [15] - 该情感识别模型在真实场景中的综合准确率验证高达91.2% [16] - 为解决大模型端侧部署的“高延迟”与“高性能”矛盾,设计了“快慢脑”协同系统:“快脑”部署于本地或边缘端,负责高频、低延迟交互,响应时间小于50ms;“慢脑”位于云端,由千亿级大模型组成,处理复杂认知任务 [17][21] - 交互平台支持10种方言和35种国际语言,并正在攻关更精细的交互细节如自然的倾听反馈和眼神互动 [18] 场景智能:人形机器人就是人工智能在物理世界的界面 - 公司的场景智能商业化引擎是“巨号®”与“ROBOEASE”两大平台 [19] - “巨号®”平台是统一的具身智能“中枢神经系统”,作为高度模块化的通用框架,打通了从多模态感知、认知推理、决策到控制执行的全链路,能统一支持不同形态机器人的共性能力 [19] - “ROBOEASE”平台是RAAS(Robot-as-a-Service)平台,采用“低代码编排中心 + 集中调度引擎”的双核架构,旨在解决商业机器人行业场景碎片化、系统对接难、运营成本高的挑战 [23] - 低代码编排中心允许非技术背景的业务人员通过拖拽式操作快速生成并部署机器人任务流,实现“一次设计,全网部署” [26] - 集中调度引擎负责与客户现有的大模型、业务系统等无缝对接,实现任务自动派发与资源动态调配 [26] - 该平台化解决方案已沉淀出银行客服、智能导览、迎宾接待等标准化解决方案,并与头部银行、运营商、商业零售、职业教育等行业客户建立深度合作,在真实场景中完成数万小时的服务验证 [24] - 公司携手超过60家生态伙伴共建完整生态体系,平台支持主流机器人品牌接入,具备跨机型快速适配能力 [24] - 场景智能反向驱动硬件创新,例如在康养领域推出的“健康手”,将多种传感器高密度集成于机器人手指,独创“触觉-光学PPG”(TPPG)微型模组,用户只需轻按机器手指30秒即可完成多项健康数据采集,实现了“单指测血氧心率,双指测心电,三指测血压”的多功能集成 [25]
陈天桥旗下盛大AI东京研究院于SIGGRAPH Asia正式亮相,揭晓数字人和世界模型成果
机器之心· 2025-12-22 12:23
文章核心观点 - 盛大集团旗下盛大AI东京研究院在SIGGRAPH Asia 2025首次公开亮相,并系统性地推出了名为Mio的端到端框架,旨在解决当前数字人技术缺乏“灵魂”的核心问题,标志着行业焦点从视觉逼真度转向交互智能 [1][16][23] - 当前数字人交互体验存在“灵魂缺失”的根本原因在于三大系统性挑战:长期记忆与人格一致性不足、多模态情感表达缺失、缺乏自主进化能力,这导致数十亿美元投资未能带来真正的用户粘性 [3][6] - Mio框架通过整合认知核心、语音引擎、面部动画师、身体动画师和渲染引擎五大核心模块,实现了从认知推理到实时多模态体现的完整闭环,在关键性能指标上超越了现有最优技术,代表了数字人技术从“形似”到“神似”的范式转移 [20][21][23] 盛大AI东京研究院的亮相与战略愿景 - 公司在SIGGRAPH Asia 2025期间通过展台、学术讨论和闭门交流等形式首次公开亮相,正式登上国际顶级学术与产业舞台 [1] - 公司的研究方向聚焦于数字人的“交互智能”与世界模型的“时空智能”两大方向 [1] - 这一战略是创始人陈天桥长期愿景的体现,其强调脑科学与AI融合,并系统阐述了“发现式智能”理念,认为智能体的认知基底至关重要 [1][4] - 公司内部技术协同生态强大,“交互智能”的实现得益于旗下EverMind团队产品EverMemOS的能力互补 [1] 当前数字人技术的核心挑战与行业共识 - 尽管视觉形象逼真,但用户互动时普遍感到“空洞感”或“断裂感”,这是导致投资未能转化为用户粘性的根本原因 [3] - 挑战一:长期记忆与人格一致性。标准大语言模型存在“人格漂移”,难以维持稳定的个性、习惯和世界观连贯性 [3] - 挑战二:多模态情感表达的缺失。数字人普遍存在“僵尸脸”现象,缺乏自然的微表情、眼神和肢体动作协同,导致情感表达不完整 [6] - 挑战三:缺乏自主进化能力。多数数字人仍是被动的“播放系统”,无法从交互中学习、适应用户偏好或发展新行为模式 [6] - 在SIGGRAPH Asia 2025的闭门研讨会上,来自港大、港中大、港科大及东京科学大学等机构的顶尖学者达成共识,认为数字人发展瓶颈已从视觉表现力转向认知和交互逻辑 [13] - 专家一致认为未来数字人的核心竞争力将体现在其“交互智能”上,必须具备长期记忆、多模态情感表达和自主演进三大关键能力 [13] Mio框架的系统性解决方案 - Mio是一个旨在实现“交互智能”的端到端系统性框架,其设计理念是将数字人从被动“木偶”转变为能自主思考、感知与互动的智能伙伴 [16] - **认知核心**:采用“介于叙事时间的知识图谱”架构,为信息标记“故事时间”以防止“剧透”,在CharacterBox基准测试中人格保真度超越GPT-4o,在防剧透测试中取得超过90%的成绩,并具备“无数据自训练”的自我进化能力 [20] - **语音引擎**:利用高效的离散化语音表征技术,生成与情境、情绪和人格匹配的自然语音 [20] - **面部动画师**:采用统一的“听-说”框架,在说话和倾听时都能生成生动的微表情、眼神和头部姿态,超过90%的用户研究参与者认为其倾听反应优于业界领先竞品 [20] - **身体动画师**:采用新颖的流式扩散模型,实时将认知意图转化为流畅连贯的全身动作,在保持实时性的同时,其运动质量达到顶尖离线模型水平 [21] - **渲染引擎**:确保在任何动态和视角变化下,都能生成高保真且身份一致的视觉形象 [21] 技术突破与未来展望 - Mio的整体交互智能分数达到76.0,较之前的最优技术水平提升了8.4分,为行业树立了新的性能标杆 [23] - 在认知共鸣、面部同步、肢体流畅度等各项指标上全面超越现有最优技术 [25] - “交互智能”预计将为虚拟陪伴、互动叙事、沉浸式游戏等领域带来革命性变革,未来的数字人将成为能够建立深层情感连接、共同成长的智能伙伴 [25] - 公司已将Mio项目的完整技术报告、预训练模型和评估基准公开发布,以推动领域共同进步 [28]