阿里云发布多模态交互开发套件助力硬件实现“能听、会看、会交互”

公司动态：阿里云发布多模态交互开发套件 - 阿里云在通义智能硬件展上正式推出多模态交互开发套件 [1] - 该套件集成了千问、万相、百聆三款通义基础大模型 [1] - 套件预置了生活休闲、工作效率等领域的多款智能体与工具 [1] - 套件旨在为AI眼镜、学习机、陪伴玩具、智能机器人等硬件设备赋予更强的感知、理解和交互能力 [1] 产品技术细节 - 套件已兼容30多款主流的ARM、RISC-V及MIPS架构终端芯片平台 [3] - 未来通义大模型将与玄铁RISC-V进行全链路协同优化 [3] - 公司针对多模态交互场景推出专用模型，支持全双工语音、视频、图文等多种交互方式 [3] - 其端到端语音交互时延可降至1秒，视频交互时延不超过1.5秒 [3] - 套件预置了涵盖生活、工作、娱乐、教育等场景的十余款智能体与工具 [3] - 套件接入阿里云百炼平台生态，支持调用第三方模板及兼容多方智能体协议 [3] 应用场景展示 - 在AI眼镜场景中，融合千问VL、百聆CosyVoice等模型，实现了同声传译、拍照翻译、多模态备忘等一体化功能 [4] - 在家庭陪伴机器人方面，可实现异常监测、告警推送、视频定位及人机对话等综合服务 [4] 行业背景与公司地位 - 随着多模态大模型技术逐渐成熟，硬件设备通过接入大模型提升交互体验已成为行业趋势 [3] - 单一基础模型往往难以兼顾低成本、低时延、功能丰富与高质量效果等多元需求 [3] - 阿里云此次发布的开发套件，致力于为硬件企业与解决方案商提供低门槛、快响应、多场景的开发支持 [3] - 根据Gartner报告，阿里云在云基础设施、工程、模型及知识管理应用四大维度均入选“新兴领导者”象限 [4] - 阿里云是亚太地区唯一在此四项均获评的领导厂商，与谷歌、OpenAI等国际企业并列 [4]