Workflow
智谱上线GLM-4-Voice端到端情感语音模型:迈向AGI之路的最新一步
IPO早知道·2024-10-26 10:12

智谱GLM-4-Voice模型发布 - 智谱于10月25日上线GLM-4-Voice端到端情感语音模型,具备情感表达、语速调节、多语言支持和随时打断等功能 [3] - 模型采用端到端架构,避免了传统"语音转文字再转语音"级联方案的信息损失和误差积累 [3] - 支持中英文及中国各地方言,尤其擅长粤语、重庆话、北京话等 [3] - 即将上线视频通话功能,实现"能看又能说"的AI助理 [3] - 这是智谱首个开源的端到端多模态模型,延续了"发布即开源"的风格 [2][3] GLM-4-Plus基座模型能力 - GLM-4-Voice的推出标志着智谱在迈向AGI道路上的最新进展 [4] - 背后依托新的基座模型GLM-4-Plus,其语言文本能力与GPT-4o及405B参数的Llama3.1相当 [4] - 基于GLM-4-Plus,智谱在多模态领域取得阶段性成果,使GLM多模态模型家族更加完整 [4] 模型功能特点 - 情感表达和共鸣:支持高兴、悲伤、生气、害怕等细腻情感变化 [3] - 实时交互能力:可随时打断并调整语音输出的内容和风格 [3] - 语速调节:在同一轮对话中可要求加快或放慢语速 [3]