国君传媒|豆包实时语音大模型上线,AI交互水平再升级

行业投资评级 - 报告未明确提及行业投资评级 [1][2][3][4][5][6][7][8][9] 核心观点 - 豆包实时语音大模型正式推出，具备高度拟人化的情感承接、强大的声音控制和丰富的情感演绎能力，智商与表现力之间的平衡，以及丝滑的交互体验和超低延迟 [1] - 豆包实时语音大模型整体满意度得分为4.36，显著高于GPT-4o的3.18，尤其在语音语气自然度和情绪饱满度方面表现优异 [2] - 增加了情感的语音交互将显著有利于AI的软硬件应用，包括情感陪伴与智慧教育应用、AI陪伴硬件、AI眼镜、AI耳机、AI音箱等生活效率产品 [2] 相关目录总结豆包实时语音大模型特点 - 拟人化的情感承接，能够理解用户的内容及情绪，并用恰当的语气做出回应 [1] - 强大的声音控制和丰富的情感演绎能力，能够遵循丰富的复杂指令，配合不同的音色、情绪及状态输出 [1] - 智商与表现力之间的平衡，表现力高度接近真人，包括类人的语气词、停顿思考等 [1] - 丝滑的交互体验和超低延迟，实现在更低系统时延情况下的生成准确性、自然度 [1] 豆包实时语音大模型评测结果 - 整体满意度得分为4.36，GPT-4o为3.18 [2] - 超过半数的测试者对豆包模型表现打出满分 [2] - 在情绪理解和情感表达方面优势明显，尤其在"一听就是AI与否"的评测中被评为AI的概率极低 [2] 应用场景 - 情感陪伴与智慧教育应用 [2] - AI陪伴硬件如AI玩具、AI宠物，可帮助硬件生产商与IP方扩大需求 [2] - AI眼镜、AI耳机、AI音箱等生活效率产品将受益于交互方式的改进 [2]