公司AI语音功能与春节应用 - 小红书在2026年春节期间推出了多种AI语音新玩法,包括语音发布、语音评论、语音问一问和语音私信拜年,旨在增强社区互动与年味[1][3][11] - 语音评论功能让评论区充满“活人感”,用户可使用多种语言、方言,甚至展示歌喉,增强了社交趣味性和人文关怀[2][5][25] - 语音问一问功能将真人经验与AI总结结合,用户可通过语音搜索获取结构化答案,例如询问春节去处或节日习俗,实现了从手动翻阅到“一问即得”的体验升级[7][8][27][29][30] 语音技术提升社区体验 - 语音作为最自然的交流媒介,正将小红书改造成更有“声”命力的社区,AI语音已全链路渗透至互动、搜索和笔记发布场景[15][16][35] - 语音问一问功能已吸引明星用户参与,如Adam Lambert,其AI能根据站内笔记快速生成分类清晰、结构严密的答案[28][29][30] - 语音发布功能也已上线,明星用户用它分享生活与祝福,进一步丰富了内容形态[33] AI语音落地面临的挑战 - 在庞大用户社区中落地AI语音需解决复杂场景下的音频理解问题,包括应对地域方言、口音、不同年龄段习惯、设备差异、背景噪音和语速的影响[38][39] - 技术需让音频生成具备“活人感”,要求模型能根据场景灵活切换风格,实现连贯的情绪表达,并精准拿捏细节语气和“弦外之音”[41][42] - 响应速度是关键,处理流程长导致的非实时反应会破坏对话连贯性,影响用户体验[43][44] 公司的天然优势与技术布局 - 小红书具备AI语音落地的天然优势:多元内容形态可承载语音交互;评论区插入语音无“打断感”;AI语音能力集成于主站核心场景,便于持续创新[46] - 公司Super Intelligence-AudioLab团队核心布局了语音识别、语音合成、全双工语音交互及ALLinOne基座模型、音乐理解生成四大方向[47] - 在语音识别领域,自研FireRedASR大模型取得中文语音识别开源SOTA效果,其FireRedASR2新支持20+方言和口音,在24个测试集上平均字错率为9.67%,优于竞品Doubao ASR的12.98%和Qwen3-ASR-1.7B的10.12%[47][48][49] - FireRedLID语种检测模型支持100+语种和20+中文方言,语种准确率达97.18%,显著高于OpenAI Whisper的79.41%[48] - FireRedVAD在Fleurs测试集上的F1分数为97.57%,高于开源Silero-VAD的95.95%[48] 语音合成与交互系统进展 - 在语音合成领域,自研FireRedTTS2大模型支持3分钟以上长对话生成,在音色稳定性和自然度上显著优于竞品,达到中文对话长语音合成SOTA[49] - FireRedTTS2模型引入了情绪感知能力,是实现语音“活人感”的关键,其在交互式对话场景微调后的情感控制准确率在多种情绪上表现优异,如担忧道歉达93.3%,快乐达90.0%[50][55] - 团队推出了业内首个开源、支持私有化部署的全双工语音交互系统FireRedChat,通过自研技术将端到端延迟低至2秒,解决了传统AI反应慢、乱打断的痛点[56] - ALLinOne基座模型实现了语音、音效、音乐的统一编码,为泛音频的理解与生成打下基础[57] - 自研的音乐理解与生成模型具备多尺度深层理解与灵活可控创作能力,已赋能平台音乐人创作[57][58] 技术体系与团队成果 - 小红书已构筑起覆盖底层架构优化、高质量语音合成、情感化语音互动、智能语音问答的完整技术栈[59] - Super Intelligence团队是公司面向未来内容形态与通用智能的重要技术引擎,目标构建领先的多模态基础大模型体系,团队包括Audio Lab、Vision Lab等多个实验室[59] - 过去两年,团队主导了多项重大项目,累计发表40余篇顶会与期刊论文,沉淀出InstantID、StoryMaker、FireRedTTS、FireRedASR等具有行业影响力的开源技术成果,并成功孵化多项站内爆款功能[60] AI语音探索的战略意义 - 小红书的AI语音探索能提升社区活跃度,并通过语音搜索让信息获取像聊天一样简单,尤其惠及不习惯或不方便打字的用户群体[61] - 实践验证了在追求技术高度的同时,体验深度同样重要,用户在意交互自然度、意图理解程度和服务无感化[61] - 最终的竞争在于能否以直观、亲和、高效的路径触达用户,让AI在更自然的交互中实现价值[62]
小红书,再造一个更有「声」命力的社区
机器之心·2026-02-12 13:16