Workflow
情感大模型
icon
搜索文档
腾讯研究院AI速递 20251211
腾讯研究院· 2025-12-11 00:01
生成式AI 2. 开发者实测显示OpenAI生图质量尤其在人物面部生成效果上不如谷歌Nano Banana Pro,推测可能仍基于GPT- 4o训练但相较上一代有所提升; 3. 谷歌Nano Banana Flash新模型也将本周登场,同时Gemini 3 Flash即将发布,OpenAI与谷歌正面争锋AI"大 戏"即将上演。 https://mp.weixin.qq.com/s/VsFTC-85bLSvma7icsbb_w 二、Mistral再开源!发布代码模型Devstral 2及自家原生CLI 1. Mistral AI发布下一代代码模型系列Devstral 2(123B)和Devstral Small 2(24B),在SWE-bench Verified 上分别达到72.2%和68.0%,成本效率比Claude Sonnet高出7倍; 2. 同步发布原生CLI工具Mistral Vibe,提供项目感知上下文、智能引用和多文件编排功能,已作为Zed扩展程序提 供; 3. 采用修改版MIT许可证增加收入限制条款,月收入超2000万美元的公司无权免费使用,需联系Mistral AI购买商业 授权。 http ...
大模型「有心了」:首个情感大模型Echo-N1,32B胜过200B
机器之心· 2025-12-10 10:09
文章核心观点 - NatureSelect公司旗下Team Echo团队发布了首个情感大模型Echo-N1,提出了一套全新的情感模型训练方法,成功将强化学习应用于主观情感领域,打破了大型语言模型在情感共情能力上的瓶颈 [2][3][9] - 该研究通过创新的“共情的心理物理模型”和“生成式奖励模型”等技术,将玄学的“共情”转化为可计算、可优化的过程,使仅32B参数的模型在多轮情感陪伴任务中取得了显著优于千亿参数商业模型的表现 [10][14][37] 现有模型在情感陪伴领域的问题 - 无法量化情感:用户表达背后细微的情绪信号难以被传统的标量奖励有效捕捉 [7] - 存在奖励黑客问题:模型为获取高分而堆砌华丽辞藻,产生对缓解用户情绪无帮助甚至适得其反的“美丽的废话” [8] - 评测失真:现有的顶尖闭源模型自身也难以区分“像人”与“像AI”的表达,导致评测标准失效 [8] Echo-N1的核心技术创新 - 提出生成式奖励模型:摒弃单一的标量奖励,要求奖励模型在输出前先生成一段逻辑严密的情感推理路径,通过对用户画像进行深度侧写来推导能引发共鸣的回答,显著提升了判别精度 [14] - 训练了两种生成式奖励模型:拟人度奖励用于消除“助手味”,确保回复逻辑自洽且具备“活人感”;共情奖励旨在实现用户特定的深度共情,通过“从公理推定理”的范式处理人类偏好的多样性 [16] - 引入过程性奖励、离散化奖励与参考答案锚定等策略,有效缓解了奖励黑客问题,提升了训练策略模型的稳定性 [15] 评测体系的革命:共情的心理物理模型 - 团队打造了机器共情科学标尺——EPM情感物理模型,将抽象的心理疗愈转化为可计算的物理过程,使共情效果成为可视化追踪的能量轨迹和可计算的物理功 [19][22][23] - 构建了“拟人化认知沙盒”:这是一个由模拟人类“中央执行脑区”统筹的多智能体协作系统,能够动态、基于环境反馈地进行决策,实现多轮鲜活的复杂心智模拟,用于残酷而真实的社会共情能力测试 [24][25] 模型性能测试结果 - 在覆盖30个高难度心理场景的压力测试中,未经后训练的基座模型Qwen3-32B通过率为0%,其EPM轨迹显示其不仅无法提供情感支持,反而可能滋生用户更负面的情绪 [26] - 千亿参数级别的商业模型Doubao 1.5 Character在测试中成功率仅为13.3% [27] - 仅32B参数的Echo-N1模型在多轮情感陪伴任务中的胜率达到46.7%,远超Doubao 1.5 Character的13.3% [10] - 在综合评测中,Echo-N1最终得分为73.54分,远超Doubao的42.95分和基座模型Qwen3-32B的29.66分 [33][34] 行业影响与意义 - 研究证明,真实的情感共情能力并非单纯通过堆砌参数就能涌现,而是需要专门、科学的训练范式 [28] - 该工作为强化学习在主观、不可验证领域的应用开辟了新的可能性,使AI的“情商”成为一种可以被数学建模和优化的硬核能力 [37][38] - 这项技术让较小参数的模型具备了越级挑战超大参数模型的共情能力,为未来开发更具温度、更人性化的人工通用智能指明了方向 [36][38]
字节藏了一手“牌”
虎嗅APP· 2025-07-12 17:27
情感大模型技术特点 - 区别于传统聊天机器人,"情感大模型"注重用户情感体验,通过分析语调、停顿、表情理解情感并生成符合情绪的回应 [5] - 技术路径包括在通用大模型基础上增强多模态情感计算能力,以及专注于情感领域的生成式大模型 [7] - 采用端到端形式,训练所需算力比通用版本高30%-50%,对特殊数据要求高 [10] 市场前景与增长 - 全球人工智能伴侣市场规模预计从2023年3000万美元飙升至2030年1500亿美元,年均复合增长率236% [8] - 2024年全球机器人出货规模约4700万台,未来5年复合增长率超20%,消费类机器人占比81% [16] - CharacterAI移动端累计下载量突破3432万,网页端单月访问量达3.1亿,仅次于ChatGPT [9] 字节跳动布局策略 - 计划通过不同垂类大模型带动豆包月活在2025年实现翻倍 [14] - 坚持"火山开放,豆包自研"路线,兼顾生态与自有产品 [3] - 围绕抖音等C端体系推进娱乐、社交、陪伴场景渗透,同时提升火山引擎ToB输出能力 [14] 应用场景与案例 - 适用于助手类效率提升产品,在信息检索、陪伴、AI玩具、社交游戏等领域有优势 [15] - 国外案例包括CharacterAI的TalkingMachines实现视频互动,Miko推出AI伴侣 [7][12] - 国内案例包括FoloToy"显眼包"、Looi桌面机器人、CASIO宠物机器人Moflin等 [12]
字节藏了一手“牌”
虎嗅· 2025-07-12 15:27
字节跳动布局情感大模型 - 公司旗下火山方舟大模型平台计划上线"情感大模型"API服务,豆包则坚持自研路线,形成"火山开放,豆包自研"的双轨策略[1] - 火山引擎相关负责人否认"情感大模型"计划,但行业信息显示该技术能识别53种人类情绪,实现拟人化情感交互[2] - 公司计划通过垂类大模型带动豆包月活在2025年翻倍,并围绕抖音生态推进娱乐、社交场景渗透,同时强化火山引擎ToB输出能力[14] 情感大模型技术特性 - 技术核心在于"理解情绪+精准回应",通过分析语调、停顿、表情实现接近真人的交互体验[3][4] - 技术演化形成两条路径:通用大模型增强多模态情感计算能力,或专注情感领域的生成式大模型[5][6] - 训练算力需求比通用模型高30%-50%,需采用端到端形式且依赖特殊数据,但相比传统模型在算力使用上更高效[10] 行业市场前景 - 腾讯研究院预测未来2-3年人机陪伴市场将爆发,全球AI伴侣市场规模预计从2023年3000万美元增至2030年1500亿美元,年均复合增长率236%[7] - CharacterAI移动端下载量超3432万,网页月访问量3.1亿;消费类机器人2024年全球出货4700万台,未来5年复合增长率超20%[10][17] - GPT-4o等多模态模型加速情感陪伴落地,国内外企业已推出AI玩具、桌面机器人等产品,涉及儿童教育、情感治愈等场景[11][12][13] 技术发展趋势 - 国内技术比国外晚约1年,但在MoE架构和多模态学习方面取得进展,未来通用大模型可能融合情感、文生视频等细分模型[11][17] - HumeAI的EVI系统能检测53种情绪,其CEO认为情商是AI界面核心要求,需推断用户真实需求并执行[15] - 行业下一阶段进化方向可能是"世界模型",具备物理直觉和未来状态推演能力,但当前仍面临算力消耗、数据隐私等技术瓶颈[17]