Workflow
EMPA
icon
搜索文档
如何让AI走向更高质量的共情?自然选择两项开源研究提供新路径
机器之心· 2026-03-18 09:57
文章核心观点 - 当前大模型的共情能力评测与训练多集中于单轮对话,难以评估其在长期多轮互动中是否对用户心理状态产生持续、稳定的正向影响 [1][3] - 自然选择团队开源的两项研究EMPA与MAPO,为长程共情场景提供了系统性的解决方案:EMPA重新定义了“过程级”评测范式,MAPO则提供了面向长程多轮交互的强化学习算法 [3][21] - 这两项工作将主观的“共情”能力转化为可衡量、可优化的系统能力,其意义可能超越情感陪伴领域,为未来大模型进入更多需要长期理解与渐进影响用户的复杂任务提供了方法论基础 [22] EMPA:过程级共情评测框架 - **核心思路**:将共情正式建模为一种长期智能体任务,用户心理状态是潜变量,对话是持续更新状态的过程,支持效果通过弱信号间接验证 [8] - **评估对象**:不再只评估单句回复,而是评估整段对话轨迹对用户潜在心理状态的影响 [9] - **评估框架**: - 通过Real-to-Sim数据管线,将真实长对话蒸馏为可复现的心理场景 [9] - 在非脚本化的多智能体沙盒环境中,让用户、导演、裁判等智能体与被测模型进行开放式互动 [9] - 通过共情潜力模型在潜在心理空间中建模用户状态变化,从而在轨迹层面评估对话的持续正向影响 [9] - **评测方法**:采用基于准则的物理评测思路,将证据生成与最终评分进行结构性拆分 [10][12] - 裁判根据准则抽取可追溯、可归因的结构化证据,而非直接打分 [12] - 共情潜力模型在轨迹层面对证据进行聚合计算,并将其映射为潜在心理状态的变化信号 [12] - **效果**:这种新的评测路径在鲁棒性与敏感度上均明显优于传统的单轮评测或LLM-as-a-Judge方法 [13] MAPO:面向长程多轮对话的强化学习算法 - **研究目标**:训练模型在长期对话任务中表现更好,使其既能利用逐轮反馈,又能保持长期策略稳定性 [16] - **核心信号**:同时引入两类奖励信号进行优化 [16] - **逐轮过程奖励**:借助EMPA的裁判系统对每一轮回答评分,将相邻轮次评分变化带来的增量作为即时奖励,衡量单次回复是否推动对话向更好方向发展 [16] - **长期未来回报**:通过蒙特卡洛方法估计从当前回合到对话结束的累计回报,以保留长程策略信息,避免模型陷入局部最优 [16] - **技术细节**:对同一初始提示采样多条对话轨迹,将每一步视作训练样本 [19] - 针对即时奖励与对话轮次相对解耦、未来回报与轮次强相关的观察,分别对二者进行基于批次和基于轮次的归一化 [19] - 通过凸组合进行融合,从而在保留无评论员优势的同时,更稳定地优化长序列对话策略 [19] - **优势**:相比基于GRPO的智能体强化学习方法,同时绕开了仅依赖稀疏的最终结果奖励,以及每一步需要大量采样导致样本复杂度极高的问题 [18] 两项研究的综合影响与实验结果 - **完整链路**:EMPA与MAPO形成了一条完整的研究链路,前者提供评测框架,后者提供训练算法,共同将“共情”转化为可系统研究、可复现比较并可进入训练闭环的技术问题 [21] - **实验结果**: - MAPO在EMPA的动态对话沙盒环境中训练后,效果显著优于GRPO,并在EMPA基准测试上取得明显提升 [21] - 在部分设置下,一个320亿参数的模型已经可以逼近Claude-3.5的表现 [21] - MAPO在其他多轮对话基准测试上也展现出较好的泛化能力 [21] - **潜在扩展**:MAPO本质上是一种面向长程智能体场景的优化方法,并不局限于多轮对话任务,随着代码与环境进一步开源,有机会在更多真实任务中被验证与扩展 [21]
argenx (NasdaqGS:ARGX) Update / Briefing Transcript
2025-09-17 03:02
**行业与公司** * 行业专注于神经肌肉疾病治疗领域 涉及先天性肌无力综合征(CMS) 肌萎缩侧索硬化症(ALS)和脊髓性肌萎缩症(SMA) [12][117][122] * 公司为argenx (NasdaqGS:ARGX) 核心产品为argenx 119 一种靶向肌肉特异性激酶(MuSK)的激动剂抗体 [8][17] * 公司通过免疫学创新计划(IIP)与外部学术研究者合作 专注于新颖生物学机制和免疫系统基础组件的研究 [5][6] **核心观点与论据** * **生物学机制与药物设计** * MuSK是神经肌肉接头(NMJ)形成、维持和成熟的关键调节因子 激活MuSK可促进乙酰胆碱受体聚集并增强突触传递 [13][17] * argenx 119通过结合MuSK的卷曲蛋白样结构域 促进其二聚化和磷酸化 从而增强神经肌肉传递 [17][42] * 该抗体具有双重作用机制:一是突触后模式(增强乙酰胆碱受体簇集) 二是逆行信号模式(调节突触结构并与运动神经元通信) [8][20] * **临床前数据** * 在DOK7 CMS小鼠模型中 单剂量argenx 119可使小鼠存活超过60天 并显著改善其运动功能(转轮实验)和神经肌肉接头成熟度 [22][23] * 在ALS患者来源的运动神经元与肌肉共培养模型中 argengx 119将肌肉收缩力从降低50%完全恢复至正常水平 [118] * 在SMA小鼠模型中 在SMN上调疗法基础上加用argenx 119可完全挽救肌肉力量 且功能改善先于肌肉重量增加 [123][124] * **临床开发进展与策略** * **CMS**:基于1B期研究数据(n=16) 公司决定直接进入注册性3期研究 [2][72] * 1B期研究显示 favorable安全性(无严重不良事件或停药)[80] * 有效性信号:QMG评分中四肢力量显著改善(腿部保持时间接近正常100秒 手臂保持时间翻倍)[74];6分钟步行距离中位数改善75米 超出神经肌肉疾病中15-50米的临床意义阈值 [75];数字传感器(actigraphy)显示家庭日常活动量增加 [78] * 3期研究将针对12岁及以上DOK7 CMS患者 以6分钟步行作为主要终点 并计划扩展至其他基因亚型(如LRP4、MuSK、Agrin)[82][139] * **ALS**:2A期概念验证研究正在进行 使用mScan(运动单位数量估计)作为精准终点 预计2026年上半年获得顶线结果 [117][118][121] * **SMA**:即将启动名为SPARKLE的2期研究 针对经SMN治疗后仍存在肌无力和疲劳的患者 计划覆盖成人和儿科人群 [125] * **创新开发模式** * 采用数据驱动和科学为基础的方法 在超罕见病中采用患者内剂量递增、高频测量和数字传感器(如actigraphy手表)来最大化每个患者的数据价值 [10][68][69] * 通过IIP与学术专家(如Steve Burden教授)深度合作 共同发现生物学机制并指导临床开发 [6][19][40] * 投资自然病史研究以了解疾病基线特征和进展 为试验设计提供依据 [20][70] **其他重要内容** * **疾病背景与未满足需求** * CMS是一种超罕见(ultra-rare)且超严重(ultra-severe)的遗传性疾病 由超过35个基因的突变引起 目前尚无FDA批准的治疗方法 [9][21][63] * 患者诊断旅程漫长且常被误诊(如被误认为“懒惰”) 当前标准治疗(胆碱酯酶抑制剂)对某些亚型(如DOK7、LRP4)无效甚至有害 [99][103][105] * ALS和SMA领域仍存在高度未满足的需求 现有疗法未能解决神经肌肉接头功能障碍这一根本问题 [117][122][123] * **监管与未来计划** * 公司计划与监管机构讨论基于生物学合理性(plausible mechanism)的加速开发路径 特别是在CMS等超罕见病领域 [113] * argenx 119有潜力成为多适应症产品 其作用机制可能适用于其他神经肌肉疾病(如肌营养不良症)和周围神经病变 [124] * 公司目标是到203年覆盖50,000名患者 获得10个标签适应症 并推进5个新分子的晚期研究 argenx 119是此愿景的关键组成部分 [4] * **合作与生态系统** * 与关键意见领袖(如Dr. Ricardo Maselli)和患者组织(如CureSMA、TRICALS)保持紧密合作 以更好地理解疾病和患者需求 [3][83][118] * 创新生态系统以数据为货币 将临床和真实世界数据反馈至开发计划中 形成动态循环 [7]
argenx(ARGX) - 2025 FY - Earnings Call Transcript
2025-09-04 21:02
财务数据和关键指标变化 - 公司未提供具体的财务数据或关键指标变化 [1][2][3] 各条业务线数据和关键指标变化 - 主要产品VYVGART在重症肌无力(MG)和慢性炎性脱髓鞘性多发性神经病(CIDP)领域展现出增长 公司正通过预充式注射器(PFS)等新剂型扩大患者和处方医生群体 目前已有1000名处方医生使用PFS 其中150名是VYVGART的新处方医生 [17][18][20] - 在日本市场 CIDP和免疫性血小板减少症(ITP)业务表现强劲 成为公司第二大重要市场 [40][41] - 公司所有剂型在第二季度均实现增长 PFS预计将成为VYVGART未来的关键增长驱动因素 特别是在美国以外市场将很快成为主要剂型 [38][39] 各个市场数据和关键指标变化 - 美国市场增长显著 日本市场表现突出成为第二大市场 欧洲和加拿大市场因定价和报销流程较长而呈现稳定增长 [40][41][42] - 在所有新型生物制剂中 FcRn抑制剂在MG市场的渗透率约为10% 公司拥有最大的市场份额 并预计生物制剂的市场份额将在未来几年成倍增长 [27][28] 公司战略和发展方向和行业竞争 - 公司采用滩头阵地策略 最初在神经学领域的MG 皮肤学领域的天疱疮和血液学领域的ITP布局 目前已在15个适应症中进行研究 并拥有5项研究者发起试验 [5] - 公司将自身发展轨迹与TNF抑制剂(如Humira)和Dupixent进行比较 并认为当前表现略优于TNF抑制剂 接近Dupixent的水平 [7][8] - 在MG市场 公司认为FcRn抑制剂将首先被使用 随后是C5抑制剂 最后是B细胞耗竭剂或CAR-T等用于难治性患者 公司旨在向上游移动 尽早使用VYVGART [25][26] - 面对CIDP领域的竞争 公司认为更多创新将共同扩大市场 而非单纯争夺份额 [54][55] - 公司正通过下一代分子(如ARGX-213)和新技术(如Halozyme和Electrify)来延长FcRn特许经营权的生命周期 并计划在2027年推出自动注射器 [69][70][72][73] - 除VYVGART外 公司还通过靶向补体C2的EMPA项目扩展产品组合 目前正在MMN CIDP等适应症中进行开发 并计划举办R&D活动展示针对MuSK的01/2019项目 [74][76][78][80][82][83] 管理层对经营环境和未来前景的评论 - 公司认为在未满足需求高的领域 一旦出现创新疗法 其机会往往远大于最初预测 这是行业的一种模式 [11] - 在MG市场 治疗范式正朝着早期使用VYVGART的方向发展 类似于多发性硬化症(MS)领域的演变 公司目标是比MS领域花10年时间达到一线治疗更快地实现这一目标 [14][15] - 患者教育被视为与医生教育同等重要 需要改变医生固有的治疗习惯和思维定式 让患者要求更好的治疗 [35] - 公司有大量三期数据即将公布 包括今年内的MPA延迟移植物功能数据和efgartigimod的狼疮性肾炎数据 以及明年的眼肌型MG 肌炎等数据 即使考虑正常的损耗率 这些数据也将带来重大机会 [57][58][59] - 公司认为分析师目前的模型只关注一两个额外适应症 未能完全反映即将到来的所有机会 随着数据的生成和机会的展现 估值将会跟进 [84][85] 其他重要信息 - 预充式注射器(PFS)于4月推出 可为患者提供自我给药的独立性 有助于扩大患者群体和处方医生范围 特别适合年轻、活跃的患者以及需要长途跋涉前往输液中心的患者 [17][19] - 公司估计MG的总可寻址市场(TAM)为60,000名患者 CIDP的TAM为12,000名患者 后者是美国42,000名确诊患者中24,000名接受治疗的患者中未被标准疗法充分治疗的那部分 [30][50][51] - 在CIDP的启动阶段 公司目前专注于对IVIg治疗效果不佳的难治性患者 [44][51] 问答环节所有提问和回答 问题: 公司过去几年的机会集如何演变以及未来五年的发展方向 - 公司采用滩头阵地策略 最初在神经学、皮肤学和血液学领域布局 目前已在15个适应症中进行研究 梦想中的产品管线正在眼前展开 [5][6] 问题: 如何看待FcRn类别的发展以及与TNF抑制剂的比较 - 公司追踪TNF抑制剂的上市情况 当前表现略优于它们 更接近Dupixent 需要通过持续推出新适应症来保持地位 [7][8][9] 问题: MG市场的驱动因素和惊喜之处以及多剂型策略 - 最初的市场研究未充分咨询患者 导致低估了机会 在未满足需求高的领域 创新疗法带来的机会往往远大于预期 [10][11] - 公司正通过PFS等创新推动VYVGART更早使用 目标是使其接近一线治疗 [15][31] 问题: PFS的作用和长期份额动态 - PFS于4月推出 可自我给药 提供独立性 帮助扩大患者和处方医生群体 特别是在社区 [17][18][19][20] - 长期看 PFS将成为关键增长驱动 在非美国市场将很快成为主要剂型 但在美国 IV和输液剂型仍将重要 [38][39] 问题: 美国以外市场(如日本和欧盟)的表现 - 日本是第二大市场 增长强劲 CIDP快速启动 ITP表现也很好 欧洲和加拿大因定价和报销流程较长而呈现稳定增长 [40][41][42] 问题: CIDP launch的进展和轨迹预期 - 启动初期专注于对IVIg效果不佳的难治性患者 预计随着经验积累 会逐渐考虑更早线的患者 真实世界中看到了功能恢复的案例 [44][45][46] 问题: 从IVIg切换至VYVGART的挑战和关键学习 - ADHERE试验未解答最佳切换方式 医生正尝试在最后一次IVIg后一至两周切换到VYVGART 公司正在进行四期临床试验以生成指导数据 [47][48] 问题: CIDP机会与MG的对比以及潜在规模 - CIDP患者价值是MG的两倍 但患者数量较少 TAM为12,000人 是目前关注的未充分治疗的患者 [49][50][51] 问题: 推动CIDP更早甚至一线使用所需的条件 - 需要积累医生和患者的正面经验 加强患者激活策略 同时需要与支付方合作以克服支付障碍 因为当前多数支付政策要求先使用IVIg [52][53] 问题: CIDP领域的竞争格局(FcRn、补体抑制剂、IVIg) - 公司认为CIDP是创新荒漠 更多创新将共同扩大市场 改变治疗格局 类似于MG市场 [54][55] 问题: 即将到来的三期数据读出的信心和影响 - 大量数据即将到来 包括今年的MPA延迟移植物功能和狼疮性肾炎数据 以及明年的眼肌型MG、肌炎等数据 即使考虑正常损耗 也将带来重大机会 每个成功的三期数据都可能增加与MG规模相当的内在机会 [57][58][59] 问题: 对肌炎市场的看法以及新适应症的启动轨迹预期 - 目前判断为时过早 肌炎领域涉及神经学和风湿病学 需要强效数据才能产生影响 但生物学原理扎实 [63][64] 问题: 在较大适应症(如TED、狼疮性肾炎)中的定位和定价策略 - 在TED领域 需要数据来证明与TEPEZZA相比在生物学上的优势 并凭借独特的安全性特征进行差异化 这些市场可以支持多个创新产品 [65][66] 问题: 正在进行的三期试验是否都使用PFS - 所有进行中的三期试验都使用PFS [67] 问题: FcRn特许经营权的长期战略和创新计划 - FcRn领域机会巨大 需要下一代分子来延长特许经营权的生命周期 公司正在开发多个下一代分子(如ARGX-213)和新剂型技术(如Halozyme、Electrify、自动注射器) [69][70][72][73] 问题: 非VYVGART管线(如EMPA、01/2019)的战略和资源分配 - EMPA针对补体C2 是一个有前景的产品 正在MMN、CIDP等适应症中开发 01/2019项目针对MuSK 将在即将到来的R&D活动中展示 涉及先天性肌无力综合征、ALS、SMA等适应症 [74][76][78][80][82][83] 问题: 当前投资者可能低估的因素以及五年后的公司愿景 - 分析师模型只关注少数额外适应症 未能反映所有即将到来的机会 公司相信随着数据的生成和机会的展现 模型和估值将会跟进 参考历史类似产品的成功 其潜力往往远大于最初预期 [84][85]