Workflow
AI动态汇总:AI模型通过标准图灵测试,智谱发布AIagentautoglm沉思
中邮证券·2025-04-08 19:58

根据提供的研报内容,经全面梳理后总结如下: 量化模型与构建方式 1. 模型名称:GPT-4.5(PERSONA提示策略) - 构建思路:通过人格化提示策略增强AI在对话中的拟人化表现[15] - 具体构建: 1. 采用三方图灵测试框架,设置人类提问者与AI/人类双证人对话场景 2. 使用PERSONA提示策略引导模型模仿特定人格特征(如年轻、内向、熟悉网络文化) 3. 对话流程:5分钟同步对话后由提问者判断身份 4. 关键公式: 误判率=被认作人类的AI次数总测试次数\text{误判率} = \frac{\text{被认作人类的AI次数}}{\text{总测试次数}} - 模型评价:人格化提示显著提升拟真度,文化背景影响判断效果[17] 2. 模型名称:LLaMa-3.1-405B(PERSONA策略) - 构建思路:通过大规模参数模型实现自然语言交互[15] - 具体构建: 1. 与GPT-4.5共享相同的三方测试框架 2. 采用相同的PERSONA/NO-PERSONA双提示策略 3. 通过1.58万次对话测试验证效果[16] 3. 模型名称:AutoGLM沉思模型 - 构建思路:通过强化学习实现长程推理与任务执行[19] - 具体构建: 1. 技术演进路径:GLM-4→GLM-Z1→GLM-Z1-Rumination→AutoGLM 2. 核心能力: - 深度思考:模拟人类复杂决策过程 - 感知世界:环境信息理解系统 - 工具使用:多模态操作接口[22] 4. 模型名称:金乌太阳大模型 - 构建思路:基于太阳物理参数预测耀斑活动[40] - 具体构建: 1. 以通义千问开源模型为基础 2. 输入层:太阳物理参数+观测图像 3. 输出层:24小时耀斑预测+物理参数推测 4. 训练数据:90万张太阳卫星图像[40] 量化因子与构建方式 1. 因子名称:MathArena数学能力评估因子 - 构建思路:量化大模型解决奥赛题的能力[43] - 具体构建: 1. 测试集:2025年美国数学奥赛6道证明题(总分42) 2. 评分标准:专家人工评分(0-7分/题) 3. 关键指标: 正确率=模型得分满分×100%\text{正确率} = \frac{\text{模型得分}}{\text{满分}} \times 100\% - 因子评价:暴露模型逻辑错误与创造力缺陷[46] 2. 因子名称:UQABench个性化问答因子 - 构建思路:评估嵌入提示对LLM个性化推荐的效果[47] - 具体构建: 1. 三级评估流程: - 预训练:用户交互数据编码 - 微调:Q-Former语义空间对齐 - 评估:序列理解/行为预测/兴趣感知[51] 2. 关键公式: 效率比=文本提示token量嵌入方法token量\text{效率比} = \frac{\text{文本提示token量}}{\text{嵌入方法token量}} 模型的回测效果 1. GPT-4.5模型 - 误判率:73%(PERSONA策略)[16] - 显著优于随机水平(p<0.001)[17] 2. LLaMa-3.1模型 - 误判率:56%(PERSONA策略)[16] - Prolific平台用户测试达65%[16] 3. 金乌模型 - 耀斑预测准确率:91%(M5级)[40] 因子的回测效果 1. MathArena因子 - DeepSeek-R1正确率:4.76%[43] - Gemini-2.5-pro正确率:24.4%[45] 2. UQABench因子 - 行为预测效果:42.38(嵌入方法)vs 41.39(文本提示)[53] - Token消耗比:1:19(嵌入vs文本)[53]