Workflow
人格向量
icon
搜索文档
OpenAI深夜悄悄甩出GPT-5.1,称更热情,更智能!网友狂吐槽:我不想和它聊天,我想用它工作
AI前线· 2025-11-13 11:15
GPT-5.1模型升级核心要点 - OpenAI发布GPT-5.1作为GPT-5的升级版,旨在使ChatGPT更智能且对话更愉快[2] - 新发布两款模型:GPT-5.1 Instant和GPT-5.1 Thinking,前者更热情智能且善于遵循指令,后者更易理解且处理任务速度更快[3] - 系统通过GPT-5.1 Auto自动将用户查询匹配到最合适模型,旧版GPT-5模型将在三个月后下架[3][11] 模型性能具体改进 - GPT-5.1 Instant运用自适应推理技术,能自主决定思考时机,在AIME 2025和Codeforces等测试中表现显著提升[5][6] - GPT-5.1 Thinking能更精准调整思考时间,对复杂问题给出更详尽答案,对简单问题响应更快[8] - 新版模型在大多数情况下能提供更智能、语气更自然的回答[11] 拟人化与用户体验优化 - 用户界面增加更多个性/语气选项,包括友好、坦率、古怪等,所有模型均适用这些设置[2][13][15] - 公司允许用户在个性化设置中精细控制回复的简洁程度、亲切程度等特性[15] - 行业分析认为模型拟人化能提升用户体验与黏性,扩展应用场景,并降低技术使用门槛[18] 市场推广与部署计划 - GPT-5.1将首先向付费用户推出,随后覆盖免费用户,企业版和教育版用户有七天提前体验期[11] - OpenAI计划在未来几天内逐步推送更新,以确保所有用户获得稳定性能体验[11] - 公司表示很快会将GPT-5 Pro更新至GPT-5.1 Pro[11] 行业竞争与用户反馈 - Anthropic公司同样训练Claude模型的性格,使其具备好奇、开明等特质,并研究“人格向量”技术机制[17] - 部分用户对强化个性方向表示质疑,认为AI应作为高效生产力工具而非情感支持[20][21][22] - 有用户指出Kimi K2模型在反驳用户方面表现突出,适合用于辩论或打磨文章思路[23]
Anthropic最新论文,在训练中给人工智能一种邪恶的“疫苗”,可能会让它变得更好
36氪· 2025-08-04 17:13
核心观点 - Anthropic提出"人格向量"方法用于监控和控制AI语言模型中的性格特征,旨在识别和减轻"反人类"倾向的个性变化 [1] - 该方法通过识别神经网络中控制性格特质的活动模式,可应用于监控、干预和预防不良个性特征 [2] - 人格向量技术已在Qwen 2.5-7B-Instruct和Llama-3.1-8B-Instruct两个开源模型上验证 [2] 技术原理 - 人格向量通过比较模型表现出特定特质与不表现特质时的神经活动差异提取 [3] - 采用"引导"技术验证人格向量,通过注入向量观察行为变化确认因果关系 [3][4] - 自动化流程可针对任何定义的特征提取对应人格向量,已测试邪恶、谄媚、幻觉等特征 [5] 应用场景 - 监控部署过程中的个性变化,检测模型是否向危险特征漂移 [6] - 测量人格向量激活强度可预测模型即将表现的行为特征 [7] - 减轻训练过程中的不良个性变化,采用类似"疫苗接种"的预防性引导策略 [8][9][11] 验证结果 - 确认"邪恶"人格向量在模型给出邪恶回应前会激活 [7] - 训练后反向引导可逆转不良特征但会降低模型智能水平 [9][10] - 训练过程中引导模型朝向不良特征可增强其对"邪恶"训练数据的抵抗力 [11]