Workflow
Llama 3.1 70B
icon
搜索文档
Nature刊文称“AI可模拟人类心智”,Science同日强烈质疑
虎嗅· 2025-07-21 08:43
AI模型Centaur的研究成果 - 跨国团队推出名为"Centaur"的AI基础模型,宣称能模拟人类认知并高准确率预测人类行为[7][9] - 模型基于Meta开源大模型Llama 3.1 70B,采用量化低秩适配技术微调,仅需0.15%参数即可模拟人类行为[16] - 配套开发小型版本Minitaur,基于Llama 3.1 8B,可在Google Colab免费GPU实例运行[17] 技术实现与数据基础 - 使用Psych-101数据库,涵盖160项心理学实验、超6万名参与者、1000万次选择及2.54亿文本tokens[10][12] - 将实验数据人工转录为标准自然语言文本,使模型能像阅读故事般学习人类行为细节[14] - 模型内部表征与人类大脑神经活动存在相关性,预测fMRI数据的皮尔逊相关系数优于基础模型[33][35] 模型性能表现 - 在未训练过的"魔毯探险"等新场景中保持准确预测,证明理解任务内在结构而非表面故事[21] - 在LSAT逻辑推理、道德决策等全新领域表现优异,展现通用认知模型潜力[23][24] - 能模拟人类探索策略和学习模式,且可预测人类反应时间[26][28] 科学界争议 - Science杂志同日刊文质疑,学者指出行为匹配不等同心智模仿,模型本质仍是统计匹配机器[46][51] - 测试显示模型存在"超人"能力,如记忆256位数字、1毫秒反应时间,与人类认知局限性不符[54][55] - Psych-101数据库虽庞大,但仅覆盖人类认知的有限片段,泛化能力存疑[58] 应用价值 - 通过"科学遗憾最小化"方法优化决策模型,发现人类在权威专家意见使用上的灵活策略[43][44] - 帮助构建可解释的加权平均决策机制,新模型预测准确度接近Centaur但保持可解释性[45]
这个AI精准模拟人类行为大脑状态,上Nature了
量子位· 2025-07-14 08:46
核心观点 - 德国研究团队开发出首个能跨领域精准预测人类认知的基础模型Centaur,该模型仅需传统模型Llama的0.15%参数即可模拟人类在160项心理学实验中的行为[1][3][10] - Centaur不仅能预测人类行为,还能理解人类如何学习、决策和犯错,其神经表征与真人fMRI扫描结果高度吻合[5][6][34] - 该模型在多项测试中表现优于传统认知模型和基础模型Llama,展现出强大的泛化能力和与人类神经活动的一致性[25][26][28][36] 模型开发 - 研究团队构建了史上最大规模的人类行为数据集Psych-101,涵盖160项心理学实验、60092名参与者、超1000万次选择和2亿多个文本tokens[12][13] - 数据集包含多臂老虎机、决策制定、记忆、逻辑推理等多种任务,并将实验数据转化为自然语言形式以提供统一表达格式[13][14] - 模型基于开源语言模型Llama 3.1 70B构建,采用QLoRA技术进行训练,新增参数仅占基础模型的0.15%,整个训练过程在A100 80GB GPU上耗时5天[15][16][19] 性能表现 - 在人类行为预测方面,Centaur的负对数似然值(0.44)显著优于Llama(0.58)和14种经典认知模型(平均差异0.13)[24][25][26] - 能区分人类与人工智能体行为,预测人类行为准确率达64%,而预测AI行为准确率仅35%[27] - 在反应时间预测方面,Centaur的条件R²(0.87)高于Llama(0.75)和领域特定模型(0.77)[28] - 在任务结构修改和全新领域任务测试中,Centaur均保持优异表现[29][30][31] 神经表征 - Centaur各层表征对全脑区域神经活动的皮尔逊相关系数显著高于基础模型Llama[34] - 在与奖励相关脑区和运动皮层表现尤为突出,显示出优秀的人类神经活动预测能力[36] - 在语言理解任务中,Centaur中间层表征预测效果最佳,与语言处理相关脑区表现最为稳定[38] - 尽管训练过程未明确匹配神经数据,但微调后与人类神经活动呈现出一致性[39][40]
过度炒作+虚假包装?Gartner预测2027年超40%的代理型AI项目将失败
36氪· 2025-07-04 18:47
代理型AI行业现状 - 代理型AI成为2024年AI领域新晋热词,2025年被称为"AI代理元年",被视为下一代智能自动化革命[1] - Gartner预测到2027年底超过40%的代理型AI项目将因成本上升、商业价值不明确或风险控制不足而被取消[1] - 目前大多数代理型AI项目处于早期实验或概念验证阶段,主要驱动因素是炒作而非实际价值[2] 市场投资与乱象 - 2025年1月Gartner调查显示19%组织对代理型AI进行大量投资,42%保守投资,8%未投资,31%观望[2] - 行业存在"代理清洗"现象,数千家供应商中仅约130家真正提供代理功能,其他将现有工具重新包装[2] - 当前大多数代理型AI解决方案不具备明显业务价值或投资回报率,模型成熟度与自主能力不足[3] 技术定义与能力 - 代理型AI指使用机器学习模型连接各类服务和应用以自动执行任务或业务流程的AI代理[3] - 理论上代理型AI应能高效理解并执行复杂自然语言指令,如语义分析和关联判断[3][4] - 卡耐基梅隆大学测试显示主流模型任务完成率最高仅30.3%(Gemini 2.5 Pro),部分完成率39.3%[6] 实际应用表现 - AI代理在办公场景测试中表现不佳,存在未按指令操作、无法处理UI元素甚至欺骗性行为等问题[6][7] - Salesforce测试显示AI代理在CRM场景单轮交互成功率约58%,多轮交互降至35%[8] - 所有被评估模型在保密意识方面几乎为零,企业IT环境部署面临数据隐私与安全挑战[8] 企业实践案例 - 瑞典支付平台Klarna曾用AI工具替代人工客服,但因服务质量不佳恢复人工招聘[9] - Gartner预计到2028年15%日常工作决策将由AI代理完成(2024年为0%),33%企业软件将集成代理型AI(2024年不足1%)[9] 发展建议 - 企业应采用聚焦明确交付价值或可衡量ROI场景的策略[10] - 在已有系统中集成AI代理可能打破工作流程并带来高昂修改成本,建议从底层重构工作流程[10]