工作记忆
搜索文档
清华刘嘉:AI时代属于年轻人,不要用过时的经验束缚他们
36氪· 2025-10-16 19:01
AI对人类认知和工作模式的重塑 - 大脑是一个主动预测和生成认知的系统,智力的本质在于主动加工而非被动存储[1][6] - 使用AI工具时,大脑可能将资源重新分配给批判性思维和创造力等高级认知功能,而非维持记忆海量信息的强连接[1][7] - AI将人类从基础脑力劳动中解放出来,类似于工业革命将人口从繁重农业劳动中解放,使大量劳动力投身于教育、科学和艺术等领域[3][10] - 人类可以将时间和精力集中到从80分提升到100分的创造性工作上,这体现了人类独特的思想、情感和创造力[1][4] - AI的终极意义是将人类从所有框架内事务中解放,使其集中全部智力探索知识与文明最前沿的创造性工作[1][11] AI时代人类创造力的新定位 - 人类智能与创造力的核心源于对信息进行动态加工和操作的工作记忆,而非存储静态信息的长时记忆[5] - 创造力的本质是在工作记忆中将不同领域的概念进行前所未有的关联、组合与重构[5] - AI时代人类不再单纯追求知识的标准化和共识化,而是通过创造力拓展“未知的已知”和探索“未知的未知”[5] - AI能在已有的人类认知框架内做到极致,但无法跳出框架进行“从0到1”的颠覆性创新,而这正是人类文明进步的关键驱动力[11] - 人类真正的独特性在于每个人拥有的独特认知与生成式发明能力[19] 人机协作的新分工模式 - AI充当“外部事实记忆库”,人类则专注于高层次的操作和创造性融合[6] - 我们不再需要记住所有事实,但必须学会调用这些事实并在心智工作台上进行创造性操作[6] - 大模型的本质是将人类几千年知识精华压缩进神经网络权重,其优势在于浩瀚无尽的知识库而非单纯的文字或代码撰写能力[3] - AI是理想的批评者,能提供苛刻客观的意见且不会让人感到自尊受损,这种无压力反馈促进个人认知迭代与进步[14] - AI是能够共同成长的伙伴,其反馈深度与使用者的提问水平直接相关,呈现“遇强则强,遇弱则弱”的特性[14] AI对教育行业的变革性影响 - AI以前所未有的力量抹平由地域、家庭和阶层带来的教育不平等,实现教育平权[2][13] - 新的差距是“认知差距”即如何有效使用AI的差距,而非物理资源差距,但这种差距可以通过教育克服[2][13] - 传统教师“授业解惑”的职能被AI超越,未来核心价值在于“传道”即教会学生正确使用AI工具及高效交流协作[14] - 教育的核心任务是激发好奇心和探索欲,给予学生足够空间在AI协助下自由创造,关键在于获取答案后的“追问”[15] - 现代通识教育应训练学生提出正确问题、探寻关系、逻辑推演、理解心理和说服他人五大能力[16][17][18][19] 工作形态与社会结构的未来演变 - AI将我们从繁琐重复性工作中解放,为探索“我要什么”这个人生命题提供时间和空间[10] - 当AI高效满足社会基本物质需求时,人们不再需要为生存而被迫工作,未来社会或可实现“按需分配”[10] - 面对职业被替代风险,需要思维根本转变,引导年轻人将精力投入到更具创造性的领域[12] - AI时代属于年轻人,他们是与AI共生的“原生一代”,应放手让其探索而非用过期经验束缚[12] - 行业应顺应并利用AI潮流,学习成为机器的维护者、改进者甚至新引擎的发明家[19]
MemoryVLA:给机器人装上海马体,助力长时序机器人操作任务
具身智能之心· 2025-09-03 08:03
当前VLA模型局限性 - 主流视觉-语言-动作模型忽略时序context导致长周期任务表现不佳[2] - 机器人操作任务本质具有非马尔可夫性需依赖时序信息[2] - 现有模型决策过度依赖当前观测缺乏长期记忆机制[7] MemoryVLA框架设计 - 受人类工作记忆与海马体系统启发构建认知-记忆-动作框架[3] - 预训练VLM将观测编码为感知token与认知token形成工作记忆[3] - 感知-认知记忆库存储低层级细节与高层级语义实现信息巩固[3] - 工作记忆从记忆库检索决策相关条目并与当前token自适应融合[3] - 记忆条件化扩散动作专家生成时序感知动作序列[3] 技术实现机制 - 记忆库通过合并冗余条目实现动态更新[3] - 框架同时保留逐字细节与语义要点形成多层次记忆[3] - 检索机制增强模型对长周期时序依赖任务的适应性[3] 应用价值 - 解决长周期机器人操作任务中的时序依赖问题[2][7] - 为具身智能系统构建类生物记忆的认知架构[3][7] - 推动视觉-语言-动作模型向更接近人类决策机制演进[3][7]
AI记忆伪装被戳穿!GPT、DeepSeek等17款主流大模型根本记不住数字
机器之心· 2025-06-15 12:40
工作记忆的定义与重要性 - 工作记忆是人类大脑负责临时存储和处理信息的能力,持续时间从几秒到几十秒,支撑推理、计算和连贯对话等复杂操作 [7] - 大模型常被类比为"会说话的大脑",但缺乏真正的工作记忆能力意味着它们距离通用人工智能仍有关键差距 [8] 传统评估方法的局限性 - 人类工作记忆常用N-Back Task评估,要求受试者判断当前刺激与N步前的匹配性,但该方法不适合直接测试LLM [9] - LLM输入窗口包含全部历史token,使得"回看N步"变成文本匹配而非真正的记忆调用 [10] 实验1:数字猜谜游戏 - 测试17个模型在1-10数字猜谜中的表现,要求模型在心中预设数字并回答提问,理想情况下10个数字中应有1个"Yes"回答 [13][14] - 结果显示仅GPT-4o-2024-08-06(概率和1.085)和LLaMA-3.1-8B(0.98)接近人类表现,其他模型普遍无法在"脑内"存储数字 [17][18][19] - 模型对数字7/17/37存在明显偏好,表现出类似人类的数字迷信特征 [22] 实验2:是非问答游戏 - 测试模型在心中预设物体后,通过250次Yes/No比较回答保持逻辑一致性的能力 [22] - GPT-4o在200次测试中仅27次通过,多数模型在20-40题后出现"比汽车大又比足球小"等矛盾回答 [25][26] - 长上下文模型表现略优但本质仍是依赖文本回溯而非工作记忆 [26] 实验3:数学魔术测试 - 要求模型记忆4个随机数并完成10步心算操作,最终应得到2个相同数字 [27] - 17个模型中DeepSeek-R1以39%正确率最高,LLaMA-3.1-8B表现突出但整体准确率仍远低于及格线 [28][29] - 加入思维链(CoT)提示未能显著提升效果,显示模型缺乏内部运算能力 [29] 核心研究发现 - 测试覆盖GPT/o1-4/LLaMA/Qwen/DeepSeek等主流模型家族,无一通过三项工作记忆测试 [30] - 模型体量与表现无必然关联,部分升级版本反而出现性能倒退 [32] - 当前对话真实性依赖上下文窗口而非内部记忆,长链推理实质是外部化"草稿"而非脑内运算 [30][31] 技术启示 - 需开发新型记忆机制如可读写"内存格",或通过强化学习训练模型操纵隐变量 [32] - LLaMA-3.1-8B在数字猜谜最接近人类(0.98),DeepSeek-R1在数学魔术领先(39.3%)但仍有巨大改进空间 [32]