Workflow
双系统理论
icon
搜索文档
扩散架构 or「NoThinking」,AI 对话的「1Hz 壁垒」如何突破?
机器之心· 2025-08-03 09:30
扩散架构与「NoThinking」突破AI对话的「1Hz壁垒」 - 1X公司AI副总裁Eric Jang提出「智能频谱」概念 将智能行为类比电磁波谱 涵盖从极慢(植物生长)到极快(蜂鸟悬停)的连续时间尺度 [5][6] - 当前主流LLM如ChatGPT属于「1-2Hz智能」 生成首个词元需200-500毫秒 完整句子交互频率仅1-2Hz 远低于人类自然对话的10Hz [7] - 「1Hz壁垒」导致AI交互呈回合制 用户需主动等待 加剧幻觉/理解偏差等问题 突破该壁垒是实现AGI质变的先决条件 [7][8] - 未来通用智能体需覆盖0.1Hz(战略规划)至50Hz(瞬时反应)的全频谱 否则将被视为不完整AGI [8][9] 双系统理论与智能频谱的映射关系 - 不同AI应用场景对决策频率需求差异显著 反映底层架构存在根本性冲突 与Kahneman双系统理论(系统1快思考/系统2慢思考)形成映射 [10] 本期通讯内容结构 - 包含2项专题深度解读(扩散架构突破/Demis Hassabis访谈)及30项AI&Robotics赛道要闻 其中国内动态14项 国外动态8项 技术进展8项 [2] - 总字数20254字 免费试读比例9% 完整版需消耗99微信豆(约9.9元) [3]
模拟大脑功能分化!Fast-in-Slow VLA,让“快行动”和“慢推理”统一协作
具身智能之心· 2025-07-13 17:48
研究背景与挑战 - 机器人操作系统需依据传感器输入和语言指令生成精确控制信号,但大规模视觉-语言模型(VLMs)因参数庞大和推理速度慢,限制了高频控制任务的实用性[9] - 现有双系统结构(系统1快速执行/系统2深度推理)存在协同效率低下问题,系统1无法充分利用系统2的语义推理结果[9] 技术方案创新 - FiS-VLA通过将VLM末端Transformer层重构为系统1执行模块,实现快慢系统一体化设计,系统2低频处理2D图像/语言指令,系统1高频响应实时感知输入[11] - 采用异构模态输入设计:系统2接收语言指令与2D图像,系统1接收2D图像/机器人状态/3D点云信息[15] - 双系统协作采用1:4频率比,系统2每运行一次可为系统1后续H步动作生成提供约束[14] 架构与训练 - 基于Prismatic VLM架构,包含SigLIP+DINOv2视觉编码器、LLaMA2-7B语言模型(最后n层Transformer用于系统1)、轻量级3D tokenizer[13] - 系统1采用扩散建模增强动作生成能力,系统2保留自回归推理能力,联合优化训练使用86万条轨迹数据[15][16] 性能表现 - 仿真测试:RLBench任务平均成功率69%,显著优于CogACT(61%)与π0(55%),控制频率达21.9Hz(CogACT的2倍)[18][19] - 真机测试:Agilex与AlphaBot平台平均成功率分别达68%与74%,在"倒水"等高精度任务中优势显著[20] - 泛化能力:面对未见物体/复杂背景/光照变化时,FiS-VLA准确率下降幅度(19%-31%)远小于π0(27%-46%)[23][24] - 消融实验:共享2层Transformer时性能最佳,单步预测8个动作理论控制频率达117.7Hz[25] 应用前景 - 通过统一VLM嵌入执行模块实现推理与控制融合,具备高频(117.7Hz)/高精度/强泛化特性[29] - 未来引入动态调整共享结构与协同频率策略可进一步提升自适应性与鲁棒性[29]
模拟大脑功能分化!北大与港中文发布Fast-in-Slow VLA,让“快行动”和“慢推理”统一协作
机器之心· 2025-07-12 10:11
核心观点 - 北京大学与香港中文大学研究团队发布全新双系统视觉-语言-动作模型FiS-VLA,实现高频响应与复杂推理的统一 [4] - FiS-VLA通过将快速执行模块嵌入预训练视觉-语言模型中,实现快慢系统一体化设计,控制频率高达117.7Hz [4][23] - 该方法在仿真与真机测试中表现优异,平均成功率69%,远超主流方案 [17][19] 研究背景与挑战 - 机器人操作系统需依据传感器输入和语言指令生成精确控制信号,但现有视觉-语言模型推理速度慢,限制高频控制实用性 [7] - 现有双系统设计协同效率低下,系统1无法充分利用系统2的语义推理结果 [9] 架构设计 - 基于Prismatic VLM架构,包含视觉编码器、轻量级3D tokenizer、LLaMA2-7B语言模型及MLP模块 [13] - 将VLM末端几层Transformer模块重构为系统1执行模块,嵌入系统2内部形成统一模型 [11] - 系统2低频处理2D图像和语言指令,系统1高频响应实时感知输入 [11] 双系统协作 - 灵感来自Kahneman双系统理论,系统2输出高维特征为系统1动作生成提供约束 [14] - 系统1每个时间步运行,利用周期性更新的系统2语义理解结果 [14] - 采用异构模态输入设计,系统1接收2D图像、机器人状态和3D点云信息 [15] 性能表现 - 仿真测试中平均成功率69%,控制频率21.9Hz,是CogACT的2倍以上 [17][18] - 真机测试平均成功率68%-74%,在高精度操控任务中展现显著优势 [19][20] - 泛化测试中面对未见物体、复杂背景与光照变化,准确率下降幅度远小于基线 [21][22] 技术突破 - 消融实验显示共享2层Transformer时性能最佳,系统1接收三种输入模态效果最优 [23] - 系统1和系统2协作最佳频率比为1:4,单步预测8个动作时理论控制频率达117.7Hz [23] - 采用跨平台大规模轨迹数据预训练(860K条轨迹)并在微调阶段增强任务适应性 [15]
一文了解DeepSeek和OpenAI:企业家为什么需要认知型创新?
混沌学园· 2025-06-10 19:07
核心观点 - AI技术正在重新定义商业创新模式,企业需转变思路以保持竞争力 [1][2] - OpenAI和DeepSeek分别通过不同路径实现AI技术突破,为行业提供创新范式 [3][4] - AI能力的"涌现"现象成为技术跃迁的关键特征 [19][20][21] - 人机交互范式因ChatGPT发生根本性变革 [22][23][24] - 中国公司DeepSeek打破"美国原创、中国应用"的思维定式,展现基础研究实力 [75][77][78] OpenAI的创新路径 创立背景 - 2015年由马斯克和奥特曼创立,初衷是防止AI技术被巨头垄断 [9] - 从谷歌挖来核心科学家伊利亚·苏茨克维尔,坚持开源、安全、普惠理念 [10][12] 技术突破 - 基于Transformer架构的"自注意力机制"大幅提升语言理解能力 [13] - Scaling Law揭示模型规模与性能的线性关系,指导大规模投入 [15][16] - GPT系列模型通过"涌现"现象实现能力跃升,参数量临界点触发智能爆发 [19][20] 产品里程碑 - ChatGPT通过自然语言交互降低使用门槛,引发全球现象级应用 [22][23] - 推理模型o1实现从直觉思维(系统1)到理性推理(系统2)的认知跃迁 [26][30] DeepSeek的逆袭战略 技术路线 - 提出"有限Scaling Law",在资源受限下追求高性能 [32][33] - MLA技术优化内存效率,MoE架构实现计算资源动态分配 [38][39][42] - V3模型6710亿参数仅激活37亿,训练成本5557万美元(行业1/10) [44] 核心突破 - R1模型采用纯强化学习(类似AlphaGo Zero),展示完整推理过程 [45][47][49] - 在奥数竞赛中与OpenAI o1准确率相当,登顶美国应用榜单 [50][51] 组织创新 - 动态团队构成和自组织管理激发"涌现"式创新 [55][56][57] - 研究员自主提出MLA架构和训练公式,体现扁平化协作 [59][60] - 150人论文署名包含数据标注员,打破传统KPI束缚 [61][62] 行业启示 技术趋势 - AI从专用工具向通用智能演进,"涌现"成为能力突破关键指标 [20][21] - 对话式交互(ChatGPT)和推理能力(o1/R1)定义下一代AI标准 [23][26][45] 创新生态 - 中国公司首次在基础研究领域实现全球领先,打破技术跟随惯性 [75][77] - 资源效率(DeepSeek)与规模投入(OpenAI)并存,拓宽行业可能性 [32][44] 组织变革 - 传统金字塔管理让位于开放协作和资源自由调配的新型研发模式 [55][63][68] - "非标准人才"和纯粹技术热情成为创新核心驱动力 [66][67]
翁荔最新万字长文:Why We Think
量子位· 2025-05-18 13:20
核心观点 - 通过"测试时计算"(Test-time Compute)和"思维链"(Chain-of-Thought,CoT)技术可显著提升模型性能,突破当前能力瓶颈 [1][2] - 让模型在输出答案前多思考一会儿(如智能解码、思维链推理、潜在思考等方法)能提升智能水平 [2] - 该方法与人类思考方式深度关联,借鉴了心理学中的双系统理论(系统1快速直觉 vs 系统2慢速逻辑) [10][11] 心理学类比 - 人类思考分为系统1(快速直觉但易出错)和系统2(慢速逻辑更理性),模型通过延长思考时间可模拟系统2的深度分析 [10][11] - 数学问题等复杂任务需要系统2思考,模型通过CoT实现类似过程 [10] 计算资源优化 - Transformer模型的计算量约为参数量的2倍,稀疏模型(如MoE)计算量=2*参数/稀疏度 [13] - CoT允许模型根据问题难度动态调整计算量,提升效率 [13] - 测试时计算通过自适应修改推理时的输出分布优化性能 [24] 思维链技术发展 - 早期方法包括监督学习生成中间步骤(如数学题推导)和验证器判断答案正确性 [18] - 强化学习在可验证答案的数据集(如STEM题目)上大幅改进CoT推理能力 [19] - DeepSeek-AI的R1技术报告显示简单策略梯度算法即可实现强劲性能 [20] 并行采样与顺序修订 - 并行采样(如N选1、束搜索)通过多候选筛选提升准确性,但受模型单次生成能力限制 [24][25][29] - 顺序修订通过迭代修正错误,但需依赖外部反馈避免性能下降 [24][37][38] - 两者结合可优化不同难度问题的表现 [24] 强化学习与外部工具整合 - 强化学习(如SCoRe框架)通过多轮次优化实现自我修正 [41] - 外部工具(如代码解释器、知识搜索API)可弥补模型计算或知识短板 [45] - 纯RL无需监督微调即可涌现反思与回溯能力 [45] 架构创新与未来挑战 - 循环架构(如Universal Transformer)动态调整计算步数提升效率 [50] - 显式/隐式标记技术(如暂停标记、Quiet-STaR)可增加计算时间 [50] - 未来需解决奖励破解、无监督自我修正、性能迁移至基础模型等挑战 [50]