Workflow
双系统理论
icon
搜索文档
线上购物你会顺手买一件吗?经济日报:冲动消费2.0版本
经济日报· 2025-10-18 09:32
线上“顺手买1件”的消费行为本质 - 线上“顺手买1件”是冲动消费的2.0版本,相较于传统超市收银台的冲动消费场景有所升级 [1] - 冲动消费是指在计划外临时决定的突发性消费行为 [1] - 该行为符合“双系统理论”,结账时消费者处于“完成任务”的快速、情绪化思维模式,直觉反应占主导地位 [1] 促成冲动消费的心理机制 - 结账时消费者的消费账户被激活,对额外消费的接受程度更高,“顺手买1件”巧妙利用心理账户和购物惯性促使购买欲望 [1] - “反正也不贵”、“试试看呗”等心理因素为冲动购买找到合理借口,使消费者觉得买了就赚了 [1] - 消费者在线上购物时容易产生决策疲劳,“顺手买1件”推荐已查找过的商品或高频刚需产品,降低了搜索成本和决策成本 [2] 商家的营销策略与消费者效用 - 商家通过标注原价和折扣价,利用限时降价的营销策略让消费者感知较低的价格风险 [2] - 产品限时稀缺的特点引发消费者的错失焦虑,使短期即时满足的边际效用大于长期理性评估 [2] - 消费者购买的效用既来自商品本身,也来自“占便宜”的交易效用 [2]
让机器人「不只是走路」,Nav-R1引领带推理的导航新时代
具身智能之心· 2025-09-19 08:03
文章核心观点 - 提出一种名为Nav-R1的新型具身智能基础模型,旨在解决机器人在3D环境中结合感知、推理和行动的核心挑战 [5] - 该模型通过引入大规模推理链数据集Nav-CoT-110K进行冷启动训练,并采用Fast-in-Slow双系统推理范式,显著提升了导航任务的成功率和路径效率 [6][11][14] - 在模拟环境和真实机器人部署的实验中,Nav-R1在多项导航基准测试中的关键指标(如成功率SR和路径效率SPL)相比其他先进方法提升了约8%或更多 [14][17] Nav-R1核心创新 - **Nav-CoT-110K数据集**:构建了包含约11万条Chain-of-Thought推理链轨迹的大规模数据集,用于模型的监督训练阶段,使其在强化学习优化前就具备稳定的推理与行动基础 [6][8] - **三种奖励机制**:设计了格式奖励、理解奖励和导航奖励,分别确保模型输出结构化、语义理解正确以及路径合理高效 [10][15] - **Fast-in-Slow推理范式**:借鉴人类双系统理论,Slow系统(System-2)负责低频、宏观的语义规划和长期目标制定,Fast系统(System-1)负责高频、即时的动作控制和避障,两者异步协调 [11][13][16] 实验性能与效果 - **视觉-语言导航任务**:在R2R-CE Val-Unseen基准上,Nav-R1的成功率(SR)达到74.1%,路径效率(SPL)达到68.8%,显著优于对比方法 [17] - **物体目标导航任务**:在ObjectNav任务中,Nav-R1在真实环境(如会议室、休息室、走廊)的成功率指标(SR)分别达到1.03、1.12和1.02,表现优于其他方法 [19] - **实时性能**:通过云端推理与本地执行结合的架构,Nav-R1在服务器端的推理延迟约为95毫秒,优于仅在本地推理的方法,适合在资源受限的边缘设备上近实时运行 [19][20] 应用场景 - **服务与家庭机器人**:适用于家庭等杂乱环境,能提升机器人穿行、找物及与人交互时的理解能力和执行体验 [31] - **助老与医疗辅助**:在医院、养老院等复杂环境中,能提供安全、可靠的导航服务,并具备语义理解与错误纠正能力 [32] - **增强现实与虚拟现实**:可为AR/VR中的虚拟智能体提供基于物理环境的导航和指路能力 [33] - **工业与危险环境**:其泛化能力和稳健性使其可作为在工厂、矿井或灾害现场执行任务的机器人的基础模块 [34]
不止会动嘴,还会「思考」!字节跳动发布OmniHuman-1.5,让虚拟人拥有逻辑灵魂
机器之心· 2025-09-05 15:12
技术突破与核心观点 - 字节跳动数字人团队推出OmniHuman-1.5,提出全新虚拟人生成框架,使虚拟人具备“思考”和“表达”能力 [2] - 相比1.0版本,1.5版本实现多项突破,支持根据文字指令生成指定动作和表情,并能在多人场景中控制非发言角色的具体动作 [2] - 该技术首次将诺贝尔奖得主丹尼尔·卡尼曼的“双系统理论”引入AI,通过多模态大语言模型驱动的“思考大脑”,让虚拟人实现深思熟虑 [4] 技术框架与工作原理 - 框架核心为“双系统模拟框架”,包含负责规划的“系统2”大脑和负责渲染的“系统1”身体 [13] - “系统2”大脑由两个MLLM智能体构成,分别担任分析器和规划器,进行情景分析并制定详细的“行动计划” [17][20] - “系统1”身体由一个特殊设计的多模态扩散模型承担,负责将高层文本规划与底层音频信号融合生成最终视频 [18] 关键技术创新 - 提出“伪最终帧”解决方案,巧妙平衡“身份一致性”和“动作多样性”,解决传统参考图方法导致动作僵硬的问题 [24][25] - 采用“对称融合”与“两阶段预热”训练策略,有效解决文本、音频、视频多模态信息融合时的“模态冲突”问题 [27][28][34] 性能表现与效果 - 模型展现出逻辑推理能力,能准确理解指令并按顺序执行复杂动作意图,例如“先画眼线,再介绍眼影盘” [6][7] - 能够稳定生成长时间双人对唱视频,驾驭丰富运镜效果,角色动作、表情和互动极为多样,告别单调重复 [8] - 虚拟人学会“倾听”,可在对话和倾听状态间自如切换,说话时的情绪与内容高度匹配 [9] 量化数据与行业对比 - 在消融实验中,完整模型的IQA得分为4.790,ASE为3.901,Sync-C为4.087,HKC为0.571,HKV为168.912,证明其核心设计的有效性 [31][35] - 与当前最先进的多个公开模型对比中,该方法在所有关键指标上均取得显著优势或极具竞争力的表现 [36] - 相比只会做简单说话和重复性动作的模型,OmniHuman-1.5显示出更高的动态范围和更有逻辑性的动作效果 [37] 应用前景与行业影响 - 该技术为虚拟人领域提供全新视角,实现虚拟人行为从“反应式”到“思考式”的飞跃 [39] - 相比1.0版本,OmniHuman-1.5可生成更真实、灵动的虚拟人,为人机交互、影视制作、虚拟社交等领域带来新可能 [39] - 新版本很快将上线即梦AI平台,标志着技术从研究到实际应用的快速转化 [2][39]
扩散架构 or「NoThinking」,AI 对话的「1Hz 壁垒」如何突破?
机器之心· 2025-08-03 09:30
扩散架构与「NoThinking」突破AI对话的「1Hz壁垒」 - 1X公司AI副总裁Eric Jang提出「智能频谱」概念 将智能行为类比电磁波谱 涵盖从极慢(植物生长)到极快(蜂鸟悬停)的连续时间尺度 [5][6] - 当前主流LLM如ChatGPT属于「1-2Hz智能」 生成首个词元需200-500毫秒 完整句子交互频率仅1-2Hz 远低于人类自然对话的10Hz [7] - 「1Hz壁垒」导致AI交互呈回合制 用户需主动等待 加剧幻觉/理解偏差等问题 突破该壁垒是实现AGI质变的先决条件 [7][8] - 未来通用智能体需覆盖0.1Hz(战略规划)至50Hz(瞬时反应)的全频谱 否则将被视为不完整AGI [8][9] 双系统理论与智能频谱的映射关系 - 不同AI应用场景对决策频率需求差异显著 反映底层架构存在根本性冲突 与Kahneman双系统理论(系统1快思考/系统2慢思考)形成映射 [10] 本期通讯内容结构 - 包含2项专题深度解读(扩散架构突破/Demis Hassabis访谈)及30项AI&Robotics赛道要闻 其中国内动态14项 国外动态8项 技术进展8项 [2] - 总字数20254字 免费试读比例9% 完整版需消耗99微信豆(约9.9元) [3]
模拟大脑功能分化!Fast-in-Slow VLA,让“快行动”和“慢推理”统一协作
具身智能之心· 2025-07-13 17:48
研究背景与挑战 - 机器人操作系统需依据传感器输入和语言指令生成精确控制信号,但大规模视觉-语言模型(VLMs)因参数庞大和推理速度慢,限制了高频控制任务的实用性[9] - 现有双系统结构(系统1快速执行/系统2深度推理)存在协同效率低下问题,系统1无法充分利用系统2的语义推理结果[9] 技术方案创新 - FiS-VLA通过将VLM末端Transformer层重构为系统1执行模块,实现快慢系统一体化设计,系统2低频处理2D图像/语言指令,系统1高频响应实时感知输入[11] - 采用异构模态输入设计:系统2接收语言指令与2D图像,系统1接收2D图像/机器人状态/3D点云信息[15] - 双系统协作采用1:4频率比,系统2每运行一次可为系统1后续H步动作生成提供约束[14] 架构与训练 - 基于Prismatic VLM架构,包含SigLIP+DINOv2视觉编码器、LLaMA2-7B语言模型(最后n层Transformer用于系统1)、轻量级3D tokenizer[13] - 系统1采用扩散建模增强动作生成能力,系统2保留自回归推理能力,联合优化训练使用86万条轨迹数据[15][16] 性能表现 - 仿真测试:RLBench任务平均成功率69%,显著优于CogACT(61%)与π0(55%),控制频率达21.9Hz(CogACT的2倍)[18][19] - 真机测试:Agilex与AlphaBot平台平均成功率分别达68%与74%,在"倒水"等高精度任务中优势显著[20] - 泛化能力:面对未见物体/复杂背景/光照变化时,FiS-VLA准确率下降幅度(19%-31%)远小于π0(27%-46%)[23][24] - 消融实验:共享2层Transformer时性能最佳,单步预测8个动作理论控制频率达117.7Hz[25] 应用前景 - 通过统一VLM嵌入执行模块实现推理与控制融合,具备高频(117.7Hz)/高精度/强泛化特性[29] - 未来引入动态调整共享结构与协同频率策略可进一步提升自适应性与鲁棒性[29]
模拟大脑功能分化!北大与港中文发布Fast-in-Slow VLA,让“快行动”和“慢推理”统一协作
机器之心· 2025-07-12 10:11
核心观点 - 北京大学与香港中文大学研究团队发布全新双系统视觉-语言-动作模型FiS-VLA,实现高频响应与复杂推理的统一 [4] - FiS-VLA通过将快速执行模块嵌入预训练视觉-语言模型中,实现快慢系统一体化设计,控制频率高达117.7Hz [4][23] - 该方法在仿真与真机测试中表现优异,平均成功率69%,远超主流方案 [17][19] 研究背景与挑战 - 机器人操作系统需依据传感器输入和语言指令生成精确控制信号,但现有视觉-语言模型推理速度慢,限制高频控制实用性 [7] - 现有双系统设计协同效率低下,系统1无法充分利用系统2的语义推理结果 [9] 架构设计 - 基于Prismatic VLM架构,包含视觉编码器、轻量级3D tokenizer、LLaMA2-7B语言模型及MLP模块 [13] - 将VLM末端几层Transformer模块重构为系统1执行模块,嵌入系统2内部形成统一模型 [11] - 系统2低频处理2D图像和语言指令,系统1高频响应实时感知输入 [11] 双系统协作 - 灵感来自Kahneman双系统理论,系统2输出高维特征为系统1动作生成提供约束 [14] - 系统1每个时间步运行,利用周期性更新的系统2语义理解结果 [14] - 采用异构模态输入设计,系统1接收2D图像、机器人状态和3D点云信息 [15] 性能表现 - 仿真测试中平均成功率69%,控制频率21.9Hz,是CogACT的2倍以上 [17][18] - 真机测试平均成功率68%-74%,在高精度操控任务中展现显著优势 [19][20] - 泛化测试中面对未见物体、复杂背景与光照变化,准确率下降幅度远小于基线 [21][22] 技术突破 - 消融实验显示共享2层Transformer时性能最佳,系统1接收三种输入模态效果最优 [23] - 系统1和系统2协作最佳频率比为1:4,单步预测8个动作时理论控制频率达117.7Hz [23] - 采用跨平台大规模轨迹数据预训练(860K条轨迹)并在微调阶段增强任务适应性 [15]
一文了解DeepSeek和OpenAI:企业家为什么需要认知型创新?
混沌学园· 2025-06-10 19:07
核心观点 - AI技术正在重新定义商业创新模式,企业需转变思路以保持竞争力 [1][2] - OpenAI和DeepSeek分别通过不同路径实现AI技术突破,为行业提供创新范式 [3][4] - AI能力的"涌现"现象成为技术跃迁的关键特征 [19][20][21] - 人机交互范式因ChatGPT发生根本性变革 [22][23][24] - 中国公司DeepSeek打破"美国原创、中国应用"的思维定式,展现基础研究实力 [75][77][78] OpenAI的创新路径 创立背景 - 2015年由马斯克和奥特曼创立,初衷是防止AI技术被巨头垄断 [9] - 从谷歌挖来核心科学家伊利亚·苏茨克维尔,坚持开源、安全、普惠理念 [10][12] 技术突破 - 基于Transformer架构的"自注意力机制"大幅提升语言理解能力 [13] - Scaling Law揭示模型规模与性能的线性关系,指导大规模投入 [15][16] - GPT系列模型通过"涌现"现象实现能力跃升,参数量临界点触发智能爆发 [19][20] 产品里程碑 - ChatGPT通过自然语言交互降低使用门槛,引发全球现象级应用 [22][23] - 推理模型o1实现从直觉思维(系统1)到理性推理(系统2)的认知跃迁 [26][30] DeepSeek的逆袭战略 技术路线 - 提出"有限Scaling Law",在资源受限下追求高性能 [32][33] - MLA技术优化内存效率,MoE架构实现计算资源动态分配 [38][39][42] - V3模型6710亿参数仅激活37亿,训练成本5557万美元(行业1/10) [44] 核心突破 - R1模型采用纯强化学习(类似AlphaGo Zero),展示完整推理过程 [45][47][49] - 在奥数竞赛中与OpenAI o1准确率相当,登顶美国应用榜单 [50][51] 组织创新 - 动态团队构成和自组织管理激发"涌现"式创新 [55][56][57] - 研究员自主提出MLA架构和训练公式,体现扁平化协作 [59][60] - 150人论文署名包含数据标注员,打破传统KPI束缚 [61][62] 行业启示 技术趋势 - AI从专用工具向通用智能演进,"涌现"成为能力突破关键指标 [20][21] - 对话式交互(ChatGPT)和推理能力(o1/R1)定义下一代AI标准 [23][26][45] 创新生态 - 中国公司首次在基础研究领域实现全球领先,打破技术跟随惯性 [75][77] - 资源效率(DeepSeek)与规模投入(OpenAI)并存,拓宽行业可能性 [32][44] 组织变革 - 传统金字塔管理让位于开放协作和资源自由调配的新型研发模式 [55][63][68] - "非标准人才"和纯粹技术热情成为创新核心驱动力 [66][67]
翁荔最新万字长文:Why We Think
量子位· 2025-05-18 13:20
核心观点 - 通过"测试时计算"(Test-time Compute)和"思维链"(Chain-of-Thought,CoT)技术可显著提升模型性能,突破当前能力瓶颈 [1][2] - 让模型在输出答案前多思考一会儿(如智能解码、思维链推理、潜在思考等方法)能提升智能水平 [2] - 该方法与人类思考方式深度关联,借鉴了心理学中的双系统理论(系统1快速直觉 vs 系统2慢速逻辑) [10][11] 心理学类比 - 人类思考分为系统1(快速直觉但易出错)和系统2(慢速逻辑更理性),模型通过延长思考时间可模拟系统2的深度分析 [10][11] - 数学问题等复杂任务需要系统2思考,模型通过CoT实现类似过程 [10] 计算资源优化 - Transformer模型的计算量约为参数量的2倍,稀疏模型(如MoE)计算量=2*参数/稀疏度 [13] - CoT允许模型根据问题难度动态调整计算量,提升效率 [13] - 测试时计算通过自适应修改推理时的输出分布优化性能 [24] 思维链技术发展 - 早期方法包括监督学习生成中间步骤(如数学题推导)和验证器判断答案正确性 [18] - 强化学习在可验证答案的数据集(如STEM题目)上大幅改进CoT推理能力 [19] - DeepSeek-AI的R1技术报告显示简单策略梯度算法即可实现强劲性能 [20] 并行采样与顺序修订 - 并行采样(如N选1、束搜索)通过多候选筛选提升准确性,但受模型单次生成能力限制 [24][25][29] - 顺序修订通过迭代修正错误,但需依赖外部反馈避免性能下降 [24][37][38] - 两者结合可优化不同难度问题的表现 [24] 强化学习与外部工具整合 - 强化学习(如SCoRe框架)通过多轮次优化实现自我修正 [41] - 外部工具(如代码解释器、知识搜索API)可弥补模型计算或知识短板 [45] - 纯RL无需监督微调即可涌现反思与回溯能力 [45] 架构创新与未来挑战 - 循环架构(如Universal Transformer)动态调整计算步数提升效率 [50] - 显式/隐式标记技术(如暂停标记、Quiet-STaR)可增加计算时间 [50] - 未来需解决奖励破解、无监督自我修正、性能迁移至基础模型等挑战 [50]