慢思考

搜索文档
让机器人学会系统2慢思考,叠衣服倒咖啡等不在话下 | 上海交大&智元机器人
量子位· 2025-06-13 10:25
Hume团队 投稿 量子位 | 公众号 QbitAI 机器人也能慢思考了! 上海交通大学携手智元机器人等团队推出了Hume—— 融合系统2(System-2)慢思考的双系统VLA模型 。通过动作价值 引导的动作采样与双系统级联动作去噪,实现深度推理与实时控制的完美结合。 在涵盖长时序规划、复杂柔性物体操作等多种任务场景的广泛实验中,Hume在多种机器人平台上均展露出了惊艳表现,显 著超越当前的最先进模型。 比如像 折叠短裤 、倒咖啡等操作,Hume加持下机器人也能得心应手。在各种复杂场景中达到了91%的平均成功率。 VLA模型缺失的慢思考能力 视觉-语言-动作(VLA)模型在构建通用机器人策略方面取得了显著进展,OpenVLA、π0、GR00T等最新研究已在不同任 务中展示了较强的适应能力。 然而当前的VLA模型大多依赖于直觉反应模式,即根据当前环境"本能地"预测动作,这使得它们在解决复杂、长时序的决策 任务时表现不佳。 与之相对的是,系统2慢思考已经通过测试时计算大幅提升了大语言模型(LLM)解决复杂逻辑推理问题的能力。但将这种 思考范式应用在需要与物理世界交互的机器人上仍是一个巨大挑战。 首先, 如何让V ...
首个多模态专用慢思考框架!超GPT-o1近7个百分点,强化学习教会VLM「三思而后行」
量子位· 2025-06-06 21:45
多模态推理模型的挑战与突破 - 在文本推理领域,"慢思考"模型(如GPT-o1、DeepSeek-R1)凭借显式反思机制,在数学和科学任务上显著优于"快思考"模型(如GPT-4o)[1] - 但在多模态推理场景中,这些模型表现平平,甚至被Qwen2.5-VL-72B超越,在MathVista、MathVerse等基准上与快思考模型持平[1] 多模态慢思考的两大核心障碍 - **优势消失问题**:在GRPO算法训练多模态模型时,随着训练推进,零优势信号样本比例显著增加,导致有效训练样本锐减[3][10] - **反思惰性问题**:现有视觉语言模型(VLM)受限于视觉模态特性,倾向于"快思考",缺乏主动审视与修正能力[5][6] VL-Rethinker的创新解决方案 - **优势样本回放(SSR)**:动态存储非零优势样本,优先复用绝对优势值较大的关键样本,提升训练效率[19][23] - **强制反思机制**:通过追加"反思触发"文本强制模型二次推理,引导多样化反思行为,已在Pixel Reasoner、SkyR1V2中应用[21][25] 训练数据集与模型性能 - 研究团队精编ViRL39K数据集,包含38,870条高质量多模态推理问题,覆盖八大主题(逻辑推理、图表推理等)[7][8][9] - VL-Rethinker-72B在MathVista上提升5.6%(达80.4%),MathVerse提升6.3%(达63.5%),超越GPT-o1(73.4%、57.0%)[27][29] - 在多学科测试中,MMMU-Pro成绩55.9%,EMMA成绩38.5%,接近OpenAI-o1水平[28]
别让AI替你做判断
虎嗅APP· 2025-06-06 07:46
AI对认知方式的重构 - AI正在改变信息处理流程,从"人先看内容再做判断"转变为"AI先建议再确认方向",重构了决策路径[1] - AI通过智能推荐、一键总结等功能优先筛选信息价值,引导用户关注特定内容[1] - 行业普遍采用"降低认知负担"的AI产品设计逻辑,鼓励减少主动思考[2] 认知外包的依赖效应 - 用户行为显著变化:从自主筛选信息转向依赖AI预处理,注意力分散且思考动力下降[3] - 大脑偏好省力路径,AI提供的"低能耗"认知方式导致自主分析信心下降[4] - 公司系统性推动AI嵌入工作流程(如AI客服、AI做PPT),可能弱化员工批判性思维能力[6] AI对专业能力的潜在影响 - 学术领域出现双向AI依赖:学生用AI分析资料,教师用AI检查论文质量[7] - 创意行业呈现同质化趋势,品牌推广从头脑风暴转向AI生成方案,导致创新想法减少[13] - 经验积累方式改变:从内化沉淀转为外部存储,可能影响直觉判断等核心能力[17][18] 数据与研究的争议性 - 部分AI工具引用虚假研究数据(如大脑活跃度下降30%、海马体缩小8%),缺乏可靠出处[9][11] - 行业需警惕AI输出内容的可信度,避免形成"看似合理"的认知偏差[12] 人机协作的边界探索 - 欧盟提出"AI无权回答为什么",强调人类需保留终极判断权[23] - 未来角色可能从AI使用者演变为"个人AI助理守护者",需保持自主创造力[25][26] - 工具理性时代需平衡效率与慢思考,保留质疑空间以对抗认知惯性[20][24]
别让AI替你说出那句“我觉得”
虎嗅· 2025-06-05 14:41
AI对信息处理方式的重构 - AI正在改变传统的决策流程,从人先看内容再做判断转变为AI先给出建议再确认方向[2] - AI在帮助决定哪些信息应优先被看到、哪些内容更有价值、哪些观点值得深入探讨[3] - 公司正在系统性地将AI嵌入工作流程,如AI客服、AI做PPT等,提升效率的同时可能弱化批判性思维[14] 认知外包的依赖与影响 - AI产品设计鼓励"降低认知负担",如一键总结、自动归类等功能,引导用户放弃主动筛选和判断[4][5] - 用户习惯将内容先交给AI处理,导致注意力散漫和思考动力下降[6][7][8] - 研究显示依赖AI会减少对信息的深入加工,独立推理能力出现困难[11][12] AI对创意与经验的影响 - 创意流程从团队头脑风暴变为依赖AI生成方案,导致结构统一、创意趋同[32][33][34] - 经验从内化积累变为可调用的"压缩胶囊",但AI无法替代需要手感、直觉的真实经验[40][41][42][43] - 设计师和医生等职业的抽象判断(如美学、临床直觉)仍需人类经验积累[44][45] 工具理性与人性坐标的平衡 - 欧盟《人机共生宣言》提出AI无权替人类回答"为什么",强调人类需保留对终极问题的判断权[54] - 未来需在工具理性中寻找人性坐标,平衡AI使用与自主创造力[55][56][58] - 理性将成为人类守住判断权的关键能力[59]
英伟达H20不让用?全国产算力深度推理模型讯飞星火X1升级,4张华为910B即可部署满血版
量子位· 2025-04-21 21:23
核心观点 - 讯飞星火X1推理模型在参数比业界同类模型小一个数量级的情况下,实现效果对标业界最高水平,且算力构成全国产化[1][2] - 模型在通用任务评测中全面对标OpenAI o1和DeepSeek R1,尤其在数学、知识问答等方面表现突出[2] - 私有化部署简便,4张华为910B即可部署满血版,16张可完成行业定制优化[3] - 通过长思维链技术实现复杂问题的多步骤推理,增强AI可解释性[4][5][13] - 在数学推理、法律分析等现实场景中展现强大能力,解答过程详实透明[19][25][31] - 基于国产算力实现三大技术创新:大规模多阶段强化学习、快慢思考混合训练、工程技术系统创新[37][39][42] - 在教育、医疗、司法等专业场景表现领先行业,如数学解答题批改F1达71.5%,全科诊断合理率94.8%[46] - 作为唯一全国产算力训练的通用大模型,与华为联合发布"飞星一号/二号"平台,实现MoE推理性能翻番[50][53][56] 技术突破 - **长思维链技术**:通过生成多步骤推理过程模拟人类复杂任务处理,提升决策透明度[4][5][13] - **大规模多阶段强化学习**:基于问题难度框架和动态更新算法解决传统强化学习偏科问题[37] - **快慢思考混合训练**:结合直觉反应与深度分析数据,实现响应速度与思考深度的自由切换[39][40] - **工程技术创新**:显存动态卸载、训推共卡协同、推理引擎冬眠机制保障国产算力高效训练[42] 性能表现 - **数学能力**:与o1、R1对标,解题步骤更详实(如外星人问题正确率100%)[19][25] - **法律分析**:引用《民法典》《刑法》准确界定骗婚并给出执行建议[31] - **教育场景**:数学解答题批改F1达71.5%,英语主观题评分合格率92.6%[46] - **医疗场景**:全科诊断合理率94.8%,体检报告单解答率85.7%[46] - **司法场景**:案件要素抽取准确率92.5%,法律法规推荐准确率83.1%[46] 产业意义 - **国产算力突破**:唯一全国产算力训练的通用大模型,摆脱海外算力依赖[50] - **生态协同效应**:与华为联合发布"飞星一号/二号"平台,实现MoE推理性能翻番[53][56] - **部署成本降低**:4张卡部署基础版,16张卡完成行业定制,推动AI普惠化[3][47] - **战略价值**:自主可控技术路线保障中国在AGI浪潮中的竞争力[56][57]