推理

搜索文档
新国立×上交发布RoboCerebra:长时序机器人操作推理的全新评测基准
自动驾驶之心· 2025-06-29 19:33
核心观点 - 视觉-语言模型(VLM)为机器人带来"看图执行指令"的新范式,但现有系统多为"小脑"模型,缺乏长期规划与记忆管理能力 [7] - 提出RoboCerebra基准,专注于评估大小脑协同能力,包含长时序(平均2,972步)、多扰动、强记忆约束的任务场景 [8] - 配套发布Hierarchical Planning & Execution (HPE)框架,实现大脑VLM与小脑VLA的高效协同 [22] 数据集构建 - 数据生成采用GPT自动生成高层任务并递归拆分子目标,经符号与视觉双重验证后人工标注 [13] - 包含1,000条人工标注轨迹,覆盖100个任务变体,平均每条轨迹由9.1个原子动作构成,总步数达2,972步 [17][18] - 引入六类代表性子任务:Ideal、Memory Exploration、Memory Execution、Random Disturbance、Observation Mismatching、Mix [16] 评测体系 - 设计四维核心指标:任务成功率、计划匹配精度、计划效率、动作完成一致性 [21] - 采用锚点同步机制确保不同方法在子计划切换上的时序一致性 [21] - 在Memory任务中新增探索成功率、探索效率、决策准确率等细分指标 [32] 实验发现 - 层次化框架在Memory Execution场景提升幅度超70%,验证协同机制有效性 [26] - GPT-4o表现最优,平均成功率16.04%,但较人工最优计划仍有9%差距 [28][29] - 当前VLM在探索阶段成功率可达80%,但执行阶段决策准确率仅30%,显示记忆保持能力不足 [31] 技术框架 - HPE框架实现认知层与执行层解耦:VLM-Planner低频处理观测生成子目标,VLA-Controller高频执行动作 [24] - 通过共享Memory Bank实现状态共享与自适应replanning [24] - 支持多模态大模型接入,包括GPT-4o、Qwen2.5-VL、LLaVA-Next-Video等 [24]
首次大规模使用“非英伟达”芯片,OpenAI租用谷歌TPU,降低推理计算成本
华尔街见闻· 2025-06-29 14:11
英伟达芯片主导地位受挑战 - OpenAI首次大规模租用谷歌TPU芯片为ChatGPT等产品提供算力支持 标志着非英伟达芯片进入主流AI应用场景[1] - 合作使OpenAI降低对微软数据中心依赖 同时为谷歌TPU挑战英伟达GPU市场地位创造机会[1] - OpenAI采用TPU主要目的为降低推理计算成本 ChatGPT付费用户从1500万增至2500万 免费用户达数亿/周 算力需求激增[1] 行业多元化芯片布局加速 - 亚马逊 微软 OpenAI Meta等科技巨头已启动自研推理芯片计划 以降低对英伟达依赖和长期成本[1] - 微软自研芯片进展受阻 Maia 100仅内部测试 Braga芯片延迟6个月以上且性能预计远逊于英伟达Blackwell[1] - 谷歌向OpenAI等竞争对手开放TPU租赁 但保留最强算力TPU供自身Gemini模型开发使用[2] OpenAI算力支出与需求激增 - 2023年OpenAI在英伟达服务器芯片支出超40亿美元 训练与推理成本各占一半[2] - 预计2025年AI芯片服务器支出将达140亿美元 ChatGPT图像生成工具爆红加剧推理服务器压力[2] - 除OpenAI外 苹果 Safe Superintelligence Cohere等公司也租用谷歌TPU 部分因员工熟悉TPU运作[2] 谷歌云芯片战略布局 - 谷歌10年前开始研发TPU 2017年起向云客户提供TPU租赁服务[2] - 谷歌云同时出租英伟达服务器芯片 因其仍是行业标准且收益高于TPU[4] - 谷歌已订购超100亿美元英伟达Blackwell芯片 2024年2月开始向客户供货[4] Meta潜在芯片策略调整 - 同为顶级AI芯片客户的Meta正考虑采用谷歌TPU芯片[3]
速递|Meta两周挖走至少7名OpenAI成员,其中4名华人,否认1亿美元签约金,CTO揭开高管薪酬复合结构
Z Potentials· 2025-06-29 13:20
图片来源: Unsplash 最新从 OpenAI 加入 Meta 的赵博士是 OpenAI 多款模型的核心贡献者,包括 o1-mini 和 o3-mini 模 型。后者作为该公司的小型快速推理模型,其性能表现令开发者印象深刻。去年秋季, o1-mini 在数 学能力上甚至超越了 OpenAI 更大的 o1-preview 模型。 根据领英资料显示,赵博士在 2022 年 6 月加入 OpenAI 前,曾是斯坦福大学计算机科学专业的博士 候选人。 根据余嘉辉的领英个人资料显示,他曾领导 OpenAI 的一个感知技术团队,专注于研究人工智能如何 收集和理解周围环境信息。毕书超在领英资料中显示为 OpenAI 多模态后训练负责人。任宏宇同样是 o1-mini 和 o3-mini 项目的核心贡献者。根据赵的公开研究资料显示,他曾在 2018 年与任合作发表过 一篇关于生成式 AI 模型偏见的论文。 过去一周, Meta 从 OpenAI 苏黎世办公室挖走了三名研究人员。这三人专注于多模态 AI 研究,即能 够识别和生成文本、视频及音频的模型。他们于去年底从 Google DeepMind 加入 OpenAI 。研究 ...
豆包1.6 “不偏科” ,高考成绩直逼“清北”
21世纪经济报道· 2025-06-28 22:29
高考成绩表现 - 豆包Seed1 6-Thinking模型在2025年高考测试中取得文科683分、理科648分的优异成绩 采用全国新一卷和山东省自主命题 [1] - 语文、英语、物理、历史、地理、政治六科获最高分 数学超过140分 化学和生物经高清试题重测后理科总分可提升至676分 [2][4] - 赋分后预估总分超690分 超过清华北大在山东的录取线(690分排名全省前80 清北招生超150名) [2] 国际考试竞争力 - 在印度JEE Advanced考试中 豆包与Gemini-2 5-Pro进入全印度前十名(第1名332分 第10名317分) 数学测试5次采样全对 [3] 技术能力突破 - 采用图文交织全模态推理后 化学和生物成绩提升近30分 验证视觉推理潜力 [4] - 提出动态思考能力(AutoCoT) 支持全思考/不思考/自适应思考三种模式 优化推理效率 [4] - 模型融合VLM多模态能力 支持256K长上下文深度推理 已通过火山引擎开放API [6] 行业应用前景 - AI在高考志愿填报中可解决"唯分数论""唯热门论"等误区 清华大学团队已发布相关指南 [5]
北航×新国立×上交发布RoboCerebra:长时序机器人操作推理的全新评测基准
具身智能之心· 2025-06-28 15:48
核心观点 - 视觉-语言模型(VLM)为机器人带来"看图执行指令"的新范式,但现有系统仅依赖"小脑"模型难以胜任家庭级复合操作,需要"大脑"VLM进行长期规划、记忆管理与自我反思 [7] - 现有基准平均任务长度不足500步,缺乏对大小脑协作闭环能力的考察,模型难以应对遮挡、跌落或目标迁移等场景 [8] - 提出RoboCerebra基准,面向长时序、多扰动、强记忆约束的任务,配套发布Hierarchical Planning & Execution (HPE)框架 [8][10] RoboCerebra数据集 - 包含1,000条人工标注轨迹,覆盖100个任务变体,平均每条轨迹由9.1个原子动作构成,总步数达2,972步 [17][18] - 任务平均长度2,972.4步,是现有长时序数据集的6倍,最长超3,500步 [13][18] - 涵盖饮品准备、物品归置、餐具整理等家庭场景,定义12种离散动作类别,10%任务包含五类以上动作 [17][18] - 引入六类子任务:Ideal、Memory Exploration、Memory Execution、Random Disturbance、Observation Mismatching、Mix [16] 数据生成流程 - 采用GPT自动生成高层任务并递归拆分子目标,经符号与视觉双重闭环验证 [13][17] - 符号推理器检查前置与后置条件,GPT-4o检查场景合理性,失败则重新生成 [17] - 人类专家录制400小时标准操作轨迹,独立标注团队进行200小时人工质检 [17] 评测协议 - 设计四维核心指标:任务成功率、计划匹配精度、计划效率、动作完成一致性 [21] - 预设"锚点"同步机制确保不同方法在子计划执行时序对齐 [21][26] - 成功率基于自动化谓词检测,计划匹配精度评估高层符号计划一致性 [21] Hierarchical Planning & Execution框架 - 高层VLM-Planner低频率处理环境观测生成子目标序列,低层VLA-Controller高频率执行动作指令 [22][26] - 通过Memory Bank共享任务状态与中间子目标,实现自适应replanning [22][26] - 在Memory Execution场景中任务成功率提升幅度超过70% [27] 实验结果 - GPT-4o在规划准确率、任务成功率和计划效率上全面领先,平均成功率16.04% [28][29][30] - 在Memory Exploration阶段,GPT-4o探索成功率80%,探索效率0.32,显著优于Qwen2.5-VL [31] - 在Memory Execution阶段,GPT-4o决策准确率30%,优于Qwen2.5-VL的10% [31]
DeepSeek-R2为什么还没发?
猿大侠· 2025-06-27 22:57
DeepSeek-R2延迟发布 - 核心观点:DeepSeek-R2因CEO对模型表现不满及算力资源短缺而多次推迟发布 [1][2][4] - 研发进程缓慢主因包括英伟达H20芯片供应不足 [2] - R1训练消耗3万块H20、1万块H800和1万块H100芯片 [3] R2研发背景与时间线 - 公众对R2的期待始于2023年12月DeepSeek-V3发布及2024年3月V3-0324升级 [5][6] - 4月公司发布推理Scaling Law论文,引发R2即将发布的猜测 [11][12] - 4月底泄露参数显示R2或达1.2T参数、5.2PB训练数据 [17] - 5月发布解决硬件瓶颈的论文及升级版R1-0528,性能接近OpenAI o3-high [20][21][23][24] 技术进展与市场反应 - V3-0324升级实际效果显著,超出官方描述的"小版本升级" [6] - R1-0528在LiveCodeBench编程测试中表现优异,部分指标超越竞品 [24] - 网友推测R2需等待V4发布,因V3可能已达技术极限 [28][29] 算力资源挑战 - R2预计需要比R1更多的算力资源,H20芯片短缺直接影响研发进度 [3][4] - 公司通过论文公开V3训练和推理中解决硬件瓶颈的方法 [21]
腾讯混元首个开源混合推理MoE模型在魔搭社区首发
快讯· 2025-06-27 17:56
腾讯混元开源MoE模型Hunyuan-A13B - 公司于6月27日在魔搭社区首发混合推理MoE模型Hunyuan-A13B [1] - 该模型总参数规模达80B,激活参数仅13B,是业界首个13B级别的开源混合推理MoE模型 [1] - 模型效果比肩同等架构的领先开源模型 [1] - 开发者可通过更低门槛方式获得领先的模型能力 [1]
Meta挖角OpenAI核心研究员 强化AI推理模型布局
快讯· 2025-06-27 00:31
Meta挖角OpenAI核心研究员 - Meta聘请OpenAI研究员Trapit Bansal加入其新成立的AI超级智能部门 从事AI推理模型相关工作 [1] - Bansal的加入可能为Meta的AI超级智能实验室带来重要助力 该实验室已汇聚多位行业领军人物 包括前ScaleAI首席执行官Alexandr Wang 前GitHub首席执行官Nat Friedman以及Safe Superintelligence联合创始人Daniel Gross [1] - Meta目前尚未在其开源模型家族Llama系列中公开推出任何AI推理模型 [1] - 近几个月来 扎克伯格正通过高薪密集招募人才 以组建Meta全新的AI团队 据传为顶级研究员提供的薪酬方案高达1亿美元 [1] - Bansal此次加盟的具体薪资待遇尚未对外披露 [1]
黄仁勋称AI推理需要更多计算量
快讯· 2025-06-26 09:16
人工智能计算需求激增 - 英伟达CEO黄仁勋指出推理需要更多计算资源 [1] - 过去一年tokens生成量激增50到100倍 [1] - 大型人工智能工厂正在全球范围内快速建设 [1] 微软AI处理规模 - 微软上季度处理超过100万亿tokens [1] - 处理量是一年前的5倍 [1]
8B模型可以超过GPT-4o!并行KV Cache压缩支持的128K长度外推方法ParallelComp
机器之心· 2025-06-25 14:50
大模型长文本推理的瓶颈与突破 - 大语言模型(LLMs)在训练阶段能高效处理4K-8K tokens级别的上下文,但在推理阶段遇到128K以上长度的长文本时,受到显存瓶颈和注意力下沉(attention sink)等问题限制 [2] - 主流LLM依赖旋转位置编码(RoPE)等机制,但超长文本外推时容易出现信息遗失,限制实际应用拓展 [2] - 业界处理长文本的高效推理主要面临两个瓶颈:位置编码的长度外推和内存瓶颈 [3] 现有解决方案与局限性 - 位置编码方案包括基于频率区分的NTK插值方法和分块(chunking)方法,但超长上下文(>128K)外推时优劣未知 [4] - 显存瓶颈普遍采用KV cache压缩方案,但自回归场景下注意力易集中在文本首尾(注意力下沉现象),并行注意力机制下的多峰"sink"现象缺乏系统解决 [5][7] ParallelComp创新方案 - 提出训练免调(Training-Free)长文本处理方案ParallelComp,包含并行Attention分块、KV缓存智能淘汰与注意力偏差校准三大技术 [8] - 并行分块注意力将输入长文本按最大处理长度切分为若干块,通过块位置编码重用机制实现128K级别序列长度外推 [12][13] - 双重淘汰机制(分块淘汰和KV缓存淘汰)将全流程推理显存压缩到64G,显著提升Batch inference和多GPU设置下的效率 [14][15] - 注意力偏差校准技术针对并行分块机制下的多峰、区域性异常,分层驱逐极端关注token使Attention分布趋于平滑 [18][19] 实验性能与行业影响 - 在A100-80GB单卡环境中实现8K至128K无缝外推,prefilling阶段加速高达23.5倍 [30] - 仅8B参数、8K上下文训练的小模型在超长文本任务中整体性能达GPT-4o的91.17%,特定任务超过GPT-4o、Claude-2和Kimi-Chat [30] - 该方法无需新训练,通过智能分块和淘汰机制提升处理长度和效率,适用于法律文档、医学文献等复杂产业应用 [32]