Workflow
量子位
icon
搜索文档
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈
量子位· 2025-09-26 10:08
文章核心观点 - 视觉-语言-动作模型是实现机器人在复杂环境中灵活操作的关键因素 [1] - 研究团队提出的SimpleVLA-RL框架解决了VLA模型训练的核心瓶颈,显著提升了性能、数据效率和泛化能力 [3][5] - 该框架在多个标准基准测试中实现了最先进的性能,并在真实世界任务中展现出强大的仿真到现实迁移能力 [5][19][28] 现有训练范式的瓶颈 - 现有主流训练流程依赖大规模预训练加有监督微调,面临数据稀缺性和泛化能力不足两大核心瓶颈 [8] - 高质量机器人操作轨迹数据采集成本高昂、规模受限,从根本上制约了模型的可扩展性 [8] - 有监督微调的学习过程高度依赖特定数据分布,在面对分布外任务、新环境或未见对象时性能显著下降 [9] - 将强化学习直接应用于VLA训练面临过程奖励设计复杂和与物理环境交互成本高的独特挑战 [9] SimpleVLA-RL框架设计 - 框架基于veRL扩展,是专门针对VLA模型特点优化的端到端在线训练方案 [12] - 采用交互式轨迹采样机制,模型直接输出动作token概率分布,在闭环中不断更新视觉观测和机器人状态 [13] - 使用极简的二元结果奖励建模,任务成功记为1失败记为0,奖励均匀分摊到整个轨迹的动作token上 [14] - 引入探索增强策略,包括动态采样、扩大GRPO裁剪区间和提高rollout采样温度,以避免轨迹同质化 [15][17] - 简化训练目标,移除KL散度正则项,不再依赖参考模型,减少内存消耗并鼓励新行为探索 [16] 性能提升与基准测试结果 - 在LIBERO基准测试中,将OpenVLA-OFT的平均成功率从91.0%提升至99.1%,长时序任务LIBERO-Long提升12.0个百分点 [21][22] - 在RoboTwin1.0基准上,四个任务平均成功率从39.8%提升至70.4%,其中"Blocks Stack"任务提升33.1个百分点 [23][24] - 在RoboTwin2.0基准上,覆盖短/中/长/超长时序12个任务,平均成功率从38.3%提升至68.8% [25][26] - 在"单轨迹有监督微调"场景下,OpenVLA-OFT的LIBERO平均成功率从48.9%提升至96.9%,长时序任务从17.3%提升至91.7% [5] 数据效率与泛化能力 - 仅需单个演示轨迹即可显著提升模型性能,大幅降低对大规模演示数据的依赖 [5][19] - 在未见任务测试中,SimpleVLA-RL所有未见任务成功率均提升,其中LIBERO-Object的"Unseen Task 2"提升36.5个百分点 [26] - 与有监督微调在未见任务上出现"灾难性遗忘"相比,强化学习能学习通用技能而非过拟合特定数据 [26] 仿真到现实迁移能力 - 仅使用仿真数据训练,在真实机器人测试中平均成功率从17.5%提升至38.5%,"Stack Bowls"任务提升32个百分点 [28][29] - "Pick Bottle"任务从完全失败实现14%成功率,证明强化学习能增强仿真模型的真实环境适配性 [28][29] 自主探索与新策略涌现 - 训练过程中模型展现出自主探索能力,涌现出新的操作策略,如通过"推动"替代"抓取"的Pushcut现象 [10][29] - 结果奖励不约束具体动作模式,允许模型在满足任务目标前提下自主选择更优行为路径 [30] - 这一现象证明强化学习能让VLA模型超越人类演示局限,为未来自主自适应模型研发提供新范式 [31]
小米17 4499开卖,首发五代骁龙8!雷军:500亿砸自研芯片
量子位· 2025-09-26 07:54
小米17系列产品发布 - 全系包括标准版、Pro和Pro Max三款机型 起售价4499元 [3][11] - 首发搭载全新第五代骁龙8至尊版移动平台 采用第三代3nm工艺 主频4.6GHz [14][15] - 超窄边直屏设计 边框窄至1.18mm 厚度8.06mm 重量191克 [18][19] - 采用四微曲中框与超大R角设计 正反覆盖自研龙晶玻璃 抗摔强度提升10倍 [24][25] - 标准版电池容量7000mAh Pro Max版7500mAh 实测连续使用12.2小时剩余26%电量 [34][35] - Pro/Pro Max新增120Hz刷新率妙享背屏 支持自拍预览、汽车控制等功能 [40][41] - 徕卡调校三摄系统 优化人像算法 新增人景分离与肤色还原技术 [44][46] 显示与材料技术突破 - 采用卢米蓝新型红色发光主材 发光效率提升11.4% 实现国产材料技术超越 [29][31] - 屏幕红得更正 色更通透 亮度与功耗表现提升 [30] 小米平板8系列发布 - 标准版与Pro版两款新品 起售价2199元 [51] - 11.2英寸3.2K高清屏 标准版厚度5.75mm 重量485g 比iPad Air更薄 [53][54][55] - 首发澎湃OS 3系统 支持本地运行浏览器、CAD、WPS等桌面级应用 [58][59] - 标准版搭载骁龙8s Gen 4处理器 Pro版采用骁龙8至尊版 CPU性能提升78% GPU性能提升105% [63] 公司战略转型 - 从互联网玩家向硬核科技公司转型 一次性发布多品类智能硬件全家桶 [4][6][7] - 自研手机SoC计划坚持10年 投入至少500亿元 从高端芯片切入 [68][69] - 玄戒O1芯片为第一步 长期投入直至成功 [70]
马斯克新模型背后算法来自英伟达???
量子位· 2025-09-26 07:54
核心观点 - Grok-4-fast在降本增效方面表现突出,可能采用了英伟达的算法技术Jet-Nemotron,实现高达53倍的推理速度提升和显著成本优化 [1][4][5] - 英伟达提出的PostNAS框架通过混合结构设计和硬件感知搜索,在保持模型准确率的同时大幅提升效率,适用于任何预训练Transformer模型 [10][34][35] - 该技术突破可能对行业产生深远影响,包括降低部署成本、提升吞吐量,并可能被主流AI公司采用 [40][43][47] 算法架构创新 - Jet-Nemotron-2B模型在MMLU和MMLU-Pro基准测试中表现优于Qwen3-1.7B-Base(准确率更高)和DeepSeek-V3-Small(参数量15B),同时实现47-53倍速度提升 [7][9] - PostNAS框架采用四步流程:全注意力层放置、线性注意力模块选择、优化模块设计、硬件感知架构搜索,训练成本降低数个数量级 [10][11][12] - 全注意力层放置实验显示,仅用2层全注意力时PostNAS准确率达49%,显著高于均匀放置策略的40% [13][14] 注意力模块优化 - 评估六种线性注意力模块(RWKV7/RetNet/Mamba2/GLA/DeltaNet/Gated DeltaNet),Gated DeltaNet因数据依赖门控机制和Delta规则获得最高准确率 [17][18][19] - 英伟达进一步开发JetBlock模块,采用动态卷积核生成器,在数学推理(准确率34.9%)和检索任务(准确率70.4%)上优于Gated DeltaNet [21][23][24] - 硬件感知搜索以生成吞吐量为目标,发现KV缓存大小是影响效率的关键因素,优化后参数量1.84B时数学准确率提升至34.8%(原1.7B模型为32.8%) [30][31][33] 行业影响与推测 - Grok-4-fast定价下降幅度(20-50倍)与Jet-Nemotron预测高度吻合,推测其采用类似技术,实现GPU使用时长减少47倍、内存需求降低和吞吐量提升 [38][40][42] - 技术具备普适性,可被OpenAI、Anthropic、Google等公司部署,但xAI未公开证实技术关联性 [43][44][47] - Jet-Nemotron代码和预训练模型将开源,法律审查完成后发布 [36] 研究团队背景 - 论文作者均为华人学者,一作为清华大学博士生顾煜贤,专注LLM效率提升研究;通讯作者为英伟达研究科学家Han Cai(论文引用超10,800次) [47][48][53][56] - 研究成果依托英伟达算法论文,核心突破来自算法创新而非硬件堆叠 [3][4][6]
OpenAI宋飏被Meta挖跑了!扩散模型崛起关键人物,加入MSL再会师清华校友赵晟佳
量子位· 2025-09-25 21:00
核心事件概述 - Meta从OpenAI成功挖角关键研究人员宋飏,其于本月初加入Meta的MSL团队,向首席科学家赵晟佳汇报[1][6] - 此次人才流动在业内引起震动,被描述为Meta从OpenAI挖来的最强大脑之一,许多OpenAI同事对其离开感到惊讶[7] 宋飏的专业背景与成就 - 宋飏是扩散模型崛起及后续一致性模型发展的关键贡献者,其研究聚焦于提升模型处理多模态数据的能力及跨模态智能交互[10][11] - 在OpenAI任职3年零2个月期间,作为战略探索团队负责人,其核心成果一致性模型仅需3.5秒即可生成约64张256×256图像[12] - 后续提出的连续时间一致性模型将图像生成速度提升至扩散模型的50倍,并在15亿参数规模上实现512×512分辨率训练[13][14][15] - 该模型在单张A100 GPU上仅用0.11秒即可生成一个样本,其研究成果被大量引用,被视为可能终结扩散模型的新方向[16][17][18] 早期学术贡献 - 宋飏在斯坦福攻读博士期间的研究(估计数据分布梯度的方法)在CIFAR-10无条件生成任务中取得8.87的Inception分数,超越当时主流GAN模型[31][32] - 这项早期工作后来被认识到与扩散模型有紧密联系,为扩散模型的后续发展奠定了基础[25][34][35] 教育背景与人才流动模式 - 宋飏具有突出的学术背景,16岁以裸分425分考入清华大学数理基础科学班,后于斯坦福大学获得博士学位[36][40][45] - 其与Meta MSL首席科学家赵晟佳存在多重关联,均为清华校友、同师从Stefano Ermon教授且曾共事于OpenAI,形成紧密的技术人才网络[50][51][52] - 行业观察指出,对于在OpenAI工作3年以上的顶尖研究人员,职业决策的驱动因素可能超越纯粹金钱利益,更侧重于研究挑战与愿景[9]
GPT-5通过“哥德尔测试”!独创性解决博士生都得花几天时间的开放数学问题
量子位· 2025-09-25 21:00
文章核心观点 - GPT-5在解决高等数学中未解决的优化猜想方面展现出显著能力,在五道题中成功解出三道[1][2] - GPT-5不仅能够复现已知证明路径,甚至对其中一道题给出了与研究者预期不同但同样有效的证明方案[2][39] - 该测试表明GPT-5具备解决真正开放性数学问题的潜力,其数学推理能力相比早期模型有显著提升[5][26] 测试背景与性质 - 此次测试被称为“哥德尔测试”,挑战的是需要博士水平研究者花费数天才能完成的未解决数学猜想,而非为人类高中生设计的奥林匹克竞赛题[3][8][10] - 测试问题集中于组合数学的子领域——子模最大化,该领域核心是研究边际收益递减的优化问题[12][13][16] - 测试要求模型在仅提供最小化描述和参考文献、无解题提示的情况下,自主生成包含可量化性能保证的严格数学证明[21][24] GPT-5在各题目的具体表现 - **第一题(最大化“单调+非单调”子模函数)**:GPT-5沿最“贪心”方向微调解,利用函数结构保证结果接近最优,证明总体正确[22][23][27] - **第二题(子模函数最大化的双重标准算法)**:GPT-5给出的答案比研究者最初猜想更合理,推导基本正确,但存在忽略特例下更精确数字的小问题[33][39][40] - **第三题(凸集合约束下最大化连续单调函数)**:GPT-5回答正确性较高,但在被要求生成新证明版本时,仍存在细节和可读性问题[45][59][62] - **第四题与第五题**:GPT-5均未成功,这两题需要结合至少两个不同文献的洞见,其综合推理能力是主要局限之一[26][63][73][81] 模型能力评估与局限 - GPT-5在基础数学能力上显示出明显提升,并偶尔展现独创性,但输出可能表面上正确而本质上错误,存在深层次缺陷[26] - 提示词对性能影响显著,当被要求提供完整证明时,GPT-5更倾向于保留中间步骤,生成更完整和自洽的解答[26] - 模型倾向于跳过未变步骤并严格模仿原始结构,而非寻求更自然的替代方法,类似人类的偷懒行为[26][41]
攻克结构化长文档检索难题!新框架让模型告别“结构性失明”
量子位· 2025-09-25 19:42
技术框架创新 - 提出SEAL对比学习框架 通过结构感知学习和元素感知对齐解决AI模型对HTMLMarkdown长文档的结构性失明问题 [1][8] - 该方法将文档宏观层级结构和微观元素语义同时融入统一Embedding空间 显著增强预训练语言模型对结构化数据的理解能力 [3] - 结构感知学习通过对比保留标签与去除标签的文档版本 使模型学习文档内在骨架和逻辑功能区分 [11][12][13] - 元素感知对齐采用基于元素的Mask机制 迫使模型通过上下文推断文档相关性 深化对文本片段语义角色的理解 [14][15] 性能表现 - 在BGE-M3模型上实现MRR@10指标从73.96%提升至77.84% 绝对提升3.88个百分点 [4][17][19] - SEAL框架在BGE-M3模型上实现HitRate@1达66.26% HitRate@5达93.77% NDCG@10达82.59% 全面超越基线模型 [4][19] - 在bge-large-zh模型上应用SEAL后 MRR@10从72.21%提升至76.57% HitRate@1从59.08%提升至64.30% [4][19] - 线上AB测试验证了该方法在实际应用场景中的有效性 [4][19] 数据集贡献 - 开源万词级别长文档数据集StructDocRetrieval 文档词数远超MS MARCO数据集(后者大多文档不足700字) [5][20][21][22] - 数据集采用HTML格式包含丰富结构语义标注 填补了长文档结构标注数据领域的空白 [21][23][24] - 该数据集为社区评估和开发长文档检索模型提供了新的Benchmark标准 [25] 应用前景 - 技术可应用于RAG等下游任务 为AI助手精准定位技术文档答案提供可靠信息来源 [25] - 在企业知识管理和法律科技等专业领域展现出广阔应用前景 [25]
你的AI助手更万能了!天禧合作字节扣子,解锁无限新功能
量子位· 2025-09-25 19:42
天禧超级智能体与字节跳动扣子平台生态合作 - 天禧超级智能体是联想集团推出的新一代AI助手平台 作为智能终端设备的"AI大脑" 集成语音、文本、视觉交互能力 提供AI操控、AI搜索、AI翻译、AI笔记和AI服务五大功能 [1] - 合作旨在解决AI开发者"开发易 分发难"痛点 通过扣子平台可视化界面开发应用 并利用天禧平台流量入口实现一键部署和触达 [3] - 开发者只需在扣子平台选择"联想开放平台"渠道 智能体审核通过后即可上架天禧AI Space 形成从开发到商用的完整商业链路 [3] 用户体验升级与功能整合 - 天禧通过聚合扣子平台多元AI能力 实现"一个入口 万物可及"的体验效果 用户无需切换多个专项应用 [6] - 典型应用场景包括旅行规划助手自动安排机票酒店路线 以及AI外语陪练与天禧自带翻译功能的协同使用 [8] - 天禧3.1升级通过优化交互流程与生态整合 使AI功能从分散走向集中 大幅降低用户使用门槛 [8] 生态战略与行业影响 - 合作标志联想AI发展进入平台化、生态化整合阶段 强化AI生态赋能核心属性 [1] - 联想展现构建开放包容AI生态的决心 未来将吸引更多重量级合作伙伴与中小开发者加入生态 [9] - 天禧作为"硅基大脑"将持续串联设备、数据与场景 实现无缝AI功能融入生活 [9]
机器狗腿被锯了也能继续走!最新机器人大脑来自320亿估值独角兽
量子位· 2025-09-25 19:42
核心技术:Skild Brain - 开发出一种名为Skild Brain的通用机器人控制大脑,其核心能力是即使机器人面临肢体断裂、马达卡住等未知故障,也能使其动起来[1][9] - 该大脑在一个包含十万种机器人姿态的虚拟环境中训练了相当于一千年的时间才得以成型[4] - 模型的控制能力是涌现出来的,从未在目标机器人上进行过训练,具备强大的泛化能力[5] 技术原理与创新 - 与传统针对特定机器人训练的控制器不同,该技术旨在找到适用于所有机器人的通用策略,而非记住固定解决方案[8][12] - 大脑具备非凡的记忆力,其上下文窗口比大多数机器人控制策略的内存长了100多倍,使其能从失败中进行快速上下文学习[17] - 在模拟测试中,大脑能在数秒内适应肢体缩短、关节故障等突发状况,并成功实现行走,而专用控制器则彻底失败[18][19][20] 应用场景与性能 - 能够处理踩高跷、适应外力、负载重物等复杂情况,并能完成放置碗碟等精细动作[3][4] - 面对轮式四足机器人车轮锁定的故障,大脑能自动切换到类似双足机器人的行走步态,并在故障解除后切换回更高效的滚动模式[21] - 在将四足机器人置于直立位置的测试中,大脑能将其当作人形机器人控制,并快速判断身体类型以稳定姿态[14][15] 公司背景与融资 - Skild AI创立于2023年,总部位于宾夕法尼亚州匹兹堡,拥有约6名员工[25] - 公司由Deepak Pathak和Abhinav Gupta两位创始人领导,二人在机器人、计算机视觉等领域学术背景深厚,引用指数(h-index)分别为52和117[26][27][28] - 自成立以来,公司共完成种子轮、A轮和B轮融资,筹集总额达4.14亿美元,其中2024年7月A轮融资3亿美元,2025年6月B轮融资1亿美元,目前估值已达45亿美元[29] 行业愿景与定位 - Skild AI旨在开发适用于不同硬件和任务的自适应AI大脑,认为未来可靠的AGI必须依靠适应世界的能力,而非仅仅依靠记忆[24] - 公司确立了在人工智能机器人创新领域的领先地位,投资者包括软银、光速创投、英伟达、三星、红杉资本、亚马逊等顶级机构[29]
中国团队重新定义“星际之门”!全球首个太空计算星座已实现常态化商用
量子位· 2025-09-25 19:42
核心观点 - 交通行业算法首次实现在轨卫星全流程运行 标志着太空AI算力进入常态化商业运营阶段 代表全球首个太空计算星座正式投入商业使用[4][6][15] 技术实现 - 道路识别模型完全部署于轨道卫星 实现图像采集、模型推理到结果回传全流程在轨完成[1][10][11] - 图像数据未传回地面 仅回传结构化识别结果 大幅降低数据传输需求[2][10] - 系统支持亿级参数模型稳定运行 具备完整任务调度和通信回传能力[13] 基础设施 - 国星宇航"星算"计划首批卫星于2025年5月发射 提供太空算力支持[5][12] - 计划建设2800颗计算卫星组成的天基算力基础设施 系统总算力超10万P[12] - 通过星间激光通信与协同调度技术实现卫星在轨联网[12] 商业应用 - 佳都科技旗下团队成为全球太空计算星座首个商业用户[9][15] - 系统实现服务调度与链路闭环 打通商业场景应用路径[15] - 太空计算节点从技术可行阶段进入实际可用阶段[16] 行业意义 - 将响应时间压缩至最短路径 实现数据获取与处理同步进行[21] - 太空不再仅是数据来源地 而是成为算法的运行场和智能反馈系统[19][23] - 为AI模型提供新的运行维度和数据来源 重塑数据采集到决策反馈路径[22] - 中国企业在轨道AI网络系统建设方面提供新的全球范式[23]
京东AI一揽子开源!超多核心项目全开源,GitHub万star项目也有新进展了
量子位· 2025-09-25 19:42
核心观点 - 京东云开源企业级智能体平台JoyAgent 3.0及多智能体框架OxyGent 构成Agent"双子星" 在GAIA等权威评测中跻身全球第一梯队 [1][46][50] - 公司系统性开源包括医疗大模型、推理框架、安全模块等全栈AI能力 覆盖从底层基础设施到上层应用 旨在解决产业落地痛点 [5][51][52] - 通过彻底开源策略 将内部复杂场景验证的技术转化为行业基础设施 降低开发者门槛并推动生态协同 [72][73][75] 智能体平台JoyAgent - JoyAgent 3.0为行业首个100%开源企业级智能体 完整开放前后端、框架及核心子智能体 支持本地部署开箱即用 [7][10] - 新增开源DataAgent和DCP数据治理模块 集成DGP协议及智能问数、诊断分析能力 支持自然语言查询数据库及复杂问题分析 [11][13][18] - 在GAIA评测中验证集准确率77% 测试集准确率超67% 较前期稳步提升 位列全球第一梯队 [1][42] - 支持MCP、A2A等主流协议 允许第三方智能体无缝集成 并提供NL2Workflow等开箱即用工具集 [37][39][40] 多智能体框架OxyGent - 框架采用纯Python开发 将工具、模型、智能体抽象为Oxy原子组件 支持积木式组装且无需复杂配置 [46][47] - 在GAIA评测中获得59.14分 紧追开源标杆OWL(60.8分) 其中Level 1得分达77.42% [49][50] - 提供推理可视化能力 支持生命周期统一管理及未来AI应用扩展 [47][48] 医疗大模型京医千询2.0 - 为行业首个突破可信推理与全模态能力的开源医疗大模型 支持文本、影像、检验报告等多模态数据深度融合解析 [53][55][58] - 通过模拟临床诊疗路径 引入循证医学证据确保推理符合医学共识 并建立人类偏好学习闭环提升准确性 [54][57] - 在涵盖医学影像分割、报告生成等21项评测中综合表现领先 已应用于医院、健康管理机构等多类场景 [60][63] 底层基础设施与安全 - 开源专为国产芯片优化的xLLM推理框架 采用服务-引擎分离架构 实现京东零售业务5倍效率提升及90%成本优化 [64][66] - JoySafety安全模块提供全链路防护 支持流式输出检测与毫秒级风险拦截 内部验证恶意攻击降低95%以上 [68][69] - 同步开源向量数据库Vearch、跨端框架Taro等 形成完整技术栈 [71] 开发者生态与行业影响 - JoyAgent在GitHub获10.1k星标 OxyGent获977星标 显示开源社区高度关注 [3][4][47] - 通过开放内部超3万智能体实践验证的技术 使开发者可零成本基于成熟代码创新 降低企业试错门槛 [44][73][76] - 推动DGP数据治理协议等技术标准形成 促进生态协同与产业落地 [15][75][77]