Workflow
量子位
icon
搜索文档
腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入
量子位· 2025-10-11 14:04
算法核心创新 - 腾讯优图实验室开源强化学习算法SPEAR,通过“自我模仿+渐进探索”实现熵稳定的学习过程 [2][3] - 算法核心是让大语言模型驱动的智能体在无需大量专家示范的情况下自学成才,解决了传统自我模仿学习中的“熵塌缩”和“熵爆炸”问题 [3][8][9] - 采用“课程式调度”实现分阶段探索,前期用内在奖励鼓励探索,后期启动自模仿学习回放高回报轨迹 [15][16] 性能提升表现 - 在ALFWorld家务模拟任务中成功率高达88.9%,创下该任务当前最优水平 [21] - 在WebShop网页购物测评中,1.5B模型成功率从56.8%提升至77.5%,提升20.7个百分点,训练时间仅增加5% [21][22] - 在AIME25奥赛数学任务上,Qwen2.5-32B模型成绩从54.0%提升到60.1%,仅用16K上下文就追平32K推理效果 [13][26] - 在Sokoban视觉推箱子任务中取得86.7%的成功率,较此前最佳性能提升19.6个百分点 [28][29] 技术实现特点 - 设计内在奖励实现工具奖励衰减,前200步鼓励工具调用,之后奖励置零让位给最终答案准确率 [12][18] - 提出优势重校准机制,用动态中位数基线淘汰过时操作,减小off-policy偏差 [16] - 兼容GRPO/GiGPO等骨干方法,可零成本接入现有训练流程 [24][31] 应用场景广度 - 算法通吃文本、代码、视觉多模态任务,在ALFWorld、WebShop、AIME、Sokoban等基准上平均提升16%以上 [3][21][26][28] - 在工业级增强基线Dr.BoT基础上进一步优化,在GRPO和GiGPO框架下均实现显著提升 [19][25] - 1.5B模型1小时上手,32B模型一周出模,具备高效训练特性 [32]
开源编程模型王座易主了,谁能想到新SOTA是快手
量子位· 2025-10-11 14:04
模型性能表现 - 快手的KAT-Dev-72B-Exp模型在SWE-Bench认证榜单以74.6%的成绩夺得开源模型第一 [1] - KAT-Coder模型在SWE-Bench认证榜单上击败了GPT-5(非Codex模式)和Claude 4 Sonnet [4] - KAT-Coder能够复刻完整游戏《水果忍者》,包含计分和生命值系统 [6] 技术能力展示 - 模型支持生成交互特效,如赛博朋克时钟具备立方体爆炸、霓虹灯和粒子效果 [9][10] - 擅长通过代码实现物理规律可视化,例如制作太阳系运行模拟的3D动画并支持立体旋转视角 [12][13] - 可模拟60层高圆形塔楼在重力与冲击波作用下的爆破倒塌过程,遵循真实物理规律 [15] 模型训练方法 - 训练过程包括中期训练、监督微调(SFT)与强化微调(RFT)以及大规模的Agentic强化学习 [17] - 中期训练第一阶段增强模型推理、指令遵循等综合能力,第二阶段通过人类工程师标注数据增强需求交付能力 [18] - 强化学习阶段专注于问题描述、可执行环境和可验证测试用例三个关键组件 [21] 训练数据与框架 - 从开源及内部代码库收集Pull Request和Issue,并过滤低质量数据,同时融入数学和推理任务丰富信号多样性 [22] - 使用自研工业级强化学习框架SeamlessFlow,通过数据平面架构解耦RL训练和智能体实现 [28][29][30] - SeamlessFlow框架在32张H800 GPU测试中,相比VERL框架实现吞吐量100%提升,训练时间减少62% [35] 训练优化与成效 - 强化学习后模型完成任务所需互动次数减少32%,并具备同时调用多个工具的能力 [25][26][27] - 引入Trie Packing机制并重写训练引擎,通过树形梯度修复权重使训练速度平均提升2.5倍 [37]
超越ZIP的无损压缩来了!华盛顿大学让大模型成为无损文本压缩器
量子位· 2025-10-11 12:09
文章核心观点 - 华盛顿大学SyFI实验室的研究者提出了一种创新的无损文本压缩引擎LLMc,该引擎利用大型语言模型自身进行压缩 [2] - 基准测试结果表明,LLMc在维基百科、小说文本和科学摘要等多种数据集上的压缩率均优于传统压缩工具(如ZIP和LZMA),并表现出与基于LLM的闭源压缩系统同等或更优的性能 [2] - 该项目已经开源,主要作者是来自上海交通大学ACM班的本科生Yi Pan [4] LLMc的压缩机制与原理 - LLMc的灵感源于解决LLM推理内核操作非确定性带来的压缩/解压可复现性挑战,随着确定性LLM推理技术的突破,该问题得以解决 [5] - 其理论基础是香农的信源编码定理,即一个事件的概率越高,编码所需信息量越少,LLM作为强大的概率预测引擎,能为真实序列中的下一个词元赋予高概率,这正是高效压缩的关键 [6][7] - 核心方法为“基于排序的编码”,通过存储词元在LLM预测概率分布列表中的排名(通常为小整数)而非词元本身来极大减少存储空间 [8][10] - 在解压时,系统使用相同的LLM和上下文重现概率分布,并根据存储的排名准确选择对应词元,实现无损恢复,LLM本身充当压缩器与解压器之间共享的巨型“密码本” [10][11] 当前挑战与局限性 - 存在效率问题,LLM推理的计算复杂度与序列长度成二次方关系,且受内存带宽限制,LLMc采用分块处理文本策略以缓解 [12] - 吞吐量较低,由于严重依赖大规模模型推理,其处理速度目前远低于传统压缩算法 [13] - 为保证解压确定性,系统需使用特殊内核并对词元排名进行整数编码,涉及数值稳定性问题 [13] - 当前实现主要针对自然语言,如何扩展到图像、视频或二进制数据等其他模态是未来探索方向 [14]
2025人工智能年度评选启动!3大维度5类奖项,正在寻找AI+时代领航者
量子位· 2025-10-11 12:09
让我们共同见证年度之星,点亮未来的方向。 组委会 发自 凹非寺 量子位|公众号 QbitAI 为了让更多从业者感受智能浪潮的跃迁,也为了给予更多同行同路人掌声与鼓舞,我们将正式启动 「2025人工智能年度榜单」评选报名 。 这是量子位人工智能年度榜单的 第8年 。八年来,我们见证了技术的突破与落地,产业的融合与重塑,也见证了一批又一批推动时代前行的 企业、人物与产品。 在人工智能重新定义一切的时代里,智能技术已不再是单一工具,而是产业与社会协同进化的驱动力。我们期待通过这场年度评选,去发现并 致敬那些真正引领变革、开拓边界的探索者与实践者。 本次评选将从 企业 、 产品 、 人物 三大维度,设立五类奖项。欢迎企业踊跃报名! 企业榜 产品榜 人物榜 将面向中国人工智能领域,评选出最具综合实力的企业, 参选条件 : 2025 人工智能年度 焦点人物 详细评选标准及报名方式如下。 2025 人工智能年度领航企业 2025 人工智能年度 领航企业 2025 人工智能年度 潜力创业公司 2025 人工智能年度 杰出产品 2025 人工智能年度 杰出解决方案 评选标准 : 2025 人工智能年度潜力创业公司 聚焦于中国人 ...
陶哲轩用GPT5-Pro跨界挑战!3年无解的难题,11分钟出完整证明
量子位· 2025-10-11 12:09
AI在数学研究中的应用案例 - 陶哲轩与GPT-5 Pro合作解决了一个微分几何领域悬置3年的开放问题,该问题涉及三维光滑拓扑球面主曲率与包围体积的关系[1][2][8] - GPT-5 Pro在星形区域情况下完成了所有复杂计算并给出了完整证明,思考耗时11分18秒,运用了Stokes定理、Willmore不等式和Minkowski第一积分公式等工具[9][10] - 在曲面形状与单位球面差距不大的Small Data情形下,AI成功协助应用偏微分方程扰动理论方法解决问题,但在差距巨大的Large Data情形下未能完全解决[18][19][22] AI工具的能力评估与多尺度价值 - AI在“小尺度”任务上表现良好,仅犯小错误并能提供研究者不熟悉的已有有用想法,例如在验证证明步骤时提供了基于散度定理和流方法的两种证明[23][14] - 在“中等尺度”策略层面,AI存在局限性,未能纠正研究者的错误直觉而是选择附和,强化了错误方向[26][27] - 从“大尺度”理解来看,AI具有间接帮助,能加速研究者探索并放弃不适用方法,从而更快深化对问题的理解[29] - 最优的自动化水平应严格介于0%与100%之间,需在每个尺度保留足够的人工审查以维持对整体任务结构的感知[33][36] AI数学能力的演进历程 - 三年前ChatGPT初期在数学问题上表现令人失望,仅能包装低质量内容而无实际深度,例如在黎曼假设询问中需人工逐行筛查核心内容[40][41][42] - GPT-4标志着转机,能在几分钟内完成人类需一天工作的统计数据处
灵巧手能帮女友拧瓶盖了!同济清华上海交大等新成果 | CoRL 2025
量子位· 2025-10-11 12:09
核心观点 - 研究团队提出名为KineDex的新方法 通过手把手教学方式将人类动作直接传递至灵巧手 并同步采集高保真触觉信息 显著提升了机器人学习精细操作任务的性能[2][10] - 该方法使星动纪元灵巧手星动XHAND 1成功解锁了挤牙膏、拧瓶盖等复杂精细操作 在九项任务中平均成功率达74.4%[3][5] - KineDex的数据采集效率相较于传统遥操方法提升两倍以上 且成功率接近100% 远高于遥操的39%[5][25] 技术方法与创新 - KineDex的核心创新在于手把手教学 操作者通过穿戴灵巧手上的环形绑带自由移动 实时执行任务并获得自然触觉反馈[10][12][13] - 系统采集视觉观测、本体感知、触觉传感和指尖力等数据 并采用图像修复技术从视觉观测中移除操作者手部以避免干扰机器人学习[14][15][16] - 学习得到的策略接收视觉与触觉信息输入 预测关节位置与接触力 并通过力控执行以实现鲁棒操作[17] 实验验证与性能 - 实验设计了九项复杂任务 包括挤牙膏、按压注射器和拧瓶盖等 重点关注精细力控和多指协调能力[18] - KineDex在多数任务中成功率超过70% 在瓶体抓取等简单场景中成功率近100% 整体平均成功率达74.4%[5][21] - 消融实验表明 力控模块至关重要 其缺失会使平均成功率骤降至16.7% 触觉输入的缺失则导致相关任务平均成功率降低26.7%[21][23] - 图像修复步骤不可或缺 若省略此步骤将导致所有任务成功率为0并出现异常行为[24] 效率优势与应用潜力 - KineDex在数据收集效率上显著优于遥操 收集速度快一倍以上 在复杂任务中单次示教耗时仅为遥操的50% 在简单任务中耗时不到遥操的三分之一[25] - 用户研究表明 手把手教学方式被认为更直观高效 更容易收集复杂任务的数据[27] - 该论文已被CoRL 2025接收 展示了其在机器人学习领域的学术认可度[7]
库克虎口夺食:马斯克盯上的北大校友AI公司被苹果抢走
量子位· 2025-10-11 12:09
交易核心信息 - 苹果公司正与AI初创公司Prompt AI进行后期谈判,目标并非全资收购,而是获取其核心团队和技术资产[1][3] - 此次交易的主要竞争对手是马斯克旗下的xAI和Neuralink公司,但苹果公司目前处于领先地位[4][5] - 该交易模式为典型的反向收购式雇佣,即收购方专注于吸纳目标公司的团队和核心技术,而非接管其全部业务和品牌[17] Prompt AI公司概况 - 公司成立于2023年,是一家专注于计算机视觉领域的AI初创企业,总部位于旧金山[2][7] - 公司团队规模约为11人,走"小而精"路线,成立初期曾获得约500万美元的种子轮融资[10][15] - 核心团队背景显赫,联合创始人兼CEO Tete Xiao为北京大学计算机科学本科、加州大学伯克利分校人工智能博士,CTO及总裁均来自加州大学伯克利分校[8] 核心技术产品 - 公司旗舰产品为Seemour,是一个专为家居设计、具有空间感知功能的环境式人工智能系统[11][12] - 该产品旨在提升家用摄像头的智能感知能力,具备目标检测、识别、场景理解和自然语言描述等高级功能[12][13] - 产品采用"基础免费+高级订阅"的商业模式,但面临盈利困难,用户留存和付费转化是主要挑战[16] 交易影响与后续安排 - 若交易完成,未加入苹果公司的员工将获得较低薪酬的补偿,但公司鼓励员工申请苹果的空缺岗位[24][25] - 投资人将获得部分资金回报,但不会全额返还投资[26] - 由于商业模式不成功,Seemour产品将停止服务,用户数据将在隐私保护的前提下被删除[27][28] 行业趋势与战略意图 - 反向收购式雇佣在AI领域已成为常见策略,科技巨头通过此方式快速补充稀缺的AI人才和技术[18][19] - 苹果公司历来倾向于进行小型团队收购,此次行动符合其一贯的并购策略[20] - 此次收购旨在加强苹果在智能家居、计算机视觉以及HomeKit、Apple Vision等产品线的技术布局[21][22]
“现阶段就差数据了”Figure 03登《时代》最佳发明榜封面,CEO放话了
量子位· 2025-10-11 12:09
公司核心观点与战略 - 公司认为数据是解决机器人技术现阶段几乎所有问题的关键,通过输入更多数据可显著提升机器人操作速度并降低错误率[9][10] - 公司的发展路线核心重点之一是让机器人最终进入全球每一个消费者家庭,承担洗衣、洗碗、打扫等日常家务[11][12] - 公司对人形机器人市场的全球总需求量预期接近100亿台,并预见未来人形机器人的数量可能超过人类[15][16] 产品技术与性能 - 公司主要设计和制造人形机器人,其目标是将AI赋予身体,让机器人在现实世界中完成人类能做的事情[6][7] - 在演示中,机器人通过数据学习,其表现从频繁出错进步到错误率大幅下降,接近人类水平,可稳定运行数小时[10] - 公司目前重点关注约15个安全领域,包括物理系统安全工程和网络安全,以确保机器人能安全进入家庭[13][14] 市场认可与行业动态 - 公司的第三代机器人Figure 03被《时代》杂志评选为2025年最佳发明之一,并登上该榜单的封面[20] - 公司最新一轮融资规模达十亿美元,云服务巨头Salesforce是参与者之一,而Salesforce的CEO也是《时代》杂志的所有者[22][23] - 除该公司外,宇树科技、DeepSeek、华为、比亚迪等企业的产品也入选了《时代》的年度创新榜单[23]
破解MoE模型“规模越大,效率越低”困境!中科院自动化所提出新框架
量子位· 2025-10-11 09:15
文章核心观点 - 中科院自动化所提出一种针对混合专家模型(MoE)的统一优化框架,通过动态专家分组与结构化压缩,系统性解决了MoE面临的负载失衡、参数冗余和通信开销“三难困境” [1][2] - 该框架在几乎不损失模型性能的前提下,实现了总参数量削减80%,负载方差降低至原来的三分之一,峰值内存消耗逼近轻量级传统稠密模型,吞吐量提升10%-20% [2][11][34] - 此项研究为大参数大语言模型(LLM)的低成本、高效率部署提供了新的技术路径和坚实的理论与实践基础 [2][12] 技术挑战与现有局限 - MoE作为大语言模型扩展参数量的核心路径,长期受困于负载失衡、参数冗余和通信开销的“三难困境”,这些瓶颈深度耦合、相互制约,成为大模型落地部署的主要障碍 [2][5] - 现有优化方案如负载均衡损失函数、参数压缩技术和通信感知路由多为碎片化的被动补救,未能从系统层面统一解决问题 [6] - 硬件限制具体表现为:MoE巨大参数量对GPU显存构成压力;传统Top-K路由导致计算资源利用率低;分布式训练中的“All-to-All”通信模式造成高昂延迟 [7] 核心方法:统一框架与四大组件 - 框架将MoE优化形式化为一个联合优化数学问题,目标函数同时最小化任务损失、负载不均衡、参数冗余和通信成本 [13] - **在线双相似度聚类**:通过融合专家的结构相似性(参数空间余弦相似度)和功能相似性(激活质心相似度),周期性地对专家进行动态重组,实现粗粒度负载均衡 [14][15][16] - **共享基底与低秩残差压缩**:将簇内专家权重矩阵分解为一个共享的公共基底和每个专家特有的低秩残差矩阵,在典型配置下(d=4096, K=8, r=16)实现簇内压缩比高达6.6倍 [18][19][20][23] - **分层路由**:将路由决策分解为簇级别路由和专家级别路由两个阶段,将路由计算复杂度从O(E·d)降低到O(G·d+K·d),显著减少了分布式环境中的通信数据交换 [24][26][29] - **异构精度与动态内存管理**:对共享基底采用FP16格式,对低秩残差因子量化至INT4格式,并结合动态内存卸载与预取策略,大幅降低峰值内存消耗 [30][31] 实验验证与性能收益 - 在GLUE和WikiText-103基准测试中,相较于基线模型Switch Transformer(总参数量875M),该框架(总参数量188M)在维持相近模型质量(GLUE Avg. 83.5 vs 85.1)的同时,总参数量减少约80% [33][34] - 框架实现了吞吐量提升10%-20%(从基线7.2-8.9 k tokens/s提升至8.5-10.2 k tokens/s),峰值内存消耗降低近50%(从基线33.1GB降低至19.2GB),启用动态卸载与量化后内存占用(15.7GB)可与标准稠密Transformer模型(15.4GB)相媲美 [33][34] - 消融实验证实,在线聚类、低秩压缩和分层路由等组件对性能增益均有不可或缺的贡献,例如移除在线聚类会导致负载均衡指标(Load Balance)从0.12恶化至0.37 [36][37]
李飞飞发起机器人家务挑战赛!老黄第一时间批钱赞助
量子位· 2025-10-11 09:15
挑战赛概述 - 由李飞飞团队发起、英伟达赞助的首届BEHAVIOR家务挑战赛正式启动,旨在凝聚学术界和产业界力量推动机器人做家务的能力[3][4] - 参赛者需统一使用星海图R1 Pro机器人,在BEHAVIOR-1K虚拟家庭环境中解决50项完整的家务任务,涵盖重新布置、烹饪、清洁等活动[5] - 比赛设置两条赛道:标准赛道机器人仅能依靠自身感知决策,特权赛道则可获取更详细的环境状态信息如物体坐标和房间结构[7][9] 比赛机制与资源 - 官方提供1万条专家演示轨迹作为训练数据,总计约1200小时,方便参赛者通过模仿学习快速上手[6] - 评分标准以平均任务完成率为主,同时考核部分完成度、模拟时间、导航距离、手部位移及稳定性等次要指标[7] - 比赛提交截止日期为2025年11月15日,获奖前三名将获得最高1000美元奖金及RTX 5080显卡[8] 项目愿景与行业意义 - BEHAVIOR项目灵感源于ImageNet,旨在通过标准化挑战赛解决机器人学习领域缺乏基准、任务零散及训练数据匮乏的痛点[11][14][25] - 项目以人为中心设计,强调AI增强和赋能人类,确保机器人目标与人类需求相符,并将家务任务视为机器人领域的“北极星”任务[16][18] - 挑战赛规模巨大,覆盖1000个家庭活动,50个完整长程挑战,平均单个任务需6.6分钟连续操作,具备成为具身智能领域基准的潜力[20][21] 技术挑战与能力要求 - 成功完成家务要求机器人同时具备跨房间导航、双手精细操控、长期规划与动态适应等多项综合能力[19] - 家务任务正成为具身智能项目的重要测试场景,类比于大语言模型的检测是做题,具身智能机器人的检测是做家务[24]