Workflow
量子位
icon
搜索文档
vivo发布端侧多模态模型,只有3B可理解GUI界面,20项评测表现亮眼
量子位· 2025-07-09 17:06
vivo AI Lab 投稿 量子位 | 公众号 QbitAI vivo AI Lab发布AI多模态新模型了,专门面向 端侧 设计,紧凑高效~ 能够 直接理解GUI页面 的那种: 兼具 多模态推理和文本 的推 理能力 ,思考范围扩展: 模型 BlueLM-2.5-3B ,融合文本和图文的理解和推理能力,支持长短思考模式自由切换,并引入思考预算控制机制。 与同尺寸模型相比,BlueLM-2.5-3B在多个文本与多模态评测任务中表现出色。 BlueLM-2.5-3B 支持思考预算控制 (thinking token budget) ,有效平衡思考深度和推理成本: 另外值得一提的是,作者对模型结构与训练策略进行了深度优化,显著降低了训练和推理成本。通过优质数据筛选、自动配比策略以及大规模 推理合成数据,模型的数据利用效率大幅提升。 同时,模型训练全过程由自建的高性能训练平台与框架高效支撑,确保了训练效率和训练稳定性。 以下是更多细节。 在20余项评测任务中表现出色 BlueLM-2.5-3B在20余项评测任务中展现出如下核心优势: 1、文本任务 表现出色,缓解 能力遗忘难题 BlueLM-2.5-3B在thinki ...
DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌
量子位· 2025-07-09 12:57
核心观点 - 上海交大联合深势科技团队在"人类最后的考试"(HLE)上取得32.1分,创下新纪录[2] - 该团队推出工具增强推理智能体X-Master和多智能体工作流系统X-Masters[3] - 研究成果已开源[4] - 使用DeepSeek-R1-0528作为驱动智能体的推理模型[6] - 这是首个在HLE上得分超过30%的系统[26] 技术方案 - X-Master是一个由开源模型驱动的工具增强型推理智能体,模拟人类研究者的动态问题解决过程[9] - 将代码概念化为一种交互语言,在遇到无法解决的问题时编写代码块执行[11] - 引入初始推理引导机制,通过精心设计的自我陈述引导模型[17] - X-Masters采用分散-堆叠式智能体工作流,通过多智能体协作增强推理[20] - 分散阶段:多个求解器智能体并行工作,批评者智能体修正方案[22] - 堆叠阶段:重写器智能体综合方案,选择器智能体裁定最佳答案[22] 性能表现 - 在HLE测试中取得32.1%的最高分[26] - 消融研究显示:工具增强推理提高3.4%,迭代优化增加9.5%,最终选择实现32.1%[29] - 在生物学/医学类别中表现优于现有系统,达到27.6%正确率[31] - 在TRQA-lit生物学测试中取得67.4%的SOTA成绩[32] HLE测试背景 - 由AI安全中心和Scale AI发起,被称为史上最难大模型测试集[34] - 题目来自500多家机构的1000多名学者,需通过大模型和人工双重审查[38] - 最终入围3000多道题目,涵盖数理化、生物医药等八大类[39] - 数学占比42%,物理和生物医药各占11%[39]
Mamba一作预告新架构!长文论述Transformer≠最终解法
量子位· 2025-07-09 12:57
序列模型架构比较 - Mamba作为状态空间模型(SSMs)代表,在语言任务上3B规模超越同等Transformer,匹敌两倍规模Transformer [2] - SSMs工作方式类似人类大脑,通过压缩历史信息形成固定大小隐藏状态,适合处理长序列且计算成本呈线性增长 [15][16] - Transformer通过KV缓存完整记录所有token信息,具备精确记忆能力但计算成本呈二次复杂度 [23][25] 模型性能优势 - SSMs在语言/音频/DNA序列模态实现SOTA,计算效率高且内存需求固定 [16] - Mamba通过三大关键改进提升性能:扩大状态维度至RNN的N倍/引入选择性记忆机制/优化训练效率 [17][18][19][20] - Transformer依赖tokenization预处理,在多语言多模态场景存在局限性且违背端到端学习原则 [28][29][30] 架构融合趋势 - 混合架构中SSM层与注意力层最佳比例介于3:1至10:1之间 [37] - 注意力机制二次复杂度并非Transformer主要缺陷,新架构将保持兼容性 [5][7] - 未来方向是结合SSMs的在线处理能力与Transformer的精确检索优势,直接处理原始数据 [36][40] 行业技术发展 - Mamba作者预告几天后将发布架构领域重大进展 [3] - 当前共识可能被推翻,Transformer被视为阶段性最优解而非最终方案 [8] - 架构设计核心指标是FLOPs利用率,需快速转化为模型能力 [39]
数学家跨界找到百年难题最优解,能给无线通信领域带来新思路
量子位· 2025-07-09 10:58
高维空间球体堆积的突破性进展 - 一位非专业数学家Boaz Klartag通过改进罗杰斯1947年提出的"椭球体起始"方法,实现了高维空间球体堆积效率的显著提升,在100维空间中堆积数量可达先前纪录的100倍,百万维空间可达100万倍[4][5][6][7] - 该方法采用随机过程调整椭球体边界,通过冻结接触晶格点的生长方向并持续膨胀其他方向,最终构造出比传统方法体积更大的椭球体[30][31][32][38] - 这是自1947年以来该领域最具实质性的改进,打破了数十年的微小进展状态[7][22] 数学方法演进历程 - 17世纪开普勒提出三维球体最佳堆积猜想(74%空间填充率),但证明耗时400年[10][12] - 1905年闵可夫斯基提出通过最优格点排列解决堆积问题的思路,成为主流方法[13] - 1947年罗杰斯提出次优晶格起始的椭球体转换方法,但因高维复杂度被放弃[16][20][21] - 2016-2017年仅在8维(E8格)和24维(利奇格)取得突破,更高维度长期停滞[23] 跨学科研究价值 - 研究将凸形状几何学方法迁移至球体堆积领域,打破了传统晶格对称性研究的局限[24][27][41] - 成果重新引发关于高维最优堆积方法的学术辩论,挑战了"高度对称晶格最优"的传统认知[42][43][44] - 无线通信领域可直接应用该成果,信号点的高维排列本质即球体填充问题,能提升抗噪声干扰能力[46][47][48] 研究过程关键细节 - Klartag在2023年11月利用项目间隙学习晶格理论时发现罗杰斯方法被低估的潜力[26][27] - 通过评估随机生长椭球体的体积分布范围并调整参数,最终证明该方法可突破历史纪录[37][38][39] - 2024年4月公开研究成果,计划继续深化凸形状与晶格理论的交叉研究[40][41]
「库克接班人」官宣退休:苹果二号人物,主导Apple Watch诞生
量子位· 2025-07-09 10:58
鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 苹果基础模型负责人刚被挖,又一重大高管变动今日官宣。 涉及的是苹果二号人物、一度被视为「库克接班人」的 Jeff Williams (杰夫·威廉姆斯) : 这位COO (首席运营官) 将在本月退休,结束自己在苹果27年的职业生涯。 威廉姆斯的继任者是Sabih Khan (萨比赫·可汗) ,后者同样是苹果30年老兵。不过威廉姆斯领导下的苹果设计团队,将直接变为向库克汇 报。 设计团队之外,威廉姆斯还负责苹果供应链,领导着Apple Watch的开发和苹果健康项目—— 过去十多年间,他一直是 苹果的核心决策者之一 。因此,此番人事变动,也被认为是「苹果历史上最重要的事件之一」。 一度是热门接班人 杰夫·威廉姆斯,1963年生人,今年62岁。 在1998年——乔布斯回归的第二年,他就加入了苹果,任全球采购主管。 2015年,他出任苹果COO。苹果现在的掌门人蒂姆·库克,就是从这一职位上升任CEO的。而过去10多年中,威廉姆斯也是仅次于库克的苹 果第二号人物。 苹果传奇设计师Jony Ive在2019年离职后,威廉姆斯接管了苹果的设计团队。他也负责苹果的供应链、 ...
奥特曼反击挖走4人!Meta华人科学家在列,马斯克也躺枪
量子位· 2025-07-09 09:18
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 被一波挖走8人之后,OpenAI对扎克伯格的"反击"来了。 据《连线》杂志消息,OpenAI总裁Brockman在内部Slack当中表示,有 4名新员工将加入OpenAI 。 Scaling团队的职责是管理后端硬件、软件系统和数据中心,其中包括OpenAI投资的基础设施公司"星际之门"。 Angela Fan Angela是Meta巴黎人工智能研究院的一名研究科学家,专注于机器翻译研究。 另外三人均来自马斯克旗下公司,包括特斯拉前软件副总裁,以及xAI的基础设施主管和工程师各一人。 其中一人,就是来自Meta的华裔科学家 Angela Fan 。 两名华人加入OpenAI 除了这位Meta成员,OpenAI这波也对老对手马斯克来了一波"偷袭"—— 此次被挖来的四人中有两位华人, 他们将加入OpenAI的Scaling团队 。 2016年,Angela本科毕业于哈佛大学,专业是统计学,之后便加入了Meta (当时还叫Facebook) ,工作地点在美国加州。 2019年,她成为了Meta的工读博士生,在法国国家信息与自动化研究所南锡分部和FAIR攻读并在2 ...
稚晖君,昨夜冲进了科创板
量子位· 2025-07-09 09:18
核心观点 - 智元机器人通过两步走策略完成对A股科创板上市公司上纬新材的控股,总计出资至少21亿元获得63.62%控股权 [3][4][5][7] - 此次收购使智元机器人绕过IPO直接进入公开资本市场,改写具身智能行业发展路径 [1][7][55][64] - 智元机器人实控人邓泰华(华为前高管)及联合创始人稚晖君(前华为天才少年)背景曝光 [8][16][24][52] - 智元机器人成立不到3年估值已达150亿元,产品技术快速迭代并积极布局开源生态 [6][42][43][46][49] 收购交易细节 - 第一步出资9.41亿元收购29.99%股权,转让价7.78元/股 [4][10] - 第二步通过部分要约收购11.6亿元获取37%股权,其中33.63%股份已预受要约 [5][10] - 交易完成后上纬新材控股股东变更为智元恒岳,邓泰华成为实际控制人 [10][12] - 原控股股东SWANCOR萨摩亚持股比例从64.02%降至38.43% [13] 公司背景 - 成立于2023年2月,专注通用具身机器人"本体+AI"全栈技术 [14] - 已推出远征、精灵、灵犀三大产品系列覆盖多场景应用 [14][43] - 2024年5月估值达150亿元,国内同赛道估值最高 [42] - 员工规模超千人,引进Waymo、谷歌DeepMind等顶尖人才 [50][53] 技术进展 - 开源灵犀X1机器人全套设计图纸和代码 [47] - 发布全球首个大规模机器人数据集AgiBot World(100+场景/3000+物品) [48] - 推出通用具身基座大模型GO-1 [49] - 最新产品灵犀X2-N可实现双足/双轮形态1秒切换 [44] 行业影响 - 创造非传统上市路径:通过收购而非IPO进入公开市场 [56][62][64] - 具身智能赛道近期融资活跃:宇树、银河通用等企业获数亿至数十亿融资 [57][58][59][60] - 收购后上纬新材业务属性将向具身智能领域延伸 [23][62] - 计划2024年出货数千台机器人 [54]
两张图就能重构3D空间?清华&NTU利用生成模型解锁空间智能新范式
量子位· 2025-07-09 09:18
3D语言场景生成技术突破 - 提出LangScene-X生成式框架,仅需2张图像即可构建3D语言嵌入场景,相比传统NeRF方法所需的20个视角大幅降低输入要求 [2][4] - 攻克传统方法依赖密集视图的痛点,实现多模态信息统一建模,为空间智能领域开辟新路径 [3][5] - 模型能模拟人类认知方式,通过稀疏视觉输入建立融合语言理解的3D空间系统 [4] 传统3D语言场景生成痛点 - 密集视图依赖:传统方法如NeRF在仅2-3张输入时物体边界模糊率超40%,而真实场景获取密集视图成本高昂 [5] - 跨模态割裂:现有方法处理外观/几何/语义时模块独立,导致ScanNet测试中法线与RGB一致性误差达27.3° [6] - 语言特征压缩瓶颈:CLIP的512维特征直接嵌入导致内存占用高,场景切换时文本查询准确率下降58% [7] LangScene-X核心技术方案 - TriMap视频扩散模型:四阶段训练实现RGB/法线/语义协同生成,仅2张输入时法线-RGB误差降至8.1°,语义边界准确率提升63% [8] - 语言量化压缩器(LQC):通过向量量化将CLIP特征压缩为3维索引,重建误差仅0.0001,跨场景迁移无需微调 [10][11] - 语言嵌入表面场:渐进法线正则化使3D表面重建误差显著降低,"冰箱"查询中表面重合度达91.7% [12] 模型架构创新价值 - 单模型统合多模态生成,消除传统模块化流程低效问题,确保3D空间一致性 [14] - 语言量化压缩器实现高维特征跨场景泛化,内存占用减少90% [10][14] - 语言嵌入表面场技术实现文本与3D场景精准对齐,如"stuffed bear"可精确定位关联区域 [15] 实证性能表现 - LERF-OVS数据集上mAcc达80.85%(+31.18%),mIoU达50.52%(+10.58%) [16] - ScanNet数据集mIoU达66.54%,超越现有方法14.92%,分割掩码边界锐利度超越人工标注 [16] 应用前景 - 技术可应用于VR场景构建、人机交互、自动驾驶及具身智能等领域 [18] - 提供底层技术范式,具备成为空间智能核心驱动力的潜力 [18]
游戏巨头Steam幕后:CEO隐居海上,六旬老人带79员工赚尽全球玩家的钱
量子位· 2025-07-09 09:18
Steam平台运营表现 - 2025年上半年同时在线人数峰值达4120万,游戏内同时在线玩家1320万,均创历史新高[2] - 占据PC游戏市场70%销售额份额,主导行业地位[9] - 母公司Valve营业利润率连续十年超40%,人均利润高于亚马逊、Alphabet等科技巨头[6] 公司组织与商业模式 - 采用极简团队架构:2021年仅336名员工(其中79人负责Steam业务)[9] - 推行扁平化管理:员工可自由移动办公桌协作,拥有项目决策权[21][24][27] - 拒绝外包策略:坚持雇佣高成本创意人才以保证内容质量[29][30] - 保持非上市状态:避免股东干预决策流程,维持产品迭代效率[33][35][38] 产品核心竞争优势 - 创意工坊UGC生态:允许玩家修改开源游戏项目,催生CS1.6等经典模组[15][16][17] - 反盗版技术方案:通过账号绑定实现数字版权保护,替代传统光盘分发[13] - 创始人Gabe Newell持有50.1%股份,2025年个人身价达95亿美元[9] 创始人动向与未来布局 - Gabe Newell近年专注于脑机接口公司Starfish Neuroscience和海洋研究机构Inkfish[46][47] - 公司被比喻为"航海帝国",维持高盈利同时保持战略灵活性[49][50] 行业影响力与用户粘性 - 被《金融时报》称为"黑洞公司",财务不透明但盈利能力受硅谷关注[3][31] - 用户创作自由理念形成独特社区文化,开发者承认无法与用户创造力竞争[19][20]
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
量子位· 2025-07-09 09:18
模型性能突破 - Polaris通过Scaling RL技术使4B模型在数学推理任务(AIME25得分79.4,AIME24得分81.2)超越商业大模型如Claude-4-Opus和Seed-1.5-thinking [1] - 仅用700步RL训练即让Qwen3-4B接近其235B版本的表现 [5] - 模型轻量化设计支持消费级显卡部署 [2] 训练方法论创新 - 提出"镜像J"数据分布理论:构建轻微偏向难题的分布可优化不同能力基模型的训练效果 [10] - 采用动态数据更新策略:删除训练过程中准确率过高的样本以维持挑战性 [13] - 实现多阶段温度调整:通过控制探索区温度初始化,动态维持60分多样性水平 [32][33] 技术实现细节 - 引入长度外推技术:应用YaRN方法将32K以上长文本准确率从26%提升至50% [41][43] - 优化采样温度区间:划分鲁棒生成区/控制探索区/性能崩塌区,打破t=0.6或1.0的行业惯例 [28] - 采用渐进式上下文窗口扩展:Qwen3-4B需直接从40K长度启动训练以避免性能塌陷 [52] 开源生态建设 - 完整公开训练数据/模型/代码,包括Huggingface模型库和GitHub仓库 [3][53] - 验证Scaling RL对前沿开源模型(如Qwen3)的普适性提升效果 [5] - 提出token利用效率概念:不同基模型对响应长度的敏感度存在显著差异 [51]