Workflow
量子位
icon
搜索文档
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
量子位· 2025-07-09 09:18
模型性能突破 - Polaris通过Scaling RL技术使4B模型在数学推理任务(AIME25得分79.4,AIME24得分81.2)超越商业大模型如Claude-4-Opus和Seed-1.5-thinking [1] - 仅用700步RL训练即让Qwen3-4B接近其235B版本的表现 [5] - 模型轻量化设计支持消费级显卡部署 [2] 训练方法论创新 - 提出"镜像J"数据分布理论:构建轻微偏向难题的分布可优化不同能力基模型的训练效果 [10] - 采用动态数据更新策略:删除训练过程中准确率过高的样本以维持挑战性 [13] - 实现多阶段温度调整:通过控制探索区温度初始化,动态维持60分多样性水平 [32][33] 技术实现细节 - 引入长度外推技术:应用YaRN方法将32K以上长文本准确率从26%提升至50% [41][43] - 优化采样温度区间:划分鲁棒生成区/控制探索区/性能崩塌区,打破t=0.6或1.0的行业惯例 [28] - 采用渐进式上下文窗口扩展:Qwen3-4B需直接从40K长度启动训练以避免性能塌陷 [52] 开源生态建设 - 完整公开训练数据/模型/代码,包括Huggingface模型库和GitHub仓库 [3][53] - 验证Scaling RL对前沿开源模型(如Qwen3)的普适性提升效果 [5] - 提出token利用效率概念:不同基模型对响应长度的敏感度存在显著差异 [51]
百亿机器人独角兽冲刺IPO,细分赛道收入第一
量子位· 2025-07-08 17:11
公司概况 - 镁伽科技是中国收入最高的机器人自主智能体供应商,近期向港交所递交招股书,估值超105亿元 [2] - 公司成立于2016年,专注于机器人技术领域,旨在通过"机器人科学家"解放人力 [3][4] - 创始团队来自电子制造巨头和华为,拥有电子制造基因 [42][45][48] 业务与技术 - 公司产品为自主智能体,能够在没有人类干预下感知环境、决策和执行任务 [5] - 主要聚焦两大应用场景:生命科学领域的智慧实验室和智能制造行业 [6][12] - 核心技术包括感知(微秒级响应)、构思(AI驱动决策)和执行(精准物理操作)三大模块 [15][16][17][18] - 已推出多智能体协同解决方案,可完成更复杂的工作流 [14] 市场表现 - 2022-2024年营业收入分别为4.55亿元、6.63亿元、9.3亿元,复合增长率43% [22] - 智能制造收入占比更高,2022-2024年分别为59.1%、75.7%和68.3% [23][24] - 毛利率从2022年28.1%波动至2024年29%,智能制造场景毛利率持续上升至32.3% [27][30] - 净亏损率从2022年-167%改善至2024年-83.9% [32][33] 客户与行业地位 - 截至2024年底服务超过880家客户,2022年新增客户复购率74%,收入留存率115% [20] - 核心客户包括药明康德和博世,这两家也是战略投资方 [21] - 按智慧实验室收入计,2024年在中国自主智能体供应商中排名第一 [65] - 全球十大供应商中排名第六,市场份额4.4% [67] 研发与资金 - 研发开支占总收入比重从2022年74.7%降至2024年42.4% [37] - 现金及等价物从2022年11.25亿降至2024年4.58亿 [39] - 计划将上市募集资金用于技术研发、产能扩张和销售网络建设 [41] 发展历程 - 创始团队基于劳动力成本上升和机器人替代趋势的判断而创立 [52][53] - 初期定位机器人本体制造商,后转型为解决方案提供商实现快速增长 [59] - 已完成8轮融资累计超27亿元,投资方包括高盛、经纬创投等知名机构 [61][62]
腾讯3D生成模型上新!线稿可变“艺术级”3D模型,鹅厂内部设计师也在用
量子位· 2025-07-08 17:11
腾讯混元3D模型更新 - 腾讯推出艺术级3D生成模型Hunyuan3D-PolyGen 支持生成面数上万的复杂几何模型 [1] - 该模型可将3D模型转化为资产 应用于游戏开发后美术师建模效率提升超70% [2] - 拓扑功能已在混元3D工作台上线 每日提供20次免费使用额度 [3] 艺术级3D生成模型特性 - 美术级模型需满足游戏实时加载需求 面数少于普通3D生成Mesh [4] - 要求布线质量高效规整 便于后续UV展开和骨骼绑定 [4] - 采用组件式结构 支持后期编辑拆分 [4] 模型实测表现 - 支持文字或1-4张参考图输入 提供三角面/四边形拓扑选项 [7] - 波音747测试案例显示 拓扑后细节保留且表面划分更精细 [10][12][14] - 毛绒玩具线稿和奔驰车模测试中 模型能降低面数并保持结构完整 [15][17][18] - 相比竞品 该模型能以更低面数实现更优细节 [20] 技术实现原理 - 采用自回归网格生成框架 通过顶点与面片建模进行空间推理 [24] - 核心流程:网格Token化→自回归模型处理→网格还原 [25][27][30] - 创新BPT压缩技术 使表征mesh的token数量减少74% 单面所需token从9个降至2.3个 [33][36] - 结合强化学习后训练 提升生成稳定性与布线规整度 [40][41][43] 应用与行业影响 - 模型已直接应用于公司内部游戏工作室开发流程 [2] - 支持复杂物体建模 可处理2万+面的高细节模型 [37] - 技术突破可能重塑游戏/影视等行业的3D内容生产模式 [1][2][20]
基于能量的Transformer横空出世!全面超越主流模型35%
量子位· 2025-07-08 15:30
模型架构突破 - 弗吉尼亚大学团队提出EBT架构,通过能量机制实现在跨模态及数据、参数、计算量、模型深度等维度全面超越Transformer++ [1] - EBT在离散文本和连续视觉模态下,数据量、批次大小、参数量、计算量等指标比Transformer++提升约35% [3] - EBT推理性能比Transformer++提高29% [7] 技术实现原理 - EBT通过能量最小化过程模拟思考:从随机预测开始,梯度下降优化至能量收敛,动态决定思考步数 [13][14] - EBT基于EBM原理,学习能量函数为输入配置分配标量值,能量越低表示输入兼容性越高 [15][16][17] - 研究者将EBM学习转化为优化问题,通过隐式正则化能量空间避免维度灾难,实现可扩展训练 [22][23] 性能优势与实验验证 - EBT在数据量、批量大小、网络深度等六个维度扩展实验中均优于Transformer++ [27][28] - 训练时间增加使EBT思考能力提升,验证性能增幅从4%-8%扩大到10%-14% [28] - EBT在图像去噪任务中性能优于扩散模型,且前向计算次数减少99% [32] 应用与扩展性 - EBT为系统2思维实现提供新思路,展现强扩展性和泛化能力 [34] - 支持两种变体:受GPT启发的解码器单向EBT用于自回归建模,双向EBT支持填充和掩码建模 [31] 研究者背景 - 论文一作Alexi Gladstone专注系统2思维、EBM及多模态学习,获NSF奖学金和ICML 2025最佳审稿人荣誉 [37][40] - 作者Yilun Du研究生成模型与具身智能,提出以EBM构建可组合生成模型突破数据依赖 [44][46]
17岁少女推翻40年前数学猜想,师从北大校友张瑞祥,即将攻读博士学位
量子位· 2025-07-08 15:30
数学突破 - 17岁高中生汉娜·凯罗通过家庭作业推翻40年前的Mizohata-Takeuchi猜想,该猜想是调和分析、偏微分方程和几何分析的核心桥梁[1][4][5] - 该猜想认为只要每条直线方向的权重积累不大,傅里叶传播也不会非常集中,长期以来被视为解决傅里叶限制猜想的希望[2] - 汉娜构造的反例显示对于某些f和w,积分下界比猜想中的上界多出log R因子,证明猜想整体不成立[19][20] - 这一突破将影响傅里叶限制、PDE良性等核心问题的研究思路,连带推翻Stein猜想等衍生理论[3] 技术细节 - Mizohata-Takeuchi猜想源于70-80年代对偏微分方程解良定性的研究,特别是扰动薛定谔方程的行为分析[11][12] - 猜想涉及傅里叶延拓算子E(f)与X-Ray变换Xw的加权L²不等式,形式为∫|Ef(x)|²w(x)dx ≤ ||f||²·||Xw||∞[16][17][18] - 汉娜通过构造特殊格点集Q和几何引理,证明存在点集投影在任何方向不重叠,确保反例有效性[20][21] - 论文提出局部版本猜想,探讨引入R^ε微弱损失后不等式成立的可能性[21][22] 人物背景 - 汉娜·凯罗出生于巴哈马,高中时通过UC伯克利数学夏令营接触高等数学,主动联系教授听课[23][24] - 其导师张瑞祥为北大数院本科、普林斯顿博士,现任UC伯克利助理教授,2023年获SASTRA拉马努金奖[6][37][40] - 张瑞祥曾获IMO金牌(与韦东奕同队),北大期间包揽多项顶级数学奖项,主要研究调和分析[32][33][36] - 汉娜将在马里兰大学读博并组建团队,张瑞祥继续担任导师[40] 学术影响 - 陶哲轩曾于2023年2月预告此项成果[8] - 傅里叶分析作为核心数学工具,广泛应用于信号处理、音频分析、金融等领域[9] - 张瑞祥2019年在《数学年鉴》发表论文解决卡尔森问题,并在波动方程局部平滑猜想取得突破[38][41]
突破全模态AI理解边界:引入上下文强化学习,赋能全模态模型“意图”推理新高度
量子位· 2025-07-08 15:30
多模态大语言模型技术突破 - 当前多模态推理模型存在两大核心问题:全局上下文理解不足(模型错误解读多模态证据)和捷径问题(忽视关键线索直接给出答案)[2][3][4] - 阿里巴巴通义实验室推出HumanOmniV2解决方案,强调模型需基于全局上下文理解进行推理,避免遗漏多模态线索[4] - 创新性采用强制上下文总结机制,要求模型在推理前先输出对多模态输入的概括,确保全面性[12] 技术架构优化 - 引入三维奖励机制:上下文奖励(评估上下文一致性)、格式奖励、准确性奖励协同作用[13][14] - 通过LLM评估逻辑奖励,激励模型融合反思/演绎/归纳等高级逻辑分析方法[15] - 改进GRPO训练策略:采用令牌级损失解决长序列不平衡、移除问题级归一化项消除优化偏差、动态KL散度提升探索能力[16][19][20] 数据集与基准创新 - 构建全模态推理训练数据集,涵盖图像/视频/音频理解任务,附带多模态输入总结和推理路径[23] - 推出IntentBench评估基准,包含633个视频和2,689个问题,专注测试复杂人类意图理解能力(对比Daily-Omni/WorldSense更侧重社会关系推理)[23] 性能表现 - HumanOmniV2在Daily-Omni达到58.47%、WorldSense 47.1%、IntentBench 69.33%准确率,超越现有开源模型[24] - 在视频-音频多模态任务中,7B版本以58.47%平均准确率显著领先VideoLLaMA2(35.17%)和Qwen2.5-Omni 7B(47.45%)[25] - 在文化/科技等细分领域评估中,7B模型以47.1%平均准确率超越GPT-4o(42.6%)和Claude 3.5 Sonnet(34.8%)[27] 开源与资源 - 完整开源代码/模型/数据,提供GitHub/arXiv/ModelScope/HuggingFace多平台访问入口[29]
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
量子位· 2025-07-08 15:30
核心观点 - 字节与南洋理工大学联合开发的MMSearch-R1系统通过强化学习训练多模态模型实现自主按需搜索能力 在知识密集型视觉问答任务中性能超越同规模传统RAG模型 并减少32 9%搜索次数[1][3][21] - 该系统集成图像和文本搜索工具 采用GRPO强化学习算法 通过奖励函数优化搜索行为 构建了搜索需求均衡的FVQA数据集进行训练[11][13][14][15][17] - 实验显示7B参数的MMSearch-R1模型在FVQA-test和InfoSeek等任务中平均准确率比同规模RAG基线高3 同时达到32B模型RAG基线的性能水平[21][22] 研究方法 多模态搜索工具 - 集成Google Lens图像搜索工具 可匹配网页标题和缩略图以识别视觉元素[13] - 文本搜索工具链路由Google Search JINA Reader和语言模型组成 可获取相关网页内容摘要[13] 强化学习训练 - 采用GRPO算法实现多轮对话与搜索的Rollout过程 模型可选择调用搜索工具或直接回答[14] - 奖励函数包含0 9权重的准确性得分和0 1权重的格式得分 对依赖搜索的正确答案施加0 1惩罚因子[15] 数据集构建 - FVQA数据集通过MetaCLIP元数据采样 GPT-4o生成问答对 InfoSeek样本补充等方式构建 包含3400个需搜索样本和1600个无需搜索样本[17][19][20] 实验结果 - 7B模型在减少32 9%搜索次数(SR)情况下 准确率(Acc)达到54 6 超过同规模RAG基线51 6 接近32B模型RAG基线55 1[21][22] - 强化学习相比监督微调能以更少训练样本获得更大性能提升 搜索惩罚机制有效塑造按需搜索行为[24][25] - 模型同时提升RAG工作流性能(左图)和自主回答能力(右图) 显示更强的知识挖掘与结果处理能力[22]
AI版三个臭皮匠!ChatGPT/Gemini/DeepSeek合体拿下AGI测试最高分
量子位· 2025-07-08 15:30
文章核心观点 - Sakana AI提出的AB-MCTS算法通过多AI模型协作解决问题,其核心思想是“不同思想的协作能产生最伟大的成就”[1][38] - AB-MCTS在ARC-AGI-2基准测试中表现优于单一模型,多模型组合解决30%谜题,而顶尖独立模型仅解决23%[35][36] - 算法已开源为TreeQuest,结合深度搜索与广度搜索策略,动态平衡探索与利用[6][9][12] AB-MCTS算法原理 - **基础机制**:允许节点重复扩展并引入GEN节点,突破传统MCTS的固定分支限制[10][11] - **搜索策略**:通过贝叶斯后验预测和Thompson采样自适应选择“拓展宽度”或“深入挖掘”[12][27] - **技术变体**: - AB-MCTS-M采用分层贝叶斯推断共享子树信息[17] - AB-MCTS-A通过共轭先验简化计算,显式分离生成与优化动作[17] 基准测试表现 - **综合性能**:在LiveCodeBench、CodeContest、ARC-AGI等测试中平均排名最高,优于重复采样、序列优化等基线方法[15][16] - **任务适应性**: - LiveCodeBench:小预算时即超越基线[19] - CodeContest:预算≥32时表现更优[19] - ARC-AGI:与重复采样性能相当,动态扩展搜索范围[20] - **扩展性**:预算增至512时,AB-MCTS性能持续提升,而重复采样趋于平稳[29] 自然启发的研究路径 - **理论基础**:受生物进化与集体智能启发,从“混合创造”转向“混合使用”现有AI[38][39] - **延伸成果**:与哥伦比亚大学合作开发达尔文-哥德尔机(DGM),通过开放式搜索实现AI自我进化[41]
苹果庞若鸣也被小扎挖走!Meta AI天团开会直接用中文吧
量子位· 2025-07-08 11:31
Meta的AI人才战略 - Meta近期从苹果、OpenAI和Anthropic挖角多名顶尖AI研究员,包括苹果基础模型团队负责人庞若鸣、OpenAI研究员Yuanzhi Li和Anthropic的Anton Bakhtin [2][3][28] - Meta已知的14人AI团队中,华人占比高达64%(9人),其中8人本科毕业于清华、北大、上海交大或中科大 [4][31] - 团队核心成员存在师承关系:庞若鸣与余家辉均师从前谷歌Fellow吴永辉(现字节跳动Seed负责人) [5][6] 庞若鸣的职业背景与影响 - 庞若鸣本科毕业于上海交大,拥有南加州大学硕士和普林斯顿博士学历,曾在谷歌任职15年,领导Google Brain语音识别及Babelfish/Lingvo框架开发(Google TPU使用率最高的深度学习框架) [7][9][10] - 2021年加入苹果后,其领导的100人基础模型团队负责开发支撑Apple Intelligence的核心技术,包括AXLearn训练框架、大语言模型预训练及多模态能力 [13][14][16] - 学术影响力显著:论文总引用量46,364次,h-index达47,参与开发的MobileNetV3(引用11,334次)和EfficientDet(引用9,210次)为CV领域经典工作 [20][21][22] 行业竞争与人才流动趋势 - Meta挖角行为反映其强化AI竞争力的策略,目标团队规模50人,预计华人比例将持续攀升 [33] - 苹果AI战略受挫:核心负责人庞若鸣离职或暴露其在AI领域进展有限,对比乔布斯时代强硬反挖角政策(如2005年邮件警告Adobe CEO),库克应对方式引发讨论 [23][24][26] - 行业数据显示50%的AI研究人员为华人,Meta团队华人主导现象印证中国人才在AI基础设施与算法研发中的关键作用 [32][34] Meta AI团队构成与技术方向 - 团队成员背景多元:包括OpenAI多模态专家毕树超、谷歌Gemini贡献者Pei Sun、清华姚班校友常惠雯等,覆盖语音、图像生成、推理优化等领域 [32][35] - 内部协作语言以中文为主,反映团队文化高度集中化 [1] - 技术布局聚焦多模态与大模型:成员参与GPT-4o、Claude等明星项目,研究方向涵盖训练框架、后训练优化及跨模态理解 [28][32]
开发者遭ChatGPT“赶鸭子上架”!AI编造假功能,结果吸引大量用户,不得不开发出来了
量子位· 2025-07-08 11:31
核心观点 - ChatGPT因AI幻觉错误推荐乐谱扫描网站Soundslice支持ASCII吉他谱功能 导致大量用户涌入 迫使开发者紧急开发该功能[1][6][12] - 这是首例因AI错误信息促使公司开发新功能的案例 开发者Adrian Holovaty对此表示复杂态度[18][19] - 事件引发网友讨论 提出可利用ChatGPT的"幻觉"特性反向指导产品开发[29][30][31] 事件经过 - Soundslice原本仅支持标准五线谱扫描 开发者发现错误日志中频繁出现ChatGPT生成的ASCII吉他谱截图[7][10] - 调查发现ChatGPT主动引导用户使用Soundslice处理ASCII吉他谱 但该功能实际不存在[3][11] - 开发者被迫在两周内完成ASCII吉他谱导入器开发 该功能原计划排至2025年后[12][13] - 新功能支持基础ASCII符号识别 但需配合编辑器补充节奏、和弦等缺失信息[16][18] 开发者背景 - Soundslice创始人Adrian Holovaty兼具音乐与技术背景 是W3C音乐记谱标准联合主席[20][23] - 网站核心功能包括交互式乐谱编辑器 光学音乐识别系统 曾获《纽约时报》年度创意奖[25][26] - 开发者早期在《华盛顿邮报》从事新闻工作 2005年创建首个谷歌地图嵌入网站[26][27] 行业启示 - 网友建议将ChatGPT的"错误推荐"转化为产品需求挖掘工具 类似人机交互领域的绿野仙踪法[29][31] - 案例显示AI幻觉可能意外创造市场需求 但需权衡被动响应与主动规划的关系[12][19] - 技术社区注意到AI系统错误修正的难度可能高于直接实现被虚构的功能[32]