Workflow
量子位
icon
搜索文档
华为版《黑客帝国》首次亮相:训推复杂AI前先“彩排”,小时级预演万卡集群
量子位· 2025-06-11 13:13
数字化风洞技术概述 - 公司首次推出数字化风洞技术,可在AI模型训练前进行虚拟环境预演,小时级模拟万卡集群方案[1] - 技术由马尔科夫建模仿真团队开发,旨在解决60%算力浪费在硬件资源错配与系统耦合的问题[1] - 类比汽车风洞测试,通过虚拟预演优化AI训练配置,避免时间和算力浪费[1][2] 技术核心痛点与解决方案 - 当前大模型运行三大痛点:训练阶段资源错配、推理阶段任务差异大、万卡集群管理复杂度高[3][11] - Sim2Train训练仿真平台通过动静态融合建模和硬件深度适配,实现昇腾设备效率精准提升[5][7][8] - 支持芯片级/拓扑级/负载级全栈优化,基于实时数据自动反馈校准硬件建模[10] 训练阶段创新(Sim2Train) - 采用模块化拼装AI任务流程,灵活构建复杂模型并分析资源消耗[7] - 结合智能搜索算法实现模型结构与硬件能力最优均衡,提升大规模训练效率[9] - 针对CloudMatrix超节点拓扑实现联合优化,覆盖计算/内存/通信多维度[10] 推理阶段创新(Sim2Infer) - 端到端推理性能提升30%,通过五层建模:负载特征/硬件架构/部署策略/仿真运行/自动优化[13][14] - 支持MoE模型结构优化建议,实现大EP场景最佳部署方案寻优[14] - 基于离散事件模拟技术精确计算推理耗时,自动匹配昇腾平台最优配置[14] 高可用性保障(Sim2Availability) - 通过马尔科夫模型虚拟化集群,秒级定位故障并模拟恢复策略[16][17] - 关键环节包括故障生成器(模拟NPU/内存/光模块故障)、探测器(异常判断)、影响分析(中断/降速评估)[20] - 恢复策略库涵盖Step级回滚/进程级恢复/全量恢复等多场景方案[20]
“甲方快乐模型”诞生,拿下平面设计新SOTA!多条件一键生成,还能独立调整元素 | 复旦&字节
量子位· 2025-06-11 13:13
平面设计师有救了! CreatiDesign团队 投稿 量子位 | 公众号 QbitAI 复旦大学和字节跳动团队联合提出 CreatiDesign 新模型,可实现高精度、多模态、可编辑的AI图形设计生成。 △ CreatiDesign能生成各种类型的平面设计图,如电影海报、品牌促销、产品广告和社交媒体图。 AI虽然在文生图领域已取得了很大的突破,但以往方法在处理图形设计时,要么"偏科",要么缺乏精准的可控性。 而CreatiDesign推出了 统一多条件控制的扩散Transformer架构 ,并配套构建了40万样本的大规模多条件标注数据集,满足实际设计需 求。 挑战:需求多、数据少、控制难 在真实的平面设计场景中,用户往往会同时提供: 主视觉元素:(如产品图/LOGO,需保持高度一致性) 辅助装饰元素:(如装饰品,用于衬托主体,需按指定位置排版) 文本内容(如Slogan,需按指定位置排版) 这种"多条件异质融合"对先前的扩散模型提出了三大挑战: CreatiDesign基于MM-DiT(Multimodal Diffusion Transformer)框架,采用极简架构调整,实现了多种异质条件的协同控制: ...
o3绞尽脑汁仅答对40%的题目,开源模型基本乱猜?MMSI-Bench:多图空间智能试金石
量子位· 2025-06-11 13:13
空间智能与大模型发展 - 空间智能是大模型实现具身智能的关键能力 涉及理解物体位置和运动等空间关系 对自动驾驶 机器人导航等应用至关重要[1][2] - 当前多模态大模型(MLLM)在空间智能方面存在显著短板 面对1000道多图推理题 开源模型准确率普遍低于30% 最强的OpenAI o3仅41% 远低于人类97 2%的水平[1][16] - MMSI-Bench是首个专注多图像空间推理的评估基准 由多家顶尖机构联合开发 包含1000个高质量问答对 覆盖10种基础任务和1种多步推理类别[1][7][12] MMSI-Bench基准设计特点 - 采用人工主导构建模式 6位专家投入超300小时 从12万张图像中精选素材 每个问题均需整合多图像信息解答 并配有干扰项和标准推理流程[8] - 数据来源覆盖ScanNet Matterport3D nuScenes等真实场景数据集 包含室内3D场景 自动驾驶 机器人操作等多样化场景[13][14] - 任务设计围绕相机/智能体 物体 区域三大空间元素 涵盖位置关系 属性 运动状态等维度 多步推理任务需整合基础类型进行复杂顺序推理[12][13] 模型评估关键发现 - 商业模型表现优于开源模型 OpenAI o3准确率41% 最佳开源模型Qwen2 5-VL-72B仅30 7% 参数增加带来的性能提升有限(Qwen2 5-VL-72B比32B版仅高3%)[16][17][19] - 多步推理和相机运动理解是最大难点 多数模型在MSR任务上表现低于单步任务平均水平 开源模型对相机运动理解尤其薄弱[18] - 提示工程效果微弱 Zero-Shot CoT等策略对性能提升有限 甚至产生负面影响 表明模型基础空间理解能力存在本质缺陷[20] 错误分析与改进方向 - 主要错误类型包括定位错误(35%) 重叠匹配与场景重建错误(28%) 情境转换推理错误(22%) 空间逻辑错误(15%) 其中场景重建错误最为普遍[21] - 自动化错误分析流程结合GPT-4o评估器 与人类专家判断匹配度达71 8% 可系统性诊断模型失败原因 为改进指明方向[20][22] - 高质量人类标注至关重要 提供标准答案时自动化分析准确率降至53 6% 凸显标注质量对可靠评估的关键作用[23] 行业应用与未来展望 - MMSI-Bench填补了多图像空间智能评估空白 其真实场景数据和高难度任务设计使其成为当前模型-人类差距最大的基准(56个百分点)[16][24] - 基准已评测34个主流MLLM 涵盖闭源和开源模型 结果将推动开发更具空间感知能力的多模态AI系统 加速AGI发展[15][23] - 项目资源全面开放 包括论文 数据集和代码库 将成为社区推动空间智能研究的重要基础设施[23]
医学领域也有世界模型了:精准模拟肿瘤演化,还能规划治疗方案
量子位· 2025-06-11 13:13
医学世界模型(MeWM)的核心技术 - 引入世界模型(WM)理念构建"观察-模拟-评估-优化"闭环路径[3] - 以影像观察为输入通过感知模块生成初始状态[4] - 策略模型采用GPT-4o等视觉大模型生成候选治疗组合[5] - 动态模型利用3D条件扩散模型模拟治疗后肿瘤形态[6] - 逆动态模型对候选肿瘤图像进行生存风险打分[7] - 通过启发式函数动态优化保留低风险方案[8] 三大核心功能 - 肿瘤演变模拟器:使用3D扩散模型模拟治疗方案下的肿瘤形态演变[11] - 生存风险预知:通过生存分析模型预测治疗方案预后风险[11] - 临床决策闭环:构建方案生成-模拟推演-生存评估的优化循环[11] 技术创新点 - 将治疗行为作为条件控制生成模拟肿瘤演化[14] - 通过GPT-4o与Deepseek-R1构建治疗组合[14] - 采用组合对比学习(CCL)提升生成效果真实度[14] - 合成图像被误判为真实的比例最高达79%[16][19] - FID(0.71)和LPIPS(0.6120)指标均为最优[20] 临床验证表现 - 生存风险评估MSE降至0.2142优于传统Cox模型(0.3550)[22] - C-Index提高至0.752显著优于影像组学特征驱动模型[23] - TACE治疗F1-score达64.08%接近专业医生水平(71.43%)[29] - 融入医生决策流程可带来13%的F1-score提升[29] - 推荐结果与专家方案高度一致[30]
新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了
量子位· 2025-06-11 13:13
模型发布与性能 - Mistral AI发布首款推理模型Magistral,包含Magistral Small(24B参数开源版本)和Magistral Medium(企业版)[4][5] - 与公司初期模型Mistral Medium 3相比,Magistral在AIME-24上的准确率提升50%[3] - Magistral Small在AIME-24准确率达70.7%,纯RL训练使AIME-24数学基准准确率从26.8%跃升至73.6%[18][20] 多语言与推理能力 - Magistral支持多语言推理,覆盖英语、法语、西班牙语等,解决欧洲语言推理效果不佳的问题[7] - 在AIME'24测试中,英语准确率73.6%,法语68.5%,西班牙语69.3%,德语66.8%[8] - 模型针对多步逻辑微调,提供可追溯的思考过程,实现大规模实时推理[10][15] 技术创新与训练方法 - 采用纯强化学习(RL)训练,改进GRPO算法,不依赖现有模型蒸馏数据[16][17] - 首创异步分布式训练架构,动态批处理优化提升训练效率,纯文本RL训练使多模态性能提升12%[20] - Magistral Medium的token吞吐量比大多数竞争对手快10倍,支持实时反馈[14] 行业对比与争议 - 官方未与最新版Qwen和DeepSeek R1对比,网友测试显示Qwen 4B性能相近,30B MoE效果更优[22][24] - 基准测试未纳入Qwen,且DeepSeek-R1数据非最新版(AIME-25准确率从70%升至87.5%)[1] - 开源权重版本Magistral Small采用Apache 2.0许可,但被质疑“欧洲OpenAI”不够开放[24]
小扎开9位数薪酬新建AI团队!砸千亿收购华人初创公司,Llama 4太拉胯急坏了
量子位· 2025-06-11 10:27
一边 开出7-9位数的薪酬从谷歌OpenAI等公司挖人 ,组建新的AI实验室。 另一边豪掷148亿美元 (约1063亿人民币) , 收购初创公司Scale AI 49%的股份,还挖来了CEO 。 新实验室在Meta内部被称为"超级智能小组", 大部分成员都是由小扎亲自招募 。 据介绍,小扎这一个月都在频繁接触AI研究人员,试图把他们挖到Meta。 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 对Llama 4表现太失望,Meta CEO扎克伯格急了。 这个实验室的组建, 也将作为Meta AI业务大规模重组计划的一部分 。 有网友调侃说,前COO Sheryl离职后小扎不得不亲自运营Meta。 同时,之前一些问题总有借口蒙混过关,但现在小扎已经学会了马斯克的砸钱模式。 小扎亲自挖人,LeCun动向不明 据介绍,Meta打算建立的新实验室,目标就是研究"超级智能"。 小扎希望借助这个新平台,使Llama模型能够得到改进,并开发出更强大的语音和个性化AI工具。 实验室的 预计规模大约是50人,包括一名主管 ,主管的人选可能是Meta这次收购的Scale AI的CEO。 知情人士透露,小扎已经安排调整了M ...
o3-pro正式推出!说声“嗨”就花了80美元,思考1+1用时16分钟
量子位· 2025-06-11 10:27
模型发布与性能 - OpenAI推出最新推理模型o3-pro,官方测评显示专家一致更偏爱o3-pro的回答 [1][2] - o3-pro在数学、科学和编程领域超越o3和o1-pro,成为当前最强模型 [5][27] - o3-pro通过严格"4/4可靠性"评估,需在四次尝试中正确回答问题 [27][28] 定价策略与市场反应 - o3-pro API定价为每百万输入tokens收费20美元,输出tokens收费80美元 [10] - o3模型价格下调80%,输入/输出tokens分别降至2美元和8美元,与GPT-4o基本持平 [12][13][14] - 降价原因为推理服务架构优化,但用户对o3性能是否降智存在争议 [17][18][19][24] 技术特性与应用场景 - o3-pro响应时间较长,适合高难度问题,如宾大教授测试的单词阶梯挑战 [30][31][36][37][38] - 生物医学测试显示o3-pro能识别人类免疫系统关键局限性,表现优于o3 [41][42][43] - ARC-AGI测试表明o3-pro高难任务表现略好,但成本随难度上升 [44][45] 行业展望与战略方向 - OpenAI CEO预测2025-2027年将出现能执行认知任务、原创见解和现实任务的AI系统 [54] - 智能成本未来或接近电力成本,每次ChatGPT查询耗电0.34瓦时 [54] - 公司定位为超级智能研究公司,推迟公开权重模型发布 [56][57]
智能体自己出现问题自己找!首次提出“自动化失败归因”课题 | ICML2025 Spotlight
量子位· 2025-06-11 10:27
核心观点 - LLM驱动的Multi-Agent系统存在脆弱性,单个Agent失误或信息传递错误可导致整体任务失败,目前依赖人工调试效率低下[5][7] - 研究首次提出"自动化失败归因"课题,需定位责任Agent(failure-responsible agent)和错误步骤(decisive error step)[8] - 构建首个专用数据集Who&When,覆盖127个LLM Multi-Agent系统的失败日志,含人工标注的细粒度责任划分[8][9] - 开发三种自动化归因方法:全局审视法(All-at-Once)、逐步侦查法(Step-by-Step)、二分定位法(Binary Search),性能各有利弊[9][10] - 当前最佳方法在识别责任Agent上准确率仅53.5%,定位错误步骤准确率低至14.2%,任务难度超越现有SOTA模型能力[11][15] 研究方法与数据集 - **数据集Who&When**:包含算法生成和人工构建的127个系统失败日志,确保场景多样性和真实性[8] - **标注维度**:明确"谁"(责任Agent)、"何时"(错误步骤)、"为何"(自然语言解释)三要素[13] - **实验设定**:分"已知真实答案"(With Ground Truth)和"未知"(Without Ground Truth)两种场景测试[11] 自动化归因方法对比 - **All-at-Once**:单次分析完整日志,责任Agent识别准确率最高(54.33%),但错误步骤定位仅12.5%,成本最低(17,106 tokens)[9][14] - **Step-by-Step**:逐步检查日志,错误步骤定位表现最优(25.51%),但责任识别准确率仅35.2%,成本最高(87,720 tokens)[9][14] - **Binary Search**:二分递归定位,综合性能居中,责任识别准确率44.13%-51.72%,成本34,659 tokens[10][14] - **混合方法**:组合策略可提升性能(责任识别57.02%,错误步骤12.28%),但成本激增至149,177 tokens[14] 实验结果与挑战 - **模型表现**:GPT-4o在All-at-Once模式下责任识别达54.31%,但其他模型(如DeepSeek R1)表现更差(10.34%)[15][16] - **关键瓶颈**:上下文长度增加会导致性能下降,错误步骤定位对长度敏感[17] - **行业意义**:为Multi-Agent系统提供从"评估"到"改进"的闭环优化路径,提升可靠性[18] 学术贡献与资源 - 论文获ICML 2025 Spotlight,代码与数据集已开源[4][19] - 参与机构包括宾夕法尼亚州立大学、Google DeepMind、Meta等顶尖机构[19]
不是视频模型“学习”慢,而是LLM走捷径|18万引大牛Sergey Levine
量子位· 2025-06-10 15:35
语言模型与视频模型的对比 - 语言模型通过预测下一个词学习,取得了显著成功,其算法为下一词预测+强化学习微调[9][10] - 视频模型通过预测下一帧学习,但效果远不如语言模型,尽管视频数据信息更丰富[13][14][17] - 语言模型能解决复杂问题和推理,而视频模型仅能生成逼真视频[19][20] 语言模型的优势与局限性 - 语言模型调用人类总结的知识,模仿已有推理结果,形成"抄近路"效应[22][24] - 语言模型仅接触文本"影子"(人类认知投影),却比直接观察物理世界的视频模型更具推理能力[25] - 语言模型是对人类认知的"逆向工程",而非真正理解世界[26][33] 柏拉图洞穴的类比 - 互联网被比作洞穴,真实世界比作洞穴外阳光,AI通过语言模型学习人类知识如同看到洞穴墙壁上的影子[31][32] - AI目前依赖人类中介(文本数据),长期目标是通过传感器直接与物理世界交互[34][35] - 跨模态连接被视为突破洞穴困境的潜在方法,需建立视觉、语言、行动系统的共享结构[35] 研究背景与作者观点 - 人类心智复杂性可能源自单一算法,AI复现该算法可达到人类智能高度[7][8] - 作者Sergey Levine为UC伯克利副教授兼Google Brain研究员,学术引用18万次[2][3] - 研究提出AI需突破"影子依赖",将语言模型作为通用AI的起点[34][35]
0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源
量子位· 2025-06-10 15:35
模型性能与效率 - MiniCPM4提供8B和0.5B两种参数规模,仅使用同级别开源模型22%的训练开销就达到同级别最优性能 [1] - MiniCPM4-8B是首个开源原生稀疏模型,5%极高稀疏度支持长文本和深思考在端侧运行 [2] - 在MMLU等基准测试中,MiniCPM4-8B性能比肩Qwen-3-8B,超越Gemma-3-12B;0.5B版本超越同级Qwen-3-0.6B等模型 [3] - 在端侧芯片上实现长文本处理5倍常规加速与极限场景百倍加速 [4] 技术创新架构 - 采用高效稀疏注意力架构InfLLM v2,保持性能同时实现高效长上下文处理 [8] - InfLLM v2不引入额外参数,短序列推理速度不受影响 [10] - 相比NSA减少60%上下文选择计算成本 [11] - 上下文分块分区域处理,实现注意力层智能化选择机制 [14] 推理加速技术 - 构建轻量化CUDA推理框架CPM.cu与跨平台部署框架ArkInfer [20] - 提出FR-Spec词表剪枝技术,降低75%计算开销,实现2倍生成加速 [26][28][29] - 开发前缀感知GPTQ方法,排除初始词元干扰提升量化质量 [31][32] - 采用位置感知校准策略,消除初始词元统计偏差 [33] 数据与训练优化 - 仅使用8T词元达到Qwen3用36T词元的效果 [56] - 提出UltraClean高能力密度数据筛选方法,构建1T+高质量中英文语料 [61][71] - 开发UltraChat-v2合成数据框架,覆盖知识应用等五大技能领域 [77] - ModelTunnel v2预训练策略搜索仅需32GPU机时,大幅降低超参数搜索开销 [88] 应用场景表现 - 在Jetson AGX Orin上实现7倍解码加速,长序列处理优势明显 [108][109] - MiniCPM4-8B超越Gemma3-12B和Phi4-14B,0.5B版本超越Llama3.2-1B [114] - 训练数据量仅为Qwen3的22%但性能相当 [116] - 在128K上下文窗口达到100%准确率,稀疏度仅5% [119]