Workflow
量子位
icon
搜索文档
华为版《黑客帝国》首次亮相:训推复杂AI前先“彩排”,小时级预演万卡集群
量子位· 2025-06-11 13:13
训练阶段:类似猛踩油门,但算力、内存、通信如果搭配不当,效率会暴跌; 而数字化风洞在这个过程中起到的作用,就像是一位让AI算力"少踩坑、跑得更快更稳"的智能调度专家。 金磊 发自 凹非寺 量子位 | 公众号 QbitAI 就在刚刚, 华为 首次亮相了一套 "虚" 的技术—— 数字化风洞 ,一个在正式训推复杂AI模型之前,可以在电脑中"彩排"的 虚拟环境平台 。 这套有种《黑客帝国》意味般的技术 (都是通过虚拟世界预演现实) ,是由 华为马尔科夫建模仿真团队 构建,可以 小时级预演万卡集群 方案 。 而之所以要在真枪实弹训推复杂AI模型之前来这么一个步骤,是因为华为研究团队发现,超过60%的算力浪费在硬件资源错配与系统耦合 上。 于是,就像汽车设计师用风洞测试新车性能一样,华为通过这个平台在电脑里模拟AI大模型训练和推理的过程,便提前发现问题并优化配 置。 一言蔽之,为的就是 避免浪费时间和算力 。 更具体来看,如果把运行大模型类比成开一辆高性能赛车,那么当下的痛点就主要集中在三点: 并且是对上述三大痛点逐一击破的那种。 Sim2Train:小时级自动寻优 训练大模型这件事可以说是越来越复杂,例如由于参数量越发 ...
“甲方快乐模型”诞生,拿下平面设计新SOTA!多条件一键生成,还能独立调整元素 | 复旦&字节
量子位· 2025-06-11 13:13
平面设计师有救了! CreatiDesign团队 投稿 量子位 | 公众号 QbitAI 复旦大学和字节跳动团队联合提出 CreatiDesign 新模型,可实现高精度、多模态、可编辑的AI图形设计生成。 △ CreatiDesign能生成各种类型的平面设计图,如电影海报、品牌促销、产品广告和社交媒体图。 AI虽然在文生图领域已取得了很大的突破,但以往方法在处理图形设计时,要么"偏科",要么缺乏精准的可控性。 而CreatiDesign推出了 统一多条件控制的扩散Transformer架构 ,并配套构建了40万样本的大规模多条件标注数据集,满足实际设计需 求。 挑战:需求多、数据少、控制难 在真实的平面设计场景中,用户往往会同时提供: 主视觉元素:(如产品图/LOGO,需保持高度一致性) 辅助装饰元素:(如装饰品,用于衬托主体,需按指定位置排版) 文本内容(如Slogan,需按指定位置排版) 这种"多条件异质融合"对先前的扩散模型提出了三大挑战: CreatiDesign基于MM-DiT(Multimodal Diffusion Transformer)框架,采用极简架构调整,实现了多种异质条件的协同控制: ...
o3绞尽脑汁仅答对40%的题目,开源模型基本乱猜?MMSI-Bench:多图空间智能试金石
量子位· 2025-06-11 13:13
MMSI-Bench团队 投稿 量子位 | 公众号 QbitAI AI能看图,也能讲故事,但能理解"物体在哪""怎么动"吗? 空间智能,正是大模型走向具身智能的关键拼图。 面对1000道多图推理题,开源大模型集体失守——准确率不到30%,甚至不如瞎猜!就连最强的OpenAI o3,也只答 对了41%。 这一专为多图像空间智能设计的 MMSI-Bench 由上海人工智能实验室、香港中文大学、浙江大学、清华大学、上海 交通大学、香港大学以及北京师范大学的研究者们共同完成。 多图像空间智能VQA基准测试 MLLM在连接语言视觉、理解物理世界方面进展飞速,是通往具身AGI的关键。其中,空间智能(即理解物体位置、运 动等空间关系的能力)至关重要,是自动驾驶、机器人导航与操作等应用的基础。 因此,缺乏能检验真实多图像推理的基准,就无法可靠衡量和提升MLLM的空间认知。为此,MMSI-Bench的提出正 是为了弥补这一评测空白。 2. 低估真实世界复杂性 真实空间理解需跨多图像追踪、关联实体。 3. 多图像覆盖不足 现有少数多图像基准对空间智能的覆盖既不全面也不深入。 4. 模板化与合成数据 MMSI-Bench是一个用于 ...
医学领域也有世界模型了:精准模拟肿瘤演化,还能规划治疗方案
量子位· 2025-06-11 13:13
MeWM团队 投稿 量子位 | 公众号 QbitAI 医学领域,也有自己的世界模型了。 来自香港科技大学(广州)、约翰霍普金斯大学等机构的学者联合提出了提出 医学世界模型 (Medical World Model, MeWM) ,赋予了 AI"预演"疾病发展的能力。 MeWM可以 基于临床治疗决策,模拟未来肿瘤演化过程 ,可以为个性化治疗提供可视化、可评估、可优化的辅助。 初始阶段会并行生成B个治疗组合 (称为protocol beams) ,覆盖不同策略空间。 随后, 动态模型 (Dynamics Model) 会针对每个候选方案,利用3D条件扩散模型模拟治疗后肿瘤形态,逐步构建方案执行轨迹。生成的 每一组术后肿瘤候选将交由启发式函数评估。 在这一过程当中, 逆动态模型 (Inverse Dynamics Model) 还会在每一步中对所有候选肿瘤图像进行生存风险的打分。 基于启发式函数输出风险值,并动态替换掉风险最高的beam方案,从而实现低风险方案的优先保留与高风险方案的迭代优化。 具体来说,MeWM主要有三大核心功能: 什么是医学世界模型? MeWM引入了世界模型 (WM) 的理念,构建了"观察–模拟 ...
新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了
量子位· 2025-06-11 13:13
然而再一次遭到网友质疑:怎么又不跟最新版Qwen和DeepSeek R1 0528对比? (此前该公司发布Ministral 3B/8B时,声称"始终优于同行",却没有对比Qwen2.5) 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI "欧洲的OpenAI"Mistral AI终于发布了首款推理模型—— Magistral 。 在该模型发布的前几个小时,Mistral AI的CEO Arthur Mensch在接受炉边访谈时声称即将发布的Magistral能够与其他所有竞争对手相抗 衡。 在官方展示的基准测试结果中, DeepSeek-R1 的数据确实不是最新的 (在AIME-25数学测试中,DeepSeek-R1-0528的准确率已经从旧 版的70%提升至87.5%) ,并且比较行列里完全不见 Qwen 的身影。 不过,与同公司初期模型 Mistral Medium 3 相比,该框架在AIME-24上的准确率提升了50%。 此次Magistral发布了两种版本: Magistral Small ——24B参数的开源权重版本,可在Apache 2.0许可下自行部署。 Magistral Medium ...
小扎开9位数薪酬新建AI团队!砸千亿收购华人初创公司,Llama 4太拉胯急坏了
量子位· 2025-06-11 10:27
一边 开出7-9位数的薪酬从谷歌OpenAI等公司挖人 ,组建新的AI实验室。 另一边豪掷148亿美元 (约1063亿人民币) , 收购初创公司Scale AI 49%的股份,还挖来了CEO 。 新实验室在Meta内部被称为"超级智能小组", 大部分成员都是由小扎亲自招募 。 据介绍,小扎这一个月都在频繁接触AI研究人员,试图把他们挖到Meta。 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 对Llama 4表现太失望,Meta CEO扎克伯格急了。 这个实验室的组建, 也将作为Meta AI业务大规模重组计划的一部分 。 有网友调侃说,前COO Sheryl离职后小扎不得不亲自运营Meta。 同时,之前一些问题总有借口蒙混过关,但现在小扎已经学会了马斯克的砸钱模式。 小扎亲自挖人,LeCun动向不明 据介绍,Meta打算建立的新实验室,目标就是研究"超级智能"。 小扎希望借助这个新平台,使Llama模型能够得到改进,并开发出更强大的语音和个性化AI工具。 实验室的 预计规模大约是50人,包括一名主管 ,主管的人选可能是Meta这次收购的Scale AI的CEO。 知情人士透露,小扎已经安排调整了M ...
o3-pro正式推出!说声“嗨”就花了80美元,思考1+1用时16分钟
量子位· 2025-06-11 10:27
而且同一时间,o3模型降价80%不降智。 官方测评结果显示,在专家评估中,所有人一致更偏爱o3-pro而非o3的回答。 一水 发自 凹非寺 量子位 | 公众号 QbitAI OpenAI深夜放大招,正式推出 "最新最强版"推理模型o3-pro ! 此外,o3-pro也一举超越o3、o1-pro,成为当前最擅长数学、科学和编程的OpenAI模型。 OpenAI CEO奥特曼也第一时间激动表示: 这真是太聪明了!我第一次看到它相对于o3的胜率时,简直不敢相信。 目前o3-pro已取代o1-pro,面向ChatGPT的 Pro和Team用户 开放,Enterprise和Edu用户将在下周获得使用权限。 而对开发者来说,o3-pro已经可以通过API接入: 每百万输入tokens收费20美元 (约合人民币143元) ,每百万输出tokens收费80美元 (约合人民币574元) 。 有多贵呢? 温馨提醒,据称一句简单的"嗨"就花了网友80美元(doge)。 或许OpenAI也意识到这个价格确实有点贵,所以另一边赶紧宣布o3降价80%。 o3降价80%不降智 官网显示,o3的最新API价格如下: 每百万输入tokens收 ...
智能体自己出现问题自己找!首次提出“自动化失败归因”课题 | ICML2025 Spotlight
量子位· 2025-06-11 10:27
近年来,LLM Multi-Agent系统引起广泛关注。它们各显神通,协同作战解决复杂难题。然而,一顿操作猛如虎,最终结果却"惨不忍睹",一 整个任务失败。 这时候,你是不是头都大了: 究竟是哪个环节的哪个Agent出了岔子? 允中 发自 凹非寺 量子位 | 公众号 QbitAI 在日益复杂的Multi-Agent系统中,由于Agent之间自主协作、信息链条长,失败不仅常见,而且诊断起来极其困难。如果我们不能快速定位 失败的根源,系统的迭代和优化就无从谈起。 针对这个问题,宾夕法尼亚州立大学与杜克大学联合Google DeepMind等机构的研究者们首次提出了"自动化失败归因"这一全新研究课题, 并为此构建了首个专用基准数据集Who&When,开发和评估了多种自动化归因方法。 这项工作不仅深刻揭示了该任务的复杂性,也为未来提升LLM Multi-Agent 系统的可靠性开辟了新的道路。 该论文获ICML 2025 Spotlight,代码与数据集已全部开源。 首次提出"自动化失败归因"课题 LLM驱动的Multi-Agent系统在很多领域展现出巨大潜力。然而,这些系统也存在着脆弱性:单个Agent的失误,Ag ...
不是视频模型“学习”慢,而是LLM走捷径|18万引大牛Sergey Levine
量子位· 2025-06-10 15:35
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 为什么语言模型能从预测下一个词中学到很多,而视频模型却从预测下一帧中学到很少? 这是UC伯克利大学计算机副教授 Sergey Levine 最新提出的灵魂一问。 他同时是Google Brain的研究员,参与了Google知名机器人大模型PALM-E、RT1和RT2等项目。 Sergey Levine在谷歌学术的被引用次数高达18万次。 "柏拉图洞穴"是一个很古老的哲学比喻,通常被用来说明人们对世界认知的局限性。 在文章的开头,作者提到人工智能就是在研究能够反映人类智能的灵活性和适应性的假想智能。 一些研究者推测,人类心智的复杂性和灵活性源自于大脑中应用的一个 单一算法 ,通过这个算法可以实现所有多样化的能力。 也就是说,AI如果能复现这个终极算法,人工智能就能通过经验自主获取多元能力,达到人类智能的高度。 在这个探索过程中,语言模型取得了非常成功的突破。 甚至,LLMs实现能力跃升背后的算法( 下一词预测+强化学习微调 ),也非常简单。 单一终极算法 假设似乎就是AI模型的答案…… 然而,这个假设对视频模型并不适用。 语言模型与视频模型的对比 Serge ...
0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源
量子位· 2025-06-10 15:35
模型性能与效率 - MiniCPM4提供8B和0.5B两种参数规模,仅使用同级别开源模型22%的训练开销就达到同级别最优性能 [1] - MiniCPM4-8B是首个开源原生稀疏模型,5%极高稀疏度支持长文本和深思考在端侧运行 [2] - 在MMLU等基准测试中,MiniCPM4-8B性能比肩Qwen-3-8B,超越Gemma-3-12B;0.5B版本超越同级Qwen-3-0.6B等模型 [3] - 在端侧芯片上实现长文本处理5倍常规加速与极限场景百倍加速 [4] 技术创新架构 - 采用高效稀疏注意力架构InfLLM v2,保持性能同时实现高效长上下文处理 [8] - InfLLM v2不引入额外参数,短序列推理速度不受影响 [10] - 相比NSA减少60%上下文选择计算成本 [11] - 上下文分块分区域处理,实现注意力层智能化选择机制 [14] 推理加速技术 - 构建轻量化CUDA推理框架CPM.cu与跨平台部署框架ArkInfer [20] - 提出FR-Spec词表剪枝技术,降低75%计算开销,实现2倍生成加速 [26][28][29] - 开发前缀感知GPTQ方法,排除初始词元干扰提升量化质量 [31][32] - 采用位置感知校准策略,消除初始词元统计偏差 [33] 数据与训练优化 - 仅使用8T词元达到Qwen3用36T词元的效果 [56] - 提出UltraClean高能力密度数据筛选方法,构建1T+高质量中英文语料 [61][71] - 开发UltraChat-v2合成数据框架,覆盖知识应用等五大技能领域 [77] - ModelTunnel v2预训练策略搜索仅需32GPU机时,大幅降低超参数搜索开销 [88] 应用场景表现 - 在Jetson AGX Orin上实现7倍解码加速,长序列处理优势明显 [108][109] - MiniCPM4-8B超越Gemma3-12B和Phi4-14B,0.5B版本超越Llama3.2-1B [114] - 训练数据量仅为Qwen3的22%但性能相当 [116] - 在128K上下文窗口达到100%准确率,稀疏度仅5% [119]