机器之心

搜索文档
性能碾压GPT-4.1-mini!Mistral开源Devstral,还能在笔记本上跑
机器之心· 2025-05-22 18:25
开源AI模型Devstral发布 - 法国AI初创公司Mistral与开源初创公司All Hands AI合作发布全新开源语言模型Devstral,拥有240亿个参数 [2] - 该模型比许多竞争对手的模型更小,所需算力更低 [2] - 模型根据宽松的Apache 2.0许可证免费提供,允许不受限制地部署、修改和商业化 [4] 技术特点与性能 - Devstral可在单块RTX 4090显卡或配备32GB RAM的Mac上运行,适合本地部署和设备端使用 [1][3] - 专门设计用于解决现实世界软件工程问题,能在大型代码库中进行上下文关联和错误识别 [4][5] - 在SWE-Bench Verified基准测试中取得46.8%的得分,领先所有开源模型和部分闭源模型 [6] - 比GPT-4.1-mini高出20多个百分点 [6] - 在OpenHands测试框架下表现优于Deepseek-V3-0324(671B)和Qwen3 232B-A22B等更大规模模型 [9] 商业化与访问 - 通过Mistral的Le Platforme API提供访问,型号为devstral-small-2505 [12] - 定价为每百万输入Token 0.10美元,每百万输出Token 0.30美元 [12]
比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性
机器之心· 2025-05-22 16:46
核心观点 - 大型语言模型在多模态任务中面临架构统一性与后训练方法的挑战,传统自回归架构存在跨模态协同效率低下问题 [1] - Gemini Diffusion首次验证扩散模型在文本建模领域的潜力 [1] - MMaDA作为首个系统性探索扩散架构的多模态基础模型,通过三项核心技术突破实现文本推理、多模态理解与图像生成的统一建模 [1] 模型性能 - 文本推理:MMLU准确率68.4%,超越LLaMA-3-8B、Qwen2-7B、LLaDA-8B [7] - 多模态理解:POPE(86.1 vs 85.9)、VQAv2(76.7 vs 78.5)与专用模型持平 [7] - 图像生成:CLIP Score达32.46,较SDXL、Janus提升显著,文化知识生成任务准确率提升56% [7] 技术突破 - 统一扩散架构:将文本与图像生成统一到扩散框架中,消除传统混合架构复杂性 [15] - 混合长链思维微调:解决复杂任务冷启动问题,提出跨模态混合CoT微调策略 [15] - 统一推理格式:定义特殊标记结构强制模型输出跨模态推理步骤 [18] - 统一策略梯度优化:UniGRPO算法使奖励值稳定上升,收敛速度提升40% [19][21] 开源信息 - 已开源训练、推理、MMaDA-8B-Base权重和线上Demo [4] - 后续将开源MMaDA-8B-MixCoT和MMaDA-8B-Max权重 [4] - 论文、代码、模型和Demo地址已公开 [6] 跨任务协同 - 在混合训练阶段(130K-200K步),文本推理与图像生成指标同步上升 [9] - 扩散模型无需额外微调即可泛化到补全与外推任务 [11] - 支持文本补全、视觉问答补全和图像补全三类跨模态任务 [14]
帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,三招搞定通算瓶颈
机器之心· 2025-05-22 12:13
大模型推理通信优化技术 核心观点 - 华为推出FlashComm系列技术,通过数学重构和硬件协同优化,解决大模型推理中的通信瓶颈问题,显著提升推理性能 [2][7][10] - 集合通信操作(如AllReduce、All-Gather)是大模型多节点协作的关键桥梁,但传统方案在MoE等大规模场景下存在效率缺陷 [3][4][6] - 通信优化技术使DeepSeek模型Prefill阶段性能提升22-26%,Decode阶段提升14-30%,Llama3.1-70B模型也有显著加速 [11][14][15] 技术细节 通信挑战 - MoE模型参数突破千亿级别,专家路由与数据聚合导致通信带宽需求呈平方级增长,网络拥塞风险加剧 [6] - 传统AllReduce在多节点部署中跨节点带宽受限,端到端推理时延占比过高 [6][8] - TP并行方案中卡间权重切分虽降低单卡负载,但AllReduce操作仍造成显著时延 [6] 解决方案 **FlashComm1** - 将AllReduce拆解为ReduceScatter+AllGather两阶段,中间插入数据投影降维和INT8量化,通信量降低35%,关键计算量减少至1/8 [11] - DeepSeek模型Prefill推理性能提升22-26%,Llama3.1-70B Decode阶段提升14% [11] **FlashComm2** - 重构矩阵乘法并行维度,将三维张量压缩为二维矩阵,配合INT8量化使注意力机制通信量下降86% [14] - DeepSeek模型整体推理速度提升33% [14] **FlashComm3** - 对MoE模型五大模块(激活通信、门控决策等)进行数学重构,利用昇腾多流引擎实现三股计算流并行 [15] - 腾出2GB内存空间,DeepSeek模型Prefill提速超10%,Decode吞吐增加25-30% [15] 行业影响 - 华为昇腾构建面向大模型推理的全栈生态体系,未来将聚焦超大规模EP下的多流并行、权重自动预取等技术 [17][18] - 技术方案已应用于DeepSeek V3/R1等MoE模型,参数规模达千亿级别,推动行业解决Scaling Law下的通信瓶颈 [6][16]
真碾压Sora了!谷歌Veo 3首次实现音画同步,视频模型直接「开口说话」
机器之心· 2025-05-21 16:04
机器之心报道 编辑:Sia 还记得 2023 年 AI 视频最出圈的片段吗? 威尔·史密斯吃面,动作鬼畜,画面寂静—— 当时的视频大模型,只会动,不会说话。 Sora 的发布让视频质量飞跃、物理规则建模进步巨大,也直接引爆了整条赛道。 更麻烦的是,配完音还可能对不上节奏——口型和对白不同步,脚步踩不到点上,情绪氛围总差一口 气。 直到今天,谷歌正式发布 Veo 3。AI 视频, 终于能「开口说话」了—— Veo 3 不仅能生成高质量视频,还能理解视频中的原始像素,自动生成与画面同步的对话、多种音效。 翻译成中文—— 只用一个提示词,你就能得到 画面+ 对白+唇动对齐+拟音音效 一气呵成的视频。 Runway、Pika、Luma、Kling、Genmo、Higgsfield、Lightricks 等初创公司,以及 OpenAI、谷 歌、阿里、字节等科技巨头,纷纷入局。 但无论画质如何进步,视频还是「哑巴」—— 你可以让人物奔跑、翻转,甚至做出慢动作,但如果想让角色说话、听到风声、脚步声,甚至感受到炒 菜时锅里的滋滋声? 对不起,还得自己导音频。 提示语 :90 年代酒吧里的情景喜剧场景,背景墙上的霓虹灯写着 「 ...
ACL 2025 | 大模型乱试错、盲调用?KnowSelf让智能体有「知识边界感知」能力
机器之心· 2025-05-21 16:04
在 AI 领域,大模型智能体的发展日新月异。我们今天要介绍的这篇 ACL 2025 论文——《Agentic Knowledgeable Self-awareness》,聚焦于如何提 升智能体的「知识边界感知」能力,使其在复杂任务规划中更加得心应手,为智能体的可靠应用提供了新思路。 30 秒速读版本 KnowSelf 聚焦于大模型智能体在决策过程中所面临的「知识边界感知」问题。受人类决策机制启发,本文指出智能体应具备三类行为模式的自主决策能 力:快速反应(快思考)、深度推理(慢思考),以及主动调用外部工具(本文以外部知识增强为例)。 KnowSelf 通过学习自身的知识边界,使智能体能在不同情境下自主判断是否具备足够知识进行生成和推理,以减少无效试错与知识滥用。实验表明, KnowSelf 可提升智能体的知识调用准确率、任务规划效率和跨任务泛化能力。 研究背景:智能体规划的困境 大模型智能体在诸多领域展现出巨大潜力,但现有智能体规划方法存在弊端。传统方法多采用「盲目灌输」模式,将标准轨迹、外部反馈和领域知识无差别 地注入智能体模型,完全忽视了人类决策过程中至关重要的「自我认知」原则。 这种「无脑式」灌输导致智 ...
策略学习助力LLM推理效率:MIT与谷歌团队提出异步并行生成新范式
机器之心· 2025-05-21 12:00
核心观点 - 大语言模型(LLM)的生成范式正从传统的顺序生成转向异步并行生成,通过识别语义独立的内容块实现提速 [2][4] - MIT与谷歌团队提出PASTA框架,首次从策略学习角度探索异步生成,通过标记语言和双阶段训练实现质量与速度的Pareto优化 [5][6][14][20] - PASTA在AlpacaEval基准测试中实现1.21-1.93倍几何平均提速,质量变化范围为+2.2%至-7.1% [4][21] 异步生成技术 - 传统自回归解码按顺序生成内容,而异步生成通过并行处理独立内容块提升效率 [2][4] - PASTA-LANG标记语言包含三种核心标记:`<promise/>`声明异步任务、`<async>`包裹异步内容、`<sync/>`同步线程 [7][8][10] - 案例显示异步生成可将坐标提取与长度公式计算并行处理,最终组合结果 [12] 训练方法 - 双阶段训练流程:监督微调阶段用Gemini 1.5 Flash标注100K条SlimOrca数据,对Gemma 7B微调 [16] - 偏好优化阶段采样多种标注方案,基于理论加速比和Gemini 1.5 Pro评估质量构建拒绝采样数据集,采用BoNBoN算法优化 [16] 推理系统设计 - 采用交错式KV缓存布局,所有线程共享连续内存池,动态交错存储不同线程的token [18] - 通过注意力掩码控制确保子线程仅访问相关内容,位置编码调整使线程将交错内容视为逻辑连续序列 [19][25] 实验结果 - 在AlpacaEval 805项任务评估中,PASTA形成质量-速度Pareto前沿:最快模型接近2倍提速,最保守模型保持质量同时显著加速 [21][23] - 偏好优化过程显示性能持续提升,Pareto前沿向右上方推进,证明方法具备计算资源可扩展性 [23] 行业影响 - 突破自回归解码效率极限,为实时大模型应用提供加速方案 [25] - 标记语言设计简单且可扩展,开启学习驱动生成优化的新范式 [13][25]
何恺明团队又发新作: MeanFlow单步图像生成SOTA,提升达50%
机器之心· 2025-05-21 12:00
核心观点 - 提出了一种名为MeanFlow的单步生成建模框架,通过引入平均速度概念改进现有流匹配方法,在ImageNet 256×256数据集上取得FID 3.43的显著成果[3][5] - 该方法无需预训练、蒸馏或课程学习,完全从头训练,大幅缩小单步与多步扩散/流模型性能差距[7][16] - 在1-NFE生成任务中相对此前最佳方法提升50%-70%,2-NFE生成时FID达2.20,媲美多步模型[16][18] 方法创新 - 用平均速度场(u)替代传统瞬时速度场(v),建立两者间的MeanFlow恒等式:u(z_t,r,t)=v(z_t,t)-(t-r)·du/dt[9][10] - 设计损失函数强制网络满足u与v的数学关系,支持无分类器引导(CFG)且采样无额外成本[4][5] - 模型参数量级从131M到676M可扩展,最大版本MeanFlow-XL/2实现最优效果[17] 实验结果 - ImageNet 256×256任务:1-NFE生成FID 3.43 vs IMM 7.77,2-NFE生成FID 2.20 vs DiT 2.27[16][18] - CIFAR-10无条件生成FID 2.92,与EDM框架的iCT(2.83)、IMM(3.20)等竞争[19] - 消融实验显示lognorm(-0.4,1.0)采样策略和CFG权重2.0时效果最佳[21] 技术突破 - 首次实现单步模型FID低于4.0,1-NFE生成质量超越多数多步模型[5][16] - 理论证明平均速度场可自然整合控制生成的技术,扩展性强[5][10] - 训练效率显著提升,仅需单步推理即可达到多步模型90%以上性能[18]
飞书一个聊天框,激活了机器之心编辑部的知识资产
机器之心· 2025-05-21 12:00
飞书知识问答的核心功能 - 聚合并深度理解企业和个人信息,包括消息、文档、知识库、妙记、服务台等来源,提供秒级更新的准确反馈 [2] - 基于AI能力(DeepSeek-R1满血版或豆包)实现信息检索、总结、推理及内容生成,成为高效工作助手 [3] - 支持模糊搜索功能,能从群聊等分散场景快速匹配关键信息,并标注引用来源确保可追溯 [8][11] 技术实现与安全性 - 采用独立部署的DeepSeek-R1满血版模型,与外部服务隔离,承诺企业数据不用于AI训练 [3] - 权限管理实现“千人千面”,答案范围与用户权限严格一致,防止敏感信息泄露 [37][45] - 自动溯源机制为答案附加来源链接,解决大模型“幻觉”问题,提升可信度 [46][47] 业务场景应用 - 结构化整合能力:可解析专业术语(如SSL模型)、梳理内部流程(如设备申请、医疗理赔) [17][27] - 场景化生成:基于企业知识自动生成周报、计划表等(如团建菜品及食材表格) [31][34][35] - 多模型自由切换:支持DeepSeek R1与豆包模型,兼容联网搜索与混合检索 [48] 与传统方案的差异 - 突破关键词搜索、知识图谱等传统方法,通过AI理解业务语境,激活碎片化知识 [6][56] - 要求企业具备“AI Ready”基础,如高质量信息沉淀、清晰权限管理 [3] - 实现“工作即创作、群聊即语料、文档即知识”的闭环,推动知识直接转化为生产力 [57] 当前局限性与未来优化 - 仍存在回答不准现象,需持续优化产品与模型能力 [4] - 非完全“开箱即用”,依赖企业自身知识库建设水平 [3]
大模型全面爆发,所有榜一都是Gemini!谷歌一夜站到了台前
机器之心· 2025-05-21 08:33
核心观点 - 谷歌在Google I/O 2025开发者大会上展示了多项AI技术的重大突破,包括Gemini系列模型的升级、编程工具的创新、视频/图像生成模型的优化以及搜索和购物体验的革新 [1][2][3][61] Gemini模型升级 - Gemini 2.5 Pro在学术基准测试中表现优异,成为WebDev Arena和LMArena排行榜领先模型 [7][8] - DeepMind为2.5 Pro和2.5 Flash新增原生音频输出、安全保障和Project Mariner计算机使用功能 [9] - Deep Think实验性推理模式可提升2.5 Pro处理复杂数学和编码的能力 [10] - Gemini 2.5 Flash在推理、多模态、代码和长上下文等基准上均有提升,token使用减少20-30% [12] - Gemini Diffusion新模型采用扩散技术,生成速度达12秒10095 token,是现有最快模型的5倍 [16][18] 编程工具创新 - 编程智能体Jules可异步运行,支持代码库克隆、测试编写、功能构建等任务 [21] - Gemini Code Assist个人版和GitHub版正式发布,支持200万token上下文窗口 [22][23] - 数据显示Gemini Code Assist可将开发任务成功率提高2.5倍 [24] - AI驱动UI工具Stitch可根据自然语言生成高质量UI设计和前端代码 [24] - Colab将推出全新智能体体验,支持目标导向的代码修复和转换 [26] 视频/图像生成模型 - Veo 3视频生成模型新增音频功能,质量优于Veo 2 [28][29] - Imagen 4图像模型在细节清晰度、拼写排版等方面显著提升,支持2k分辨率 [35] - AI电影制作工具Flow整合Veo、Imagen和Gemini模型,支持精细控制角色和场景 [33] - Imagen 4变体即将推出,速度比Imagen 3快10倍 [38] 搜索与购物体验 - AI概览功能覆盖200+国家和地区,支持40+语言,响应速度为业内最快 [47] - AI模式采用查询扇出技术,可分解问题并同时发出多个查询 [50] - 实时搜索功能整合Project Astra技术,支持摄像头交互 [51] - AI购物模式结合Gemini与Shopping Graph,包含500亿+商品信息 [56] - 虚拟试穿功能支持上传照片试穿数十亿种服装 [57][59] 其他创新 - Starline项目进化为3D视频通信平台Google Beam,支持逼真3D体验 [41][42] - Google Meet语音翻译功能初期支持英语和西班牙语 [43][44] - Gemma 3n预览版发布,支持多模态处理且可在移动设备运行 [60]
九成以上模型止步白银段位,只有3个铂金!通用AI下半场评测标准来了
机器之心· 2025-05-21 08:33
AI发展新阶段 - AI发展进入下半场,重点从模型架构与训练方法突破转向评估模型真实智能,定义问题比解决问题更重要[2] - 评估标准革新成为AI进步关键,需像产品经理一样思考"让AI解决什么问题"及"如何衡量解决得好"[2] - 行业趋势从比拼模型规模转向定义有效评测标准,推动AI向对人类有用的方向演进[2] 通才智能评测框架 - 新加坡国立大学与南洋理工大学团队提出"通才智能"评测框架,包含General-Level五级评估体系和General-Bench测试集,覆盖700项任务32.58万道问题[3][19] - 评测核心指标为"协同效应"(Synergy),衡量多模态/任务间互相赋能能力,分为青铜(专才)至王者(全模态互促)五级[11][16] - 当前90%模型仅达Level-2白银段位(无协同),仅3款模型达到Level-4铂金段位(图文理解生成协同),尚无模型达到王者级[27][28] 多模态模型现状与短板 - 现有模型多为"拼接怪",通过松耦合架构堆叠不同模块,缺乏跨模态深度协同[7] - 三大短板:偏科严重(跨模态任务表现差)、生成能力薄弱(仅会描述不会创作)、协同单向(语言辅助视觉但反向不成立)[29] - GPT-4V在图像任务正确率仅65%,视频任务几乎失效,音频任务行业平均分不足30/100,3D任务最佳正确率仅6.7%[23][25] 评测体系设计特点 - General-Bench覆盖5大模态(图像/视频/音频/3D/文本),145项技能29个场景,强调开放式生成与跨模态组合任务[24] - 采用五步数据构建流程,包含开放集与闭卷集,支持动态扩展[21] - 评估方法创新:Level-3以上需超越单任务SOTA,Level-4要求理解与生成能力调和平均数均衡,Level-5需语言与非语言模态双向提升[16] 行业影响与展望 - 评测框架获ICML 2025 Spotlight认可,开源社区已形成协作生态,Hugging Face平台提供实时排行榜[35][36] - 将推动研发重心转向模型全面能力,促进行业从"拼装式"向"熔炉式"架构演进[41] - 统一评测标准有望加速AGI进程,王者段位达成或标志真正通用智能诞生[42]