Workflow
机器之心
icon
搜索文档
One RL to See Them All?一个强化学习统一视觉-语言任务!
机器之心· 2025-05-27 12:11
视觉三重统一强化学习系统V-Triune - 核心目标是使用单一训练流程联合训练视觉-语言模型在视觉推理和感知任务上 [6] - 包含三个核心组件:样本级数据格式化、验证器级奖励计算、数据源级指标监控 [8] - 引入动态IoU奖励机制为感知任务提供自适应反馈 [22] 样本级数据格式化 - 在样本级别定义奖励配置实现细粒度控制 [13] - 使用Hugging Face datasets作为统一接口 [15] - 支持将多样化数据集无缝集成到统一训练流程 [16] 验证器级奖励计算 - 采用异步客户端-服务器架构实现模块化设计 [17] - 将奖励计算与主训练循环解耦提高灵活性 [19] - 使用MathVerifyVerifier和DetectionVerifier两种验证器 [23] 数据源级指标监控 - 按数据源分别记录关键性能指标实现精细化追踪 [21] - 监控指标包括各源奖励值、感知任务IoU/mAP等 [24] - 有助于识别问题数据源并支持针对性调试 [21] 动态IoU奖励机制 - 通过动态调整IoU阈值平衡学习效率和精度 [26] - 训练初期使用宽松阈值(0.85)后期采用严格阈值(0.99) [26] - 避免冷启动问题同时确保最终高性能 [26] 训练方法优化 - 冻结ViT参数防止梯度爆炸 [34] - 过滤虚假图像特殊token保持训练稳定性 [38] - 构建CoT提示词池减少提示差异影响 [39] 实验表现 - 在MEGA-Bench Core基准上7B模型提升+3.2 32B模型提升+14.1 [48] - 在MathVista基准上实现超过5%的性能提升 [57] - COCO检测任务上7B模型单目标检测提升+12.17 mAP@50 [58]
北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强
机器之心· 2025-05-27 12:11
背景 随着大语言模型(LLM)能力的快速迭代,传统评估方法已难以满足需求。如何科学评估 LLM 的「心智」特征,例如价值观、性格和社交智能?如何建立 更全面、更可靠的 AI 评估体系?北京大学宋国杰教授团队最新综述论文(共 63 页,包含 500 篇引文),首次尝试系统性梳理答案。 这些挑战与心理测量学长期关注的核心问题高度契合:如何科学量化和理解复杂、抽象的心理特质(如知识、技能、性格、价值观等)。心理测量学通过将 这些特质转化为可量化的数据,为教育、医疗、商业和治理等领域的决策提供支持。 将心理测量学的理论、工具和原则引入大语言模型的评估,为系统理解和提升 AI「心智」能力提供了新的方法路径,并推动了「LLM 心理测量学(LLM Psychometrics)」这一交叉领域的发展。这一方向有助于更全面、科学地认识和界定人工智能的能力边界。 主要内容 这篇综述论文首次系统梳理了 LLM 心理测量学的研究进展,结构如下图所示。 心理测量和 LLM 基准的差异与评估原则的革新 论文标题:Large Language Model Psychometrics: A Systematic Review of Evalu ...
传统云还在「卖铁」,下一代云已在「炼钢」:火山引擎xLLM如何一张卡榨出两张的性能!
机器之心· 2025-05-27 12:11
大模型推理效率挑战 - 大模型性能提升但企业面临推理成本高、算力投入大、效果不成正比的问题 [2] - 推理效率成为大模型落地的新门槛,企业需堆叠GPU以满足TPOT和TPS指标 [2] - 行业普遍通过增加GPU数量解决问题,但核心问题在于算力利用率不足 [2][24] xLLM框架性能优势 - 在输入3500:输出1500场景下,xLLM单卡TPS达SGLang 0.4.5的2.05倍 [12] - 在输入2500:输出1500场景下,xLLM单卡TPS达SGLang 0.4.5的2.28倍 [12] - 极限情况下xLLM单机总吞吐达6233 TPS,是开源框架的十倍 [13] - 相同吞吐水平下xLLM平均TPOT为30ms,比开源框架低64% [13] - Hopper 96G机型使用xLLM成本比141G机型开源方案低89% [12] xLLM技术架构创新 - 采用P/D角色分离架构,实现Prefill和Decode阶段算力独立优化 [17] - 配备高性能KV Cache传输能力,支持跨节点跨GPU数据高效移动 [17] - 支持异构计算组合,可部署不同角色到不同GPU卡型 [18] - 具备池化部署能力,根据流量特征动态扩缩角色资源 [18] - 多级KV Cache存储方案平衡缓存效率与计算开销 [19] AI云原生战略布局 - xLLM集成至ServingKit推理套件,13秒完成模型显存加载 [21][22] - ServingKit在开源引擎基础上优化,TPS提升2.4倍 [22] - 提出以AI负载为中心的基础架构新范式 [20] - 强调"巧炼钢"理念,通过全栈优化提升单卡利用率 [24][25] 行业趋势与解决方案 - 企业需求从"卡多卡新"转向"算力高效利用" [24][25] - 面临推理潮汐和异构算力调度两大核心挑战 [23] - Hopper 96G+xLLM组合已验证在性价比上的优势 [25] - 云服务竞争重点转向工程优化能力而非硬件堆叠 [25]
两岁的Llama,最初的14位作者已跑了11个!Mistral成最大赢家
机器之心· 2025-05-27 11:23
Meta人才流失现状 - Meta开源Llama模型团队的14位核心作者中已有11位离职,仅剩3人留任(研究科学家Hugo Touvron、工程师Xavier Martinet、技术负责人Faisal Azhar)[1] - 离职人员平均任职时间超过5年,部分成员参与Llama 1/2/3全周期研发后离开[11] - 人才流失集中在2023年1月至2024年间,涉及模型架构、代码生成、基础设施等关键领域[11][16][27] 离职人员去向分布 - **Mistral AI**吸纳最多人才: - 联合创始人兼CTO Timothée Lacroix(Meta工作8年2个月)[30][31] - 首席科学家Guillaume Lample(Meta工作6年5个月)[66][68] - AI科学家Baptiste Rozière(主导Code Llama开发)[16][18] - 研究工程师Marie-Anne Lachaux(参与Llama 1/2研发)[35][36] - **其他头部机构**: - Cohere基础模型训练负责人Aurélien Rodriguez(开发Command-A模型)[21][23] - Anthropic技术成员Eric Hambro(专注LLM工具微调研究)[26][27] - Google DeepMind杰出科学家Armand Joulin(总引用量超9万)[44][48][51] 对Meta的影响 - 开源领域优势削弱:开发者转向DeepSeek、Qwen等竞品,Llama 4市场反响平淡[4] - 技术研发滞后:缺乏专用推理模型,落后于谷歌/OpenAI的多步思考功能[11] - 管理层动荡:FAIR团队负责人Joelle Pineau卸任,继任者Robert Fergus曾跳槽谷歌[6][9] 核心人员学术贡献 - 离职团队学术影响力显著: - 11人中有7人Google Scholar总引用量超1.8万,最高达9万[28][33][48][55][63][68] - Llama系列论文引用量突出:Llama 1被引16,164次,Llama 2被引15,412次[42] - 衍生成果包括Code Llama(被引2,153次)、Mixtral of Experts(被引1,787次)[19][34]
舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA
机器之心· 2025-05-27 11:23
核心观点 - 中国人民大学高瓴人工智能学院与蚂蚁集团合作推出LLaDA-V,这是首个纯扩散多模态大语言模型(MLLM),挑战了自回归模型在多模态领域的主导地位 [1] - LLaDA-V基于前期发布的LLaDA扩散模型拓展至多模态,采用视觉编码器(SigLIP 2)和MLP连接器实现多模态对齐,全程采用离散扩散机制 [2] - 模型在11项多模态任务中超越自回归基线LLaMA3-V,并在MMMU等多学科知识基准上展现更强数据可扩展性 [5] - 纯扩散架构性能达到SOTA,显著缩小与顶尖自回归模型Qwen2-VL的差距(MMStar基准60.1 vs 60.7) [8][10] 技术架构 - 采用"视觉编码器+MLP投影器+语言模型"经典架构,视觉特征通过SigLIP 2提取并映射至LLaDA嵌入空间 [15] - 创新性使用双向注意力机制,消融实验证明其优于对话因果注意力机制 [15] - 训练时仅对回复部分随机掩码,损失函数聚焦掩码区域;推理采用反向去噪过程,结合低置信度重掩码策略提升生成质量 [15] 性能表现 - 多模态理解任务中超越混合架构(如MetaMorph、Show-o)和纯扩散模型,达到当前最佳性能 [8] - 尽管LLaDA-8B纯文本能力弱于LLaMA3-8B,但LLaDA-V在多模态任务中反超,证明扩散架构的独特优势 [5] - 在MMMU等需要复杂推理的基准上,数据可扩展性显著优于自回归模型 [5] 应用场景 - 成功实现复杂视觉场景理解,如精准描述阿尔卑斯山景的层次感与空间关系(绿色小路、行人、教堂、薄雾群山等细节) [13] - 支持多轮多模态对话,通过掩码扩散机制生成连贯回复 [15] 开源计划 - 团队预计近期开源训练推理代码及模型权重 [3] - 项目已发布论文(arXiv:2505.16933)和代码仓库(GitHub/ML-GSAI/LLaDA-V) [6]
9位顶级研究员连讲3晚,华为盘古大模型底层研究大揭秘
机器之心· 2025-05-26 18:59
大语言模型技术发展 - 大语言模型(LLMs)已成为通用人工智能系统的重要基石,在自然语言处理、代码生成、多模态理解等领域发展迅速 [1] - 模型能力提升伴随计算资源与存储需求急剧增长,实现高性能与高效率并存是当前重要挑战 [1] 华为诺亚方舟实验室研究成果 - 2024年4月成功开发基于昇腾算力训练的千亿级通用语言大模型Pangu Ultra,在多个领域评测超越Llama 405B和Mistral Large 2等密集模型 [2] - 2024年5月初推出稀疏大语言模型Pangu Ultra MoE,实现在6000+块昇腾NPU上对MoE模型的长期稳定训练 [2] 5月28日技术分享会内容 CBQ量化框架 - 提出跨块重建的PTQ方法CBQ,通过跨块依赖机制建立Transformer块间长距离依赖关系,实现超低比特量化性能突破 [6] - 仅需4.3小时完成4-bit LLAMA-65B权重量化,在W4A4、W4A8量化配置下显著优于现有方法 [6] SlimLLM剪枝方法 - 提出基于整体通道/注意力头评估的结构化剪枝方法SlimLLM,在LLaMA基准测试中达到最先进性能水平 [7][8] - 采用线性回归策略快速恢复输出矩阵性能,通过层重要性比例确定剪枝率 [8] KnowTrace RAG框架 - 提出结构化知识追踪框架KnowTrace,通过构建特定知识图谱缓解LLM上下文过载问题 [9][10] - 在三个多跳问答基准测试中持续超越现有方法,支持自我引导提升机制 [10] 5月29日技术分享会内容 盘古Embedded模型 - 开发具备快慢思维切换功能的盘古Embedded模型,通过迭代蒸馏微调和延迟容忍调度框架降低推理延迟 [13][14] - 在昇腾NPU上实现效率与深度的自适应协调,特别适用于移动设备等资源受限场景 [14] 盘古-Light剪枝框架 - 提出基于权重重初始化的极致剪枝框架盘古-Light,通过跨层注意力剪枝(CLAP)等技术实现激进结构化压缩 [15][16] - 剪枝后模型性能超越Minitron、PUZZLE等基线方法,较Qwen3-32B展现更优综合性能 [16] ESA注意力优化 - 提出低维压缩的高效选择性注意力方法ESA,无需微调即可实现稀疏注意力与序列长度外推 [17][18] - 通过query/key低维压缩机制和邻域影响力机制,突破长文本处理瓶颈 [18] 5月30日技术分享会内容 盘古MoE大模型 - 开发昇腾原生MoE大模型Pangu Pro MoE(总参数72B,激活参数16B),采用MOGE架构解决专家负载不均衡问题 [20][21] - 通过混合并行优化、通算融合等技术提升昇腾910/310平台的推理效率 [21] PreMoe路由优化 - 提出大batchsize下专家路由优化方案PreMoe,通过概率专家剪枝(PEP)实现专家动态加载 [22][24] - 在数学、代码等任务上提升推理效率10%+,模型能力损失<2% [24] KV优化与反思压缩 - 开发无需训练的KVTuner算法实现3.25bit近似无损KV量化,基于attention机理理论分析指导推理加速 [25][26] - 提出TrimR反思压缩算法在MATH500等数据集实现70%推理效率提升,兼容vLLM社区生态 [26]
实测惊艳全球的Veo3!音画同步无敌,贵是有原因的
机器之心· 2025-05-26 17:40
谷歌Veo3视频生成技术 核心功能 - 首次实现视频与音频同步生成,支持文本/图像转视频,口型与对白精准匹配[5][6] - 生成内容涵盖复杂场景如战场士兵、脱口秀表演、假新闻播报等,细节处理达到影视级水准[12][24][26] - 提供多语言提示词支持,实测显示英文提示词效果优于中文[49] 技术突破 - 音画同步能力突出,角色表情、肢体动作与环境音效高度逼真,如ASMR视频仅需单句提示词即可生成[13][30] - 支持多场景应用:游戏直播界面含动态画面与实时聊天框(Twitch风格)、音乐录制棚特写等[26][27] - 生成限制:避免暴力、名人恶搞等内容,遵循谷歌AI政策指南[22] 应用案例 - 成功复刻《肖申克的救赎》经典雨中场景,虽未达原片质量但完整呈现剧情[47][48] - 生成哲学主题视频,探讨AI角色自我认知问题,展现深度内容创作潜力[14] - 商业场景适用性:车展视频与产品演示达到以假乱真水平[13] 现存局限 - 复杂动态场景处理不足:体操运动员动作出现肢体扭曲、篮球比赛逻辑错误[33][41] - 多对象交互生成缺陷:美人鱼与海洋生物互动画面出现拼贴感[40] - 实时元素缺失:游戏直播中观众聊天框静态化[28] 行业影响 - 技术对标好莱坞制作水平,可能重塑影视行业内容生产流程[2][7] - 用户可通过Google One会员免费体验,降低专业视频创作门槛[15][19] - 提示词优化体系已标准化,提供场景描述、视觉细节等结构化生成框架[44]
与Gemini Diffusion共振!首个扩散式「发散思维链」来了
机器之心· 2025-05-26 17:40
扩散式发散思维链技术突破 - 首次提出将反向扩散过程的每一步中间结果视为大模型的非线性思考步骤,通过基于结果的强化学习优化生成轨迹,最大化最终答案正确率[1] - 突破传统思维链(CoT)的线性生成限制,允许任意顺序生成且无需严格遵循语法结构,激发模型创造性推理[1] - 在连续时间扩散模型中直接优化得分函数策略分布,在离散时间模型中设计Plackett-Luce去掩码策略[2] - 成功训练有序掩码生成扩散语言模型LLaDOU,仅用16张H800显卡即超越现有扩散模型在数学推理和代码生成任务的表现[2] 技术实现原理 - 通过离散扩散过程建模文本分布,反向去噪时生成的中间结果序列构成发散思维链(DCoLT)[11] - 采用基于最终答案正确性的强化学习,对多步动作序列整体优化而不干预中间步骤[13] - 连续时间模型SEDD通过转移概率矩阵迭代计算,离散时间模型LLaDOU引入去掩码策略模块(UPM)实现有序生成[16][21] - UPM模块通过transformer层预测掩码得分,结合Plackett-Luce模型采样生成策略,计算量增幅小于1%[22][23] 性能验证数据 - SEDD模型在GSM8K-Aug数据集达到57%准确率,超越带CoT标注的DoT方法[30] - LLaDOU 8B在数学推理任务GSM8K和MATH分别取得88.1%和44.6%准确率,代码生成任务HumanEval和MBPP通过率59.1%和51.6%[32] - 性能超越Dream 7B、LLaDA 8B等扩散模型基线,接近DeepseekMath-RL 7B等微调后的自回归模型水平[32] 行业影响 - 证明自回归模型的线性token预测并非唯一范式,开辟非线性语言生成新路径[2] - 技术框架可应用于Gemini Diffusion等主流扩散语言模型,有望成为标准训练流程[3] - 实现从早期概念要素到完整回答的渐进式构建,更贴近人类发散思维特征[7][34]
ACL 2025 高分接收 | 高感情语音技术:逻辑智能小语种TTS破局之道
机器之心· 2025-05-26 09:28
语音合成技术发展现状 - 语音合成技术从拼接式合成和统计参数模型发展到深度神经网络与扩散、GAN等先进架构,实现了接近真人的自然度与情感表达 [1] - 技术繁荣主要局限于英语、普通话等大语种,全球一千多种小语种由于语料稀缺、文字无空格或多音调等复杂语言学特性面临巨大挑战 [1] 泰语TTS解决方案 - 提出数据优化驱动的声学建模框架创新方案,通过构建系统化泰语数据集结合先进声学建模技术,实现有限资源下的高质量TTS合成 [3] - 框架具备zero-shot声音克隆能力,展示优异跨场景适用性,为小语种TTS系统构建提供有效范式 [3] 数据驱动模型设计 - 整套框架以数据质量为核心抓手,以模块化设计保障可扩展性,解决小语种TTS"数据稀缺+语言复杂"双重瓶颈 [5] - 构建多维泰语语料库包括500小时多领域语音、40小时垂直领域语音、100万句文本语料等 [9][14] 预处理流程创新 - 设计"三步一体、逐层解耦"预处理流程,化解泰语文本无标点、无空格、声调复杂三重难题 [11] - 通过LLM增强的停顿预测、词切分与混合式G2P,将原始文本转换为结构化"音素-声调"序列 [8][15] 模型架构特点 - 集成"多源特征×声调感知×零样本克隆"组合设计,采取先独立训练预测器再联合微调策略 [13] - 使用Phoneme-Tone BERT显式融入五声调,GAN解码器直接从音素与预测特征合成波形 [16] 实验效果验证 - 系统WER为6.3%,NMOS达4.4,超越Google TTS和Microsoft TTS等商业方案 [19] - 零样本声音克隆取得SIM 0.91和SMOS 4.5,显著优于OpenVoice的0.85与4.0 [19][20] - 消融实验显示停顿预测、分词优化和G2P优化对系统性能影响显著,G2P影响最大 [20]
惊了,我的电脑在自动打工!花不到1块钱雇个「AI超人」,Office三件套被卷死
机器之心· 2025-05-26 09:28
核心观点 - 智能体成为大模型技术发展的下一站,具备实体化、自主性和交互性,已进化为全能工具 [3][4] - 昆仑万维发布天工超级智能体(Skywork Super Agents),以场景全、能力强、框架开源三大优势领先行业 [5][6] - Skywork在GAIA基准测试中全面超越Manus和OpenAI deep research,在SimpleQA测试中得分94.5超越当前SOTA [9][11] - 产品提供5个专家级AI Agent和1个通用AI Agent,覆盖文档、表格、PPT、播客、网页等多模态内容生成 [6][7] - 全球首个开源deep research agent框架,开放三大MCP接口,构建AI操作系统生态 [14][15] 产品功能 多场景创作 - 一键生成专业文档、数据表格、PPT、播客、网页五件套,支持B站风格脚本创作 [6][23][25] - 表格模式可智能分析原始数据,交互式确认统计维度和展示方式,自动生成可视化图表 [26][27][30] - PPT生成支持《日本镰仓旅游攻略》等主题,含高质量场景图、路线图和日程表 [31][32] - 网页开发实现Vibe Coding概念,输入自然语言即可生成可玩性高的HTML游戏 [33][35] 多模态生成 - 播客模式可基于书籍生成对谈内容,支持实时修改和语音语调优化 [37][38] - 音乐生成可创作清晨散步轻音乐,视频生成支持复杂Prompt如"发光小鸟汇聚成钟表" [41] - 多工具融合架构实现宣传片、MV、有声书、绘本等跨模态内容一键生成 [52][55] 技术优势 - 自研deep research模型实现深度搜索与推理,性能对标OpenAI竞品 [61] - agent workflow框架支持任务拆解与模型调用,在开源排行榜获SOTA成绩 [61] - 生成物模型提升内容真实性,在线编辑系统兼容主流办公软件格式 [61] - 复杂任务分解技术突破上下文限制,支持超长任务协同解决 [62] 差异化竞争力 - 信源追溯功能标注文本/图片出处,降低大模型幻觉风险 [56][57] - 个人知识库支持50文档上传,形成"素材-创作-积累"正循环 [58] - 任务协同能力整合文档/表格/PPT三件套,支持YouTube视频插入 [45][46] - 性价比突出,单个通用任务成本仅0.96元,无内测限制即开即用 [16] 行业影响 - 智能体技术从概念展示转向场景落地,推动Office生产力革命 [64][66] - 中国AI企业在智能体领域实现国际领先,形成技术+场景+生态全面优势 [66] - 产品通过GAIA等严苛测试验证,标志国产AI达到实用化门槛 [9][63]