Workflow
机器之心
icon
搜索文档
类R1训练不再只看结果对错!港中文推出SophiaVL-R1模型
机器之心· 2025-06-06 17:36
模型训练范式革新 - 传统R1训练范式仅通过结果对错进行奖励,导致模型可能通过捷径答题而非建立正确思考策略 [1][2] - SophiaVL-R1引入「思考奖励」机制,评估推理过程的合理性、连贯性和可靠性,提升模型泛化能力 [3][7] - 该机制通过构建思考评分数据集和训练评分模型,对推理过程进行多维度量化(如逻辑缜密性评分0.3 vs 0.9) [10][11] 技术突破与算法创新 - 采用Trust-GRPO算法解决奖励欺骗问题,通过对比正误答案的思维奖励可信度,动态调整奖励权重 [17][18] - 消融实验显示:去除Trust-GRPO或思考评分模块会导致性能下降(如MathVista得分从71.3降至70.2或68.4) [22][23] 性能表现与行业影响 - SophiaVL-R1-7B在MMMU(61.3)、MME(2403.8)、MathVista(71.3)等基准测试中超越参数量10倍的LLaVA-OneVision-72B(56.8/2261.0/68.4) [5][20][21] - 训练效率显著提升,思考奖励机制加速收敛且稳定训练过程 [23] - 模型及代码已开源,推动多模态推理领域技术共享 [8]
刚刚,智源全新「悟界」系列大模型炸场!AI第一次真正「看见」宏观-微观双宇宙
机器之心· 2025-06-06 17:36
AI技术发展趋势 - AI技术从理解文字进化到建模世界、操控实体、模拟大脑、解构分子 [1] - 2025年AI领域热点包括DeepSeek R1、OpenAI o3、智能体Manus、英伟达Cosmos世界基础模型等 [2] - 智源大会聚集四位图灵奖得主、三十余位大模型企业创始人及CEO、一百多位青年科学家探讨AI前景 [3] 智源「悟界」系列大模型 - 智源推出全新「悟界」系列大模型,突破虚实边界,向物理AGI迈进 [4] - 「悟界」系列包含原生多模态世界模型Emu3、脑科学模型见微Brainμ、具身智能框架RoboOS 2.0/RoboBrain 2.0、全原子微观生命模型OpenComplex2 [6] - 大模型发展从文图视频主导的数字世界进入物理世界,理解尺度从宏观跨越到微观 [8] 原生多模态世界模型Emu3 - Emu3是全球首个原生多模态世界模型,支持文本、图像、视频、声音、脑信号等多模态统一建模 [12] - 通过新型视觉tokenizer实现多模态同构表征,支持端到端多模态输入输出映射 [14] - Emu3推动AI从单一模态理解向多模态协同跃迁,加速创意生成、智能搜索等应用落地 [14] 脑科学多模态通用基础模型见微Brainμ - 见微Brainμ基于Emu3架构,统一处理MRI、EEG、双光子成像等神经信号,累计处理超100万单位数据 [15] - 支持跨任务、跨模态、跨个体建模,性能超越专用模型,成为神经科学领域的AlphaFold [15] - 具备跨物种能力,兼容人类、小鼠、狨猴、猕猴数据,推动脑机接口技术实用化 [17] 具身智能框架RoboOS 2.0与RoboBrain 2.0 - RoboOS 2.0是全球首个具身智能SaaS平台,支持无服务器轻量化部署,性能提升30%,响应时延压缩至3毫秒以下 [22][24] - RoboBrain 2.0任务规划准确率提升74%,空间推理能力提升17%,新增深度思考与闭环反馈能力 [27][28] - 开源框架降低开发门槛,代码量仅为传统方式的1/10,与全球20多家具身智能企业合作 [24][31] 全原子微观生命模型OpenComplex2 - OpenComplex2突破生命尺度,可预测生物分子静态结构及动态构象分布 [34][35] - 基于FloydNetwork图扩散框架与多尺度原子级精度表示,精准捕捉分子动态特性 [35] - 在CASP16竞赛中唯一成功预测蛋白质T1200/T1300构象分布,推动生物医药研发加速 [36][38] 行业影响与未来展望 - 智源「悟界」系列从语言建模转向世界建模,为多模态、具身智能、AI for Science注入活力 [40] - 四大方向协同布局是认知智能走向具身智能与科学智能的关键一步 [40] - 大模型时代将深入理解与改变世界的系统,不止于提示框 [41]
MoE推理「王炸」组合:昇腾×盘古让推理性能狂飙6-8倍
机器之心· 2025-06-06 17:36
混合专家模型技术突破 - 华为推出昇腾平台原生设计的Pangu Pro MoE 72B模型,显著降低计算开销并在SuperCLUE千亿内模型评测中并列国内第一 [2] - 通过软硬协同优化实现推理性能提升6~8倍,昇腾300I Duo单卡吞吐达321 tokens/s,昇腾800I A2单卡吞吐飙升至1528 tokens/s [3] - 采用分层混合并行(HP)策略,Decode吞吐性能相比纯TP方案提升33.1%,通过模块化分工优化通信效率 [5][6][7] 通信与计算协同优化 - 提出TopoComm优化方案,同步次数降低35%,链路有效带宽提高21%,通信数据压缩25%,AllGather通信耗时降低39% [9] - 开发DuoStream多流融合方案,实现计算与通信细粒度并发调度,解决Expert模块通信瓶颈 [12] - 构建GMMRS与AGMM融合策略,关键通信路径流水掩盖,显著提升硬件资源利用率 [12] 高性能算子创新 - 开发MulAttention融合算子,Attention计算加速4.5倍,数据搬运流水占用率89%,访存带宽利用率87% [16] - 推出SwiftGMM矩阵计算引擎,GMM计算加速2.1倍,解码阶段整网推理时延降低48.7% [18] - 算子优化实现KV缓存搬运效率提升,路由专家权重搬运瓶颈突破 [15][16][18] 推理算法创新 - 专家动态剪枝算法PreMoE保持模型准确率同时提升推理吞吐10%+ [21] - TrimR反思压缩算法通过小模型监测大模型思考过程,推理步数降低14% [22] - SpecReason反思投机算法结合大小模型优势,推理吞吐提升30% [22] 昇腾平台性能表现 - 昇腾800I A2平台4卡部署下,大并发场景单卡吞吐1148 tokens/s,较72B/32B稠密模型提升97%/18%,MTP技术下最高吞吐达1528 tokens/s [24] - 昇腾300I Duo平台4卡部署实现小并发延迟50ms,大并发单卡吞吐201 tokens/s,MTP技术下吞吐最高321 tokens/s,提供高性价比解决方案 [26] - 预填充阶段2卡2路并发实现2k序列输入延迟1.94s,单卡吞吐1055 tokens/s [26]
不愁了!开源智能体Paper2Poster「一键生成」学术海报
机器之心· 2025-06-06 17:12
学术海报自动化工具Paper2Poster - 核心观点:滑铁卢大学、新加坡国立大学和牛津大学联合开发的Paper2Poster系统首次实现从学术论文到海报的全自动生成,通过多智能体协作框架解决信息压缩、多模态融合和版面规划三大挑战 [2][4][7] - 技术突破:提出PosterAgent方法,将任务分解为Parser(解析)、Planner(布局)、Painter-Commenter(绘制优化)三阶段,支持导出可编辑的pptx文件 [8][9][12] - 性能优势:在100篇顶会论文测试中,PosterAgent-Qwen版本以0.005美元/篇的成本实现87%的token效率提升,其开源模型表现超越GPT-4o方案 [21][22][23] 多智能体技术架构 - 解析模块:通过LLM提取论文层次大纲和图表素材,构建结构化素材库,完成文本粗提炼 [14] - 规划模块:采用二叉树算法递归划分版面,匹配图文语义并生成bullet points式要点 [14] - 优化循环:视觉语言模型(VLM)通过区域放大策略进行局部反馈,迭代调整板块设计直至达标 [14] 评估体系与竞品对比 - 四维指标:视觉质量(CLIP相似度0.75)、文本连贯性(PPL值8.31)、整体质量(VLM评分3.72)、论文问答(准确率71.52%)全面量化效果 [15][21] - GPT-4o缺陷:直接生成图像存在文字乱码(PPL达77.13),HTML输出则呈现密集文本(美学评分仅2.9) [17] - 开源优势:PosterAgent-Qwen在信息得分(3.66)和成本($0.0045/篇)上均优于OWL等多智能体方案 [22][24] 应用前景与局限 - 行业影响:开创学术海报自动化新领域,配套开源数据集和评测基准推动科研辅助工具发展 [4][23] - 当前短板:串行优化效率待提升,视觉创意(Engagement评分2.89)仍落后人类设计水平 [24] - 未来方向:融合外部素材库与人机协作机制,延伸至论文审稿、科普写作等科研全流程 [25][27] 生成案例展示 - 典型输出:包含差分隐私分析表格(DP-CutMixSL)和神经切线核理论(TNTK)等专业内容的标准化排版 [29][34][37] - 可视化效果:相比竞品能更清晰传达核心论点,文字密度降低30%同时保持关键数据完整性 [20][21]
10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制
机器之心· 2025-06-05 15:14
大模型强化学习中的熵塌缩问题 - 强化学习核心挑战在于利用-探索权衡,策略熵反映动作选择不确定性,传统方法通过正则化调控熵 [4] - 大语言模型训练中策略熵在几步内急剧下降至接近零,导致探索能力缺失和性能停滞,定量分析显示下游性能R与策略熵H符合指数关系R = -a exp(H)+b [4] - 在Qwen、Mistral、LLaMA和Deepseek等模型家族中验证熵塌缩现象,表明熵耗尽时性能上界确定,单纯增加算力收益有限 [7] 熵与协方差关系机制 - 策略熵单调递减的机制源于动作对数概率与logit变化的协方差,高优势度高概率动作降低熵,高优势度罕见动作增加熵 [13] - 实验显示训练初期高协方差推动熵减,后期协方差虽降低但仍维持正值持续压制熵 [13] - 传统熵/KL正则化方法在大模型中效果微弱,需针对性设计新方案 [16] 熵增强化学习方案 - 提出Clip-Cov与KL-Cov两种方法,通过限制高协方差token更新步长控制熵,Clip-Cov随机冻结部分高协方差token梯度,KL-Cov调整KL散度计算方式 [17][22] - 实验证明新方法可主动调节熵水平,在Qwen2.5-32B上实现6.4%性能提升,AIME24/25数据集提升达15% [22] - 训练动态显示新方案能维持熵值稳定并延长输出长度,突破低熵陷阱 [24] 理论与应用价值 - 发现类似Scaling Law的利用-探索曲线规律,可从小模型推演大模型性能并早期预测结果 [7] - 熵动力学理论为理解LLM强化学习底层机制提供新视角,推动算法优化 [24] - 后训练阶段算力投入增加背景下,突破熵瓶颈是实现强化学习规模化发展的关键 [24]
刚刚,新一届ACM博士论文奖正式公布
机器之心· 2025-06-05 15:14
机器之心报道 编辑:张倩、+0 近日,新一届 ACM 博士论文奖正式公布。 该奖项每年颁发给计算机科学与工程领域最佳博士论文的作者。今年颁发的是 2024 年的奖项,包括一个博士论文奖和两个博士论文奖荣誉提名。 获得博士论文奖的论文非常有现实意义,它研究的是:现在心理健康问题越来越多,但专业心理医生不够用,怎么办? 我们知道,在 DeepSeek 等 AI 模型火起来之后,很多人都把 AI 当成了心理医生。但很多时候,AI 并不能像真正的心理治疗师一样提供专业指导。或许,「人机 协作」是条更现实的折中路线。 在论文中,获奖作者 Ashish Sharma 探索了多种方法来实现更好的人机协作。他的方法类似于: 他最近开发的 AI 辅助心理健康工具已被公开发布,并有超过 16 万用户使用,其中大多数是低收入人群。使用这些工具的人群中,超过 50% 的家庭年收入低于 4 万美元。 除了这篇论文,还有两篇论文获得了博士论文奖荣誉提名,其中一篇研究的问题是「利用伪随机分布揭示低复杂度计算模型的固有计算局限性」;另一篇则专注 于「大型语言模型如何利用它们在训练时学习到的海量文本数据」。 随着全球心理健康问题激增,医疗保健 ...
重磅!2025智源大会完整日程公布——全球AI先锋全阵容集结
机器之心· 2025-06-05 12:40
以下文章来源于智源社区 ,作者智源社区 智源社区 . 继承学术出版严谨与系统,兼具新闻报道及时与多元;为内行搭建思想交流媒介,以事实启迪公众对AI认知 2025年 6月6日-7日, 第7届北京智源大会 将以线上+线下联动的形式召开, 4位图灵奖获 得者演讲,30余位AI企业创始人&CEO分享,100余位全球青年科学家报告,两天会议将 密集开展180余场人工智能主题演讲,在思辨与实证的交织中,为 AI 的未来绘制航图。报 名通道已开启 。 北京智源大会倒计时: 1 天 2 0 2 5 北 京 智 源 大 会 完 整 日 程 线下参会地址: 北京中关村国家自主创新示范区展示中心 线上直播链接: https://2025.baai.ac.cn/ 2025智源大会日程: https://2025.baai.ac.cn/schedule 本 届 大 会共计 20场专题论坛 ,180余场精彩报告研讨 6 月 6 日 开幕式及全体大会,大模型产业CEO论坛,NeuroAI:神经智能,自主智能体,AI+理工&医学,AI系统和开源,AI for Industry,类脑大模型, InnoVibe共创场特色活动 6 月 7 日 具 ...
ICML 2025|趣丸研发新型人脸动画技术,声音+指令精准控制表情
机器之心· 2025-06-05 12:40
技术框架与核心创新 - 提出Playmate框架:基于3D隐式空间引导扩散模型的双阶段训练框架,通过解耦面部属性(表情、唇部动作、头部姿态)实现高可控肖像动画生成[3][13] - 创新运动解耦模块:采用自适应归一化策略分离表情与头部姿态参数,其中表情归一化使用全局统计量(μ_δ=Σδ_i,j/MN_i,σ_δ=√Σ(δ_i,j-μ_δ)²/MN_i),头部姿态归一化按身份独立计算(μ_ρ_i=Σρ_i,j/N_i)[18][19] - 引入情绪控制模块:通过Diffusion Transformer Blocks实现情感条件编码,支持权重调节(音频权重w_a=4,情绪权重w_e=6时最优)[22][24] 性能优势与实验结果 - 关键指标领先:在HDTF数据集上FID达19.138(竞品30.484-29.581),FVD为231.048(竞品288.385-306.683),身份一致性CSIM 0.848(竞品0.781-0.840)[28][29] - 唇同步优化:Sync-C分数8.580优于多数竞品(Hallo2为7.754),Sync-D距离6.985接近最优(Sonic为6.549)[28] - 多场景适用性:支持7种基础情绪(Angry/Happy/Surprised等)控制,可生成真实人脸、动画及艺术风格肖像[11][31] 应用场景与行业价值 - 技术应用:已实现音频驱动视频生成(如唱歌场景),支持影视、游戏、社交领域的虚拟角色创作[1][8] - 开源生态:项目代码即将开源,配套提供论文(ICML 2025收录)、GitHub仓库及演示网站[4] - 行业突破:解决现有技术三大痛点——唇同步不准(SyncNet置信度提升12%)、控制灵活性不足(解耦误差降低19%)、情感表达受限(支持7类情绪切换)[12][33] 实现路径与技术细节 - 双阶段训练:第一阶段构建运动序列生成器,第二阶段集成情绪控制器[16] - 特征处理流程:外观特征提取器(VGG19感知损失)+运动提取器(关键点/旋转矩阵)+变形模块+解码器[17] - 扩散模型架构:采用噪声预测损失L_diff=𝔼‖ε-ε̂_θ‖²,通过Wav2Vec2提取音频特征并自注意力对齐[20][23]
真实联网搜索Agent,7B媲美满血R1,华为盘古DeepDiver给出开域信息获取新解法
机器之心· 2025-06-05 12:40
机器之心发布 大型语言模型 (LLM) 的发展日新月异,但实时 「 内化 」 与时俱进的知识仍然是一项挑战。如何让模型在面对复杂的知识密集型问题时,能够自主决策获取外部 知识的策略? 机器之心编辑部 华为诺亚方舟实验室研究团队提出了 Pangu DeepDiver 模型,通过 Search Intensity Scaling 实现了 LLM 搜索引擎自主交互的全新范式,使得 Pangu 7B 模型在开域 信息获取能力上可以接近百倍参数的 DeepSeek-R1,并优于 DeepResearcher、R1-Searcher 等业界同期工作! 论文链接 :https://github.com/pangu-tech/pangu-ultra/blob/main/pangu-deepdiver-report.pdf arxiv 链接: https://arxiv.org/abs/2505.24332 该项研究的主要发现如下:(1)对于复杂信息获取任务,端到端 Agentic RL 训练相比直接蒸馏老师轨迹能更好地实现 Search Intensity Scaling,从而带来平均 10 PCT 效果提升;(2)基于真实 ...