机器之心

搜索文档
6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟惨败垫底
机器之心· 2025-06-08 06:35
大模型高考数学测试表现 - 字节豆包与腾讯元宝以68分并列第一,正确率93% [6][8] - 深度求索DeepSeek和阿里通义分别以63分、62分紧随其后,正确率86%和85% [8] - 百度文心X1 Turbo得分51分(正确率70%),OpenAI o3表现最差仅34分(正确率47%)[10][11] 题目类型分析 单选题(8题/40分) - 豆包、通义、元宝、文心均得35分,DeepSeek得30分,o3仅20分且错4题 [16][17] - o3在基础题出现逻辑混乱,如第2题未给出答案,第5题计算错误 [17] - DeepSeek因OCR识别问题导致第6题无法作答 [22][23] 多选题(3题/18分) - 豆包、DeepSeek、元宝全部满分,通义错1题得12分 [29][31] - 文心X1错2题(含1题未响应),o3未全对且存在单选式作答 [31][33] - 通义因步骤简略导致第11题误选AD,而正确答案为ABC [32] 填空题(3题/15分) - 豆包、DeepSeek、通义、元包均满分,文心X1因第13题取值错误得10分 [34][36] - o3第13题仅答-2、第14题以小数2.44替代分数61/25,共得10分 [36] 技术进展与现存问题 进步 - 国产模型均超及格线(43.8分),较去年显著提升,豆包/元宝正确率达93% [40] - 增加反思能力,如DeepSeek会验证步骤(耗时达15分钟/题) [40] - 推理步骤更完善,多数模型展示完整逻辑链路(除通义外) [41] 问题 - 计算细节错误频发,如符号误判、公式套用错误 [43] - 图形与几何直觉处理不足,如DeepSeek无法识别图表信息 [23][43] - 对题目条件敏感度低,多选题易漏选/误选 [43]
AI 推理成本暴跌,「互联网女皇」 Mary Meeker 从中看到了什么?
机器之心· 2025-06-07 15:00
Mary Meeker的新报告探讨了哪些重要趋势 - Mary Meeker是科技领域著名分析师,曾领导摩根士丹利TMT团队并准确预测多个重大趋势如在线广告超越印刷广告、移动互联网主导地位等 [4][5] - 其2025年发布的《人工智能趋势报告》全面汇总全球AI产业最新进展,剖析AI未来趋势及对全球格局的深远影响 [5] - AI技术重塑世界的速度远超历史任何技术革命,例如ChatGPT在17个月内用户达8亿,增速前所未有 [7] - 领先芯片制造商生态系统的开发者数量从2005年几乎为零激增至2025年约600万,呈现指数级增长 [7] - 美国六大科技公司(苹果、英伟达等)2025年AI相关资本开支超2000亿美元 [7] - 全球互联网普及为AI提供庞大用户基础和数据来源,例如SpaceX的Starlink项目推动AI技术全球普及 [8] - 新兴AI公司(如DeepSeek、Alibaba Qwen)与传统科技公司在创新、产品发布等方面竞争激烈 [8][9] - 中美在AI领域的技术研发、人才争夺和市场份额竞争推动全球AI技术快速发展 [9] AI模型训练成本狂飙,推理成本却暴跌 - 计算AI成本揭示技术发展中的经济压力和可持续性问题,推理成本变化影响行业竞争格局 [10] AI如何重塑物理世界 - AI与物理世界融合加速,已在医疗、教育、金融等领域重塑行业未来 [9] AI让全球互联网用户增长驶入超车道 - 互联网与AI相辅相成,AI技术普及推动用户行为变革,例如ChatGPT快速获客能力 [7][8] AI如何重塑人类生存法则 - AI产业面临双重压力,货币化进程带来新威胁,同时推动产业升级和创新发展 [9]
全球圈粉6000万,被国内粉丝催着上线,PixVerse「国内版」一手实测来了!
机器之心· 2025-06-07 11:59
产品发布与市场反响 - 爱诗科技推出国内版AI视频生成工具「拍我 AI」,该产品为全球热门应用PixVerse的本地化版本,已登陆各大应用商店并提供网页端深度体验[4] - 产品上线前已引发国内用户强烈期待,后台收到大量催上线私信,反映出市场对高质量AI视频工具的需求[2][12] - 海外版PixVerse已积累6000万全球用户,月活达1600万,曾位列美国应用总榜第四并登顶视频类应用榜首[13][14] 产品功能与技术特点 - 提供上百种模板支持一键生成同款视频,大幅降低创作门槛,适合新手用户快速上手[6] - 专业功能包括首尾帧控制、多主体合成、运镜设计、视频重绘等,支持短片及电影级创作[8][30][39][40] - 首创5秒内视频生成速度,实测各项指标拉满时生成时间仍不超过1分钟,显著优于行业水平[44] - 底层模型迭代迅速,从V2到V4.5平均每两月更新一版,国内外版本均搭载最新V4.5模型[45] 市场表现与行业地位 - PixVerse上线30天即实现百万访问量,2024年4月达成88天1000万次视频生成的里程碑[17] - 通过病毒式传播的创意模板实现破圈,典型案例包括科目三舞蹈、吉卜力风格等流行内容[18][24][27] - 在专业创作者群体中建立口碑,用户评价显示其渲染稳定性、动作逼真度及运镜功能显著优于竞品[15] 公司战略与竞争优势 - 采用「好玩+好用」双轨策略:降低普通用户参与门槛,同时满足专业创作者高阶需求[49][50] - 形成用户生态良性循环:普通用户模仿专业作品,专业创作者汲取大众创意灵感[51] - 作为成立仅两年的中国初创公司,在视频生成赛道已具备与OpenAI、谷歌等巨头竞争的实力[17] 行业影响 - 产品国内上线将加剧AI视频生成赛道竞争,为行业树立功能丰富度与生成速度的新标杆[47] - 已验证的全球市场成功模式(6000万用户基础)有望在国内复制,可能改变视频创作生态格局[52]
没想到,最Open的开源新模型,来自小红书
机器之心· 2025-06-07 11:59
机器之心报道 编辑:杨文 迄今为止行业最大的开源力度。 在大模型上向来低调的小红书,昨天开源了首个自研大模型。 该模型名为 dots.llm1,是小红书 hi lab(Humane Intelligence Lab,人文智能实验室)团队研发的文本大模 型。 它的参数不算最大,总参数量 142B,激活参数 14B,是一款中等规模的 MoE(Mixture of Experts)模型, 不过它仍在较小激活量下展现出了良好性能。 具体来说,在激活 14B 参数的情况下,dots.llm.inst 模型在中英文通用场景、数学、代码、对齐任务上的表 现亮眼,与 Qwen2.5-32B-Instruct、Qwen2.5-72B-Instruct 相比具备较强的竞争力。同时与 Qwen3-32B 相 比,在中英文、数学、对齐任务上表现接近。 | | Benchmark (Metric) | | Qwen-2.5 Qwen-2.5 Qwen-3 | | Qwen-3 | | DeepSeek DeepSeek gpt4o dots. 11m1 | | | | --- | --- | --- | --- | --- | --- ...
ACL 2025 | 大语言模型正在偷改你的代码?
机器之心· 2025-06-07 11:59
研究背景 - 大语言模型在代码推荐领域展现出巨大潜力,已成为开发者依赖的智能助手 [7] - 现有大语言模型在代码生成与修改中存在显著的「供应商偏见」问题,例如无明确指令时偏好部分供应商或静默替换用户代码中的目标服务 [7] - 这种偏见式输出违背用户意图,可能引发开发流程失控、技术生态失衡等多重风险 [7] 核心方法 - 构建自动化数据集:覆盖30个真实应用场景,包含145个子功能需求,以Python为主 [14] - 服务采集:为每个场景手动收集至少5个第三方服务/API,提取服务特征用于后续标注 [14] - 任务分类:构建6类代码任务,包括代码生成任务和5类代码修改任务 [14] - 利用GPT-4o生成初始代码并模拟真实开发中的代码缺陷,构建含错误代码的输入提示 [15] 模型评估与偏见量化 - 评估7个主流大语言模型(GPT-3.5-Turbo、GPT-4o等),花费约5亿个token,采集59万条有效响应 [16] - 使用基尼系数(GI)衡量代码生成任务中供应商偏好集中度,取值0-1,值越高表示越倾向特定供应商 [17] - 使用修改率(MR)计算代码修改任务中服务修改的比例,取值0-1,值越高表示越倾向修改代码使用的服务 [17] 实验结果与数据分析 - 代码生成任务中,大语言模型系统性偏向特定服务供应商,形成「默认选择霸权」,GI中位数为0.80 [19] - 不同模型偏好不同:例如在「邮件发送」场景中,GPT-4o的生成结果80.40%依赖SMTP服务,而Llama-3.1-405b只有19.70% [21] - 代码修改任务中,共识别出11,582个服务修改案例,Claude-3.5-Sonnet的MR最高 [23] - 大语言模型最容易将服务供应商替换为谷歌,原始供应商为微软的修改案例占比最大 [25] 风险与后果 - 市场层面:大语言模型的偏见可能被操纵以提高特定提供商的服务曝光度,加剧市场不公平竞争并催生数字垄断 [27] - 用户层面:静默替换代码中的服务损害用户自主决策权,增加项目开发成本,削弱用户对大语言模型的信任 [27] 局限性 - 数据集覆盖范围有限:30个场景不能完全覆盖现实多样场景,实验主要聚焦于Python代码 [28] - 无法访问大语言模型的预训练数据和训练流程,暂时无法对偏见的具体来源与形成原因进行深入分析 [32] 结论与展望 - 首次系统研究大语言模型代码推荐中的供应商偏见,发现其对特定供应商表现出显著偏好,甚至静默修改用户代码中的服务 [30] - 未来需拓展至更多编程语言和垂直领域,开发更丰富评估指标与基准以全面衡量供应商偏见与公平性 [31]
类R1训练不再只看结果对错!港中文推出SophiaVL-R1模型
机器之心· 2025-06-06 17:36
模型训练范式革新 - 传统R1训练范式仅通过结果对错进行奖励,导致模型可能通过捷径答题而非建立正确思考策略 [1][2] - SophiaVL-R1引入「思考奖励」机制,评估推理过程的合理性、连贯性和可靠性,提升模型泛化能力 [3][7] - 该机制通过构建思考评分数据集和训练评分模型,对推理过程进行多维度量化(如逻辑缜密性评分0.3 vs 0.9) [10][11] 技术突破与算法创新 - 采用Trust-GRPO算法解决奖励欺骗问题,通过对比正误答案的思维奖励可信度,动态调整奖励权重 [17][18] - 消融实验显示:去除Trust-GRPO或思考评分模块会导致性能下降(如MathVista得分从71.3降至70.2或68.4) [22][23] 性能表现与行业影响 - SophiaVL-R1-7B在MMMU(61.3)、MME(2403.8)、MathVista(71.3)等基准测试中超越参数量10倍的LLaVA-OneVision-72B(56.8/2261.0/68.4) [5][20][21] - 训练效率显著提升,思考奖励机制加速收敛且稳定训练过程 [23] - 模型及代码已开源,推动多模态推理领域技术共享 [8]
刚刚,智源全新「悟界」系列大模型炸场!AI第一次真正「看见」宏观-微观双宇宙
机器之心· 2025-06-06 17:36
AI技术发展趋势 - AI技术从理解文字进化到建模世界、操控实体、模拟大脑、解构分子 [1] - 2025年AI领域热点包括DeepSeek R1、OpenAI o3、智能体Manus、英伟达Cosmos世界基础模型等 [2] - 智源大会聚集四位图灵奖得主、三十余位大模型企业创始人及CEO、一百多位青年科学家探讨AI前景 [3] 智源「悟界」系列大模型 - 智源推出全新「悟界」系列大模型,突破虚实边界,向物理AGI迈进 [4] - 「悟界」系列包含原生多模态世界模型Emu3、脑科学模型见微Brainμ、具身智能框架RoboOS 2.0/RoboBrain 2.0、全原子微观生命模型OpenComplex2 [6] - 大模型发展从文图视频主导的数字世界进入物理世界,理解尺度从宏观跨越到微观 [8] 原生多模态世界模型Emu3 - Emu3是全球首个原生多模态世界模型,支持文本、图像、视频、声音、脑信号等多模态统一建模 [12] - 通过新型视觉tokenizer实现多模态同构表征,支持端到端多模态输入输出映射 [14] - Emu3推动AI从单一模态理解向多模态协同跃迁,加速创意生成、智能搜索等应用落地 [14] 脑科学多模态通用基础模型见微Brainμ - 见微Brainμ基于Emu3架构,统一处理MRI、EEG、双光子成像等神经信号,累计处理超100万单位数据 [15] - 支持跨任务、跨模态、跨个体建模,性能超越专用模型,成为神经科学领域的AlphaFold [15] - 具备跨物种能力,兼容人类、小鼠、狨猴、猕猴数据,推动脑机接口技术实用化 [17] 具身智能框架RoboOS 2.0与RoboBrain 2.0 - RoboOS 2.0是全球首个具身智能SaaS平台,支持无服务器轻量化部署,性能提升30%,响应时延压缩至3毫秒以下 [22][24] - RoboBrain 2.0任务规划准确率提升74%,空间推理能力提升17%,新增深度思考与闭环反馈能力 [27][28] - 开源框架降低开发门槛,代码量仅为传统方式的1/10,与全球20多家具身智能企业合作 [24][31] 全原子微观生命模型OpenComplex2 - OpenComplex2突破生命尺度,可预测生物分子静态结构及动态构象分布 [34][35] - 基于FloydNetwork图扩散框架与多尺度原子级精度表示,精准捕捉分子动态特性 [35] - 在CASP16竞赛中唯一成功预测蛋白质T1200/T1300构象分布,推动生物医药研发加速 [36][38] 行业影响与未来展望 - 智源「悟界」系列从语言建模转向世界建模,为多模态、具身智能、AI for Science注入活力 [40] - 四大方向协同布局是认知智能走向具身智能与科学智能的关键一步 [40] - 大模型时代将深入理解与改变世界的系统,不止于提示框 [41]
MoE推理「王炸」组合:昇腾×盘古让推理性能狂飙6-8倍
机器之心· 2025-06-06 17:36
混合专家模型技术突破 - 华为推出昇腾平台原生设计的Pangu Pro MoE 72B模型,显著降低计算开销并在SuperCLUE千亿内模型评测中并列国内第一 [2] - 通过软硬协同优化实现推理性能提升6~8倍,昇腾300I Duo单卡吞吐达321 tokens/s,昇腾800I A2单卡吞吐飙升至1528 tokens/s [3] - 采用分层混合并行(HP)策略,Decode吞吐性能相比纯TP方案提升33.1%,通过模块化分工优化通信效率 [5][6][7] 通信与计算协同优化 - 提出TopoComm优化方案,同步次数降低35%,链路有效带宽提高21%,通信数据压缩25%,AllGather通信耗时降低39% [9] - 开发DuoStream多流融合方案,实现计算与通信细粒度并发调度,解决Expert模块通信瓶颈 [12] - 构建GMMRS与AGMM融合策略,关键通信路径流水掩盖,显著提升硬件资源利用率 [12] 高性能算子创新 - 开发MulAttention融合算子,Attention计算加速4.5倍,数据搬运流水占用率89%,访存带宽利用率87% [16] - 推出SwiftGMM矩阵计算引擎,GMM计算加速2.1倍,解码阶段整网推理时延降低48.7% [18] - 算子优化实现KV缓存搬运效率提升,路由专家权重搬运瓶颈突破 [15][16][18] 推理算法创新 - 专家动态剪枝算法PreMoE保持模型准确率同时提升推理吞吐10%+ [21] - TrimR反思压缩算法通过小模型监测大模型思考过程,推理步数降低14% [22] - SpecReason反思投机算法结合大小模型优势,推理吞吐提升30% [22] 昇腾平台性能表现 - 昇腾800I A2平台4卡部署下,大并发场景单卡吞吐1148 tokens/s,较72B/32B稠密模型提升97%/18%,MTP技术下最高吞吐达1528 tokens/s [24] - 昇腾300I Duo平台4卡部署实现小并发延迟50ms,大并发单卡吞吐201 tokens/s,MTP技术下吞吐最高321 tokens/s,提供高性价比解决方案 [26] - 预填充阶段2卡2路并发实现2k序列输入延迟1.94s,单卡吞吐1055 tokens/s [26]
不愁了!开源智能体Paper2Poster「一键生成」学术海报
机器之心· 2025-06-06 17:12
学术海报自动化工具Paper2Poster - 核心观点:滑铁卢大学、新加坡国立大学和牛津大学联合开发的Paper2Poster系统首次实现从学术论文到海报的全自动生成,通过多智能体协作框架解决信息压缩、多模态融合和版面规划三大挑战 [2][4][7] - 技术突破:提出PosterAgent方法,将任务分解为Parser(解析)、Planner(布局)、Painter-Commenter(绘制优化)三阶段,支持导出可编辑的pptx文件 [8][9][12] - 性能优势:在100篇顶会论文测试中,PosterAgent-Qwen版本以0.005美元/篇的成本实现87%的token效率提升,其开源模型表现超越GPT-4o方案 [21][22][23] 多智能体技术架构 - 解析模块:通过LLM提取论文层次大纲和图表素材,构建结构化素材库,完成文本粗提炼 [14] - 规划模块:采用二叉树算法递归划分版面,匹配图文语义并生成bullet points式要点 [14] - 优化循环:视觉语言模型(VLM)通过区域放大策略进行局部反馈,迭代调整板块设计直至达标 [14] 评估体系与竞品对比 - 四维指标:视觉质量(CLIP相似度0.75)、文本连贯性(PPL值8.31)、整体质量(VLM评分3.72)、论文问答(准确率71.52%)全面量化效果 [15][21] - GPT-4o缺陷:直接生成图像存在文字乱码(PPL达77.13),HTML输出则呈现密集文本(美学评分仅2.9) [17] - 开源优势:PosterAgent-Qwen在信息得分(3.66)和成本($0.0045/篇)上均优于OWL等多智能体方案 [22][24] 应用前景与局限 - 行业影响:开创学术海报自动化新领域,配套开源数据集和评测基准推动科研辅助工具发展 [4][23] - 当前短板:串行优化效率待提升,视觉创意(Engagement评分2.89)仍落后人类设计水平 [24] - 未来方向:融合外部素材库与人机协作机制,延伸至论文审稿、科普写作等科研全流程 [25][27] 生成案例展示 - 典型输出:包含差分隐私分析表格(DP-CutMixSL)和神经切线核理论(TNTK)等专业内容的标准化排版 [29][34][37] - 可视化效果:相比竞品能更清晰传达核心论点,文字密度降低30%同时保持关键数据完整性 [20][21]