Large Language Model
搜索文档
「重要性采样」并不「重要」?快手清华ASPO攻克重要性采样权重错配
量子位· 2025-10-15 18:20
文章核心观点 - 在大语言模型的结果监督强化学习中,传统的重要性采样机制存在权重错配问题,导致模型过度自信、熵坍缩和训练早熟收敛 [2][6][12] - 研究团队提出一种名为ASPO的新算法,通过不对称翻转正样本的重要性采样权重,有效解决了上述问题 [3][18][19] - 实验证明ASPO在数学推理和代码生成任务中性能显著提升,训练过程更稳定 [24][26] 重要性采样问题分析 - 在GRPO类算法中,重要性采样不仅未带来分布修正好处,反而成为训练不稳定的元凶 [6][7] - 移除重要性采样权重后,模型最终准确率无差异,但训练曲线更平滑稳定,熵值下降速度放缓,重复率降低 [7] - 权重错配表现为正优势token的平均重要性采样权重高于负优势token,导致模型陷入自我强化循环和局部最优 [9][12][14] ASPO算法核心机制 - 对正优势token的重要性采样权重取倒数,使低概率token获得更强更新,高概率token被适当削弱 [18][19][22] - 引入Dual-Clipping机制裁剪翻转权重后导致的极端值,限制不稳定因素同时保留有效梯度流动 [20][21] - 梯度分析显示ASPO使梯度与token概率倒数成正比,增大了低概率token的学习力度 [22] 实验性能结果 - 在数学推理基准测试中,ASPO-Math-1.5B模型平均得分达59.3,优于对比模型如Nemotron-1.5B的58.7和FastCuRL-1.5B-V3的57.7 [24][25] - 在代码生成基准LiveCodeBench上,ASPO-Code-1.5B达到31.5 avg@8和47.0 pass@8的成绩,显著高于DeepSeek-R1-1.5B的17.0 avg和29.0 pass@8 [25][26] - 整体性能提升明显:数学任务平均性能提升12.5%,代码生成任务平均性能提升17.0% [26] 训练动力学优势 - ASPO训练曲线更平滑稳定,无显著熵坍塌现象 [26][27] - 模型输出重复率更低,KL散度与Clip Ratio保持稳定 [27] - 熵下降更平缓,避免了传统算法中的熵坍缩问题 [27]
Google AI 今年最大王炸,测试曝光直接复刻 macOS,比GPT-5更值得期待
36氪· 2025-10-15 17:29
产品发布与测试状态 - 更强大的Gemini 3 0已在Google AI Studio的测试中提前上线[1] - 目前关于Gemini 3 0的爆料测试均通过Google AI Studio网页端的随机A B测试完成 用户需平均重复查询50次才有可能触发[46][47] - Google AI Studio首页近期进行了更新 添加了API数据统计等功能 被推测是在为Gemini 3 0的正式上线做准备[50] - 根据泄露的内部项目追踪文件 Gemini 3 0的发布日期可能与2025年10月22日的营销里程碑对齐[52] 核心能力表现 - Gemini 3 0在编程能力上展现出显著提升 能根据简单提示词直接生成功能完整的网页版操作系统 如macOS和Windows 且生成的应用可交互[1][6][7] - 在相同的智能体编程任务测试中 Gemini 3 0的表现被指有超越Claude Sonnet 4 5和GPT 5的趋势[3] - Gemini 3 0生成的代码不仅能直接运行 其前端设计也更成熟 摆脱了AI模型中常见的渐变紫风格 审美获得提升[1][9][21] - 该模型具备工具调用能力 即智能体功能 已得到Google AI Studio负责人的确认[3] - 在处理复杂编程任务时 Gemini 3 0的推理速度约为1至2分钟[8] 具体应用案例 - 模型能够生成单一HTML文件的网页视频编辑器 并且可以正常工作[24] - 可生成无限流刷视频的抖音App网页版[24] - 能够生成原创音乐以及带有原创配乐的小游戏[44] - 通过了如生成骑自行车鹈鹕的SVG动画 六指测试 手写文档内容准确提取等多种基准能力测试[25][32][35][37] 行业竞争格局 - 大语言模型在基础能力上仍有提升空间 行业竞争焦点持续集中在编程等核心能力的突破上[1][3][53] - OpenAI凭借庞大的用户基础和ChatGPT收集的海量数据 近期持续推出多项应用以巩固用户群体[53] - Claude在编程领域保持领先地位 并按其计划推进基础模型更新 同时注重安全方面的研究[53] - Google通过此前nano banana在图像编辑领域的成功 为Gemini系列赢得了市场关注 目前正试图在编程等领域实现追赶和超越[53]
企业在院校设奖学金,不能简单地理解为“抢人”
南方都市报· 2025-10-15 08:00
项目概述 - 腾讯全面启动青云奖学金项目,重点关注人工智能领域的基础研究与应用创新 [1] - 项目面向中国大陆及港澳台地区院校就读、具有中国国籍的硕士或博士生 [1] - 首期预计评选15位获奖者,每位将获得总价值20万元现金奖励及价值30万元的云异构算力资源 [1] - 获奖者有机会进入公司实习或就业 [1] 项目背景与行业趋势 - 多位顶尖AI专家(如杨立昆、李飞飞、理查德·萨顿)认为当前大型语言模型缺乏对物理世界的理解和真正推理能力,离人类水平智能尚远 [2] - 行业共识认为人工智能发展需要颠覆性创新,而青年学者最有可能实现此类突破 [2] - 公司设立奖学金旨在发现拥有前瞻性科研视野的青年人才,以应对AI领域的根本性挑战 [2] 青年学者面临的挑战 - 人工智能研究,特别是大模型领域,对硬件算力要求极高,导致资金需求巨大 [3] - 全球GPU因AI爆发式发展及区块链等需求而供不应求,价格高昂 [3] - 许多课题组GPU资源匮乏,学生需自购显卡或依赖需要经费的云算力平台 [3] 项目资源支持的意义 - 奖学金提供的30万元云异构算力资源约可支持3个月前沿GPU实例24小时不间断使用,缓解青年学者的算力瓶颈 [4] - 企业科研人员获奖案例增多(如2025年诺奖得主玛丽·布伦科),表明企业支持对前沿科研至关重要 [4] - 通过提供资源与岗位,企业可能助力中国未来获得诺奖级成果 [4] 企业战略与社会效益 - 企业设立奖学金是履行社会责任、获取人才、发现前瞻性技术路线的多赢举措 [4] - 此类项目有助于公司提前布局可能引领未来的颠覆性AI创新 [2][4]
大模型追逐星辰大海,GPT和Gemini国际天文奥赛夺金
机器之心· 2025-10-13 12:21
大模型在天文奥赛中的卓越表现 - 大型语言模型在国际天文学和天体物理学奥林匹克竞赛中取得金牌级别的成绩,展示了其在复杂科学推理方面的强大能力 [4][5] - GPT-5和Gemini 2.5 Pro两大模型在IOAA基准测试中表现最为突出 [4][12] 评测框架与方法论 - 研究选择IOAA试题作为基准,因其具备更高的生态有效性,能考查复杂推理、创新性问题求解以及多步推导能力 [9][10] - 评估涵盖理论问题(共49个)和数据分析问题(共8个),排除了观测部分 [10] - IOAA题目覆盖广泛的天文主题,包括宇宙学、球面三角、恒星天体物理等,保证了评测的全面性 [10] 理论考试表现 - GPT-5在理论考试中的总体平均得分为84.2% ± 6.1%,Gemini 2.5 Pro为85.6% ± 8.0% [12] - GPT-5在2022年(93.0%)、2023年(89.6%)和2025年(86.8%)的理论考试中取得最高分 [13] - 模型在物理/数学类问题上的表现(准确率67-91%)明显优于几何/空间类问题(准确率49-78%) [24][26] 数据分析考试表现 - GPT-5在数据分析部分的平均得分为88.5% ± 12.6%,高于其理论考试表现 [12][16] - GPT-5在数据分析考试中展现出更强的多模态理解能力,尤其在图像解析和绘图推理方面错误率显著更低 [16] 与人类参赛者的对比 - 大多数大型语言模型的表现超过IOAA金牌门槛,GPT-5在2022、2023与2025年的表现优于当届最佳学生 [17][18] - 在2025年理论考试中,GPT-5得分相对于中位数的比例为443%,排名第一 [19] - 在2023年数据分析考试中,GPT-5得分为100%,相对于中位数的比例为250%,排名第一 [21] 错误分析与能力局限 - 最普遍的错误类型是概念性错误,反映了不正确的处理方法、公式误用和推理缺陷 [26] - 几何或空间推理是第二大错误来源,模型在球面三角学、计时系统和3D可视化方面尤其吃力 [26] - 在数据分析考试中,主要的故障模式包括绘图和图表/图像阅读,计算错误也比理论考试中更常见 [26]
真够卷的!DeepSeek更完智谱更:GLM-4.6,代码国内最强
量子位· 2025-09-30 16:26
模型性能提升 - 代码能力在74个真实场景编程任务测试中超过Claude Sonnet 4,成为国内最强[5] - 在AIME 25、GPQA等八大通用能力评测榜单中大部分对齐Claude Sonnet 4,位列国内第一[6] - 平均token消耗比GLM-4.5节省30%以上,为同类模型最低[8] - 上下文窗口由128K扩展至200K,适应更长的代码和智能体任务[28] 实测能力展示 - 代码生成速度快,不到一分钟即可生成一个射击类小游戏[14] - 能够创建多彩的可交互动画,并实现鼠标点击交互效果[16][18][19] - 能处理涉及重力、摩擦力和逼真反弹的经典物理编程题目[20][22] - 数学能力方面,能正确解答AIME 2025试题,并展示了识图的多模态能力[24][25] 国产芯片适配与部署 - 在寒武纪国产芯片上实现FP8+Int4混合量化部署,是国产芯片首次真正落地的FP8+Int4模型芯片一体化方案[27] - 在摩尔线程新一代GPU上,借助vLLM推理框架,能用原生FP8精度稳定运行GLM-4.6[30] - 模型与国产芯片的组合通过智谱MaaS平台正式对企业和大众开放服务[32] 成本与市场策略 - 推出GLM Coding Plan,最低20元包月套餐,以Claude 1/7的价格提供其9/10的智商水平[34]
Shanghai Synyi Medical Technology Co., Ltd.(H0050) - Application Proof (1st submission)
2025-09-30 00:00
公司概况 - 公司为上海森亿医疗科技股份有限公司,2016 年 4 月 25 日成立为有限责任公司,2025 年 9 月 23 日转变为股份有限公司[2][154] - 公司股份面值为每股人民币 1 元,包括非上市股份和 H 股[187] 业绩总结 - 2022 - 2024 年公司收入和客户数量复合年增长率为 42%,毛利润复合年增长率为 67%,运营亏损改善 79%,毛利率为 39%[50] - 公司营收从 2022 年的 1.437 亿人民币增长 66.3%至 2023 年的 2.391 亿人民币,2024 年进一步增长 22.1%至 2.919 亿人民币[83] - 2024 年 6 月 30 日止六个月到 2025 年同期,公司营收从 9110 万人民币增长 23.3%至 1.123 亿人民币[83] - 2022 - 2025 年各阶段的毛利润及利润率:2022 年毛利润为 3870 万元,利润率 26.9%;2023 年为 7280 万元,利润率 30.4%;2024 年为 1.084 亿元,利润率 37.1%;2024 年上半年为 5060 万元,利润率 55.6%;2025 年为 4370 万元,利润率 38.9%[114] - 2022 - 2024 年及 2024 和 2025 上半年亏损分别为 3.758 亿元、3.521 亿元、2.069 亿元、1.03 亿元和 9745.5 万元[104] - 2022 - 2024 年及 2024 和 2025 上半年调整后亏损分别为 2.283 亿元、1.407 亿元、5027.4 万元、2375.4 万元和 2174.9 万元[108] 用户数据 - 截至 2025 年 6 月 30 日,公司服务超 750 家医院,其中超 400 家大型医院,赋能超 800 家客户[44][48] - 2025 - 2025 年 6 月每月 AI 评估超 2300 万次,通过临床决策支持系统服务患者超 3700 万[50] - 2022 - 2025 年 6 月,公司客户数量分别为 121、179、244、83 和 134 个[83] 未来展望 - 全球医疗支出预计从 2024 年的 70.0 万亿元增至 2030 年的 84.4 万亿元,中国从 9.7 万亿元增至 13.2 万亿元,复合年增长率为 5.2%[53] - 全球医疗 AI 解决方案市场预计从 2024 年的 400 亿元增至 2030 年的 906 亿元,中国从 164 亿元增至 353 亿元,2024 年和 2030 年分别占全球的 41.0%和 39.0%[54] - 预计到 2030 年,全球 L3 阶段医疗 AI 解决方案市场将达 108 亿元,中国达 70 亿元;L4 阶段全球市场预计到 2030 年达 8 亿元[54] - 预计未来平均现金消耗率为 600 万元人民币/月[124] 新产品和新技术研发 - 公司核心技术 Synapse 由前沿 AI 算法、医学知识工程和异构数据治理构成,形成技术飞轮[65] - 公司开发覆盖 L1 到 L4 阶段的全栈技术框架,已商业化部署 L1 - L3 阶段解决方案[76] - 截至 2025 年 6 月 30 日,公司研发团队有 137 名员工,平均工作经验 8 年[93] - 2022 - 2024 年及 2025 年上半年研发成本分别为 1.359 亿、0.984 亿、0.63 亿和 0.223 亿元人民币,分别占同期总收入的 94.6%、41.2%、21.6%和 19.8%[93] - 截至最后实际可行日期,公司拥有 38 项注册专利(含 36 项发明专利)、10 项待申请专利和 436 项软件著作权[97] 市场扩张和并购 - 2025 年上半年公司在沙特阿拉伯建立全球首个 AI 诊所试点[75] 其他新策略 - 公司的增长策略包括加强大语言模型和代理 AI 的研发应用、拓展海外市场等[87] - 计划到 2027 年实现 90%的交易管理自动化[88] - 到 2025 年优化三级医院管理[88] - 公司采用项目制收入模式,特定合同期内免费维护,后续收取维护和升级服务费,重大升级单独计费[92]
Prediction: Wall Street's Most Valuable Public Company by 2030 Will Be This Dual-Industry Leader (No, Not Nvidia)
The Motley Fool· 2025-09-28 15:06
文章核心观点 - 一家历史估值低廉的万亿美元市值公司拥有必要的催化剂,有望在2030年前超越英伟达、苹果和微软,成为华尔街最有价值的上市公司 [1][5][14] - 尽管英伟达目前在人工智能领域占据主导地位,但其作为市值最高公司的地位面临历史先例和竞争威胁的挑战 [6][9][10] - 亚马逊凭借其电子商务的领先地位、高利润的云服务AWS以及广告和订阅服务,结合其历史低估值,最有可能在2030年成为市值第一的公司 [14][16][21][22] 万亿美元市值公司概况 - 历史上仅有11家上市公司达到过1万亿美元市值,其中10家在美国交易所上市,包括“七巨头”所有成员、博通、台积电和伯克希尔·哈撒韦 [3] 英伟达的现状与挑战 - 截至9月24日收盘,英伟达市值超过4.3万亿美元,是首家达到4万亿美元市值的公司,最乐观的分析师认为其估值可能超过6万亿美元 [6] - 英伟达的优势在于其作为企业数据中心AI GPU领导者的主导地位,其Hopper、Blackwell和Blackwell Ultra三代AI芯片需求旺盛且订单积压严重 [7][8] - 英伟达面临的风险包括:过去三十年的每一个新趋势在其发展早期都经历了泡沫破裂事件;企业目前远未优化AI解决方案或从其AI投资中获得正回报 [10][11] - 英伟达的许多大客户正在开发自研AI GPU用于其数据中心,这些芯片建造成本更低、更易获取,可能侵蚀英伟达的竞争优势 [12] 亚马逊的竞争优势 - 亚马逊的电子商务部门占美国在线零售额的37.6%,其领先地位稳固,但相关运营利润率极薄 [15] - 亚马逊云服务AWS是全球云基础设施支出的领导者,第二季度市场份额为32%,几乎相当于微软Azure和谷歌云的市场份额总和 [17] - AWS在剔除汇率影响后同比增长率保持在十几个百分点,生成式AI解决方案和大型语言模型能力有望进一步提升其增长率 [18] - 截至第二季度,AWS年化收入运行率超过1230亿美元,尽管其净销售额占比不到19%,但在2025年上半年贡献了公司近58%的运营利润 [19] - 亚马逊的广告服务因其网站每月吸引数十亿用户而拥有卓越的定价能力,订阅服务则通过与NFL和NBA的独家流媒体合作以及Prime会员福利获得定价权 [20] 亚马逊的估值分析 - 从2010年到2019年,亚马逊的年末估值介于过去12个月现金流的23至37倍之间 [21] - 根据华尔街共识,亚马逊的每股现金流预计将从2024年的11.04美元增长至2029年的27.52美元,这意味着其基于2029年预期现金流的估值仅为8倍 [21][22] - 基于此,亚马逊的市值可以合理地从当前水平增加2.5万亿至4万亿美元,并且仍将显著低于其在2010年代的平均现金流倍数 [22]
视远·正心明智——机器之心2025年度AI榜单正式启动
机器之心· 2025-09-26 11:31
人工智能技术发展 - 大模型快速迭代 几乎每天都有新的突破性模型和训练方法登场[3] - GPT-4.5到GPT-5、Genie 3等模型在理解、生成、推理能力上不断突破[4] - 模型能力进步催生新应用形态 包括代码生成领域自动完成复杂程序编写和智能体领域自主完成多步骤任务[4] 中国人工智能进展 - 国产大模型性能逐步逼近甚至领先国际水平[4] - 开源生态展现强劲势头 Design Arena排行榜前15名开源AI模型全部来自中国[4] - 中国人工智能发展在2025年表现更加精彩[4] 年度评选榜单体系 - 最强技术实力企业TOP10评选标准包括长期技术研发布局、领先技术储备和人工智能技术在核心业务中的关键作用[7] - 人工智能领军企业TOP20要求企业在技术研发、落地应用和商业模式等方面构建完整运营能力[8] - 最佳大模型TOP20评选国内有代表性且实力强大的基础大模型[9] - 最佳大模型产品TOP20聚焦国内最有价值的大模型产品与应用[10] - 具身智能领军企业TOP10评选具备系统性技术布局与持续创新能力的企业[12] - ScienceAI领军企业TOP10关注人工智能与其他学科的交叉领域应用[13]
阿里巴巴(09988)正式推出其迄今为止规模最大、能力最强的模型 Qwen3-Max
智通财经网· 2025-09-24 11:07
模型性能与排名 - Qwen3-Max-Instruct预览版在LMArena文本排行榜上位列第三 超越了GPT-5-Chat [1] - 正式版本在代码能力和智能体能力方面进一步提升 在涵盖知识、推理、编程、指令遵循、人类偏好对齐、智能体任务和多语言理解的全面基准测试中均达到业界领先水平 [1] - Qwen3-Max-Thinking推理增强版本在AIME 25、HMMT等高难度推理基准测试中取得100%准确率 [1] 模型规模与技术参数 - Qwen3-Max模型总参数超过1T(万亿)[1] - 预训练使用了36T(万亿)tokens [1] - 模型结构沿用了Qwen3系列的模型结构设计范式 使用了global-batch load balancing loss技术 [1] 技术特性与创新 - Qwen3-Max-Thinking版本集成代码解释器并运用并行测试时计算技术 [1] - 该模型是阿里云通义千问迄今为止规模最大、能力最强的模型 [1] - 模型作为Qwen3-2507系列的后续升级版本推出 [1]
Trump Brings in Oracle to Manage the TikTok Algorithm in US
Youtube· 2025-09-23 01:03
TikTok交易结构与关键方 - 甲骨文将作为公开上市实体牵头收购TikTok并与多家私人投资者共同拥有TikTok [1] - 交易涉及TikTok算法将被重写或由甲骨文授权使用算法此前一直是谈判的难点 [1] - 甲骨文已在其数据中心托管TikTok数据技术基础设施部分已准备就绪 [1] - 交易完成后TikTok将由美国实体和基于美国的私人投资者拥有甲骨文将在运营中扮演关键角色包括重新训练一套从字节跳动租赁的算法副本 [3] - 交易法律复杂性在于美国法律强制要求TikTok出售给美国所有者但禁止字节跳动参与运营中国法律则禁止算法等敏感技术出口 [10][11] 甲骨文公司治理与战略定位 - 甲骨文宣布首席执行官Safra Catz将由两位联合首席执行官接任此次领导层变更是向更年轻管理层过渡 [3][4][5] - 新任联合首席执行官之一目前负责甲骨文云基础设施该部门正是TikTok交易以及公司当前所有人工智能合作的技术支撑 [5] - 甲骨文处于非常强势的市场地位尤其通过其云基础设施业务抓住了人工智能领域的合作机遇 [4][5] 行业竞争格局与AI战略转向 - TikTok的不确定性使部分用户和内容创作者转向替代平台如YouTube、Instagram和Snapchat [6][7] - 行业竞争焦点已从推荐算法优劣转向基于自有数据训练大语言模型的能力例如OpenAI利用开放互联网数据Meta利用社交网络数据开发大模型 [7][8] - 规模较小的参与者如Snapchat尽管可能获得用户参与度增长但缺乏基于自身数据训练大语言模型的基础设施处于竞争劣势 [8][9] - 市场期望美国版TikTok能专注于利用其视频数据训练专属大语言模型但多方投资者参与可能导致战略更侧重于短期盈利和投资回报而非长期产品构建 [9][10][14]