人工智能大模型
搜索文档
“大模型第一股”鸣枪起跑,智谱、MiniMax押宝各异
21世纪经济报道· 2025-12-18 21:45
公司上市进展 - 智谱与MiniMax于12月17日同日传出通过港交所聆讯的消息,正紧锣密鼓地抢抓上市时点,争夺“大模型第一股”的头衔 [1] - 两家公司属于本轮AI大模型的第一波IPO阵营,其招股书尚未披露 [1] - 智谱是国内收入规模最大的独立大模型厂商 [1] - MiniMax年度经常性收入已达1亿美元级别,其中约三分之二来自C端 [1] 公司背景与创始人 - 智谱成立于2019年,由清华大学技术成果转化而来,团队早期启动大模型研发,原创性提出基于自回归填空的通用预训练范式GLM [2] - 智谱创始人团队低调务实,强调“自主可控”,技术出身,倾向于将公司定位为“中国的OpenAI” [2] - MiniMax创始人闫俊杰从中科院自动化所博士毕业后进入商汤科技,七年时间做到副总裁,于2021年离职创业 [2] - 闫俊杰信奉“第一性原理”,认为真正的AGI必然是多模态的,因此MiniMax确立了文本、语音、视觉全模态并行的策略 [2] 技术路径与产品 - 智谱选择深耕文本基座模型,其核心是GLM系列,2025年推出的GLM-4.5/4.6模型在多项权威评测中综合排名国内第一、全球开源第一 [3] - 智谱的编码能力在全球百万用户盲测的Code Arena竞技场上,与Anthropic、OpenAI的模型并列全球第一 [3] - 智谱的智能体模型AutoGLM能从“对话”走向“执行”,模拟人类在应用与网站中的操作行为 [3] - MiniMax选择全模态战场,产品矩阵覆盖文本、语音、视频、音乐 [4] - MiniMax的文本模型MiniMax-M2在权威测评中冲入全球前五,语音模型Speech02系列在国际榜单中登顶全球第一,视频模型“海螺”系列以高动态表现和低成本著称,音乐模型Music 2.0能精准捕捉人声情绪 [4] 商业模式与市场 - 智谱的收入支柱是B端的模型调用与企业服务,其MaaS平台聚集了超过270万企业及开发者客户,国内前10大互联网公司中有9家在使用智谱GLM大模型 [3] - 智谱通过服务大厂,间接覆盖海量C端场景,构成“To B再To C”的收入基本盘 [4] - MiniMax的商业模式以全球付费订阅和模型调用收入为主,推出了面向C端用户的AI原生应用,如海外社交产品Talkie、创作工具海螺AI、音频工具MiniMax Audio等 [4] - MiniMax的产品在全球超200个国家及地区已拥有超2.12亿用户,并覆盖超100个国家和地区的企业客户与开发者 [4] 竞争策略与生存之道 - 在字节、阿里、腾讯等巨头环伺的竞争格局中,真正留在牌桌上做通用基座模型的创业公司已所剩无几 [5] - 智谱选择深耕基座模型,尤其是企业刚需的编码与推理能力,构建服务于开发生态与大型企业的壁垒 [5] - 智谱的生存之道包括“被集成”,让自己成为中国互联网基础设施的一部分,作为大厂之间竞争所需的中立、强大的第三方基座模型补充 [5] - MiniMax的生存之道是“出海”与“避其锋芒”,因国内C端付费意愿低且大厂竞争激烈,故将目光投向海外市场 [5] - MiniMax用更少的资金做出了与国外领先模型差不多的效果,这种极致的ROI是其敢于在C端烧钱获客的关键 [5] 行业意义与发展路径 - 智谱与MiniMax的IPO节奏折射着我国AI创业大航海时代的结束,深水区博弈的开始 [6] - 两家公司为AI创业企业提供了两条清晰的发展路径:一条是深耕基座模型,凭借技术深度服务B端并融入产业生态;另一条是押注多模态技术,依托产品创新直达C端并布局出海竞争 [6]
“大模型第一股”要来?
证券时报· 2025-12-18 17:09
聆讯与市场传闻 - 有消息称智谱AI与MiniMax(稀宇科技)两家AI大模型公司已通过港交所聆讯,但两家公司均对此不予置评 [1][2] 智谱AI公司概况与业务 - 公司成立于2019年,由清华大学计算机系技术成果转化而来,属于大模型“六小虎”之一 [3][4] - 公司合作研发了千亿级预训练模型GLM-130B,并基于此推出了对话模型ChatGLM、开源模型ChatGLM-6B,以及AIGC产品矩阵,包括智谱清言、CodeGeeX、CogVLM和CogView等 [4] - 公司面向开发者的软件工具和模型业务(GLM coding plan)年度经常性收入已超过1亿元人民币(约1400万美元) [4] - 公司预计2025年总营收将实现100%以上的增长 [4] - 公司正在推动营收结构多元化,从政企客户转向开发者,目标是使API业务收入占比提升至一半 [4] - 公司API业务平台目前服务于超过270万付费客户,其中包括一些中国最大的科技公司 [4] - 公司于今年9月推出AI编码工具订阅计划,每月收费低至20元人民币,约为Anthropic的Claude价格的七分之一 [5] 智谱AI融资情况 - 截至目前,公司已完成17轮融资 [5] - 最新一轮融资发生在今年7月,获得浦东创投集团和张江集团联合战略投资,总额10亿元人民币 [5] - 今年3月,公司获得杭州城投、上城资本、华发集团、成都高新区等多轮战略投资 [6] - 2024年,公司吸引了高瓴创投、腾讯投资、招商局创投、红山中国、顺为资本、蚂蚁集团等多个明星资本参与投资 [7] MiniMax公司概况与业务 - 公司成立于2021年,技术实力和融资能力突出 [8][9] - 公司自主研发了多模态通用大模型系列,包括MiniMax M2、Hailuo 2.3、Speech 2.6和Music 2.0,具备强大的代码、Agent能力及超长上下文处理能力,能理解、生成并整合文本、音频、图像、视频和音乐等多种模态 [9] - 公司面向全球推出AI原生产品,包括MiniMax Agent、海螺AI、MiniMax Audio、星野等,以及面向企业和开发者的开放平台 [9] - 公司的MiniMax M2模型在全球权威测评榜单Artificial Analysis上,总分进入全球前五、开源第一,跻身全球文本模型第一梯队 [10] MiniMax融资情况 - 公司投资人阵容强大,包括阿里巴巴、明势创投、高瓴创投、腾讯投资、IDG资本等多家知名机构 [10] - 今年7月,公司完成C轮融资,投资方为上海国资母基金,融资金额近3亿美元,此轮融资后估值达40亿美元 [10]
“蚂蚁阿福”超半数用户来自三线以下城市
第一财经资讯· 2025-12-16 14:44
蚂蚁集团AI健康业务升级与市场动态 - 蚂蚁集团将旗下AI健康应用“AQ”正式升级为“蚂蚁阿福” [2] - 蚂蚁集团将原“数字医疗健康事业部”升级为“健康事业群”,医疗健康业务成为其战略支柱板块 [3] 用户数据与市场渗透 - “蚂蚁阿福”过去半年月活用户已超1500万,其中约55%的用户来自三线以下城市 [2] - 目前全国已有500多位名医在“蚂蚁阿福”上开设了“AI分身”,这些“AI医生”已累计解答2700多万个健康咨询 [2] - 在咨询段涛医生“AI分身”的用户中,有24%是男性 [2] 行业趋势与市场机遇 - 伴随AI技术发展,线上问诊平台正成为“高频用户”的流量入口,旨在将低频医疗行为变为高频健康咨询 [2][3] - 机构预测2025年中国大健康产业市场规模将突破20万亿元人民币,AI健康管理等应用有望迎来历史性机遇 [3] - 互联网科技公司正积极争夺数据入口,一方面与医院合作抢占医院端入口,另一方面抢占患者端入口 [3] 技术发展与竞争格局 - 用户咨询数据有助于平台训练更好的人工智能大模型,大模型能力被视为争夺的技术制高点和未来深度场景变现的关键 [4] - AI医疗赛道融资活跃,例如若生科技完成Pre-A+轮融资,商汤医疗完成数亿元新一轮战略融资,投后估值超30亿元 [4] - 大部分AI医疗公司尚未开发出明确的盈利路径,需提供差异化产品以证明估值合理性 [4] 应用定位与行业观点 - AI健康应用目前仅作为健康管理的辅助工具,不介入诊疗,涉及用药、检查、手术等行为仍需专业医生 [3] - 行业专家认为,AI工具不应只是单点辅助,而应成为赋能整个体系和平台的力量,通过积累复杂全面的数据以解决疑难问题 [4]
“蚂蚁阿福”超半数用户来自三线以下城市
第一财经· 2025-12-16 14:31
蚂蚁集团AI健康应用升级与战略调整 - 蚂蚁集团宣布将旗下AI健康应用“AQ”正式升级为“蚂蚁阿福” [3] - 过去半年,该应用的月活跃用户已超过1500万,其中约55%的用户来自三线以下城市,普惠特点显著 [3] - 蚂蚁集团已将原“数字医疗健康事业部”升级为“健康事业群”,医疗健康业务成为公司一大战略支柱板块 [5] AI健康应用的用户与医生参与情况 - 上海市东方医院妇产科主任段涛在“蚂蚁阿福”App上开设的“AI分身”已吸引16万人咨询 [4] - 咨询段涛医生“AI分身”的用户中,有24%是男性 [4] - 目前全国已有500多位名医在“蚂蚁阿福”上开设了“AI分身”,这些“AI医生”已累计解答超过2700万个健康咨询 [5] 行业趋势与市场前景 - 伴随AI技术发展,线上问诊平台正成为“高频用户”的流量入口,改变健康领域“低频赛道”的传统认知 [3] - 据机构预测,2025年中国大健康产业的市场规模将突破20万亿元人民币 [5] - 在传统模式难以满足需求的情况下,AI健康管理等应用有望迎来历史性机遇 [5] 行业竞争与技术发展动态 - AI健康应用赛道竞争步入新阶段,互联网科技公司正积极争夺医院端和患者端的数据入口 [6] - 用户咨询数据有助于平台训练更好的人工智能大模型,大模型能力被视为技术制高点与未来深度场景变现的关键 [6] - 今年以来AI医疗赛道融资活跃,例如若生科技完成Pre-A+轮融资,商汤医疗完成数亿元新一轮战略融资,投后估值超30亿元 [6] AI在医疗领域的应用定位与价值 - AI健康应用目前仅作为健康管理的辅助工具,不介入涉及用药、检查、手术等医疗诊断行为 [5] - 中国科学院院士樊嘉教授认为,AI工具应成为赋能整个体系和平台的力量,通过积累复杂全面的数据,形成解决疑难复杂问题的能力 [7] - AI应用能帮助医生分担重复性咨询压力,例如线下门诊70%的咨询是与孕期生活习惯相关的基础、重复性问题 [4]
“蚂蚁阿福”超半数用户来自三线以下城市,段涛等名医已开设“AI分身”
第一财经· 2025-12-16 12:42
公司动态与产品升级 - 蚂蚁集团旗下AI健康应用“AQ”正式升级为“蚂蚁阿福” [1] - 蚂蚁集团将原“数字医疗健康事业部”升级为“健康事业群”,医疗健康业务成为公司战略支柱板块 [3] - “蚂蚁阿福”App上已有500多位名医开设“AI分身”,累计解答超过2700万个健康咨询 [3] - 上海市东方医院妇产科主任段涛在“蚂蚁阿福”的“AI分身”已吸引16万人咨询 [1][3] 产品表现与用户特征 - 过去半年,蚂蚁AI健康应用的月活跃用户已超过1500万 [1] - 约55%的用户来自三线以下城市,普惠特点显著 [1] - 在咨询段涛医生“AI分身”的用户中,有24%是男性 [3] 行业趋势与市场机遇 - 健康领域正从“低频赛道”转变,线上问诊平台成为“高频用户”的流量入口 [1] - 机构预测,2025年中国大健康产业市场规模将突破20万亿元人民币 [3] - 在传统模式难以满足需求的情况下,AI健康管理等应用有望迎来历史性机遇 [3] - AI健康应用赛道的竞争步入新阶段,互联网科技公司正争夺医院端和患者端数据入口 [4] 技术发展与竞争格局 - 用户咨询数据将帮助平台训练更好的人工智能大模型,大模型能力是争夺的技术制高点和未来深度场景变现的关键 [4] - AI医疗赛道融资活跃,例如若生科技完成Pre-A+轮融资,商汤医疗完成数亿元新一轮战略融资且投后估值超30亿元 [4] - 大部分AI医疗公司尚未开发出明确的盈利路径,需提供差异化产品证明估值合理性 [5] - 行业观点认为AI工具应赋能整个体系和平台,通过积累复杂全面的数据进化,以解决疑难复杂问题 [5] 产品价值与应用场景 - 线下门诊70%的咨询是关于孕期生活习惯的基础重复性问题,AI应用可分担医生重复劳动压力 [1][3] - AI应用能让男性更积极地参与到孕产过程中 [1][3] - AI健康应用目前仅作为健康管理的辅助工具,不介入诊疗,医疗诊断行为仍需专业医生 [3]
增强信心 鼓舞干劲(学习贯彻党的二十届四中全会精神)
人民日报· 2025-12-16 08:56
宣讲活动规模与覆盖 - 上海市委讲师团开发宣讲课程118门,开展宣讲活动200多场,覆盖听众约80万人次[1] - 上海各基层宣讲团队共开展宣讲活动近3万场,覆盖听众300余万人次[1] - 贵州省委宣讲团开展宣讲50余场,带动全省各级各类宣讲主体开展宣讲2.83万余场,覆盖受众超186万人次[2] - 甘肃省抽调人员组成5700多个宣讲团(组),已作宣讲报告2.67万场,覆盖受众达847万人次[3] 宣讲形式与内容重点 - 宣讲采用面对面、报告会、座谈交流、案例分析、情景模拟、互动问答、现场辩论等多种形式[2][3] - 宣讲内容结合生动案例和翔实数据,阐释“怎么看”与“怎么干”[2] - 采用“政策+案例”、“理论+故事”的方式,组织不同背景人员(如老党员、老劳模、老专家、新青年)从多角度进行宣讲[3] - 用通俗易懂的话语、生动鲜活的事例与基层干部群众交流,将“大道理”转化为“小故事”[3] 特定领域与产业联动 - 在上海“模速空间”人工智能平台,宣讲聚焦“加快高水平科技自立自强”,与会者讨论抢占人工智能产业应用制高点及将大模型功能应用于社区治理[1] - 在贵州,宣讲团专程前往贵州航空产业城建设现场,回应基层产业发展问题,推动安顺航空配套制造产业园二期项目建设及招商引资项目落地[2] - 在甘肃,宣讲通过非遗说唱形式将“十五五”发展蓝图编入唱腔,回应农民关于种植、增收、乡村建设等关切,提振发展特色农业的信心[2] - 中国石油长庆油田宣讲队深入油区一线,宣讲内容结合油田历史讲能源变革,紧扣生产实际讲发展方向[3] 参与主体与目标 - 宣讲参与主体包括党政领导干部、党委讲师团、百姓名嘴、基层党员、企业职工等[1][2][3] - 宣讲旨在推动理论落地生根,让全会精神在基层落地落实、见行见效[1] - 国资央企干部职工表示将主动对接“十五五”规划建议,更好融入和服务国家发展大局[3]
2026年冲刺10万辆 陕汽重卡两大战略新品亮相
中国汽车报网· 2025-12-15 09:39
公司2025年业绩与2026年目标 - 2025年公司预计总销量达19.5万辆,同比增长16.7% [1] - 其中陕重汽国内民品预计销量8.8万辆,同比增长60%,市场份额稳步攀升 [1] - 2026年公司目标冲击10万辆年度销量,其中新能源产品目标为4万辆,占比40% [1] 2026年产品战略与新品发布 - 公司围绕“新平台、新动力、新增长、新机遇”全面发力,将形成覆盖节能、新能源、智能网联的487款产品矩阵 [10] - 商务年会共展出超70辆采用柴油、天然气及新能源不同动力形式的整车和零部件 [3] - 发布两大战略新品:面向高端长途物流的X6000超凡旗舰与针对中长途运输正向开发的新能源专属平台G6000E [3][5] X6000超凡旗舰产品亮点 - 产品适配油、气双动力,覆盖日用工业、危化、快递等高附加值细分市场 [3] - 燃气版搭载全新康明斯16L动力,带来720马力超强动力及更低气耗,并创新升级750L+750L双侧置气瓶 [3] - 率先采用全域域控电子架构,引入行业首个基于人工智能大模型的智能座舱,通过AI节能技术学习驾驶员行为实现更低能耗 [3] - 采用“远山青”国风配色等设计,配备矩阵式龙耀大灯、1.1米超宽双人床、车载冰箱,提升颜值、豪华感与实用性 [5] G6000E新能源平台核心技术 - 平台为全栈式自研新能源专属平台,体现新能源专属外观与内饰升级 [5] - 集成模块化底置电池、全自主多合一、智能集成热管理、双枪1000A大电流补能系统、3档600kW电驱桥、高算力域控架构等核心技术 [5] - 快递工况综合电耗低至1.1kWh/km,通过大数据精准匹配动力降低损耗,三电全栈自研实现自适应能量管理 [7] - 搭载潍柴600度电池,双枪1000A持续充电功率633.6kW,充电效率提升50%,20-80%SOC充电仅需30分钟 [7] - 运用新材料与结构优化,自重领先竞品200kg [7] - 底置电池设计重心低提升行驶稳定性,搭载高低压分离、三电系统冗余保护等技术保障安全 [7] G6000E主挂一体化方案 - 提供主挂一体化方案,集成主挂一体阻力优化、协同能量回收、联合制动、一体化集成显示控制及安全监控等核心技术 [8] - 方案旨在实现能耗、信息、控制与安全深度融合,消除主挂匹配损耗与风险,降低每公里成本并提升运营效率 [8]
第八届中国金融教育发展论坛在广州召开
中国新闻网· 2025-12-14 20:21
论坛概况 - 第八届中国金融教育发展论坛于12月12日至13日在广州召开,主题为“数智化与金融强国建设”[1] - 论坛由全国金融专业学位研究生教育指导委员会主办,暨南大学相关学院及研究机构承办,共有来自全国的专家、学者及培养单位代表200余人出席[1] 金融教育改革与发展方向 - 金融专业学位研究生教育是培养高层次应用型金融人才的主渠道,需把握正确政治方向,坚守育人初心[3] - 金融教育需深刻把握数智化变革大势,推动教育模式与时俱进、守正创新[3] - 应充分发挥教指委统筹协调作用,凝聚各方力量,共同打造金融教育卓越品牌[3] - 需持续深化对金融强国建设重大理论与实践问题的研究,以高水平研究反哺高质量人才培养[3] 金融改革与体系构建 - 金融改革和创新的核心动力是实体经济的多元化需求[3] - 金融应在控制风险的前提下,高质量服务于企业融资与风险管理、居民财富管理与支付、政府债务优化与基建完善等需求[3] - 金融改革应着力推动制度、规则与工具层面的创新,坚持市场化、法治化、国际化方向[4] - 目标是构建结构多元、功能多样的现代金融体系,稳步推进人民币国际化,实现金融强国战略[4] 数字人民币的应用与前景 - 数字人民币正在跨境支付、预付款监管、文体活动票务申购、新能源汽车保险、绿电交易、医疗保障等多个具体场景中探索创新实践[4] - 这些应用有助于解决支付环节的信息不对称和道德风险问题,提升支付效率[4] - 数字人民币本质是支付工具,能一定程度解决支付环节的信息不对称与效率问题,但很难解决信用风险问题[5] - 未来数字人民币将与金融基础设施深度融合,为构建中国特色现代化金融体系提供重要技术支撑[5] 人工智能大模型在金融领域的应用与治理 - 大模型作为新一代人工智能代表,在金融领域的应用场景日趋丰富,产业生态合作已初步形成[7] - 须高度重视模型幻觉、算法歧视、数据污染等风险问题[7] - 可凝聚监管部门、行业协会、从业机构等各方力量,建立金融大模型分级分类管理框架[7] - 重点开展基于金融云的MaaS(模型即服务)评估评价工作,以推动金融大模型应用安全合规、行稳致远[7]
GPT-5.2获封“最强打工人”,谷歌同日以Gemini“性价比”系列应战
钛媒体APP· 2025-12-12 16:22
行业竞争格局 - OpenAI面临空前竞争压力 竞争对手包括DeepSeek、Grok、Claude 特别是谷歌Gemini 3表现突出[2] - 谷歌在OpenAI发布GPT-5.2前约一小时抢先发布Gemini Deep Research 试图抢占市场关注[10] - 大模型竞争已扩展至AI芯片领域 英伟达与谷歌TPU的竞争同样激烈[12][13] OpenAI最新产品GPT-5.2表现 - GPT-5.2发布Instant、Thinking、Pro三款模型 基准测试全面反超竞争对手[4] - GPT-5.2 Thinking在GPQA Diamond评估得分达92.4% 高于GPT-5.1 Thinking的88.1%和Gemini 3 PRO的91.9%[4] - 在无需工具情况下 GPT-5.2在美国数学邀请赛AIME2025中获得满分[4] - 在GDPval专业技能评估中 GPT-5.2 Thinking得分70.9% 较GPT-5.1 Thinking高出32.1% 领先Gemini 3 PRO达17.4% 领先Claude Opus 4.5达11.3%[5] - 具体基准测试对比显示 GPT-5.2在SWE-Bench、CharXiv、FrontierMath、ARC-AGI等多个评估中领先[6] - 新模型在编写代码、制作PPT、图像感知、理解长上下文、使用工具、处理复杂多步骤项目方面表现出色 错误率大幅减少[7] - 公司称GPT-5.2 Thinking是“目前最能够胜任现实中各类专业用途的模型”[4] 产品定价与性能问题 - GPT-5.2输入输出价格较前代上涨40% 输入价格21美元 输出价格高达168美元[7] - 一些用户反映GPT-5.2 Thinking和Pro的应答时间较慢 比前代产品更慢[8] - 普通即时版GPT-5.2仍会在一些常识问题上犯错[9] 竞争对手谷歌的动向 - 谷歌发布深度研究智能体Gemini Deep Research 基于Gemini 3 PRO构建 减少“幻觉”[10] - 在人类终极大考HLE中 Gemini Deep Research得分46.4% 高于GPT-5.2 Thinking的45.5% 但低于GPT-5 Pro的50%[10] - 谷歌产品经理透露 新版智能体在与GPT-5 Pro表现相当时 成本仅为后者的十分之一左右[12] - 谷歌同步开源基准测试工具DeepSearchQA 包含覆盖17个领域的900项复杂任务[12] 公司未来计划与行业展望 - OpenAI CEO表示下周将继续带来“小圣诞礼物” ChatGPT“成人模式”预计明年一季度面世[9] - 有消息称OpenAI正加速开发全新模型“Garlic” 旨在重建绝对领先优势[12] - 英伟达指出 大部分大模型仍用上一代H系列芯片训练 用Blackwell芯片训练的大模型预计2026年上线 其优势届时才会显现[13] - 2025年末AI大模型与AI芯片竞争加剧 预计2026年战况将继续升级[13]
GPT-5.2部分基准测试分数超过谷歌 但OpenAI“红色警报”尚未解除
第一财经· 2025-12-12 12:43
行业竞争态势 - OpenAI在谷歌发布Gemini 3 Pro后迅速推出GPT-5.2,被视为对谷歌挑战的一次反击,以应对硅谷AI权力的重新分配[1] - 谷歌Gemini 3 Pro的发布曾对OpenAI的大模型霸主地位构成挑战,并在基准测试榜单中“屠榜”[1][2] - OpenAI CEO承认公司面临竞争对手快速进步带来的“氛围紧张”和“经济逆风”双重挑战[6] - 公司拉响“红色警报”是为了集中资源、明确优先级,并增加了更多与ChatGPT相关的资源,预计在明年1月前结束该状态[6] 产品发布与迭代 - OpenAI于12月11日推出GPT-5.2,包含Instant、Thinking和Pro三种模式,距离上一代GPT-5.1发布仅过去一个月[1] - 与强调“情绪价值”的GPT-5.1不同,GPT-5.2侧重于智能上的更新,并公布了基准测试分数[1] - GPT-5.2的Instant、Thinking和Pro模式已在ChatGPT中陆续推出,付费套餐用户可率先体验[6] - GPT-5.2并非应对竞争的唯一产品,公司CEO表示下周还将送出“小小的圣诞礼物”[6] 模型性能与基准测试 - 在知识型工作任务GDPval测试中,GPT-5.2 Thinking分数为70.9%,显著超过GPT-5.1的38.8%[2] - 在抽象推理ARC-AGI-2基准测试中,GPT-5.2 Thinking分数为52.9%,显著超过GPT-5.1的17.6%[2] - 在软件工程SWE-Bench Pro测试中,GPT-5.2 Thinking分数为55.6%,GPT-5.1为50.8%[2] - 在科学问题GPQA Diamond测试中,GPT-5.2 Thinking分数为92.4%,GPT-5.1为88.1%[2] - 在科学图表类问题CharXiv推理测试中,GPT-5.2 Thinking分数为88.7%,GPT-5.1为80.3%[2] - 在数学竞赛HMMT测试中,GPT-5.2 Thinking分数为99.4%,GPT-5.1为96.3%[2] - GPT-5.2在ARC-AGI-2和GPQA Diamond两项测试中的得分已超过谷歌Gemini 3 Pro(分别为31.1%和91.9%)[3] - 公司称GPT-5.2在众多基准测试中刷新了行业水平,在涵盖44个职业的GDPval测试中表现超过行业专家[2] 功能改进与应用 - 新模型在制作演示文稿、电子表格等方面的表现优于或与专业人士持平,生成的电子表格和幻灯片在复杂度和格式呈现上相比前一代有明显提升[3] - 用户需订阅付费套餐才能使用新的电子表格和演示文稿功能[3] - 长上下文能力使新模型能处理报告、合同、研究论文等文件[3] - 在编码任务中,GPT-5.2能更可靠地调试生产环境代码、以更少的人工干预完成修复交付[3] - 演示案例显示,只需一个提示,GPT-5.2就能生成可交互的海浪模拟器和节日贺卡生成器[4] - GPT-5.2 Thinking的幻觉率低于前一代,在一组去标识的查询中,错误回答的频率比GPT-5.1 Thinking减少了38%[4] - 新模型在图表推理和软件界面理解方面的错误率减少了大约一半[4] - 公司称GPT-5.2 Pro和GPT-5.2 Thinking是目前最有助于加快科研进展的模型[4]