Workflow
人工智能大模型
icon
搜索文档
GPT-5.2部分基准测试分数超过谷歌,但OpenAI“红色警报”尚未解除
第一财经· 2025-12-12 12:13
行业竞争态势 - OpenAI首席执行官表示,谷歌Gemini 3对公司的影响比原本预计的更小,但当竞争对手的威胁出现时,应专注并迅速应对 [1][7] - 谷歌发布Gemini 3后,在硅谷掀起AI权力的重新分配,对OpenAI的大模型霸主地位构成挑战 [1] - OpenAI为应对谷歌竞争拉响了“红色警报”,以集中资源并明确优先级,公司增加了更多与ChatGPT相关的资源,并预计在明年1月前结束该状态 [7] 产品发布与迭代 - OpenAI于12月11日推出GPT-5.2,包含Instant、Thinking和Pro模式,距离上次更新GPT-5.1仅过去一个月 [1] - 此次发布被视为OpenAI对谷歌挑战的一次反击 [1] - 公司宣布下周还将送出一些“小小的圣诞礼物” [7] 产品性能与基准测试 - GPT-5.2在多项基准测试中分数显著超越前代GPT-5.1 [3] - 在知识型工作任务GDPval测试中,GPT-5.2 Thinking分数为70.9%,明显超过GPT-5.1的38.8% [3] - 在抽象推理ARC-AGI-2基准测试中,GPT-5.2 Thinking分数为52.9%,明显超过GPT-5.1的17.6% [3] - 在软件工程SWE-Bench Pro测试中,GPT-5.2 Thinking分数为55.6%,GPT-5.1为50.8% [3] - 在科学问题GPQA Diamond测试中,GPT-5.2 Thinking分数为92.4%,GPT-5.1为88.1% [3] - 在科学图表类问题CharXiv推理测试中,GPT-5.2 Thinking分数为88.7%,GPT-5.1为80.3% [3] - 在数学竞赛HMMT测试中,GPT-5.2 Thinking分数为99.4%,GPT-5.1为96.3% [3] - OpenAI称GPT-5.2是公司至今最强的模型,在众多基准测试中刷新了行业水平,在GDPval测试涵盖的44个职业知识型工作任务中表现超过行业专家 [3] - GPT-5.2在ARC-AGI-2和GPQA Diamond两项测试中的得分超过了谷歌的Gemini 3 Pro(后者分数分别为31.1%和91.9%)[4] 产品功能与应用 - 相比GPT-5.1着重“情绪价值”,GPT-5.2推出了更多智能上的更新 [3] - 新模型在制作演示文稿、电子表格等方面的表现优于或与专业人士持平,生成的电子表格和幻灯片在复杂度和格式呈现上相比前一代有明显提升 [4] - 新的电子表格和演示文稿功能需要用户订阅付费套餐 [4] - 长上下文能力使新模型能处理报告、合同、研究论文等文件 [4] - 在编码任务中,GPT-5.2能更可靠地调试生产环境代码、以更少的人工干预完成修复交付 [4] - OpenAI演示了GPT-5.2的编码能力,例如仅需一个提示即可生成海浪模拟器和节日贺卡生成器 [5] 模型可靠性与科研 - GPT-5.2 Thinking的幻觉率低于前一代,在一组去标识的查询中,新模型错误回答的频率比GPT-5.1 Thinking减少了38% [5] - 这意味着在写作、研究、分析和决策中模型犯的错误更少 [5] - GPT-5.2 Thinking在图表推理和软件界面理解方面的错误率减少了大约一半 [5] - OpenAI称,GPT-5.2 Pro和GPT-5.2 Thinking是目前最有助于加快科研进展的模型 [5] 产品上市 - GPT-5.2 Instant、Thinking和Pro于周四在ChatGPT中陆续推出,付费套餐用户将能率先体验 [7]
大模型独角兽Minimax、智谱AI计划近期港股IPO
搜狐财经· 2025-12-12 11:59
行业背景与现状 - AI大模型创业公司目前处于“高估值、高亏损”的阶段,抓紧时间寻找上市机会变得越来越重要 [5] - 在AI大模型爆火后,中国市场上涌现出一批大模型相关的AI创业公司,但在DeepSeek出现、巨头们加大对大模型的投入力度后,AI创业融资变冷 [5] 公司上市动态 - AI独角兽公司Minimax和智谱AI都在筹备港股上市 [2] - Minimax已经基本完成上市准备工作,最快可能于2026年1月启动IPO,此次上市可能筹集数亿美元资金 [2] - 另一家AI独角兽公司月之暗面也被报道在筹备港股IPO,但其进度相比Minimax要慢一些 [2] - 智谱AI曾于2025年4月在北京证监局办理A股上市辅导备案,计划于2025年8月-10月完成辅导,由中金公司担任辅导机构,目前尚不清楚其A股上市是否暂停 [3] Minimax公司详情 - Minimax成立于2021年12月,截至目前共完成5轮融资 [2] - 最新一轮融资是2025年7月,由上海国资母基金投资约3亿美元,融资后该公司估值约300亿元 [2] - Minimax今年的年收入约为1亿美元 [2] - 公司很早就开始筹备港股上市,此前一直在努力提高收入以达到港股主板上市要求(近一年收入超过5亿港元) [2] 智谱AI公司详情 - 智谱AI成立于2019年,已完成18轮融资,到2024年7月,公司估值已达到200亿元 [3] - 智谱面向开发者的软件工具和模型业务(GLM coding plan)已获得超过1亿元(合1400万美元)的年度经常性收入 [4] - 智谱预计在2025年营收实现100%以上的增长 [4] - 一位投资方透露,智谱2024年收入约2亿元,亏损约20亿元 [5] - 有投资方表示,智谱目前的财务状况符合科创板的上市要求,但“能否成功上市还不确定” [3] 港股市场环境 - 近期港股IPO市场火爆,2025年港股IPO募资额已达350亿美元,创下近四年新高 [5] - 港交所推出的《上市规则》第18C章节为特专科技企业提供新的上市通道,2024年8月调整后,市值门槛最低降至40亿港元 [5] - 金融数据商Choice数据显示,目前港交所正在处理的新股上市申请已达319宗,覆盖人工智能、生物科技等多个前沿领域 [5] - 审计机构毕马威预测,香港新股市场热潮将于2026年延续,明年上市项目有可能达180个—200个,累计集资规模或进一步攀升至3500亿港元 [6]
过去5年 山西省属煤企产煤1/3用于能源保供
中国新闻网· 2025-12-11 17:30
山西省属煤炭企业过去五年核心经营数据 - 过去5年,山西省属煤炭企业累计生产原煤29亿吨,其中近10亿吨通过中长期协议供应电煤,占其总产量的约三分之一[1] - 山西省累计建成301座煤炭先进产能矿井,先进产能占比达到95%以上[1] 科技创新与产业升级 - 研发经费投入强度从不足2%提升至2.3%[3] - 打造了14个原创技术策源地,建成27个国家级创新平台及226个省级创新平台[3] - 在智慧矿山、算力枢纽、煤与煤层气共采等领域攻克了一批关键核心技术[3] - 上线全国首个省级煤炭工业互联网平台,并以此为核心打造了全国首个全栈式一体化省级煤炭工业互联网平台,该平台已成为全国煤炭行业唯一的国家人工智能应用中试基地,吸引超过700家生态企业入驻[1][4] - 晋能控股集团与华为合作建设智能矿山创新实验室,在建设自主可控的矿山融合IP工业环网等方面取得成绩[4] 区域协同发展与服务国家战略 - 在融入京津冀协同发展方面,仅山西国际能源集团过去5年就向京津冀地区输送电力上千亿度[3] - 华新燃气集团向河北地区输送天然气约17.5亿立方米[3] - 在区域生态环境联防联治方面,万家寨水控集团为永定河生态补水9.71亿立方米[3] - 在共建交通网络方面,华远国际陆港集团参与投资了雄忻高铁等重大基础建设工程[3] 跨区域合作与产业链延伸 - 山西省国资运营公司所属晋云公司与粤港澳大湾区的头部互联网企业合作,推进煤炭工业互联网平台建设[4] - 潞安化工与比亚迪在新能源汽车变速箱油等领域进行深度合作,实现了国产化替代[5]
文远知行CEO韩旭批伪L4乱象:真L4需纯无人车队运营半年
搜狐财经· 2025-12-10 14:52
行业现状与标准批判 - 公司创始人兼CEO韩旭对L4级自动驾驶公司的认定标准划出明确界限:至少需要拥有一个由二三十辆车组成的车队,并纯无人化运营半年以上,才能自称L4公司 [1] - 创始人批评行业存在乱象,指出有车厂或平台通过购买别家技术和车辆,仅进行外观改装后就宣称拥有L4技术,认为这是不正确的行为 [3] - 创始人强调,真正的L4公司必须拥有自主技术并经过重复运营验证 [3] 技术路线与难度对比 - 针对L2+(高阶辅助驾驶)与L4的路线之争,创始人基于公司同时布局两端的实践判断:做好L2+虽然不容易,但其难度与实现无人的L4相比是天壤之别 [3] - 创始人用比喻解释难度差异:就像在江里开一艘小船与造一条跨洋大船,难度差别巨大 [3] 对竞争对手与行业未来的预测 - 创始人针对特斯拉FSD做出“危险”预言:如果特斯拉继续使用Model 3或Model Y这样的量产车,三年之内其无法在旧金山达到与文远知行当前同等的水平 [5] - 创始人解释该预言并非认为特斯拉做不到,而是认为时间往往会产生巨大延迟 [5] - 创始人预测,随着人工智能大模型算力发展,八年内可能会出现驾驶水平超越人类的“超级驾驶员”,并将其称为自动驾驶的“AlphaGo时刻” [5] - 创始人预计,到2033年年底,自动驾驶可以超过99.99%的人类驾驶水平 [5] 公司历程与创始人建议 - 创始人回顾2019年资本寒冬时的至暗时刻,当时公司账户资金只够支撑六七个月,如今感慨恍如隔世 [5] - 创始人向当下创业者分享心得,建议“善待自己”,并以其自身经历强调:永远不要放弃融资,需储存足够粮草,但同时要善待自己的健康 [5]
第十六届“工行杯”全国大学生金融科技创新大赛总决赛圆满落幕
搜狐网· 2025-12-09 11:38
赛事概况与规模 - 第十六届“工行杯”全国大学生金融科技创新大赛总决赛于12月6日在对外经济贸易大学举行 [1] - 大赛吸引了全国超过6.9万名参赛者,共提交超过2.1万份创意作品 [1] - 最终有13支精英团队晋级全国总决赛 [1] 大赛定位与主题 - 大赛已连续举办十六届,是高等教育领域具有品牌价值和示范效应的标杆赛事,并入选《全国普通高校大学生竞赛分析报告》目录 [3] - 本届大赛主题为“智启新程,Young动未来”,聚焦“科技弄潮(玩转AI)”与“未来银行(多元创想)”两大方向 [3] - 大赛是公司携手顶尖高校,响应国家金融强国战略、共育时代新人的实践 [1] 参赛作品与创新方向 - 参赛方案紧扣金融“五篇大文章”,将前沿技术与银行业务场景深度融合 [3] - 创新方向包括:AI大模型在反洗钱、风险评估、智慧信贷等领域的应用,以及对未来银行服务模式、产品形态和客户体验的构想 [3] - 参赛学子运用人工智能大模型、神经网络等前沿技术,聚焦社会民生需求和企业服务创新 [3] 获奖结果与激励 - 13支队伍分别荣获全国特等奖和全国一等奖 [4] - 公司将为特等奖和一等奖选手分别提供20,000元和10,000元大赛现金奖金 [8] - 公司将为获奖选手提供宝贵的行内实习机会 [8] 特等奖作品详情 - “e尽调”-基于BERT的银行尽调智能辅助平台,得分92.22,来自对外经济贸易大学 [6] - 工e识领—基于高管多模态数据的科创企业“信用基因”解码系统,得分91.89,来自南昌大学 [6] - 农e保-基于遥感+AI的农业普惠贷款智能风控平台,得分91.56,来自西安交通大学 [6] - AI绿鉴—面向绿色金融的ESG智能鉴证平台,得分91.56,来自中山大学 [6] - 智盾链(ZDC):基于动态图神经网络的智能反洗钱检测平台,得分90.56,来自哈尔滨工业大学(威海) [6] 一等奖作品详情 - 古都新韵·基于工行特色县政产业的金融模式创新,得分90.33,来自河北金融学院 [8] - e路护航,稀土如金——基于稀土产业链开发的金融创新服务平台,得分89.78,来自江西财经大学 [8] - 青葵宝—基于动态智能风控的青少年金融素养赋能平台,得分89.67,来自澳门城市大学 [8] - e企融——AI大模型赋能的小微企业信贷风控方案,得分88.56,来自哈尔滨工业大学 [8] - 工E渔链—水产养殖全产业链金融服务平台,得分88.56,来自南京农业大学 [8] - “工银翼启融”低空经济融资租赁平台,得分88.44,来自哈尔滨工业大学 [8] - 工银“科创链”——基于智能合约的动态价值融资平台,得分88.44,来自武汉理工大学 [8] - 兴农“小金通”联动架构策划案,得分88.11,来自南京大学 [8] 行业影响与未来展望 - 大赛为金融行业发掘了一批优秀的后备人才,激发了全社会对金融科技创新的关注与思考 [9] - “工行杯”被定位为金融科技创新的策源地和青年人才的孵化器,旨在为金融强国建设持续注入动力 [9]
金融壹账通获2025年人工智能大模型金融领域创新应用大赛优秀奖
证券日报网· 2025-12-08 14:12
行业动态 - 第七届上海金融科技国际论坛上发布了2025年人工智能大模型金融领域创新应用大赛获奖名单 [1] - 大赛由中国银联国家人工智能应用中试基地、上海金融领域大模型应用训练中试基地联合举办 [1] - 大赛共有103家单位提交了170个项目参与申报 [1] - 经评审后最终有102个项目分获卓越奖、标杆奖和优秀奖 [1] 公司项目获奖情况 - 金融壹账通申报的“基于大模型的智能客服机器人”项目获奖 [1] - 该项目获得大赛高价值场景赛道银保组的优秀奖 [1] 项目技术应用与成效 - 项目基于国内某大型综合金融集团的落地实践经验 [1] - 目前已服务数十家大中小金融机构 [1] - 覆盖银行、保险、证券等一百多个核心业务场景 [1] - 智能客服月均处理会话达千万次 [1] - 平均应答准确率为96% [1] - 客户问题解决率超过90% [1] - 在线机器人服务占比达72% [1] - 大多数咨询用户无需转入人工客服 [1] - 基本在1秒之内便可得到答案 [1] - 为所服务的金融机构有效降低成本30% [1]
DeepSeek V3.2发布!实测效果惊艳,便宜是最大优势
36氪· 2025-12-03 11:57
产品发布与版本概述 - DeepSeek V3.2版本于12月1日晚正式上线并向所有用户开放,同时在各开源社区上传了本地部署模型供所有用户使用[1] - 该版本共有两个版本:在官方网站免费使用的DeepSeek V3.2版和仅支持API服务访问的DeepSeek V3.2-Speciale版,后者拥有更强的推理能力,主要用于探索模型能力的推理上限[2] - V3.2-Speciale版会主动进入"长思考加强"模式,并结合DeepSeek-Math-V2的定理证明能力,使其拥有更强的指令跟随、数学证明和逻辑验证能力[2] 性能表现与基准测试 - DeepSeek V3.2的推理能力基本与OpenAI的GPT-5相近,但成本远低于GPT-5[1] - V3.2-Speciale在官方测试中的推理基准测试成绩直接媲美最新的Gemini-3.0-Pro[2] - 在IMO 2025、CMO 2025、ICPC World Finals 2025及IOI 2025等四项赛事决赛试题测试中均获得金牌成绩,在ICPC和IOI测试中达到人类选手第二及第十名水平[4] - 横向对比中,DeepSeek V3.2-Speciale的赛事成绩全部超越了GPT-5 High[4] - 在具体基准测试中,V3.2-Speciale在AIME 2025得分为96.0(23k),HMMT Feb 2025得分为99.2(27k),IMOAnswerBench得分为84.5(45k),LiveCodeBench得分为88.7(27k),CodeForces得分为2701(77k)[5] 技术创新与成本优势 - 主要技术突破是引入DeepSeek Sparse Attention稀疏注意力机制,通过双版本设计满足不同场景下的推理需求[5] - DSA机制从根本上解决AI大模型在注意力方面的效率问题,通过有选择地计算部分关键元素之间的关联,显著降低所需计算数据[6] - 在DSA机制加持下,128K序列推理成本降低60%以上,推理速度提升约3.5倍,内存占用减少70%,同时模型性能没有明显下降[12] - 在H800集群测试中,序列长度达128K时,预填充阶段每百万token成本从0.7美元降到0.2美元,解码阶段从2.4美元降到0.8美元[12] - DeepSeek V3.2可能成为同级别AI大模型中长文本推理成本最低的模型[12] 功能升级与应用能力 - DeepSeek V3.2允许AI大模型在思考模式下调用工具,调用及使用工具的过程无需训练,使其拥有更强大的通用性能[13] - 作为开源模型可更好兼容使用者自制的工具[13] - 模型具备自主决策使用工具的能力,能够分步骤使用搜索和数学工具解决问题,并进行多轮答案验证[16][19][21] - 新功能使模型可通过拆解问题、逐个提问并针对问题使用不同工具来给出更好的解决方案,最后整合所有回答[21] 行业影响与市场定位 - DeepSeek V3.2在多个权威基准中对标GPT-5、Gemini 3.0 Pro,但推理成本只有行业主流模型三分之一甚至更低[22] - 模型以完全开源方式发布,终结了"开源模型永远落后闭源模型8个月"的行业争论[22] - DSA带来的成本革命对AI大模型商业化造成显著影响,成本下降60%不仅关系运营成本,还包括前期部署成本,使小型企业都可借助DeepSeek训练出更强模型[22] - 长文本交互价格足够低后,高级AI应用将不再局限于企业级市场,能更好推广到消费级市场使用,可能极大加速"AI工具取代传统软件"的趋势[23]
锂电反内卷,A股谁受益?| 1202 张博划重点
虎嗅· 2025-12-02 22:27
市场整体表现 - 三大指数低开低走,沪指下跌0.42%至3900点下方,深成指下跌0.68%,创业板指下跌0.69% [1] - 市场成交额缩量,再度跌破1.6万亿元,逼近上周五创出的四个月地量水平 [1] 板块轮动表现 - 福建自贸/海西概念板块表现强势,周二位列涨幅第一,上周五亦位列涨幅前三 [2] - 航天板块持续活跃,周二位列涨幅第二,周一及上周三至周五均进入涨幅前十榜单 [2] - AI手机概念板块热度维持,周二位列涨幅第三,周一亦位列涨幅榜首 [2] - 大消费板块连续五个交易日进入涨幅前十榜单,显示其持续性 [2] - ST股板块波动显著,周一涨幅达13%,周二涨幅为7%,连续五日上榜 [2]
从7000余家选出15家 “领航级”工厂如何领跑中国智造
央视新闻客户端· 2025-11-29 12:29
智能工厂建设层级与规模 - 中国已建成先进级工厂7000余家、卓越级工厂504家,并遴选出15家领航级工厂 [1] - 领航级智能工厂代表中国制造业发展的最高水平,具有标杆示范效应 [1] 领航级工厂的核心能力与行业影响 - 领航级智能工厂展现出全流程智能决策核心能力,并带动上下游共同发展 [3] - 15家领航级智能工厂建设场景中智能渗透率已超80%,并向上下游高价值链环节加速渗透 [3] - 平均每家领航级智能工厂已复制推广超100家,成为行业转型升级的驱动器 [5] 传统制造业智能化转型案例(钢铁行业) - 通过数字孪生系统汇聚26条产线,为每件产品构建详细物料血缘关系,实现全流程数据追溯 [8] - 数字孪生系统将库存从原来的15天压缩至5天,资金占用率相比之前降低三分之二 [8][10] - 人工智能大模型应用于生产环节,如钢板轧制实现全流程自动化控制 [12] - 采用激光扫描和CT检测等大模型进行质量审核,降低测试成本 [14] - 165种智能化模型深入应用,订单准时率提升至98.5%,产业链总成本降低9% [14] - 实现关键工序和装备感知的数控化100%,企业降本增益超5亿元人民币 [16]
解锁“聪明”的“钢铁丛林” 看全流程智能决策领航传统产业转型升级
央视网· 2025-11-28 21:18
智能工厂建设现状与分级体系 - 中国已建成7000余家先进级工厂、504家卓越级工厂,并遴选出15家代表最高水平的领航级智能工厂 [1] - 领航级智能工厂为行业探索未来发展新模式,对制造业转型升级具有明显的标杆示范效应 [3] 领航级智能工厂的核心能力与行业影响 - 领航级工厂在传统和先进制造业均展现出全流程智能决策核心能力,并带动上下游共同发展 [5] - 平均每家领航级智能工厂已复制推广超100家,成为行业转型升级的驱动器 [7] - 15家领航级工厂建设场景中智能渗透率已超80%,并持续向上下游高价值链环节加速渗透 [7] 具体应用案例:数字化与智能化技术 - 数字孪生系统汇聚26条产线,为每件产品构建详细的物料血缘关系,实现全流程清晰追溯 [10] - 数字化系统通过高效链接上下游,将企业库存从原来的15天压缩至5天,减轻资金占用和价格波动风险 [11] - 人工智能大模型应用于生产环节,如自主分析材料成分实现全流程自动化轧制,替代传统人工干预 [12] 质量检测与效率提升 - 利用大模型系统进行视觉核查和CT检测,扫描钢板表面裂痕和内部缺陷,替代取样力学性能测试 [14] - 通过多模态全要素数据感知,实现关键工序和装备感知的数控化率达到100% [16] - 智能化应用为企业实现降本增效超过5亿元人民币 [16] 智能化应用的广泛效益 - 165种智能化模型深入应用到生产线各环节,实现按需即时生产 [17] - 智能化有效打通环节堵点痛点,使订单准时率提升至98.5%,产业链总成本降低9% [17]