Claude 4.5
搜索文档
国产大模型同日转向:DeepSeek向左,Kimi向右,拼落地的时代开始了?
36氪· 2026-01-29 08:29
文章核心观点 - 国内两大AI模型公司DeepSeek与Kimi几乎同时发布重要开源更新,标志着大模型的发展重点从提升参数规模和对话能力,转向重构底层工程化能力,以解决实际应用中的效率与协作问题[6] - 行业共识是AI的升级方向正从“模型有多强”转向“能否真正用起来”,核心在于让AI更深一步嵌入真实工作环境,价值衡量标准变为是否更省成本、更少出错、更值得长期依赖[15][23] DeepSeek-OCR 2的关键升级 - 该模型是对去年震动行业的DeepSeek-OCR的关键升级,核心是重新设计AI“读文档”的方式,通过新的视觉编码机制让大模型学习人类的视觉逻辑[1][8] - 其技术路径从上一代的CLIP架构转向以Qwen2为基础的LM视觉编码器,使模型能像人一样先看版面、抓重点,再理解含义,区分标题、表格及相关信息[8] - 直接价值体现在具体体验提升:处理几十页报告时无需逐字读完;处理复杂表格时减少错位问题;由于输入被高度压缩,相同任务能以更低成本、更短时间完成[10] - 此次升级解决的是一个长期存在的“用起来不顺”的工程化问题,有潜力让AI更适合被放进真实的文档流程,如检索、比对、摘要及结构化信息抽取[10] Kimi K2.5的核心进展 - Kimi K2.5继续推进其超长上下文、多模态与“智能体化”路线,目标是将AI从“答题模式”推向“执行模式”,打造更接近“数字助理”的体验[1][4][12] - 模型宣称是迄今最智能、最全能的模型,同时支持视觉与文本输入、思考与非思考模式、对话与Agent任务[4] - 升级重点在于“长记忆+多模态+智能体”:超长上下文让模型能长期记住对话与中间结论;多模态能力使其能理解图片、界面截图等;智能体能力则让AI能拆解复杂任务并执行,实现了“Agent集群”在不同阶段调用不同能力[12] - 其追求并非单一能力点的极限,而是能否承接更长、更复杂、更接近真实工作的任务链条,让AI真正进入工作流[14] 行业升级趋势与共识 - 近期主流大模型(包括OpenAI GPT-5.2、Anthropic Claude 4.5、Google Gemini 3、字节跳动豆包1.8、阿里巴巴千问Qwen3-Max-Thinking)的升级方向异常一致,重心从“模型有多强”转向“让AI更深一步进入真实的工作环境”[15] - 具体升级围绕几个核心维度打磨:记得住、看得懂、接得住流程、干得完事情[16] - **记忆能力被集体拉高**:各模型通过更长的上下文和更稳定的状态保持,让AI能够跟随长任务协作,减少用户重复解释背景的需要,例如GPT-5.2将长上下文产品化,Kimi K2.5将其嵌入智能体流程[17] - **对“看”的能力重新理解**:升级重点从“能识图”转向“能不能看懂”,强调理解图像中的结构、版面和信息组织方式,DeepSeek-OCR 2是此方向的激进代表,GPT、Claude、Gemini也都在强化对截图、界面等复杂图像的理解[18][19][21] - **AI角色从“顾问”向“执行者”转移**:模型设计开始强调拆任务、接工具、跑流程,价值判断标准从“说得对不对”转向“能不能跑完、稳不稳”,“工程化”重要性凸显[22] - **国内外公司均强调产品封装与部署**:DeepSeek、Kimi、千问、豆包等国内公司强调模型是否好部署、好接入现有系统;国内外AI都通过产品封装将复杂能力隐藏在界面和服务之下,目标都是让AI从“演示”走向“可用”、“好用”[22]
3个AI参加日本高考,谁得分最高?
日经中文网· 2026-01-25 08:33
AI模型在日本大学入学考试中的表现 - 美国OpenAI的最新AI模型在15个主要科目中得分率达到97%,其中9个科目获得满分,表现超过美国谷歌和美国Anthropic的模型(得分率均为91%)[1][3] - 谷歌和Anthropic的模型答题速度最快,约4分钟可完成一个科目,而OpenAI模型的答题时间是前两家公司的2至3倍[1][4] - 所有AI模型均擅长理科科目,但在语文和地理科目上失分较为明显,在英语科目中处理长篇文章和插图选择单词的问题时也存在失分[1][4] AI模型的具体科目得分情况 - OpenAI模型在数学ⅠA、数学ⅡBC、化学、物理等理科科目上表现优异,多个科目获得满分[3] - 在文科科目上,OpenAI的语文得分为90%,世界史和日本史得分均为97%[4] - 谷歌模型在数学ⅠA科目获得满分,数学ⅡBC得分为94%,物理得分为81%,化学得分为90%[4] AI模型的性能进步与行业应用 - OpenAI大模型的考试得分率呈现快速提升,从2024年的66%上升至2025年的91%,并在2026年达到97%[3] - AI已具备顶尖名校入学水平的智能,显示出承担广泛事务性工作的潜力[1] - 行业专家指出,不同AI模型有各自擅长的领域,应按照模型特性进行区分使用[5]
Goldman investment banking co-head Kim Posnett on the year ahead, from an IPO ‘mega-cycle’ to another big year for M&A to AI’s ‘horizontal disruption’
Yahoo Finance· 2026-01-19 18:00
2025年AI发展回顾与关键突破 - 2025年是AI从实验阶段进入工业化阶段的突破年 见证了模型、智能体、基础设施和治理方面的重大技术和结构突破 [1] - 2025年1月 DeepSeek推出完全开源的DeepSeek-R1推理模型 以极致的成本效益实现了世界级的推理能力 挑战了闭源模型的“护城河” [1] - 2025年1月 由OpenAI、软银和甲骨文等参与的史无前例的5000亿美元公私合资项目Stargate启动 标志着AI基础设施进入“千兆瓦时代” [1] - 2025年3月 xAI收购X 展示了一种新战略 即社交平台可作为模型训练的大规模实时数据引擎 [1] - 2025年底 OpenAI的GPT-5.1 Pro、谷歌的Gemini 3和Anthropic的Claude 4.5近乎同时发布 模型能力大幅提升 推动了深度思考、推理和多模态的边界 并为自主智能体工作流设定了标准 [1] AI在企业中的应用演进 - 企业对话已从几年前的“什么是AI” 成熟到“我们能以多快速度部署” 行业已超越试点阶段 进入深度结构转型期 [5] - AI正在从根本上重塑全球公司的工作方式 它不再仅仅是一个功能 而是新型生产力和运营杠杆的基础 [5] - 前瞻性公司不再仅仅将AI用于自动化 而是构建能作为人力资本乘数的智能体工作流 [5] - 随着公司从“AI辅助”任务转向“AI主导”流程 开始看到首批真实、可衡量的投资回报 从根本上改变了整个组织的执行成本和速度 [5] 全球AI监管格局分化 - 随着AI达到消费者、企业和主权规模 全球政策出现分化 董事会必须谨慎应对 [6] - 美国方面 2025年1月的“消除障碍”行政令及随后的“创世使命”等 通过取消先前的报告要求和加速基础设施建设 标志着其转向优先确保美国AI主导地位的决定性转变 [6] - 欧盟方面 《欧盟AI法案》已全面生效 对“高风险”系统和通用模型施加了严格的护栏 [6] - 英国则采用“亲创新”的混合模式 一方面推广“安全即服务” 同时向国家计算能力和“AI增长区”投入数十亿资金 以弥合创新与公众信任之间的差距 [6] - 对客户而言 挑战已不仅是合规 更是战略规划和套利 需要在分散的监管环境中决定在何处建设、部署、与谁合作、购买什么以及如何保持全球优势 [6] 2026年IPO市场展望 - 市场正进入一个由前所未有的交易数量和IPO规模定义的IPO“超级周期” [8] - 与1990年代末期出现数百家小盘股上市的互联网浪潮 或由大量十亿美元级IPO驱动的2020-2021年热潮不同 下一个IPO周期将拥有更大的交易量和市场有史以来规模最大的交易 [8] - 过去十年 一些公司保持私有状态更久 并筹集了前所未有的私人资本 使得一批企业达到了私人市场上前所未有的估值和运营规模 [8] - 上市的不再是“独角兽” 而是在上市时就具备《财富》500强企业级别影响力和规模的全球公司 [8] - 对投资者而言 IPO窗口的重新打开将提供一个投资于全球最具变革性和增长最快公司的机会 并带来公共指数一代人一次的重构 [8] - 2018年 五大上市科技公司总市值为3.3万亿美元 由市值约1万亿美元的苹果引领 如今 五大上市科技公司总市值达18.3万亿美元 规模是当时的五倍半以上 [9] - 更重要的是 2018年十大私人科技公司总市值为3000亿美元 如今 十大私人科技公司总市值达3万亿美元 规模是当时的十倍以上 [9] - 这些具有标志性意义的时代性公司拥有前所未有的私人市场估值 其中一些有着前所未有的资本需求 这应会催生一个前所未有的IPO市场 [9] - 高盛在上一次IPO浪潮中 通过主导首批直接上市和拍卖式IPO 处于IPO创新的中心 预计即将到来的浪潮将带来更多创新 [10] 2026年全球并购市场展望 - 2025年全球并购交易额达5.1万亿美元 同比增长44% 市场已从复苏之年过渡到大胆和战略驱动之年 [11] - 2025年下半年由建设性的监管环境、美联储宽松周期和估值正常化驱动的“解冻”所定义 而未来一年将由雄心定义 [11] - 行业已进入一个广泛、大胆和雄心勃勃的战略交易时代 行业领导者不再仅仅为规模而整合 而是积极收购将定义未来十年的战略资产、AI能力和数字基础设施 [12] - CEO和董事会信心已达到多年高位 其基础是认识到在AI工业化经济中 停滞不前是最大的风险 [12] - AI已不再是一个孤立的技术趋势 而是一个横向颠覆者 扩大了经济各个领域对战略性并购的胃口 [13] - 董事会对话已从理论性的“AI试点”转向大规模资本部署 但技术速度目前正超越传统的治理框架 [13] - 在此环境下 并购已成为战略跨越的工具 使公司能够采取防御行动保护核心业务 同时采取进攻行动确保非线性增长所需的关键基础设施和人才 [13] - 2025年私募股权赞助的并购活动急剧加速 并购交易量激增超过50% 原因是买卖双方之间的报价差距开始缩小 融资市场变得更加建设性 创新的交易结构使私募股权公司能够进行更大、更复杂的交易 [14] - 全球私募股权机构拥有1万亿美元的待投资金和超过4万亿美元尚未变现的投资组合公司 向有限合伙人返还资本的压力持续升级 [14] - 私募股权机构正以双重焦点进入2026年 一方面执行私有化交易和战略剥离以部署新资本 同时利用重新打开的变现途径 从IPO到二级市场出售再到战略出售 以满足流动性需求 [14][15]
AI应用、储能与机器人在2026年的预期差
36氪· 2026-01-06 09:40
人工智能与AI工具 - Anthropic公司发布Claude 4.5模型,官方定位为最强代码、电脑操作及复杂智能体构建工具,其综合能力显著提升,可在30小时内自主创建聊天应用,支持长时间自主代码运行,擅长处理代码、公式与数据交错的业务[1] - AI漫剧制作成本是动画的1/10或1/5,生产周期较快,主要将网文或漫画动态化,受众集中在18-30岁,男性占比70%,未来可能切走真人短剧和网文的市场,长期或有600亿至800亿元人民币的市场空间[3] 机器人产业链 - 国产激光雷达在车端智能驾驶放量后,正快速渗透至机器人场景,今年机器人用激光雷达出货量约20万台,占行业总出货量的20%,随着人形机器人爆发,2026年出货量有望实现翻倍以上增长[1] - 在机器人激光雷达领域,速腾聚创凭借先发优势占据国内超过60%的市场份额,禾赛科技以更强产品力占据30-40%份额,海外市场禾赛科技目前领先,其市场空间更大且利润率更高,国际化程度优于速腾,正在抢占外资品牌市场份额[1] 储能行业 - 中国储能市场预计在2025年迎来从“政策强制”向“市场化需求”转型的关键拐点,核心驱动将跳出“光伏装机配储”单一逻辑,电源侧与储能联合报价将成为主流收益路径[1] - 电网侧储能受新能源接入扩容与储能盈利空间收窄推动,预计在“十五五”规划中后期将反超电源侧成为增长核心,乐观预计2025年新型储能装机同比增长40%左右至135GW左右,2027年1.8亿千瓦的规模化目标大概率提前落地[2] 炼油行业 - 尽管石油供应过剩且油价低迷,但由于俄乌冲突、中国炼油产能达峰、老旧产能到期及新产能投建不足,未来5年全球炼油供需仍将偏紧,2025年全球炼油开工率保持小幅增长,预计到2030年开工率持续提升至接近80%[2] - 欧洲盈利能力弱的炼油厂正经历关停潮,中国成品油炼厂受“减油增化”政策限制产能已于2024年达峰,经合组织能源转型施压炼油商,非经合组织(如非洲)需求增长,全球已有约150万桶/天炼能关停或转产(其中中国占50%),预计2035年全球约22%炼能有关停风险,其中欧洲、中东占比超50%[2] 家电行业 - 大家电领域的渠道改革比市场预计更困难,美的“件代发模式”下,经销商打款后货品存放于美的仓库,线上线下订单由美的旗下安德物流直接发货,使公司能实时监控定价、实现一盘货和终端控价,目前其他家电企业中仅海尔和海信具备类似能力[3] - 格力正在努力推进类似渠道改革但线下经销商尾大不掉,外资品牌也有类似问题,奥克斯则受限于体量难做大规模投资[3] 现磨咖啡市场 - 中国现磨咖啡市场正从早期的社交属性转变为日常平价功能性饮品,其“可以天天喝”的属性使需求比奶茶更稳定,支撑了市场的持续增长[3] - 现磨咖啡门店未来仍有较大发展空间,目前市场约有25万家门店,预计到2030年能达到40万家,增长主要集中在平价赛道,9.9元是当前核心价格基线,未来将看到果咖、茶咖等更多样化的产品创新[4]
Nvidia, AMD, and Micron Technology Could Help This Unstoppable ETF Turn $250,000 Into $1 Million in 10 Years
The Motley Fool· 2025-12-30 18:13
行业前景与驱动力 - 人工智能热潮推动半导体行业持续增长 顶级AI开发商不断推出更智能、能力更强的新模型 但每个新模型都比前代消耗更多算力 从而需要显著增加数据中心容量 [1] - 英伟达CEO预测 到2030年 AI数据中心基础设施和芯片的年支出可能达到4万亿美元 [13] 主要公司表现与动态 - 主要AI基础设施、芯片和组件供应商包括英伟达、超微半导体和美光科技 这三家公司股价在2025年平均飙升119% 远超同期仅上涨18%的标普500指数 [2] - 未投资AI半导体领域的投资者在2025年可能跑输大盘 [4] - 英伟达的图形处理器是开发AI模型的最佳芯片 其当前的Blackwell Ultra产品线旨在为行业最新推理模型提供足够算力 尽管其股价在2025年上涨41% 但仍有上涨空间 [7] - 超微半导体在数据中心芯片市场追赶英伟达 其最新MI350系列GPU已赢得部分竞争对手的关键客户 但性能仍略有不足 计划明年推出名为Helios的集成数据中心机架及MI400 GPU 性能可能比MI350提升10倍 [8] - 美光科技是全球领先的存储芯片供应商 其HBM3E解决方案已集成到英伟达和超微半导体的数据中心GPU中以释放最大处理速度 其2026年数据中心内存(包括即将推出的HBM4E)已全部售罄 [9] 投资工具:iShares半导体ETF - iShares半导体ETF提供了一种无需挑选个股即可投资该高增长行业的简单方式 该ETF专门投资于英伟达、超微半导体、美光科技等同类公司 [5] - 该ETF仅投资于设计、分销和制造芯片及组件的美国公司 且主要受益于AI等机遇 其投资组合仅包含30只股票 前三大持仓合计权重为22.7% 分别是英伟达8.22%、超微半导体7.62%、美光科技6.88% [7] - 除前三大持仓外 该ETF还持有博通、德州仪器和台积电等其他顶级AI半导体股票 [10] 历史与潜在回报 - iShares半导体ETF在2025年有望实现43%的惊人回报 过去十年其年化复合回报率为27.2% 自2001年成立以来的平均年化回报率为11.8% 均优于同期标普500指数表现 [11][12] - 基于不同年均回报率假设 初始投资25万美元达到100万美元所需时间不同:若回报率为11.8%需13年 若为19.5%需8年 若为27.2%需6年 [13] - 考虑到几乎所有芯片制造商都面临供不应求的局面 该ETF的回报率在短期内可能保持高位 [16] - 即使年回报率适度降至略低于20% 该ETF仍有可能在未来10年内将25万美元变成100万美元 若回报率回落至长期平均的11.8% 投资者只需多些耐心 也可能在13年内达成目标 [15]
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身
量子位· 2025-12-22 09:40
行业现状与痛点 - 当前智能体育系统大多停留在“打分+可视化”的初级阶段,无法回答“为什么不对”和“如何提高”的核心问题 [1] - 通用大模型(如GPT-5)在处理专业的体育生物力学分析时面临严峻挑战,缺乏细粒度视觉感知能力,易产生幻觉,生成的建议多为缺乏针对性甚至物理不可行的通用模板 [3] SportsGPT框架概述 - 这是一个由大语言模型驱动的可解释体育运动评估与训练指导框架,实现了从“动作评估”到“专业诊断”再到“训练处方”的完整智能闭环 [5] - 框架围绕动作评估与训练指导两大核心任务展开 [7] - 在专家双盲评估中,SportsGPT在准确性(3.80)、全面性(3.75)、专业性(3.73)和可行性(3.77)四个维度上全面超越GPT-5、Claude 4.5等通用大模型,证实了其在生成精确、可执行的专业级训练指导方面的独特优势 [8][9] 核心技术一:MotionDTW(精准动作解析) - MotionDTW是一种专为体育动作分析设计的两阶段时间序列对齐算法,旨在解决传统方法易受运动员体型、动作速度及背景噪声干扰的问题 [10] - 算法通过构建加权多模态特征空间,采用生物力学几何角度(如髋、膝、踝、肩的相对角度)作为核心特征,并引入角速度与角加速度作为动态特征,以捕捉高动态运动中的瞬时爆发力与节奏变化 [11][12] - 算法使用时域上下文平滑(滑动窗口机制)和空域注意力掩码(关节权重机制)来有效平滑噪声并精准锁定动作本质 [13][15] - 采用“由粗到细”的两阶段对齐策略:第一阶段通过滑动窗口快速定位核心动作区间;第二阶段在约束搜索半径内进行精细化路径规整,实现毫秒级精度的关键帧映射 [16][17] - 完整模型(Two-Stage)的平均误差为1.54帧,而单阶段策略误差高达66.00帧,证明两阶段策略是算法生效的基石 [18][19] - MotionDTW在准确性上全面优于Soft-DTW与标准DTW,同时凭借4.94ms的平均推理速度实现实时响应 [21] - 实验表明,MotionDTW生成的诊断规则与专家真值的交并比显著优于Fast-DTW基线,能精准保留关键语义 [24] 核心技术二:KISMAM(专业诊断模型) - KISMAM旨在弥合原始生物力学数据与可解释诊断之间的鸿沟 [25] - 模型首先基于100名16-18岁青少年短跑运动员(百米成绩10.31-14.00秒)的全流程数据,为每个运动学指标(如关节角度、腾空时间)定义了符合生物力学规律的正态分布标准范围 [26] - 模型计算用户数据与标准阈值之间的偏差,并量化动作变形的严重程度 [27] - 通过构建高维映射矩阵,解决“单一数据异常可能对应多种技术问题”的复杂性,例如“腾空时间过长”可能指向“后蹬角度不当”或“摆动腿折叠不够”等不同问题 [28][29] - 采用“确定性规则计算+概率性逻辑推理”的混合架构,通过加权求和聚合所有指标的偏差贡献,计算出每个潜在技术问题的发生概率,并筛选出概率最高的Top-6核心问题,从根本上杜绝了端到端大模型的幻觉问题 [30] - 实验显示,若移除KISMAM,模型准确性从3.9骤降至2.85,全面性从3.85跌至2.4,证明KISMAM是连接量化指标与定性专家推理之间不可或缺的“语义桥梁” [31][32] 核心技术三:SportsRAG(训练指导生成) - 针对KISMAM输出缺乏语境解释以及通用LLM存在领域知识缺失和幻觉的问题,提出了基于Qwen3-8B的SportsRAG训练指导模型 [33] - 不同于传统微调,SportsRAG利用一个构建的60亿Token大规模外部知识库来支撑生成过程,该知识库涵盖三个层级:理论基础(200本权威教科书与期刊)、实践经验(50,000条经人工标注的高质量专家问答对)、参考标准(1,000份专业历史分析报告) [33] - 实验结果显示,移除RAG模块后,虽然诊断准确性仍维持在3.65,但方案的可行性从3.9骤降至1.65 [33] - 定性分析揭示,缺乏专家知识库支持时,模型的输出会退化为理论正确但操作模糊的通用建议(如“加强腿部肌肉”),而无法生成包含具体负重、组数和次数(如“85%1RM负重4组8次”)的专业指令,确认了RAG模块是将诊断洞察转化为专业级、可执行训练处方不可或缺的核心组件 [33][34] 框架价值与前景 - SportsGPT通过MotionDTW解决“看得准”的问题,用KISMAM解决“懂诊断”的问题,更通过SportsRAG实现了“会教学”的闭环,提供了真正可执行、有依据的专家级指导 [36][37] - 该框架证明在体育训练这个硬核场景下,通用大模型并非万能药,“懂行”的垂直领域框架才是未来,为智能体育树立了从“看见问题”到“解决问题”的新标杆 [36][37]
深度|谷歌前CEO谈旧金山共识:当技术融合到一定阶段会出现递归自我改进,AI自主学习创造时代即将到来
Z Potentials· 2025-12-16 09:32
文章核心观点 - 人工智能是一场堪比科学革命的划时代变革,人类首次面临非人类、智能水平相当或更高的竞争者,其影响深远且人类反应不可预测 [4][12] - 人工智能技术的发展正经历从语言革命到智能体革命,再到推理革命的演进,其规模法则尚未放缓,投入更多数据、电力和芯片将持续催生新能力 [13] - 人工智能的发展机遇与风险并存,机遇在于广泛的企业自动化与各领域潜力释放,风险则涉及人类主体性、儿童发展、网络攻击及地缘政治竞争等多方面挑战 [12][15][19][27] - 美中两国在人工智能领域的发展路径、优势与战略存在显著差异,竞争格局复杂,并可能塑造全球技术生态的未来 [17][23][24] 人工智能技术演进与现状 - 技术发展正经历三个阶段:已发生的语言革命(如ChatGPT)、正在发生的智能体革命(可实现任务自动化串联)、以及刚刚开始的推理革命 [13] - 人工智能的规模法则尚未放缓,投入更多数据、电力与芯片能不断催生新的涌现能力,模型竞争激烈,例如Gemini 3超越了OpenAI 5,后者此前超越了Claude 4.5 [13] - 行业普遍认为“递归自我改进”(即AI能自主学习)即将到来,预测时间从两年到四年不等,AI自主编写程序、提出数学猜想、发现新事实的能力已近在咫尺 [14] - AI生成代码的能力具备革命性意义,相当于每个人的口袋里都有一台超级计算机与一位顶尖程序员 [4][20] 人工智能的深远影响与核心挑战 - 人工智能对“人之为人”的本质提出了根本性质疑,涉及成为孩子、成年人、领导者的意义,以及对经济和就业的影响 [12] - 人工智能正在对人类发展进行大规模实验,极具成瘾性的AI系统通过平板、手机等设备接触易受操控的青少年,其长期社会影响未知 [15] - 网络攻击风险因AI生成代码能力而大幅增加,攻击者可利用AI持续尝试突破系统漏洞,防御可能需要依靠“良性AI对抗恶性AI” [21][27] - 在民主社会,算法放大言论可能传播虚假信息,破坏公众对真相的信任,构成对民主制度的挑战 [29] 美中人工智能竞争格局 - 发展路径分化:美国(以旧金山共识为代表)聚焦于推进技术前沿和超级智能研发;中国则全力推动AI在商业领域的应用,追求“AI嵌入万物” [17][23] - 优势对比:美国拥有芯片优势;中国凭借对可再生能源的巨额投资拥有电力优势(过去五年新增约120吉瓦装机容量,相当于每天1吉瓦),并在应用落地与供应链方面占优 [17][23] - 生态模式差异:美国主流企业因经济考量(如筹集高达100亿至200亿美元研发资金)逐渐走向封闭模式;中国则完全偏向开源(开放权重与源代码),可能使全球多数国家采用中国开源模型 [24][28] - 竞争态势:2024年1月两国AI性能差距显著,但业内认为差距不会持续太久,推理革命可能再次拉大差距,同时中国在产品落地速度和细节上可能提供更优体验 [21][23] 行业展望与关键问题 - 当前人工智能热潮并非泡沫,甚至可能被低估,核心驱动力是企业自动化,在医疗、气候变化、基础科学等领域潜力巨大 [19] - 人类的长远角色面临挑战,多数功能可能被计算机替代,关键在于AI发展能否与人类需求、自由兼容,例如自动驾驶系统是否需要设置“例外按钮”以应对紧急情况 [31] - 意识是否是AI可能触及或拥有的维度,仍是一个开放且值得深入研究的问题,核心在于理解意识的产生与验证方法 [35] - 建立类似国际原子能机构(IAEA)或欧洲核子研究组织(CERN)的AI国际监管机构是一种设想,但可能需在发生重大危机后才会推动各国达成共识 [36][37] 其他区域与跨领域影响 - 欧洲(如法国Mistral)拥有顶尖企业与人才,但难以筹集到与美国竞争对手相当的资金,组织协调能力是挑战 [26][30] - 印度拥有大量顶尖人才(如印度理工学院),但计算资源严重不足(10亿人口仅约1000块GPU),是美印合作的潜在领域与障碍 [26][32] - 人工智能可能改变冲突形态,当恐怖分子与政府都能获取AI工具时,战争与袭击的形式将演变,算法战争时代刚刚开启 [26] - 自动化可能导致低端岗位流失,这是一个社会问题,但技术进步与市场竞争将推动应用落地,政府过度干预效果通常不佳 [33]
AI御三家年终“火拼”
36氪· 2025-12-15 12:09
文章核心观点 - 2025年人工智能行业竞争激烈,以OpenAI、Anthropic和谷歌(AI御三家)为代表的头部公司在大模型技术、商业应用和生态布局上展开全方位竞赛,推动行业快速发展 [1][2][6][7][9] - 行业融资活动活跃,头部公司估值飙升,反映出市场对AI技术商业前景的强烈信心 [10][11] - 科技巨头(如微软、谷歌、Meta、苹果)的AI战略呈现多元化,从深度合作、自研模型到生态整合,策略各有侧重,共同塑造行业格局 [13][14][15][16] 大模型技术进展 - **OpenAI GPT-5.2**:定位为专业知识工作的最强模型,在推理、编程和智能体任务上有显著提升 [2] - 具备超长上下文能力,支持40万Token输入和12.8万Token输出 [2] - 在SWE-Bench Pro编程测试中达到55.6%的新高分,在通用推理ARC-AGI测试上首次突破90%正确率 [4] - 推动“Mega-Agent时代”,能自主完成比前代多40%更复杂的长链任务 [4] - **Anthropic Claude 4.5**:主打自主编程与工具操作能力,长程任务稳定性提升 [6] - 子型号Claude 4.5-Sonnet曾连续自主编程30小时构建Web应用,远超此前Opus 4的7小时 [6] - 在一项操作系统使用能力测试中得分约60%,高于前代模型的40% [6] - **谷歌 Gemini 3 Pro**:号称谷歌有史以来最智能、事实准确率最高的AI,最大突破是“原生多模态” [7][8] - 能同时处理文本、图像和音频,多模态融合能力业界领先 [7] - 内置增强版搜索工具调用机制,能自主将复杂问题拆解成子查询并整合答案 [8] - 一经推出即登顶权威排行榜LMArena [9] 公司融资与估值 - **OpenAI**:据报道正寻求员工股份出售,潜在估值高达5000亿美元 [10] - **Anthropic**:在9月宣布完成130亿美元的巨额融资,投后估值达1830亿美元,较年初翻了近两倍 [11] - 业务营收增长迅猛,年化收入从2025年初约10亿美元激增至8月的50亿美元 [11] - **Mistral AI**:2025年9月获得17亿欧元(约20亿美元)的系列C投资,估值达到117亿欧元 [11] - **xAI**:2025年推出了Grok 4,据称在部分基准上号称“世界最聪明” [12] 科技巨头战略布局 - **微软**: - 将OpenAI模型深度嵌入Windows、Office、Bing等核心产品,全面上线Windows 11的Copilot助手 [13] - Azure云借助OpenAI服务吸引了大量企业上云,使用量和收入显著增长 [13] - 不再将宝押在OpenAI一家,10月宣布与Anthropic达成合作,将Claude模型引入Azure和Office [13] - 加码自研多模态基础模型(代号Omega) [13] - **谷歌**: - 通过Gemini 3的成功重夺技术话语权,在产品线上全面应用AI,包括搜索、地图、Gmail/Docs等 [14] - 在Android系统中增加端侧AI能力,利用手机TPU实现本地推理 [14] - 据报道与苹果达成协议,为后者提供定制的Gemini模型 [14][18] - 谷歌云提供多元模型(包括自家及第三方模型),与微软Azure在企业市场抗衡 [15] - **Meta**: - 巩固开源社区地位,相继推出改进版的LLaMA 3模型以及一系列开源的多模态模型 [15] - 将AI融入Messenger和Instagram等社交产品,推出AI角色聊天等功能,提升用户黏性 [16] - 在VR/AR设备(如Meta Quest)中集成AI教练和健身指导 [16] - 商业化侧重间接收益,通过提升用户黏性和广告定向来赚钱 [16] - **苹果**: - 在iOS/macOS引入本地大型语言模型框架,使AI功能可在iPhone/苹果电脑上离线运行,提升隐私与响应速度 [16][17] - 将AI应用于照片处理、Apple Music个性歌单等方面 [17] - 策略体现差异化竞争,发挥软硬件一体长处,以终端和隐私为中心推进AI [18]
铝:重心上移,氧化铝:继续承压,铸造铝合金:上行动力不足
国泰君安期货· 2025-12-08 11:20
报告行业投资评级 - 铝:重心上移;氧化铝:继续承压;铸造铝合金:上行动力不足 [1] 报告的核心观点 - 北京时间12月11日凌晨3点美联储将公布12月利率决议及主席鲍威尔召开货币政策新闻发布会,市场普遍预期联储将在此前两次降息基础上再次下调利率25个基点;面对谷歌和Anthropic竞争,OpenAI宣布进入“红色警报”状态并计划提前于12月9日发布新模型GPT - 5.2,GPT - 5.2几乎全面碾压Gemini 3和Claude 4.5 [3] - 铝趋势强度为1;氧化铝趋势强度为 - 1;铝合金趋势强度为0,趋势强度取值范围为【 - 2,2】区间整数, - 2表示最看空,2表示最看多 [3] 期货市场 电解铝 - 沪铝主力合约收盘价22345元,夜盘收盘价22165元;LME铝3M收盘价2901美元;沪铝主力合约成交量261562手,持仓量245335手;LME铝3M成交量22751手;LME注销仓单占比8.12%;LME给cash - 3M价差 - 30.25美元;近月合约对连一合约价差 - 15元;买近月抛连一跨期套利成本69.35元 [1] 氧化铝 - 沪氧化铝主力合约收盘价2555元,夜盘收盘价2580元;成交量268164手,持仓量327290手;近月合约对连一合约价差 - 15元;买近月抛连一跨期套利成本24.13元 [1] 铝合金 - 铝合金主力合约收盘价21190元,夜盘收盘价21070元;成交量8304手,持仓量16876手;近月合约对连一合约价差 - 260元;现货升贴水 - 80元;上海保税区Premium为100美元;欧盟鹿特丹铝锭Premium(MB)为325美元 [1] 现货市场 电解铝 - 预培阳极市场价6187元;佛山铝棒加工费310元;山东1A60铝杆加工费50元;铝锭精废价差607元;电解铝企业盈亏5700.25元;铝现货进口盈亏 - 1572.97元;铝3M进口盈亏 - 1515.04元;铝板卷出口盈亏3176.27元;国内铝锭社会库存59.30万吨;上期所铝锭仓单6.68万吨;LME铝锭库存52.83万吨 [1] 氧化铝 - 国内氧化铝平均价2831元;氧化铝连云港到岸价(美元/吨)338美元,(元/吨)2885元;澳洲氧化铝FOB(美元/吨)314美元;山西氧化铝企业盈亏 - 122元 [1] 铝土矿 - 澳洲进口三水铝土矿价格(美元/吨)(Al:48 - 50%, Si:8 - 10%)为某价格;印尼进口铝土矿价格(美元/吨)(Al:45 - 47%, Si:4 - 6%)为某价格;几内亚进口铝土矿价格(美元/吨)(Al:43 - 45%, Si:2 - 3%)71美元;阳泉铝土矿价格(含税现货矿山价,AI:Si = 4.5)为某价格 [1] 铝合金 - ADC12理论利润 - 272元;保太ADC12为21100元;保太ADC12 - A00为 - 990元;三地库存合计49486吨 [1] 烧碱 - 陕西离子膜液碱(32%折百)2430元 [1]
预计下周二!OpenAI“紧急提前”发布GPT 5.2,应对Gemini 3的火爆
华尔街见闻· 2025-12-06 19:10
GPT-5.2模型发布与性能预期 - 据The Verge报道,OpenAI的GPT-5.2模型已完成准备,计划最早于12月9日发布,较原定的12月下旬计划明显提前 [1] - 根据网友在社交媒体上贴出的对比图,GPT-5.2几乎全面碾压Gemini 3和Claude 4.5,但图片真实性尚未得到验证 [1] - OpenAI首席执行官Sam Altman在内部评估中表示,即将推出的GPT-5.2在推理能力上将“领先于谷歌的Gemini 3” [3] - 分析指出,OpenAI的计划发布日期经常因开发问题、服务器容量问题或竞争对手的模型发布而调整,实际推出时间仍可能略晚于12月9日 [2] GPT-5.2模型性能基准测试数据 - 根据网友发布的未经证实的基准测试数据,GPT-5.2在多项评测中表现优异 [2] - 在学术推理测试Humanity's Last Exam中,GPT-5.2得分为67.4%,远高于Gemini 3 Pro的37.5%和Claude Sonnet 4.5的13.7% [2] - 在科学知识测试GPQA Diamond中,GPT-5.2得分为95.8%,略高于Gemini 3 Pro的91.9% [2] - 在数学测试AIME 2025 (No tools)中,GPT-5.2得分为100%,高于Gemini 3 Pro的95.0% [2] - 在具有挑战性的数学竞赛题测试MathArena Apex中,GPT-5.2得分为25.7%,略高于Gemini 3 Pro的23.4% [2] - 在多模态理解与推理测试MMMU-Pro中,GPT-5.2得分为89.1%,高于Gemini 3 Pro的81.0% [2] - 在屏幕理解测试ScreenSpot-Pro中,GPT-5.2得分为80.0%,高于Gemini 3 Pro的72.7% [2] - 在复杂图表信息合成测试CharXiv Reasoning中,GPT-5.2得分为89.5%,高于Gemini 3 Pro的81.4% [2] - 在视频知识获取测试Video-MMMU中,GPT-5.2得分为96.4%,高于Gemini 3 Pro的87.6% [2] - 在竞争性编程测试LiveCodeBench Pro中,GPT-5.2得分为2,683分,高于Gemini 3 Pro的2,439分 [2] - 在代理终端编码测试Terminal-Bench 2.0中,GPT-5.2得分为59.6%,高于Gemini 3 Pro的54.2% [2] - 在代理编码测试SWE-Bench Verified中,GPT-5.2得分为83.8%,高于Gemini 3 Pro的76.2% [2] - 在代理工具使用测试t2-bench中,GPT-5.2得分为93.9%,高于Gemini 3 Pro的85.4% [2] - 在长周期代理任务测试Vending-Bench 2中,GPT-5.2得分为6,025.98美元,高于Gemini 3 Pro的5,478.16美元 [2] - 在内部基准测试套件FACTS Benchmark Suite中,GPT-5.2得分为77.6%,高于Gemini 3 Pro的70.5% [2] - 在参数知识测试SimpleQA Verified中,GPT-5.2得分为79.3%,高于Gemini 3 Pro的72.1% [2] - 在多语言问答测试MMLU中,GPT-5.2得分为100%,高于Gemini 3 Pro的91.8% [2] - 在跨100种语言和文化的常识推理测试Global PIQA中,GPT-5.2得分为100%,高于Gemini 3 Pro的93.4% [2] - 在长上下文性能测试MRCR v2 (128k)中,GPT-5.2得分为84.7%,高于Gemini 3 Pro的77.0% [2] OpenAI启动“红色警报”应对竞争 - 面对谷歌的激烈竞争,OpenAI首席执行官Sam Altman周一向全体员工宣布启动“红色警报”,要将全部资源集中于优化ChatGPT,应对谷歌Gemini的激烈竞争 [5] - 在“红色警报”期间,OpenAI确立了五大必须优先解决的核心痛点,旨在巩固其8亿周活跃用户的基本盘 [8] - 五大核心痛点包括:为超过8亿的周活跃用户提供定制化的交互方式(个性化)[8]、改进Imagegen功能以应对谷歌新发布的Nano Banana Pro等竞品(图像生成)[9]、优化模型表现在公开排行榜上的受欢迎程度超过竞争对手(模型行为)[10]、提升ChatGPT的响应速度和运行稳定性(速度与可靠性)[11]、以及最大限度地减少模型拒绝回答善意问题的“过度拒绝”现象(减少过度拒绝)[12] - 公司已叫停了利用ChatGPT海量用户搜索行为投放购物广告的测试,尽管这曾被视为极具潜力的收入来源 [6] - 同时,旨在实现购物与健康任务自动化的“AI代理”项目,以及名为“Pulse”的个性化晨报项目开发进度均被推迟 [7] 公司融资前景与财务压力 - 此次“红色警报”背后是OpenAI面临的巨大资金压力,公司预计未来几年将在技术研发和算力储备上消耗数百亿美元,需要筹集约1000亿美元的巨额资金 [13] - 根据今年夏天的财务预测,ChatGPT今年的订阅收入约为100亿美元,计划明年增至200亿美元,2027年达到350亿美元 [13] - 能否实现这一宏伟蓝图,取决于OpenAI能否在激烈竞争中维持领先地位 [13] - 分析认为如果不能在当前阶段有效压制谷歌的势头,证明ChatGPT依然是全球最好的AI产品,OpenAI的后续融资能力将大打折扣 [14] - GPT-5.2的表现以及ChatGPT整体优化成果,将成为决定公司未来融资前景的关键 [15] - 对于一个需要持续巨额融资以维持运营和研发的公司而言,任何增长放缓的信号都可能对投资者信心构成考验 [16]