AGI
搜索文档
中文大模型基准测评2025年年度报告:2026开年特别版:含1月底重磅模型动态评测
SuperCLUE团队· 2026-02-05 10:00
报告行业投资评级 * 报告未对行业或公司给出明确的投资评级 报告的核心观点 * 海外闭源模型(Claude, Gemini, GPT)在综合能力上仍占据领先地位,但国产大模型正从“跟跑”向“并跑”阶段加速演进,在部分领域(如代码生成)已实现超越[23][24] * 大模型行业竞争格局呈现结构性差异:闭源阵营是“海外领先、国产追赶”,而开源阵营则是“国产主导、海外式微”[24] * 2025年大模型发展的关键趋势包括:多模态与推理能力突破、智能体(Agent)崛起与生态重构、混合专家(MoE)架构成为主流、以及中国开源模型在全球开源社区占据半壁江山[16] 2025年关键进展总结 * **全景图**:报告展示了涵盖通用、多模态、行业等领域的“2025年最值得关注的中文大模型全景图”,以及覆盖通用和垂直领域的“国内智能体产品全景图”[11][13] * **发展脉络**:自ChatGPT发布以来,大模型发展经历了“百模大战与多模态萌芽”、“多模态爆发与推理突破”、“智能体崛起与生态重构”三个时期[16] * **关键事件**:2025年1月深度求索发布的DeepSeek-R1开源推理大模型以超高性价比引爆全球;中国开源模型(Qwen3, DeepSeek, GLM等)在全球开源社区已占据半壁江山[16] * **竞争动态**:根据2025年全年月度测评,国内榜首位置在Kimi、DeepSeek、Qwen、豆包等模型间频繁更替,竞争激烈[18] 2025年年度测评结果与分析总结 * **总榜排名**:在2025年年度中文大模型基准测评总榜中,海外闭源模型Claude-Opus-4.5-Reasoning以68.25分位居榜首,Gemini-3-Pro-Preview(65.59分)和GPT-5.2(64.32分)紧随其后;国内最佳开源模型Kimi-K2.5-Thinking(61.50分)和最佳闭源模型Qwen3-Max-Thinking(60.61分)分列全球第四和第六[23][45] * **模型能力格局**:通过PCA分析,报告将模型划分为“综合能力待提升区”、“全能稳健型”(右上,侧重长链路规划与精准执行)和“硬核理科型”(右下,侧重深度思考与逻辑计算)等区域[41][42] * **六大任务国内Top3**: * 数学推理:Qwen3-Max-Thinking (国内第一,80.87分) * 科学推理:DeepSeek-V3.2-Thinking (国内第一,71.37分) * 代码生成:Kimi-K2.5-Thinking (国内第一,53.33分) * 智能体任务规划:Qwen3-Max-Thinking (国内第一,70.13分) * 精确指令遵循:ERNIE-5.0 (国内第一,37.53分) * 幻觉控制:GLM-4.7 (国内第一,83.85分)[43] * **海内外对比分析**: * 数学推理:国内头部模型(Qwen3-Max-Thinking)已追平海外最佳(Gemini-3-Pro-Preview,均为80.87分),但国内整体梯队靠后[52] * 代码生成:国产模型表现亮眼,Kimi-K2.5-Thinking(53.33分)超越海外最佳Grok-4(49.51分),尤其在Web Coding子任务上优势明显[56][60] * 智能体任务规划:海外头部模型(GPT-5.2,81.39分)优势显著[62] * 精确指令遵循与幻觉控制:海外头部模型领先优势显著,是国内模型的短板[64][70] * **开闭源对比分析**: * 闭源模型在科学推理、幻觉控制、精确指令遵循等任务上全方位领先[74][78][80][81] * 开源模型在推理能力上持续追赶,并在代码生成任务上实现头部突破,Kimi-K2.5-Thinking(53.33分)领先所有闭源模型[74][84] * **性价比与效能**:国内模型较海外模型具有更高的性价比;海外推理模型的推理效能整体上显著领先于国内推理模型[90][93] * **代表性模型**: * **Kimi-K2.5-Thinking**:优势在于代码生成(尤其是Web Coding)和智能体任务规划能力,需提升精确指令遵循和幻觉控制[96] * **Qwen3-Max-Thinking**:优势在于复杂推理(数学推理80.87分)和智能体任务规划,需提升幻觉控制、精确指令遵循和代码生成能力[100] * **评测一致性**:SuperCLUE基准测评成绩与人类评估(以LMArena为代表)具有高度一致性,皮尔逊相关系数为0.8239[102] SuperCLUE中文竞技场介绍总结 * **平台性质**:大模型中文竞技场是一个于2025年10月推出的交互式大众投票匿名评测平台,通过用户直接投票和Bradley-Terry模型计算排名[106] * **四大板块**:包含编程、图像、视频、音频四大竞技场,下设共7个具体竞技场模式(如前端网页、文生图、文生视频、语音合成等),共有84个大模型参与评测[106] * **各板块排行榜前列**: * **编程竞技场**:Claude-Opus-4.5-Reasoning排名第一,Kimi-K2.5-Thinking国内第一[109] * **图像竞技场**:图像编辑和文生图榜首均为Gemini-3-Pro-Image-Preview[111][112] * **视频竞技场**:文生视频、图生视频、参考生视频榜首分别为Veo 3.1、可灵2.5 Turbo、Veo 1.1[114] * **音频竞技场**:讯飞超拟人语音合成排名第一,Doubao-Seed-TTS 2.0第二[115] SuperCLUE专项测评基准介绍总结 * **Agent系列基准**: * **EmbodiedCLUE-VLA(具身智能)**:Gemini-3-Pro-Preview以79.61分领跑,字节跳动的Doubao-Seed-1.8-251228以75.24分取得国内第一[122][123] * **SuperCLUE-DeepSearch(深度搜索)**:GPT Agent以74.29分居首,华为的盘古R.7211模型以73.33分位列国内第一[128] * **AgentCLUE-Mobile(手机GUI Agent)**:中兴通讯的Nebula-GUI-V2以92.27分排名第一,字节跳动的Doubao-Seed-1.6-thinking-250715以89.86分紧随其后[132][133] * **AgentCLUE-CUA(Computer Use Agent)**:阿里巴巴的qwen3-vl-235b-a22b-thinking以87.37分排名第一[138] * **SuperCLUE-DeepResearch(深度研究)**:OpenAI的Deep Research产品以76.37分位居榜首,月之暗面的Kimi Researcher以58.65分位于国内第一[143][144] * **核心发现**:在各类Agent测评中,模型在不同任务上表现差异显著,头部与尾部模型能力差距巨大,且国内头部模型在多个领域已能媲美国际顶尖模型[124][133][135][144]
2026年大模型寻求更多突破,机构看好商业化落地(附概念股)
智通财经· 2026-02-05 09:57
中国AI产业进入新阶段与面临的挑战 - 近期智谱华章、MiniMax、天数智芯、壁仞科技等企业密集登陆港交所与科创板,标志着中国AI产业正式迈入商业验证与规模化应用的新阶段 [1] - 在英伟达构建的生态高墙下,国产芯片面临的“卡脖子”困境依然存在,部分已上市GPU公司股价在大幅上涨后出现明显回调,反映出市场对其商业化路径和长期成长逻辑的审视 [1] 国产AI的发展路径与生态协同 - 鉴于在绝对算力上难以短期追平英伟达,行业正从系统效率、场景贴合度上寻求超越,近期芯片企业和大模型企业都在强调“国产适配”,通过联合优化提升算力利用效率,加速大模型在各行业场景中的应用落地 [1] - 业内普遍认为,单点技术突破不足以赢得竞争,模型与芯片的“双向奔赴”及生态协同,正成为国产AI能否真正自主的关键 [1] 大模型技术演进与未来展望 - 回顾2025年,全球大模型技术能力向前演进,逐步攻克生产力场景,在推理、编程、Agentic以及多模态等能力方向取得明显进步,但模型通用能力在稳定性、幻觉率等方面仍存在短板 [1] - 展望2026年,大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破,从短context生成到长思维链任务,从文本交互到原生多模态,并向实现AGI长期目标更进一步 [2] AI大模型的商业化前景 - 在AI辅助编程工具给企业带来研发效率提升和业务优化的商业价值逐渐被认识的趋势下,企业用户在软件开发、数据分析、业务流程自动化等场景为其付费的意愿有望增强 [2] - 国产AI大模型有望受益于此趋势,实现较好的商业化落地 [2] 涉及的港股公司 - AI大模型涉及的港股包括MINIMAX-WP(00100)、智谱(02513)、快手-W(01024)等 [3]
中金:2026年大模型将取得更多突破 向实现AGI长期目标更进一步
智通财经· 2026-02-05 09:39
2025年大模型技术进展与2026年展望 - 2025年全球大模型在推理、编程、Agentic以及多模态等能力方向取得明显进步,但模型通用能力在稳定性、幻觉率等方面仍存在短板 [1] - 展望2026年,大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破,并向实现AGI长期目标更进一步 [1] 2026年模型架构与训练范式演进 - 预计2026年预训练Scaling-Law将重现,旗舰模型参数量将更上一个台阶 [1] - 模型架构方面,基于Transformer的架构延续,平衡性能与效率的MoE成为共识,不同注意力机制路线仍在优化与切换 [1] - 训练范式方面,预训练阶段将通过Scaling-Law、高质量数据和强化学习共同提高模型能力 [1] - 随着英伟达GB系列芯片成熟及推广,模型将基于更高性能的万卡集群在预训练阶段重现Scaling-Law,模型参数量和智能上限都将进一步提升 [1] 强化学习的重要性提升 - 强化学习的引入提高了模型的智能上限,让模型可以更有逻辑、更符合人类偏好进行思考和推理 [2] - 强化学习的本质是“自我生成数据+多轮迭代”,关键在于大规模算力与高质量数据 [2] - 海外OpenAI、Gemini等模型厂商以及国内DeepSeek、阿里千问等均重视强化学习 [2] - 预计2026年海内外模型厂商强化学习占比将进一步提升 [2] 持续学习、模型记忆与世界模型的新突破 - 持续学习和模型记忆旨在解决大模型的“灾难性遗忘”问题,让模型具备选择性记忆机制 [3] - Google提出的Titans、MIRAS、Nested Learning等算法和架构核心是让模型可以根据任务的时间跨度和重要性动态调整学习和记忆方式,实现持续学习甚至终身学习 [3] - 聚焦理解物理世界因果规律的世界模型在Genie 3和Marble等不同模型路径的探索下具备突破机遇 [3]
港股开盘:恒指跌0.82%、科指跌1.31%,科网股走势分化,芯片股、黄金股走低,智能驾驶概念股普涨
金融界· 2026-02-05 09:33
港股市场整体表现 - 2月5日港股主要指数集体下跌,恒生指数下跌219.37点或0.82%报26627.95点,恒生科技指数下跌70.55点或1.31%报5295.89点,国企指数下跌69.92点或0.77%报8978.46点,红筹指数下跌8.89点或0.2%报4363.4点 [1] - 盘面上科网股普遍下跌,哔哩哔哩跌超4%,阿里巴巴、快手、美团跌超2%,百度逆势涨超2% [1] - 行业板块表现分化,黄金股、芯片股、内房股走弱,智能驾驶板块盘初走强 [1] 公司业绩与财务预测 - 信达生物2025年总产品收入约人民币119亿元,同比增长约45% [2] - 理文造纸预计2025年盈利约18.8亿港元至20.0亿港元,同比增长38%至47% [2] - 中通快递预计2025年收入总额介于人民币485亿元至500亿元,同比增长约9.5%至12.9% [2] - 华润建材科技预计2025年盈利同比上升大约115%至135% [2] - 金地商置1月合约销售总额约人民币2.39亿元,同比减少61.82% [3] 公司资本运作与交易 - 安徽皖通高速公路收购山东高速股份有限公司部分股份,完成后将持有目标公司已发行股份的约7% [2] - 复星国际附属公司拟以1.05亿元认购商盟科技新增注册资本,取得增资后51.0879%的股权 [3] - 上海医药拟公开挂牌转让所持中美施贵宝30%股权,挂牌底价不低于约人民币10.23亿元 [3] - 中国煤层气完成出售山西沁水顺泰能源发展100%股权 [3] - 湾区发展附属公司向中国银行认购结构性存款产品3亿元 [3] - 宏辉集团拟2.8亿日元出售日本物业 [3] - 中信银行向中信金租增资20亿元 [3] - 曹操出行完成配售1200万股,每股32.46港元,净筹约3.83亿港元 [4] 公司股份回购 - 金山软件斥资2999.49万港元回购108.86万股,回购价27.18港元至28港元 [5] - 小米集团斥资1.46亿港元回购430万股,回购价33.94港元至34.02港元 [6] - 金蝶国际斥资1105.97万港元回购100万股,回购价11.05港元至11.1港元 [7] 机构研究与行业观点 - 国信证券继续看好港股春季行情,建议围绕业绩布局,认为人民币升值及港股业绩稳健上修将支撑后续行情 [8] - 中金公司回顾2025年全球大模型在推理、编程等方面取得进步,展望2026年将在强化学习等方面取得更多突破 [9] - 信达证券指出国内智能网联汽车法规完善,智驾渗透率提升,预计Robotaxi 2030年市场规模有望达2700亿元,无人驾驶物流车产业产值增量有望升至5948亿元 [9]
2026年大模型寻求更多突破 机构看好商业化落地(附概念股)
智通财经· 2026-02-05 09:00
中国AI产业发展阶段与市场动态 - 中国AI产业正式迈入了商业验证与规模化应用的新阶段,近期有智谱华章、MiniMax与天数智芯、壁仞科技等企业密集登陆港交所与科创板 [1] - 部分已上市GPU公司股价在经历大幅上涨后出现明显回调,反映出市场对其商业化路径和长期成长逻辑的审视 [1] 国产AI芯片面临的挑战与应对策略 - 在英伟达构建的生态高墙下,国产芯片面临的“卡脖子”困境依然存在 [1] - 既然国产芯片在绝对算力上难以短期追平英伟达,行业正从系统效率、场景贴合度上寻求超越,强调通过“国产适配”和联合优化提升算力利用效率 [1] - 业内普遍认为,单点技术突破不足以赢得竞争,模型与芯片的“双向奔赴”及生态协同正成为国产AI能否真正自主的关键 [1] 大模型技术演进与能力现状 - 回顾2025年,全球大模型技术能力向前演进,逐步攻克生产力场景,在推理、编程、Agentic以及多模态等能力方向取得明显进步 [1] - 但模型通用能力在稳定性、幻觉率等方面仍存在短板 [1] - 展望2026年,大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破,从短context生成到长思维链任务,从文本交互到原生多模态,并向实现AGI长期目标更进一步 [2] AI大模型的商业化前景 - 在AI辅助编程工具给企业带来研发效率提升和业务优化的商业价值逐渐被认识的趋势下,企业用户在软件开发、数据分析、业务流程自动化等场景为其付费的意愿有望增强 [2] - 国产AI大模型有望受益于此趋势,实现较好的商业化落地 [2] 相关港股上市公司 - AI大模型涉及相关港股包括:MINIMAX-WP(00100)、智谱(02513)、快手-W(01024)等 [3]
港股概念追踪|2026年大模型寻求更多突破 机构看好商业化落地(附概念股)
智通财经网· 2026-02-05 08:55
AI产业进入新阶段与市场动态 - 近期智谱华章、MiniMax、天数智芯、壁仞科技等公司密集登陆港交所与科创板,标志着中国AI产业正式迈入商业验证与规模化应用的新阶段 [1] - 在英伟达构建的生态壁垒下,国产芯片面临“卡脖子”困境,部分已上市GPU公司股价在大幅上涨后出现明显回调,反映出市场对其商业化路径和长期成长逻辑的审视 [1] 国产AI芯片的发展路径 - 国产芯片在绝对算力上难以短期追平英伟达,发展路径转向从系统效率、场景贴合度上寻求超越 [1] - 近期芯片企业和大模型企业发布中强调“国产适配”,通过联合优化提升算力利用效率,加速大模型在各行业场景中的应用落地 [1] - 单点技术突破不足以赢得竞争,模型与芯片的生态协同与“双向奔赴”成为国产AI能否真正自主的关键 [1] 大模型技术演进与商业化前景 - 回顾2025年,全球大模型技术在推理、编程、Agentic以及多模态等方向取得明显进步,逐步攻克生产力场景,但模型在稳定性、幻觉率等通用能力方面仍存在短板 [1] - 展望2026年,大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破,从短context生成到长思维链任务,从文本交互到原生多模态,向实现AGI长期目标更进一步 [2] - 在AI辅助编程工具提升企业研发效率和优化业务的商业价值被逐渐认识的趋势下,企业用户在软件开发、数据分析、业务流程自动化等场景的付费意愿有望增强 [2] - 国产AI大模型有望受益于企业付费意愿增强的趋势,实现较好的商业化落地 [2] 相关港股标的 - AI大模型涉及的港股包括MINIMAX-WP(00100)、智谱(02513)、快手-W(01024)等 [3]
中金 | AI十年展望(二十六):2026关键趋势之模型技术篇
中金点睛· 2026-02-05 07:52
文章核心观点 - 2025年全球大模型在推理、编程、Agentic及多模态等能力上取得明显进步,已能应用于真实生产力场景,但模型在稳定性、幻觉率等方面仍有短板 [1][3] - 展望2026年,预计预训练Scaling-Law将重现,旗舰模型参数量将更上一个台阶,强化学习、模型记忆、上下文工程等领域将取得更多突破,推动模型向AGI目标迈进 [1][2][4] - 中美大模型发展路径不同:海外厂商追求智能上限,国内厂商在有限算力下通过开源和工程优化追求效率与性能平衡,但两者相互借鉴,共同推动AI产业发展 [12][14] 技术视角:模型能力进展与短板 - **2025年能力进展**:海内外模型在推理、编程、Agentic及多模态能力上持续迭代,在文本、搜索、编程、图像&视频多模态任务等多个领域已达到真实生产力水平,进步超过2023年预期 [3] - **现存短板**:模型通用能力在可靠性、幻觉率方面未完全解决,记忆能力有提升空间;细分领域上,强逻辑&数学推理能力稳定性不足,对真实世界的理解和建模能力较弱,智能呈现“锯齿状” [4] - **2026年展望**:模型将在长板层面继续进化,并寻找有效路径补齐短板,从ChatBot到Agent,从短context生成到长思维链任务,从文本交互到原生多模态演进 [4] 模型细分能力复盘 - **推理**:强化学习激励模型形成更长思维链解决复杂任务,“测试时计算”成为主流工程杠杆,模型学会并行思考与反思;模型推理与工具调用结合形成“交错思维链”,以完成更复杂的Agent任务,但产业也开始优化思维链效率以控制成本与延迟 [6] - **编程**:在模型推理能力提升驱动下,AI编程从代码补全进化为具备工程闭环能力的开发者代理,能拆需求、搭框架、调接口、跑测试;前端追求极致视觉还原与即时预览,后端模型已具备架构思维,通过“慢思考”推演降低幻觉率,预计2026年编程仍是落地最快场景之一 [6] - **Agentic**:2025年工具调用能力成为标配,核心技术突破之一是交错思维链的使用,让智能体在思考与行动间无缝高频切换,提升实时修正能力并降低幻觉与记忆遗忘,能自主拆解数十个子任务并实现复杂长程任务闭环 [9] - **多模态**:图片生成在质量、理解与控制能力上大幅跃升,迈入可控、可用、可规模化生产阶段;以Gemini-3为代表的原生多模态架构普及,统一token化训练,并将强化学习引入视觉和音频领域以加强时空逻辑和动作因果理解 [9][10] 海内外头部模型竞争格局 - **海外头部玩家**:OpenAI、Anthropic、Gemini以AGI为远期目标,从不同维度加速探索;OpenAI文本类推理实力突出,同步提升多维度能力维持领跑;Gemini后来居上,基于预训练高质量数据与Scaling Law及后训练强化学习,基础与多模态能力大幅提升;Anthropic聚焦代码及Agent领域,走出别具一格变现路径 [11] - **国产大模型**:整体能力与海外头部模型维持约半年静态差距,在海外模型推出3个月到半年后,国内头部厂商能推出能力相当的模型并达到SOTA水准;第一梯队包括阿里Qwen-3、字节豆包1.8、DeepSeek-V-3.2、Kimi-K2、智谱GLM-4.7、MiniMax-M2 [12] - **发展路径差异**:海外厂商算力资源丰富,通过算力Scaling Law+算法优化+高质量数据齐头并进迭代基座模型,追求智能上限;国内厂商在有限资源下,通过开源路线、工程及算法优化追求效率与性能平衡,并在应用端开拓更具创新思维 [14] 模型架构:优化与创新 - **架构延续与优化**:主流模型参数规模已达万亿以上,厂商更聚焦模型架构、算法、工程共同优化,在扩大参数规模的同时提升参数利用效率 [14] - **MoE架构成为共识**:MoE架构采用稀疏激活模式,通常仅激活模型总参数的10-20%,显著降低计算量,实现计算需求与模型规模的有效解耦;国产模型如DeepSeek-V3.2、MiniMax-M2、Qwen-2.5均使用MoE架构 [17] - **MoE优化挑战**:面临计算效率、专家负载不均、参数通信等问题,需通过更复杂算法和硬件基础设施解决,例如通过辅助损失函数实现负载均衡,并通过芯片与算法协同设计提升效率 [18] - **注意力机制优化**:模型厂商基于效果在不同注意力机制(Full-Attention、Linear-Attention、Hybrid-Attention)间优化与切换,以平衡精度与效率,例如阿里千问深耕Linear-Attention,DeepSeek-V3.2引入Sparse-Attention将计算复杂度从O(N^2)降至O(Nk) [20] 工程优化:降本提速与规模化 - **核心目标**:工程侧优化聚焦降本提速与规模化生产,包括推理侧思考链工程化、实时路由机制分配模型类型、长上下文规模化落地等 [21] - **具体实践**:GPT-5引入实时路由模式,根据用户提示词自动分发请求;海内外厂商通过混合注意力机制、KV Cache压缩、算子优化、上下文重写与压缩等不同路径提升上下文处理效率 [21][22] 训练范式演进 - **预训练Scaling-Law重现**:预计2026年预训练阶段在算法和工程优化下仍有提升空间,随着英伟达GB系列芯片成熟及推广,模型将基于更高性能的万卡集群实现Scaling Law,模型参数量和智能上限将进一步提升 [1][22] - **强化学习重要性提升**:强化学习成为解锁模型高级能力的关键,其本质是“自我生成数据+多轮迭代”,依赖大规模算力与高质量数据;预计2026年强化学习在训练阶段占比将进一步提升 [2][23] - **强化学习占比数据**:DeepSeek V3.2后训练计算预算占预训练成本的10%+,估计海外模型厂商相关比重更高,可能在30%左右 [23] - **强化学习路径演进**:正从静态离线向动态在线演进,长期趋势是模型持续向半自动验证甚至不可验证的场景中进行在线学习 [26] 前沿技术路线展望 - **持续学习与模型记忆**:旨在解决大模型“灾难性遗忘”问题,让模型具备选择性记忆机制;Google提出的MIRAS、Titans、Nested Learning、HOPE等算法和架构是让模型根据任务时间跨度和重要性动态调整学习和记忆方式的关键 [2][28] - **嵌套学习(Nested Learning)**:模仿人脑处理记忆的方式,通过分层学习和优化机制实现持续学习新范式 [29] - **HOPE架构**:作为嵌套学习的工程实现,是基于自修改Titans+连续记忆系统的多层次记忆系统,通过“快”“慢”系统协作对抗灾难性遗忘 [32] - **模型记忆成为Agent刚需**:ChatGPT通过四层上下文堆栈工程化优化记忆,未来技术演进路径包括分层记忆、将长期记忆更新至模型参数 [35] - **世界模型**:聚焦理解物理世界因果规律,是实现AGI的重要拼图;主要技术路径包括李飞飞团队的3D物理空间(Marble模型)、LeCun的基于控制理论的JEPA架构、Google DeepMind的交互式视频引擎(Genie 3) [36][40] 海外头部模型厂商巡礼 - **OpenAI**:2025年模型在推理、Agentic、多模态、代码方面全方位提升,发布GPT-4.1、o4-mini、GPT-5、Sora-2等;预计2026年将加速商业兑现,拓展企业端和广告市场 [41][42] - **Gemini**:2025年能力大幅跃升,Gemini-3发布使Google成为世界第一梯队;原生多模态图像生成模型Nano banana Pro具备空间推理和光影控制能力;预计2026年将聚焦综合能力提升并加速探索世界模型 [43][45][47] - **Anthropic**:2025年延续在编程领域优势,加强代码和Agent体验;推出Claude Code(截至25年底ARR已突破10亿美元)和Cowork,探索企业场景;预计2026年将提升记忆能力并探索更多Agent泛化场景 [48][49][52] - **商业化与IPO前景**:截至26年1月,OpenAI估值达8,300亿美元,25年收入预计200亿美元,计划26年Q4启动IPO;Anthropic估值达3,500亿美元,25年收入90亿美元,也将在26年启动IPO [61] 国内头部模型厂商巡礼 - **阿里通义千问**:2025年推出Qwen-3等模型提升全模态能力,领跑中国市场;预计2026年将探索B端Agent市场机遇,让Qwen Agent作为“Orchestrator”编排垂类Agent,并可能探索世界模型技术 [53] - **字节豆包**:2025年提升基座模型能力,豆包1.8具备超长上下文与多模态、Agent能力;截至25年12月底,豆包大模型日均使用量达50万亿+(自发布以来提升417倍),日活用户突破1亿;预计2026年将延续多模态优势并深挖Agent机会 [54][55] - **DeepSeek**:2025年引领大模型走向开源普惠,发布R1、DeepSeek-Janus-Pro、DeepSeek-V3.2等;架构上采取稀疏注意力机制降低计算复杂度;预计2026年将持续追求技术优化与提升多模态能力 [56][57]
王小川:焦虑本身不是AI带来的,反而是给我们带来希望
新浪财经· 2026-02-04 22:09
AI技术发展前景与哲学思考 - 百川智能创始人王小川认为,AI在某种意义上超越了人类的部分智力 [1][2] - 从Alpha Fold开始,AI已能进行蛋白质设计、组成染色体,并将对药物设计合理性与分子筛选带来巨大变化 [1][2] - DeepMind的哈萨比斯认为,未来几年人类可能通过AI治愈所有疾病 [1][2] AI与人类文明的关系 - 王小川将AI发展视作人类文明的发展,认为AGI将帮助人类文明繁荣和延续,并成为文明的一部分 [1][2] - 他以“生孩子”作类比,表示不会担心孩子比自己聪明,并接受AI可能成为一个新物种 [1][2] 对AI的社会态度与机遇 - 王小川指出,焦虑并非由AI带来,AI反而给人类带来希望 [1][2] - 他强调每天都能看到AI带来的新变化,敢于拥抱和使用AI的人将成为这个时代最幸运的群体 [1][2]
拆解AI大基建的宏观底账:杠杆、能源约束与估值
2026-02-04 10:27
会议纪要关键要点总结 **一、 涉及的行业与公司** * **核心行业**:AI大基建(AI数据中心/AIDC)、加密货币挖矿、电力能源、宏观金融与债券市场、稳定币与黄金市场[1][2][5] * **提及的主要公司**: * **AI/科技巨头**:OpenAI、谷歌、XAI (K2)、微软、英伟达、Meta、SpaceX、特斯拉、Anthropic[5][6][7][8][10][23][29] * **AI数据中心运营商/承包商**:CoreWeave、Crusoe (Cosmos)、Iris Energy (IREN)、Applied Digital (APLD)、NeoCloud[18][19][20][22][23] * **加密货币矿工**:Marathon、Riot、CleanSpark、比特大陆 (寒武纪)、比特小鹿[14][17][22][35] * **金融机构**:摩根大通、摩根士丹利、蓝色猫头鹰资本、Galaxy Digital[8][11][22][29] * **稳定币发行商**:泰达 (Tether)[53][56][60] **二、 AI大基建的核心观点与论据** **1. 行业现状:进入“精退无补”的烧钱竞赛** * 大模型边际收益在下滑,但OpenAI作为“鲶鱼”迫使其他大厂必须跟进投入[5][7] * 英伟达战略上必须支持OpenAI,以维持整个生态的持续投入和对GPU的需求[7][8] * 市场已进入“精退无补”阶段,参与者只能继续投入[8] **2. 资本需求:巨额融资与“城投化”趋势** * 摩根大通估算美国AIDC建设总框架为**5-7万亿美元**[8][51] * 未来5年融资结构预估:投资级债券**1.5万亿美元**、项目融资、私募债/垃圾债(几千亿美元)、股市融资[9][10] * AI项目融资模式越来越像中国的“城投”,并可能通过拆分份额(如REITs)出售给散户[10][29] **3. 核心约束:美国面临严重的电力短缺** * 美国与中国不同,存在严重的电力瓶颈,主要由于电网分散、建设滞后[11] * 摩根士丹利预测,因AIDC建设,到2028年美国电力缺口将达**46GW**(相当于46个核电站)[11][12] * 电力短缺是法规性、结构性的,短期内难以解决[32][38][41] **4. 电力解决方案评估** * **矿工转产AIDC**:被视为最现实、最快的路径。美国所有矿场转产可释放约**15GW**电力,占缺口的近三分之一[12][19][34] * 但市场对矿场电力(“黑电”)能否稳定转化为T3级别AIDC持怀疑态度,体现在估值上:已签单矿工EV/瓦多在**3-7美元**,未签单者在**2美元以内**,远低于新建T3 AIDC的重置成本(**11-13美元/瓦**)[20][21][22][35] * 矿工转产模式分两种:轻资产的“CoreWeave系”(只出租电力,签15年长约)和重资产的“Iris Energy系”(需自购GPU,与微软签5年约,面临更大融资压力)[22][23][24] * 转产项目的内部收益率(IRR)估算约**10%-12%**,但对GPU(假设**5-6年**折旧)和场地(假设**20年**折旧)的使用年限非常敏感[25][26][30][31] * **其他常规路径**: * **天然气发电**:受限于燃气轮机产能瓶颈(订单排到2030年)和环保法规[32][33] * **储能/燃料电池**:中期解决方案,但无法大规模解决问题[34] * **核电(SMR)**:商用时间较长,远水解不了近渴[34] * **非常规路径**: * **将训练环节迁出美国**(如巴西、印尼),推理留在美国[36] * **允许柴油主力发电**:理论上可瞬间释放**80GW**电力,但受环保法规严格限制[37][38] * **太空算力中心**:马斯克提出,旨在规避地面监管障碍,并为SpaceX上市讲述宏大故事。其经济可行性取决于星舰发射成本能否降至**1000万美元/次**以内(对应每公斤载荷成本**60-10美元**)[33][41][42] **三、 宏观与政策风险** **1. 政策与监管是最大风险** * **中期选举风险**:若民主党在中期选举中横扫两院,当前“去监管”(Deregulation)的趋势将受阻,严重打击AI、加密货币、商业航天等产业[39][40][41][47] * **建议关注预测市场**(如Polymarket)对选举概率的实时变化,以捕捉内幕信息[40][47] **2. 新任美联储主席政策的影响** * 新任联储主席沃什(Warsh)可能推行取消或降低超额准备金利息的政策,以迫使银行购买长期国债和MBS[10][43] * 市场担心此举可能导致收益率曲线陡峭化(长债收益率下不来,短债收益率被压低),从而抬高长期投资的机会成本,压低权益资产估值,对动能股和Meme股造成打击[43][44] * 其最终政策表态是影响上半年市场走势的关键变量[44][46][48] **3. 债券市场动态** * 稳定币合规要求(购买93天以内国库券)挤出了货币市场基金,迫使后者购买更长期限的短债,助长了财政部“借新还旧”的滚动操作[47] * 市场共识是期限溢价走高、收益率曲线陡峭化[48] **四、 加密货币与黄金市场的联动** **1. 加密货币挖矿产业趋势** * 美国挖矿成本高昂(完全成本估算达**9-10万美元/比特币**),在全球竞争中不再经济[17] * 在AI产业对电力需求饥渴的背景下,比特币挖矿产业可能整体淡出美国,迁往海外[36][37] * 加密货币相关股票此前上涨与“去监管”预期有关[38] **2. 泰达(Tether)的业务转型与黄金机遇** * 泰达面临三年合规过渡期,需将非合规资产(如比特币、黄金投资)从储备金中剥离[53][54] * 为此,泰达可能以**5000亿美元**估值融资**150-200亿美元**,以自有资金承接这部分约**400亿美元**的资产[55] * 合规后,其稳定币业务的ROE将下降至行业平均水平(类似USDC),因此公司可能大力拓展新业务——**黄金链上代币**(SAVT)[56][58] * 推动力:全球实物黄金交易占比低(可能不到**10%**),产业界希望提升实物交易以压缩金本位杠杆,推动金价;地缘政治分裂(东西方两套体系)也提升黄金重要性[57][59] * 看多黄金,认为涨至**7000美元**是大概率事件,甚至可能到**1万美元**[60] * 泰达储备金安全垫厚:黄金(约**150亿美元**)和比特币(约**80多亿美元**)合计约**230亿美元**,且有**67亿美元**超额准备金。即使算上关联投资公司的净资产,整体超额准备可达**17%-18%**,抗跌能力强[60][61][62]
刚刚,真正好用的Windows版「Cowork」上线了
机器之心· 2026-02-04 09:04
产品发布与核心定位 - 昆仑天工正式发布全新的Agent产品——天工Skywork桌面版,并旗帜鲜明地将Windows平台作为首发阵地,旨在为全球用户提供开箱即用的「Cowork平替」[1][4] - 该产品原生支持Windows系统,无需繁琐迁移或适配,可对海量本地历史文件和复杂项目场景进行自动化处理,打通了个人Agent进入真实办公场景的「最后一公里」[5] - 在全球竞品如Claude Cowork、OpenAI Codex等优先适配macOS的生态失衡背景下,Skywork桌面版打响了针对「Windows生产力人群」的抢位战[4][11] 产品功能与性能特点 - **多模型支持**:与Claude Cowork仅支持自家模型不同,Skywork增加了对谷歌Gemini系列模型的支持,用户可自由选择Gemini 3 Pro、Claude Opus 4.5、Claude Sonnet 4.5等模型,也可启用智能路由「auto」模式自动匹配最佳模型[7] - **全文件格式处理**:产品能跨文件、跨格式直接读取并理解图片、视频、表格、Word、Excel、PDF、PPT等全类型文件,进行归类整理或生成新内容[8] - **多任务与本地执行**:能同时响应并执行多项复杂任务,且所有处理在本地环境完成,无需上传云端,消除了用户对数据泄露的担忧[9] - **内置技能库**:内置了100+个经过精选的、真正有用的Skills技能包,操作灵活,覆盖Office三件套生成、网页生成以及图像与视频生成[9] - **创作场景优势**:在图像与视频生成的创作场景中,相较于Claude Cowork,在语义遵循、表现力、专业性等多方面均更胜一筹[9] - **价格优势**:用户只需支付19.99美元的Basic会员费,即可解锁完整的产品体验[10] 实测应用案例 - **PPT自动生成**:用户只需提供Word文档和视频素材文件夹,并告知制作PPT的需求,Skywork能自行分析需求、寻找素材并生成可供修改的PPT初稿,过程中还会与用户互动选择风格[13][14][15] - **复杂文件整理**:在测试中,Skywork成功在不删除任何原始文件的基础上,将文件夹内所有内容整理成清晰的目录结构,并生成报告;任务共整理了194个文件,发现了4个重复文件,并生成了包含学术、研究、商业、语言学习、工作文档等分类的新文件夹结构[17][18][20] - **图文报告生成**:根据需求,Skywork能自动搜索网络信息,规划撰写路径,并生成一份图文并茂的「下一代AI推理算力基础设施提案」意向报告[21][22][23][24] - **SEO网页生成**:能够根据文档和图片,精准提取核心语义、优化视觉素材,并自主编写符合SEO逻辑的代码,生成信息齐全、布局合理的精美网页[25][26][27] - **智能体能力进化**:实测表明,此类智能体助手已不再是简单的对话执行工具,在获得更高系统操作权限后,其自主性得到史诗级强化,可在极少人为参与下高效完成复杂工作[28] 行业趋势与竞争格局 - **发展阶段**:2025年被普遍认为是Agent落地元年,而2026年正见证新一轮爆发;行业观点认为,2025年是编程智能体元年,而2026年将是个人助理智能体元年[30][31] - **竞争态势**:年初Agent赛道竞争白热化,国外有Anthropic发布Cowork、OpenClaw,国内有阿里上线千问APP任务助理和桌面端QoderWork,其他大模型独角兽也陆续推出桌面智能体应用[30] - **行业影响**:Agent正在以前所未有的速度与深度重构数字世界的底层逻辑,通过连接本地操作系统,实现跨文件管理、跨应用操作和复杂任务并行执行,有望将人类从繁琐任务中解脱,驱动走向以Agent为主导的超级个体时代[31][34] - **竞争关键**:随着Agent底层模型和执行框架被开源社区大量解构,赛道几乎不存在「技术秘密」,主流厂商均有能力自研,因此竞争胜负手转向了场景垂直与生态适配[34] - **公司优势**:昆仑天工早在2025年5月即发布了「AI版Office」——天工超级智能体(Skywork网页版),积累了丰富的办公场景效率优化经验和庞大的AI办公用户基础;其桌面版依托全球最大的生产力平台Windows,并灵活支持多模态与逻辑推理模型,在办公场景效率优化及与其他应用场景的联动中构筑护城河[35] - **市场展望**:在Agent竞争中,可能不会出现「赢家通吃」的局面,谁能更快建立起无法替代的相对优势,谁就可能成为最后的赢家[33][34][36]