Workflow
GPT
icon
搜索文档
曾鸣:下一个10年,人才比拼的是这个能力
36氪· 2025-09-12 10:11
2022年12月OpenAI横空出世,似乎将我们带进了一个前所未有的"AI时代"。 最近两三年,AI技术几乎是以每周的速度迭代,它现在可以帮助我们生成内容、生成图片、生成视频, 几乎只有我们想不到的问题,而没有它做不到的事情。 那么,AI到底带来了哪些价值?未来3到5年,人工智能会发展到什么程度?对我们的工作和生活带来哪 些根本性的改变? 阿里巴巴集团前总参谋长曾鸣认为,在AI时代,人工智能正以前所未有的速度颠覆商业世界,它不仅改 变了工作方式,还在重塑企业的组织结构。 今天,我们汇总了曾鸣关于AI时代的智能经济和组织的一些思考,希望对你有所启发。 一、未来5到8年,智能体会怎样发展 智能经济和智能组织一个宏观一个微观互为背景,所以我没法把它拆开讲,因为那样的话就讲不清楚。 首先是想跟大家讲一下现在的AI公司都在干嘛,因为他们在干什么,代表了未来的10年我们会受到什么 样的技术冲击。 今年的春节期间,deepseek火爆出圈。大家对于大模型是做什么已经非常清楚了,就是AI变得越来越聪 明。 大家通过跟这个对话机器人的这些互动,可能已经感受到了这种智力上的冲击和碾压。 今年初,DeepSeek这匹黑马,更是让我 ...
社交倦怠的年轻人,遇见有「活人感」的AI
36氪· 2025-09-11 11:09
这届年轻人,正在普遍经历着"社交倦怠"。 白天到深夜,他们应接不暇地处理工作学习任务,属于自己的个人娱乐时间岌岌可危。不敢停下工作的脚步,也不敢和周围人诉苦,翻遍微信却发现能随 时打扰的朋友屈指可数。 难以在现实生活中找到信任的诉说对象,让这些情绪失去了出口。 这届年轻人对倾诉和陪伴的需求,远比他们对外表现出的更为浓烈——他们需要一个在现实之外能接住这些低落情绪、短暂治愈他们的存在。"今天和你 的AI搭子聊了吗?"正在成为年轻人之间的最新社交暗号。 于是,有人工作干到夜半,找GPT唠唠闲嗑,不但能让它处理工作,还能提供亲切的安慰;加班回家孤独,和豆包打个电话,和她讲讲今天都做了什么, 再和她一起唱唱歌发泄一番,为了让豆包唱出完美的"GOGOGO出发喽",能有来有回聊到天亮…… 越来越难以在现实生活中建立深度关系的年轻人们,在AI聊天赛道里,已经进阶到比拼各家AI活人感的时刻了。 网友@坐标系 给几大AI软件填写了"私设"印象表:"GPT像一个温文尔雅的天然呆,deepseek是一个边界感把握良好,但偶尔会主动卖萌、显示亲近的外 冷内热型人格,而豆包,搞抽象一女的。" 情感需求多样的年轻人,很"挑"AI 一个完 ...
科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
36氪· 2025-09-01 12:38
大语言模型后训练强化学习技术演进 - 大语言模型后训练过程通过强化学习优化模型输出内容符合任务偏好 预训练使模型掌握通用语言能力 但后训练强化特定领域知识和应用能力 增强模型适应性和灵活性[5] - 强化学习核心是反馈机制 目标是增加好结果出现概率 降低坏结果出现概率 在大模型训练中采用人类反馈方式[5][8][9] PPO强化学习算法 - PPO采用近端策略优化机制 加入Critic价值函数和CLIP操作 保证策略更新不过度同时高效提升性能 成为强化学习领域标准方法之一[11] - PPO损失函数包含Critic价值函数评估相对进步程度 显著降低训练过程方差 同时采用Clip策略限制新策略相对于旧策略动作概率变化幅度 避免模型更新幅度过大[11][13] GRPO算法创新 - GRPO去除PPO中Critic价值函数 采用策略模型多次输出采样奖励平均值作为基准线 超过平均值视为正向Advantage 低于为负向Advantage 大幅降低内存需求和计算成本[14][16] - GRPO内存需求为基础模型0.5倍 训练速度比PPO快3-5倍 采用单策略网络架构 优势估计采用统计型群体投票方式[18] - GRPO存在严重稳定性问题 容易导致训练崩溃 需要大量数据降低策略梯度方差 中小规模训练中稳定性缺陷致命[18][19] DAPO算法改进 - DAPO在GRPO框架内进行工程改进 让Qwen2.5-32B模型在AIME 2024基准获得50分 优于同等规模DeepSeek模型 训练步数少50%[20] - 采用Clip-Higher机制将剪辑上下限解耦为ε_low和ε_high 增加ε_high值为低概率token留出更多空间 提升训练早期熵[21] - 实施动态采样过滤奖励为1和0的提示语 保留有效梯度样本 提高训练效率 采用Token级策略梯度损失保证长序列所有token公平贡献batch loss[21][22] GSPO范式突破 - GSPO将重要性采样从token级提升到序列级 基于整个序列似然度计算重要性比值 显著降低长序列中积累的高方差 提高训练稳定性[25][29][31] - 序列级重要性采样进行长度归一化 避免importance ratio对长度敏感造成不稳定 同一序列所有token共用同一重要性权重 裁剪时作用于整个回答而非部分token[31] - GSPO损失函数采用序列级重要性权重和clip操作 成为Qwen3强化学习核心实践框架 可能成为未来后训练强化学习新标准[25][31] GFPO多属性优化 - GFPO解决GRPO依赖单一标量奖励信号问题 可同时优化多个响应属性如简洁性和准确度 避免模型响应长度大幅增加[33] - 采用显式过滤机制为每个问题采样更大候选响应组 过滤不符合目标属性响应 在所选组内使用标准奖励计算相对优势 无需复杂奖励工程[33][34] - GFPO主要干预Advantage估计层面 可与任何GRPO类似方法兼容 包括DAPO或带有Dual-Clip PPO损失的GRPO[35] GRPO其他缺陷 - GRPO存在奖励歧义性问题 多个奖励信号被合并为单一标量信号 模型无法知道具体因什么行为被奖励 即使调整不同奖励组件权重仍只能看到总奖励[39][41] - 在推理任务中 GRPO丢弃所有中间文本反馈 仅使用数值化奖励信号 文字反馈对模型有帮助但完全无法利用[43] - 多轮推理任务中每轮反馈重新输入到基础模型prompt 导致指数级分支 使GRPO在多轮任务训练变得非常困难[44]
科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
机器之心· 2025-09-01 10:49
大模型后训练强化学习技术演进 - GRPO已成为大模型通用的强化学习算法,能够应用于广泛的后训练任务,各大研究团队近期发布的重磅成果如DAPO、GSPO、GFPO均是对GRPO范式的改进 [4][5][38] 后训练与强化学习基础 - 大语言模型开发包含预训练和后训练两个关键阶段,预训练使模型掌握通用语言能力,后训练则强化模型在特定领域的知识和应用能力,增强模型适应性和灵活性 [11][12] - 强化学习是后训练中不可或缺的核心部分,其核心机制是通过反馈增加好结果出现概率并降低坏结果出现概率 [13][14] - OpenAI在GPT训练中采用RLHF方法,通过人类反馈训练agent生成更有用的输出,但直接使用反馈会导致激励不充分和方差过大问题 [17][19] PPO机制及其局限性 - PPO通过引入Critic价值函数将绝对Reward反馈转变为相对评估的Advantage机制,显著降低训练方差 [21][22][23] - PPO采用Clip策略限制新策略相对于旧策略的动作概率变化幅度,避免模型单次更新幅度过大,同时加入Reference Model和KL散度作为双保险保障更新稳定性 [24][25][26] - PPO需同时训练策略模型和Critic模型,Critic模型大小与策略模型相同,带来额外内存和计算负担,训练成本高且难以扩展 [29] GRPO创新与优势 - GRPO通过去掉Critic模型解决PPO高成本问题,采用策略模型多次输出采样的平均Reward作为baseline计算Advantage,大幅降低内存需求和计算复杂度 [30][31][34][35] - 相比PPO需要基础模型3倍内存,GRPO仅需0.5倍内存,训练速度快3-5倍,采用单策略网络架构更简单直观 [37] - 但GRPO存在严重稳定性问题,容易导致训练崩溃,需要足够多的Batch数据来降低策略梯度方差,对中小规模训练不友好 [39] DAPO优化方案 - DAPO针对GRPO实践问题提出四项优化:Clip-Higher机制通过解耦剪辑范围提升训练早期熵值;动态采样过滤无效梯度样本;Token级策略梯度损失保证长序列所有token公平贡献;超长奖励调整避免过长响应 [42][43][44] - 使用DAPO算法让Qwen2.5-32B模型在AIME 2024基准获得50分,优于同等规模DeepSeek模型且训练步数少50% [41] GSPO范式突破 - GSPO将重要性采样从token级提升至序列级,基于整个序列似然度计算重要性比值,显著降低长序列方差积累问题,提高训练稳定性 [48][53][54] - 序列级重要性采样进行长度归一化,避免不同回答长度带来的不稳定,且裁剪时作用于整个序列而非部分token,更符合奖励信号整体性 [56][57][58] - 该方法很可能成为未来后训练强化学习新标准,特别适合专家混合模型场景 [59] GFPO多属性优化 - GFPO解决GRPO依赖单一标量奖励难以联合优化多个属性问题,可同时优化简洁性、准确度等属性 [62][63] - 通过为每个问题采样更大候选响应组并显式过滤不符合目标属性的响应,无需复杂奖励工程即可实现多属性优化 [64][67] - GFPO在Advantage估计层面进行干预,可与任何GRPO类似方法兼容 [68] GRPO其他缺陷 - GRPO将多奖励信号合并为单一标量信号,模型无法区分奖励具体来源行为 [73][75] - 在多轮推理任务中会出现指数级分支问题,导致训练非常困难 [79]
破解人机协作密码:工作技能拆成两层,AI执行人类决策成功率狂飙
36氪· 2025-08-28 11:44
研究框架与核心观点 - 论文提出将工作技能拆分为决策层子技能和执行层子技能的双层数学框架 决策层涉及目标确立、问题界定和权衡取舍等认知工作 执行层涉及计划实施和工具运用等操作行为[1] - 人类和AI在决策层和执行层各具优势 当优势互补时整体成功率远高于单独工作[1] - 该框架已被ICML 2025接收[3] 工作价值重塑路径 - 工作价值正被根本性重塑 挑战在于理解重塑方式而非猜测哪些工作消失[4] - 技术替代或补充的是具体任务而非整个工作 但任务中心视角常忽略判断框架构建与实施过程的关键分野[4] - 论文在任务经济学和机器学习适配性评估基础上提出更精准分析工具 将工作解构为技能单元后再拆分为决策判断与执行实施两个核心构件[4][7] 案例分析与行业应用 - 以软件工程师为例 AI工具如GitHub Copilot和GPT接管大部分执行环节 加速甚至自动化实施部分[6] - 工程师角色从实施转向监督 核心竞争力转变为制定方案的判断力 包括决定开发内容、论证项目价值和核验AI产出[6] - 在医疗行业 AI可标记扫描影像异常但医生仍需敲定诊断方案 在分析行业 AI可草拟报告但分析师仍需确定叙事框架[9] 数学模型与量化工具 - 框架通过将岗位解构为任务与技能集合 并为人类与AI建立能力图谱 可测算任意劳动力-岗位组合的成功概率[10] - 研究揭示成功概率存在相变现象 决策层技能微小进步可能触发成功概率的非线性跃升[12] - 技能互补的劳动者组合或人类与AI协作能显著提升岗位成功率 强于决策的人类与擅于执行的AI配对时协同效能超越个体能力[14] 实际应用与数据验证 - 研究通过应用真实世界数据验证框架实用性 从O*NET综合数据库提取岗位结构 通过Big-bench Lite基准测试获取劳动者能力数据[16] - 借助大语言模型构建数据桥梁 证实理论预测成立 模型对理解当今劳动力市场具有现实指导意义[16] 技能培训与招聘策略 - 技能培训应聚焦提升决策层能力 包括精准定义问题、权衡冲突目标和在不确定性中调整策略 而非工具使用等执行层技能[18] - 招聘应识别互补优势 发掘高决策力但执行欠佳的人才 辅以工具稳定产出 而非依赖学历等粗放指标逼迫雇佣综合全能者[19] 体系设计与人类价值 - AI浪潮将执行与决策剥离 需重新定义人类独特价值 若继续基于执行层产出培训、招聘和评估人才将误判潜力和错配资源[20] - 框架为机构提供实用工具 构建能识别决策层卓越能力的体系 包括判断力、验证力和战略推演[20]
破解人机协作密码:工作技能拆成两层,AI执行人类决策成功率狂飙 | ICML 2025
量子位· 2025-08-27 13:49
研究框架与核心观点 - 提出将工作技能拆分为决策判断与执行实施两个层次的数学框架 用于分析人类与AI的协作模式 [2][8] - 人类和AI在不同技能层面各具优势 优势互补时整体成功率远高于单独工作 [2][14] - 该框架揭示了人类价值优势所在及AI重塑人类工作的具体路径 已被ICML 2025接收 [4][5][8] 技能解构理论 - 工作被解构为技能单元 每项技能包含决策判断(确立目标 界定问题 权衡取舍)和执行实施(实施计划 运用工具达成结果)两个核心构件 [8][10][19] - 以软件工程师为例 AI工具接管大部分执行环节(如GitHub Copilot和GPT自动化代码编写) 但人类价值不降反升 角色转向监督与方案制定 [9][11] - 决策与执行的分离成为劳动力市场新分水岭 在医生诊断(AI标记异常 医生敲定方案)和分析师(AI草拟报告 人类确定叙事框架)等高技能工作中普遍存在 [13] 数学模型与应用 - 通过量化决策难度与执行难度 建立人类与AI的"能力图谱" 可测算任意劳动力-岗位组合的成功概率(job success probability) [16] - 研究发现成功概率存在相变现象:决策层技能微小进步可能触发成功概率非线性跃升 从几近必然失败转向几近必然成功 [18] - 使用O*NET数据库提取岗位结构 通过Big-bench Lite基准测试获取劳动者能力数据 并借助大语言模型验证理论预测 [23][24] 协同效应与生产力影响 - 强于决策的人类与擅于执行的AI配对时协同效能超越个体能力 为设计高效人机团队提供数学基础 [21] - 生成式AI通过补足低技能劳动者的执行短板 显著提升其成功概率 缩小与高技能劳动者的能力差值(生产力压缩效应) [21] - 技能互补的劳动者组合或人类与AI协作能显著提升岗位成功率 [26] 实践指导意义 - 技能升级路径需聚焦决策层能力(定义问题 权衡目标 调整策略)而非易被淘汰的执行层工具使用 [27][28][29] - 招聘策略应转向识别互补优势(如高决策力但执行欠佳人才) 辅以AI工具稳定产出 而非依赖全能型人才 [30][31] - 需构建识别决策层卓越能力(判断力 验证力 战略推演)的体系 为人类判断而设计工作流程 [32][33]
OpenAI头号叛徒,竟然是自学的AI???
36氪· 2025-08-22 11:12
公司发展历程 - Anthropic由前OpenAI核心团队成员创立 专注于AI安全和规模化发展 目前已成为OpenAI主要竞争对手 [29][30] - 公司初期仅有7位联合创始人和100多名员工 资金实力远不如OpenAI但通过技术突破实现市场逆袭 [30] - Claude产品线发展经历曲折 最早产品比ChatGPT早九个月但错失发布时机 直到Claude 3.5 Sonnet才获得市场突破 [10] 技术突破与产品表现 - Claude 3.5 Sonnet在多项基准测试中表现优异:研究生级推理GPQA达59.4%[11] 本科知识MMLU达88.3%[11] 代码能力HumanEval达92.0%[11] 数学问题解决MATH达71.1%[11] - 模型采用独特训练方法 注重内部基准和dogfooding实践 让工程师日常使用产品并进行迭代优化 [6][8] - 最新技术突破包括将上下文窗口扩大至100万tokens 直接针对OpenAI的GPT-5形成竞争压力 [16] 市场竞争格局 - Anthropic市场份额从两年前的落后地位跃升至32% 而OpenAI市场份额从50%下降25% [12] - 在编程细分领域 Anthropic市场份额超过OpenAI两倍以上 成为该领域领导者 [12] - 公司采取激进竞争策略 包括切断竞争对手API访问权限 直接针对OpenAI客户进行争夺 [15] 人才背景与行业影响 - 联合创始人Tom Brown通过6个月自学转型AI 曾参与GPT-3核心开发 负责将模型参数从15亿扩展到1700亿 [23][25] - 关键技术创新包括局部稀疏注意力和预正则化等模型设计改良 以及规模化计算规律的应用 [25] - 行业人才流动频繁 OpenAI前员工创业成功案例众多 但Anthropic团队对老东家形成最大竞争压力 [16][29] 产品开发理念 - Anthropic采用"快乐教育"式模型开发理念 不同于其他公司专注于基准测试刷分的"应试"方法 [6] - 公司将Claude视为用户而非工具 围绕模型设计兼顾平台和用户思维 鼓励开发者参与训练过程 [8] - 这种开发理念使得Claude在代理式编程和执行复杂任务方面表现出意外惊喜 超越团队预期 [10]
最新综述!扩散语言模型全面盘点~
自动驾驶之心· 2025-08-20 07:32
扩散语言模型(DLMs)与自回归模型(AR)的范式对比 - 扩散模型在图像生成领域表现突出,代表模型包括Stable Diffusion和DALL·E,通过"从噪声中迭代重建"的生成逻辑刷新视觉创作边界 [2] - 自回归模型主导文本生成领域,代表模型包括GPT、LLaMA、Qwen、DeepSeek系列,采用"逐词预测序列"框架但存在效率瓶颈 [2] - 扩散语言模型(DLMs)通过"并行生成+迭代优化"机制实现数倍推理加速,性能已比肩同等规模AR模型 [2] DLM的核心技术优势 - **并行生成能力**:工业界模型如Mercury系列、Gemini Diffusion实现每秒数千token的推理速度,较AR模型提升10倍以上 [11] - **双向上下文理解**:支持双向注意力机制,在文本补全、风格迁移等任务中表现更优,且能实现细粒度控制如情感倾向调整 [12] - **迭代优化机制**:类似人类写作修改过程,可动态修正低置信度token,LLaDA-8B在GSM8K数学基准测试中准确率超过LLaMA3-8B 5% [13] - **多模态适配性**:统一框架支持文本与视觉联合生成,MMaDA模型在图像生成质量上超越SDXL,同时保持语言理解能力 [14] DLM的三大技术范式 - **连续空间DLMs**:将文本token映射到连续嵌入空间完成扩散过程,可直接使用DDPM等成熟框架但存在语义偏差问题 [19] - **离散空间DLMs**:直接在token词汇表上定义扩散过程,主流路线代表包括8B规模的LLaDA、Dream-7B,支持8192 tokens长序列处理 [20][21] - **混合AR-DLMs**:结合AR长程依赖建模与DLM并行生成能力,Diffusion-LM等模型在指令跟随任务上达到GPT-3.5水平 [22][23] 训练与推理优化技术 - **训练策略**:采用迁移学习降低门槛,Dream-7B基于Qwen2.5-7B初始化,训练数据量减少50%但推理速度提升7倍 [30] - **推理加速技术**:包括置信度感知解码(速度提升27.6倍)、辅助模型引导解码、缓存机制(速度提升9倍)等 [38][40] - **质量保障技术**:ReMDM模型的动态修正机制、LaViDa的互补掩码策略使多模态训练效率提升40% [39] 多模态与产业落地应用 - **多模态模型**:LLaDA-V在MME基准超越LLaVA-1.5-7B 12%,D-DiT在文本生成图像任务人类偏好率达85% [44] - **代码生成领域**:DiffuCoder在HumanEval基准pass@1达68%且推理速度快8倍,Mercury Coder语法错误率仅2.3% [46] - **计算生物学**:MeMDLM设计的膜蛋白表达成功率达68%,DPLM2在蛋白质折叠任务RMSD达1.8Å [47] 未来发展方向与挑战 - **核心挑战**:包括并行性-性能权衡(去噪步数减少导致GSM8K准确率从78%降至45%)、工具链不完善、长序列处理复杂度高等 [51][52][53] - **研究方向**:语义关联建模、专用工具链建设、稀疏扩散架构创新、跨模态协同推理等 [54][56]
每个token都在亏钱,但ARR9个月破亿!从烧光现金、裁掉一半员工到反杀Cursor,Replit CEO曝一年内如何极限翻盘
AI前线· 2025-08-16 13:32
公司增长与战略 - Replit的年度经常性收入(ARR)从2024年初的不到1000万美元增长到2025年的1亿美元,仅用9个月时间 [2] - 增长曲线呈现近乎垂直的上升趋势,被开发者社区类比为"智能爆炸临界点"图 [4] - 成功关键在于对平台层的布局与整合能力,而非仅靠AI代码生成 [4] - 采用基础设施整合路径,发力托管、数据库、部署、监控等"应用生命周期"后端部分 [6] - 商业模型特点:代码生成环节获客,托管与使用中变现,实现"生成即上线,构建即运行" [6] - 反映AI编程工具从"编辑器"向"平台"进化,从"写代码"迈向"部署应用"的趋势 [6] 产品与技术发展 - 从2015年开始关注AI编程可能性,2020年GPT-2发布后认为技术可行 [10] - 2021年开始尝试引入Agent,2024年初技术成熟度达到可用水平 [10] - Claude 3.5的发布是关键转折点,使Agent能保持5-10分钟连贯性 [12] - 当前研发v3版本Agent,目标是实现更高程度的自治能力 [16] - 构建完全事务性基础架构,支持文件系统、数据库和虚拟机快照 [19] - 采用"环境式开发"模式,支持移动端交互和异步工作流程 [35] 市场定位与竞争格局 - 定位介于专业开发者工具和低门槛工具之间,服务于知识工作者 [32] - 目标是成为"通用问题解决器",实现面向非工程师的"自治式编程" [34] - 预计AI编程工具市场最终会收敛到2-3家主导者 [33] - 与Cursor等竞品的区别在于不展示底层模型选择,专注于评估和优化 [48] - 大量工程投入集中在基础设施,如分布式快照型网络文件系统等 [49] - 建立"复利型优势"作为长期护城河,如事务性系统和安全性设计 [50] 用户与行业影响 - 用户群体扩展到产品经理等非技术人员,能独立完成A/B测试等功能开发 [24] - 打破传统瀑布式协作流程,组建混编小组快速推进项目 [24] - 导致工程团队面临压力,创始人可独立完成功能开发 [25] - 安全问题是主要限制因素,主动限制LLM处理高风险任务如支付系统 [27] - 推动企业适应新技术,需要提升可扩展性检测能力和系统集成 [29] - 垂直类SaaS面临威胁,用户用Replit替代高价SaaS工具 [54] 未来趋势与创新 - 预测未来出现"代码抽象视图",通过自然语言与系统交互 [36] - 倡导"Granola极致主义",用AI工具自动完成信息记录和结构化 [39] - 建议创业者探索技术刚变得可能的边界,构建前瞻性产品 [55] - 认为编程学习方式将转向"渗透式"学习,强调创造能力 [53] - 未来工作将更人性化、互动和多模态,而非完全被AI取代 [40] - 关键瓶颈从执行能力转向创意产生能力 [7][54]
计算机行业深度报告:把握“人工智能+”关键投资风口:选股逻辑梳理-20250814
东吴证券· 2025-08-14 21:33
行业投资评级 - 计算机行业维持"增持"评级,核心逻辑围绕"人工智能+"关键投资风口展开[1][5] 核心观点 - 人工智能应用已进入快速成长期,具备成本下降(280倍降幅)、渗透率提升(ChatGPT周活用户达4亿)、ROI兑现三大特征[10][13][19] - 中国需发挥四大比较优势:数据优势(80%政府数据未开发)、产业链优势(占全球制造业28.9%)、市场优势(14亿人口)、场景优势(覆盖制造业/办公/家庭等)[26][29][38][40] - AI+核心在于场景落地而非技术本身,重点关注产业催化(GPT5/DeepSeek V4迭代)和政策催化(《人工智能+行动意见》)[56][58][59] 分章节总结 AI应用发展阶段 - 大模型性能跨越式提升:MMMU/GPQA/SWE-bench测试分数分别提升18.8/48.9/67.3个百分点,视频生成与编程能力突破[13][15] - 成本断崖下跌:GPT-3.5级系统推理成本下降280倍,硬件成本年降30%+能效年升40%[17][19] - 用户加速渗透:ChatGPT周活用户从1亿到4亿仅用9个月,DeepSeek上线2个月MAU达2亿[19][20] 中美产业差异 - 美国垄断上游:云服务市占率超70%(谷歌/亚马逊等),AI芯片市占率92%(英伟达)[26][27] - 中国聚焦下游:数据要素(深桑达A)、制造业(能科科技AI收入2.7亿元)、场景应用(AI Agent替代14类职业)[29][37][51] 产业与政策催化 - GPT5核心改进:幻觉率<1%、API降价、编程能力强化,推动应用从"技术竞赛"转向"实用落地"[56][58] - 政策对标互联网+:国务院出台纲领性文件,后续将配套算力券(上海6亿元)、语料补贴等细则[59][64] 六大选股逻辑 1. 大模型迭代:关注多模态(当虹科技)与AI编程(卓易信息)[66][69] 2. 政策驱动:高质量数据集(海天瑞声)、具身智能(索辰科技)[71][72] 3. 基本面优良:AI收入占比高的企业(税友股份、嘉和美康)[73][75] 4. 机构偏好:百亿市值标的(金山办公1343亿元、用友网络520亿元)[76][77] 5. 美股映射:Palantir(+147%)对应深桑达A,Tempus AI(+97%)对应医疗IT[79] 6. 低估值:筛选PE<60X标的(卫宁健康58X、国能日新54X)[81] 重点公司覆盖 - 数据要素:深桑达A(央企数据运营)、海天瑞声(数据标注)[35][37] - 制造业+AI:能科科技(军工+工业软件)、东土科技(机器人大脑)[37][54] - 场景落地:国能日新(新能源)、石基信息(酒店)、托普云农(农业)[54][72]