OpenAI o1 模型
搜索文档
2026年,大模型训练的下半场属于「强化学习云」
机器之心· 2026-01-12 13:01
大模型技术范式的转移 - 2024年底,行业出现担忧,认为单纯增加参数和训练数据的Scaling Law正在撞墙,新一代旗舰模型未展现出预期的边际效益提升,有研究预测预训练数据可能在2028年耗尽[1] - OpenAI联合创始人Ilya Sutskever的言论被解读为预警,意味着单纯堆砌算力和数据的预训练路线可能已触及天花板[3] - 2025年初,OpenAI的o1模型通过引入强化推理,证明了test-time scaling(测试时间扩展)是通往更高智能的可行路径[4] - DeepSeek R1在2025年1月成功复现并开源了o1的技术路线,以极低的成本向全行业证明Scaling Law并未撞墙,而是换了引擎[4] - 行业认识到,深度的推理能力比单纯的参数规模更关键,模型通过强化学习驱动的思维链展现出类似人类“慢思考”的推理能力[4] - 算力的重心正从pre-training scaling(预训练扩展)转向post-train scaling(后训练扩展)和test-time scaling(测试时间扩展)[8] - 到2026年,可以确信大模型训练的下半场属于强化学习,模型能通过与环境的交互、试错和自我博弈进行深度逻辑推演[10][11] - 新的算力消耗重心从静态的“训练”转向动态的“探索与推理”,这导致现有的云计算架构开始显得力不从心,行业呼唤全新的算力形态[11] 九章云极的战略定位与核心产品 - 九章云极是独立智算云赛道的领军企业,率先提出了“强化学习云”概念,并定义了后训练时代的算力标准[12] - 公司认为,当智能可以并行进化,强化学习云将成为群体智能的放大器[12] - 在OpenAI o1验证路径、DeepSeek R1引爆热潮后,九章云极在最短时间内率先给出了基础设施答案[14] - 2025年6月,九章云极正式发布了业界首个工业级强化学习云平台Agentic RL[15] - 当时全球市场尚未有企业像九章云极这样,将“强化学习”独立定义为一种全新的工业级云服务形态[15] - 公司能够迅速捕捉前沿算法趋势,并率先将其转化为标准化、工业级云产品,这确立了其在独立智算云赛道的首发优势与领军地位[16] - Agentic RL的核心内涵是AI能力从单纯的“内容生成”转向复杂的“决策控制”,旨在通过RL赋予大模型在动态环境中精准感知、规划并执行的能力[20] - Agentic RL的使命是将通用模型进化为具备长时程规划、长/短期记忆、复杂工具调用、检索增强生成优化、角色一致性等多种能力的专家模型[22] - 公司提出了一个终局构想:未来的通用人工智能(AGI)可能不是单一的巨型模型,而是由成千上万个垂类专家智能体组成的“群体智能”[25] Agentic RL平台的技术优势与性能 - 传统的云计算架构是为静态负载设计的,而强化学习是高频交互、动态探索的过程,算力需求呈现剧烈的波峰波谷特征,对异构资源调度要求极高[17] - 用传统静态算力跑RL训练,会导致资源利用率极低或在探索高峰期卡死[18] - 九章云极的强化学习云Agentic RL基于混合专家(MoE)架构与Serverless理念,实现了算力的“按需即取、即用即还”[19] - 数据显示,相比于传统方案,Agentic RL可将端到端训练效率提升500%,综合成本下降60%[19] - 该平台是全球首个支持万卡级异构算力调度的强化学习基础设施平台[19] - 公司构建了极致效能的异步系统,通过全异步训练架构和rollout、n+1模型更新机制,成功将GPU利用率长期保持在95%以上[25] - 公司采用了“基于回放的离线强化学习算法”,通过对时间跨度的压缩与样本的高效回放,实现了5倍于传统方法的训练速度提升[28] - 在自动驾驶或医疗等“不能失败”的领域,公司与高校合作构建了可控的“世界模型”作为高保真虚拟沙盒,让智能体在其中安全试错[30] Alaya NeW Cloud全栈智能基础设施 - 九章云极的强化学习云能力离不开其精心构建的Alaya NeW Cloud智能基础设施[33] - 公司从一开始就围绕智能体的运行逻辑,完成了从底层基础设施到上层应用的四层全栈重构,而非在通用云上“打补丁”[34] - 基础设施层包含高性能存储网、大容量全闪AI加速存储、高性能计算网和跨网融合网关[35] - 九章智算操作系统层包含跨集群算力弹性调度、Serverless弹性和一体化算力网[35] - 智算软件平台层包含弹性容器平台VKS、专享容器平台DKS、云容器实例CCI、大模型开发套件和大模型推理平台[35] - 应用场景及生态层覆盖自动与半自动驾驶、计算机视觉、科学计算、工业机器人、消费电子等众多领域[35] - 在工程化落地层面,平台实现了云容器实例(CCI)的一键式部署,全流程覆盖,即开即用[37] - 以2025年终上线的满血版DeepSeek-3.2为例,在高端算力卡加持下,其部署速度更快,运行更高效,展现了平台对最新SOTA模型的快速支持能力[37] - 在智能体时代,九章云极扮演的角色不仅是互联网数据中心提供商,更是进化环境提供商[38] 黄山城市级智算样板与商业落地 - 九章云极在安徽黄山跑通了“智算+产业”的2.0闭环,打造了一个正在运行的、基于强化学习云的城市级实验样本[40] - 公司在黄山创造了一个行业纪录:仅用48天,一座规模达500 PFLOPS的“大位”智算中心便拔地而起并投入运营[41][42] - 这种交付速度验证了其智算操作系统在异构算力调度上的极致效率[43] - “大位”智算中心是国内首个“文旅+AI”城市级产业应用基础设施[44] - 对于开发者,只需极少代码即可启动完整的“训练-推理-回传”闭环;对于产业,各垂直领域的智能体都能在平台上找到专属的进化路径[45] - 黄山实现了国内首个“全程AI伴游”景区,成千上万个智能体在此学习理解游客意图、规划最优路线、处理突发状况,这是一场大规模的Agentic RL社会实验[47] - 根据易观分析预测,随着“大位”智算中心的全面达产,每年将直接带动黄山市营利性服务业增加值增长不少于2亿元[48] - 通过“智算基建+文旅赋能+场景落地+商业闭环”,九章云极证明了强化学习云不仅能消耗电力,更能生产GDP[50] - “黄山样板”产生了强大的磁吸效应,在大会上,中科动力、百鹏互联、歌歌AI等6家AI企业集中签约落地[50] - 九章云极用黄山的实践证明,下一代智算云必须是能直接驱动产业增长的云[51] 独立智算云的生态与行业领导力 - 九章云极选择成为独立智算云赛道的领军者,这条道路艰难但辽阔[53] - “独立智算云”的根本逻辑在于中立性,公司明确不与客户争利,不绑定特定模型[54][55] - 针对行业内只有不到10家巨头公司掌握10万卡以上资源的现状,公司明确倡导“开源1000专家模型”[57] - 公司期望通过动态组合来放大群体智能,为10万家中小企业提供高效的智能化解决方案[58] - “独立智算云+开源专家模型”的组合拳,区别于试图绑定自家闭源大模型的巨头云厂商,更有可能构建起真正的开放生态[60] - 公司发起的AI-STAR企业生态联盟连接了上游芯片厂商与下游应用厂商,共同组成了一个自主可控的产业链闭环[61] - 在算力计费混乱的草莽时代,公司率先推出了“1度算力”的普惠化标准,试图让算力像水电一样可度量、可流通[63] - 在后训练时代,公司通过强化学习云定义了下一代基础设施的标准架构:一套包含Agentic RL技术架构、Serverless弹性调度和异构资源管理在内的完整操作系统[64] - 2026年,云计算进入“进化时代”,竞争的焦点是谁能让智能体进化得更快、更强,九章云极通过首创的强化学习云Agentic RL,率先拿到了通往这个新时代的钥匙[68]
速递|DeepSeek 声称其“理论”利润率为 545%
Z Potentials· 2025-03-02 10:37
DeepSeek AI模型盈利潜力 - 公司公布在线服务"成本利润率"高达545% 该数据基于"理论收入"计算 [1] - 若V3和R1模型24小时使用量均按R1定价计费 日收入可达562,027美元 而对应GPU租赁成本仅为87,072美元 [1][2] - 实际收入显著低于理论值 主因包括夜间折扣 V3定价较低 及部分服务未商业化 [2] 商业化现状与挑战 - 当前网络和应用程序访问仍免费 若取消免费政策可能导致使用量大幅下降 [2] - 面临美国贸易限制 无法获取最强大芯片 影响技术发展 [2] - 科技股下跌背景下 行业分析师对人工智能支出持质疑态度 [2] 市场表现与技术突破 - 应用程序曾取代ChatGPT登顶苹果App Store榜首 当前在生产力类排名第6 [3] - 1月发布的新模型在部分基准测试中与OpenAI o1性能相当 但开发成本显著更低 [2] - 通过优化方法实现更高吞吐量和更低延迟 技术细节发布于GitHub [1]
DeepSeek 刷新全球 AI 格局;50 美元模型蒸馏术;美国公司们宣布 8000 亿美元算力投资丨AI 月报
晚点LatePost· 2025-02-10 17:50
格局变化 - DeepSeek推出R1模型,性能比肩OpenAI o1但API价格仅为1/30,迅速改变全球大模型竞争格局 [4][6] - R1发布后DeepSeek应用登顶美区App Store,两周下载量达ChatGPT同期两倍,中国DAU突破3000万 [8][12] - 英伟达股价因市场担忧GPU需求受冲击一度暴跌,但10天后反弹至3万亿美元市值 [7] 技术突破 - "蒸馏"技术成为焦点:伯克利团队用450美元、李飞飞团队用50美元即开发出接近o1性能的垂直领域模型 [15][16] - DeepSeek论文显示通过生成80万数据精调开源模型,可显著提升推理能力 [14] - 中国公司密集发布新模型,Chatbot Arena前20名中中国模型占比达5个,较上月增加2个 [17][18][22] 企业动态 - OpenAI年化收入超60亿美元,ChatGPT付费用户达1550万,企业API收入年化32亿美元 [5][29] - 微软考虑用DeepSeek模型替代OpenAI,Databricks超1000家客户半月内采用R1/V3 [12] - 英伟达发布Project Digits个人算力平台,可本地运行2000亿参数模型,售价3000美元 [31][32] 资本动向 - 1月26家AI公司获超5000万美元融资,中国占2家,医疗AI和算力优化领域最活跃 [39][45] - OpenAI启动400亿美元融资估值达3000亿,Anthropic获30亿美元估值600亿 [40] - 四大科技公司+OpenAI联盟计划超8000亿美元算力投资,但微软暂停33亿数据中心建设 [33][36][37] 行业趋势 - Agent应用成竞争焦点:OpenAI推出Task/Operator功能,Anthropic/智谱同步跟进 [27][28][30] - 数据争夺白热化:OpenAI爬虫导致网站崩溃,反爬虫"下毒"程序在开发者论坛流行 [52][54][56] - 开源模型冲击商业市场:Meta组建团队研究DeepSeek技术,计划用于Llama新版 [9]