Workflow
AI前线
icon
搜索文档
英伟达改卖Token?黄仁勋GTC后发声:token就是AI新通货,值钱的不是算力,是“每度电的智商”
AI前线· 2026-03-18 19:37
公司战略定位与愿景 - 公司强调其本质是一家加速计算公司,而非单纯的GPU公司 [2] - 公司的目标是从算力平台演进为“全栈世界引擎”,通过垂直整合和协同设计,将整个软件世界加速后交给AI使用 [12][16][20][24] - 公司的核心方法是先垂直整合地做出一整套解决方案,再进行水平开放,让生态伙伴按需使用其部分或全部技术栈 [114][116] AI竞赛与行业瓶颈演变 - AI竞赛的焦点已从比拼算力转向比拼产出,核心衡量标准是能否快速、低成本地生成高质量结果 [4] - AI发展的瓶颈已从单一的计算环节,扩展到数据搬运、内存、网络和推理等全链路,任何一环的延迟都会制约最终产出 [4][5][24] - 衡量AI产出的核心单位是token,其价值取决于生成它的模型的“聪明”程度,即用更少token给出更准确、有用结果的能力 [7][8] 技术架构与产品布局演进 - 下一代AI推理将走向GPU与LPU(如收购的Groq)的混合架构,旨在解决极低延迟下的token生成问题,而非替代GPU [9][10][70] - Transformer架构在长记忆、处理物理规律和连续任务上存在不足,下一代模型需要混合架构(如Transformer + SSM)和具备几何感知等能力的新模型 [24][32][33][35] - 公司通过“解耦推理”策略,将推理任务(包括decode中的高计算量部分)在异构基础设施中进行更细粒度的拆分和优化,以扩展性能边界 [77][78][81] - CPU的角色至关重要,其单线程性能和I/O带宽是关键,以避免拖慢GPU。公司自研Grace CPU和Vera CPU旨在提供极高的单线程性能与带宽 [53][54][63][64] - 网络内计算(如Mellanox技术)是公司技术栈的关键部分,使得大规模NVLink成为可能 [86] 市场机会与商业模式 - AI已跨越经济价值门槛,基于推理、反思和工具使用的AI应用(如编程Agent)开始真正创造收入,改变了此前搜索等服务难以收费的局面 [39][40][41][74] - 在AI创造经济价值的场景下(如编程效率提升10倍),客户愿意为更高token速率和更低延迟的服务支付溢价 [75][90] - 建设千兆瓦级的AI工厂总投资约500亿至600亿美元,其中基础设施(土地、电力、厂房)约占150亿至170亿美元,其余为计算、网络、存储等 [25] - 公司的商业模式是提供技术栈和平台,而非最终产品或服务,通过将前沿技术开放给整个生态来扩大客户基础 [111][112][115] 行业竞争与生态格局 - 真正的竞争不在于单一的模型或芯片,而在于对整个技术栈(从电力、芯片、基础设施、模型到应用的五层蛋糕)的主导权 [10][24][98] - 中国在AI领域是不可忽视的力量,拥有大量有创造力的研究人员和出色的开源模型(如DeepSeek、Kimi、Qwen),全球技术栈需要能够吸收这些创新 [97] - 公司认为,将技术栈从上到下强制捆绑的策略会限制整体上限,应该让每一层自由竞争 [99] - 供应链面临全面压力,电力、芯片产能、土地等多环节均接近瓶颈,但公司通过长期规划和供应链布局,有信心支撑未来需求 [92][95][96] AI应用与Agent发展 - AI正从处理离散的语言token,转向需要同时理解记忆、结构和连续动作的现实世界任务 [24][36] - AI使用工具(Tool Use)是重要趋势,这些工具原本为人类设计(如Excel、SQL、Photoshop),需要被整体加速以匹配AI Agent的速度 [14][15][55] - 非结构化的工具使用(如通过多模态操作没有API的网页)是下一步方向,这依赖于强大的PC和数据处理系统 [57][58] - 编程是AI创造经济价值的典型领域,AI编程助手让工程师从写代码转向思考架构和解决问题,大幅提升效率 [45][46]
机器人浓度最高的一届春晚后,具身智能离走进千家万户还有多远?
AI前线· 2026-03-18 16:33
文章核心观点 - 具身智能作为通往AGI的关键路径,其产业落地仍面临模型泛化性不足、数据采集难、闭环难以实现等深层难题,目前处于技术爬坡与产业磨合期,而非完全被卡住的状态 [4][5][6] - 工业场景的落地逻辑与通用场景(ToC)存在本质差异,无需过度追求通用性(AGI),而应聚焦于特定高价值工位,实现稳定、可靠、高效,这本身足以支撑百亿估值级别的公司 [3][12] - 现阶段技术落地的核心矛盾在于:复杂的物理世界交互要求多模态感知与高精度控制,但算法、数据、系统集成等方面均存在瓶颈;有效的路径可能是结合模块化(Modular)设计、智能体(Agent)架构、世界模型(World Model)以及高质量数据工程,而非单纯依赖端到端模型 [8][9][12][15][29] 技术路径与算法挑战 - **VLA与VA的路径选择**:工业场景高度结构化,流程确定,无需通过自然语言(L)引导,因此仅以视觉为输入的VA模型比视觉-语言-动作模型VLA更适配;语言交互在工业中作用有限且增加计算开销 [8][12] - **模型通用性的再认识**:工业场景不需要追求AGI级别的通用性,核心要求是稳定(不宕机)、可靠(成功率近100%)、高效;通用性可体现在模型架构层面,针对不同任务使用相同架构训练不同模型,形成“模型超市” [12][13] - **端到端模型的局限性**:当前端到端模型难以落地,因为人类高度压缩的指令与完成任务所需的完整信息之间存在巨大缺口;更可行的路径是基于模块化的智能体架构,整合感知、决策、记忆与执行的闭环 [8][9] - **世界模型的作用与形态**:世界模型可作为评估器和奖励来源,为VLA训练提供反馈信号;主流有两类形态,一是在像素空间预测未来帧,二是在隐空间预测特征演化;其对操作任务有正向作用,未来将向多模态集成发展 [20][21][24] - **感知模态的局限与补充**:纯视觉模态存在瓶颈,力觉对于高精度、高安全性操作至关重要;工业落地需按需引入关节力矩、六维力传感、高分辨率触觉等不同层级的力觉模态以突破成功率天花板 [38][40] 数据瓶颈与解决方案 - **数据质量优先**:在机器学习中,保证数据质量是第一位的,模型是第二位的;对采集的机器人轨迹数据进行标准化“消毒”处理,剔除噪声、提升流畅度,可使模型训练精度提升20个百分点 [3][29] - **数据极度稀缺**:具身基础模型可能需要百万小时量级的视频数据,但当前数据远未达到此规模;数据来源主要有三种:真实采集、仿真引擎生成、从视频或世界模型中获取 [26][30] - **生成式数据的潜力与挑战**:规模化最终需依赖视频生成模型或世界模型生成数据,但生成数据缺乏力的标注是关键难点;一种探索方向是将力的梯度(临界变化量)而非绝对大小作为物理标注 [30] - **数据闭环与强化学习**:通过智能体架构可实现数据闭环优化,例如HIL-SERL算法,仅需少量人工示教数据,结合奖励构建强化学习缓冲区进行训练,已在真机可靠性上取得提升 [26] - **先验知识与数据驱动的结合**:将物理规律、常识知识以规则或约束形式注入模型(如通过WBC加MPC),可以降低数据需求、加快模型收敛,实现学习突破上限、规则负责兜底的效果 [32][33] 系统集成与产业落地挑战 - **从实验室到现场的失效原因**:导致“现场失效”的主要技术原因包括网络信号问题(丢包、带宽不足)、感知层受环境变化干扰、决策层因时延或微小误差失准、执行层硬件精度与策略推理不匹配等 [15] - **工业场景的落地价值定位**:在绝大多数场景下,具身方案目前比不过传统工业自动化;其价值在于解决传统自动化难以覆盖的高柔性、长链条任务,或在通用性与高度定制化之间找到平衡点,具备边际成本递减的潜力 [46][47] - **隐形成本与决策成本**:企业落地具身智能最容易低估的是决策成本,因信息不对称、不全面导致错误决策,会杠杆式放大后续人力、资本和代码开发投入,形成高昂代价 [44][45] - **经济账是核心**:ToB市场的成本敏感度极高,例如有头部企业报价400万,而规模仅其十分之一的团队报价200万,工厂最终选择了后者;政府补贴退去后,必须算清经济账才能持续 [7][51] 未来展望与突破方向 - **规模化引爆点的预测**: - 工业场景的“iPhone时刻”可能源于一台具身机器人能在某个工位上持续稳定工作一个月,证明其长期商业落地价值 [51] - 远程操控是另一可行方向,当机器人足够鲁棒、硬件足够便宜、时延基本解决,可实现跨时区人力协同,同步实现商业与数据闭环 [51] - ToB本质是经济账,补贴退去后若经济账算不过工业自动化,则需重新思考 [51] - **未来2-3年的技术突破点**:感知层落地趋势明显,但动作层仍是核心卡点,包括移动性(导航与运动)和操控,对真实物理世界物体交互的探索尚不充分 [49][50] - **对从业者的建议**:工程师不应将技能栈锁定在单点,建议全栈了解从机械臂控制到模型训练部署的整体方案,以建立全局视角和价值判断 [49]
极客部落“OPC 创业者招募计划”正式启动 —— 携手朝阳区赋能 AI 时代独角兽,助推人才高质量发展
AI前线· 2026-03-18 16:33
文章核心观点 - 北京市朝阳区政府联合企业共同发起“极客部落·AI应用生态园”及“OPC创业者招募计划”,旨在为AI时代的独立开发者和一人公司创业者提供从创意到落地的全方位加速支持,以抓住AI应用时代的创业机遇,并推动区域新质生产力发展 [1][4] 项目发起与定位 - 项目由北京市朝阳区人才工作局、共青团北京市朝阳区委员会、朝阳区人民政府望京街道办事处及北京极客邦科技有限公司共同发起 [1][11] - “极客部落·AI应用生态园”旨在为AI时代的独立开发者、一人公司创业者及极客群体提供全方位加速支持 [1] - 项目定位为构建“政策 + 空间 + 资本 + 技术 + 社群”五位一体的创业生态,是吸引和留住高精尖人才、推动区域新质生产力发展的关键举措 [4] OPC创业模式与挑战 - OPC代表“One Person Company”,即一个开发者加上AI能力就可以成为一家公司,OpenClaw等“一人独角兽”的崛起是这一趋势的例证 [3] - 当前OPC创业者面临注册流程繁琐、创业氛围缺失、商业化落地困难、生态资源难以触达等挑战 [3] - “极客部落”正是为解决这些痛点而设立 [3] 扶持政策详情(朝阳青创十五条) - 提供最长2年免费办公空间,位于望京核心区域 [6] - 提供住房保障与人才补贴,符合条件者可享3年免费人才公寓或20万元补贴 [6] - 提供研发与落地支持,AI研发支持最高50万元,场景落地奖励最高30万元 [6] - 提供融资激励,融资奖励最高50万元 [6] - 提供AI生态资源接入,包括共享前沿AI技术、产品共创、场景落地等资源 [6] - 政策涵盖了办公空间、人才安居、研发支持、融资奖励等多个维度,旨在打造一站式成长平台 [4] 活动与生态建设 - 将于3月20日下午在望京街道联络大厦四层新质产业加速器举办“极客部落OPC创业开放日”活动,内容包括揭牌仪式、政策解读、圆桌论坛及OpenClaw装机体验等 [4][7][8] - 活动将揭晓首批合作基金、创业导师及场景开放企业名单 [6][9] - 活动将开放极客部落空间参观,并链接北京OPC创客社群 [6][9] - 项目将共享极客邦科技旗下“极客时间”、“InfoQ极客传媒”、“TGO鲲鹏会”、“模力工场”等生态资源 [12]
从狂热到工程、组织实践,OpenClaw这阵风能刮多久?
AI前线· 2026-03-18 16:33
OpenClaw 的兴起与核心定位 - 核心观点:OpenClaw 已从一个技术热梗迅速扩散为一种被广泛验证的新工作方式,其核心价值在于推动 AI 从对话走向实际执行,代表了计算范式的转变 [2] - 英伟达 CEO 黄仁勋在 GTC2026 大会上赞誉 OpenClaw 为有史以来增长最快的开源软件,并将其与 Windows 操作系统相媲美,认为未来每个公司都应该有自己的 OpenClaw 战略 [2] - OpenClaw 的流行并非源于“模型崇拜”,而是“执行崇拜”,它被定位为让 AI Agent 真正参与执行的工程化入口,解决了 AI 在真实工作流中不稳定、不可控的问题 [6][7][8] OpenClaw 中国行活动概况 - 活动于 3 月 21 日至 22 日在全国 12 座城市(杭州、苏州、深圳、青岛、成都、广州、上海、南京、厦门、济南、武汉、北京)同步举行,共 12 场活动 [4] - 活动标志着讨论从社交媒体热词推进到工程与组织实践的现实层面,分享内容聚焦于规模化使用、企业落地、安全防护、记忆系统等具体问题 [4][5] 技术实践:从单点应用到规模化系统 - 讨论重点已从“能否使用”转向“如何规模化、稳定地用于生产”,例如分享主题涉及基于 HiClaw 的规模化养虾指南,关注 Manager-Worker 多 Agent 协作、安全凭证隔离等企业级痛点 [9] - 实践案例表明使用场景正从个人试玩转向真正的系统设计,开发者开始讨论调度、边界、观测、安全和成本等工程化问题 [9][10] - 具体落地路径变得清晰,例如通过 OpenClaw 实现文件自动化处理、Shell 命令执行、浏览器操控等,形成智能办公数字员工的闭环 [10] 组织影响与行业应用深化 - 实践案例显示 AI Agent 已开始替代部分执行性工作,例如有公司部署 30 个 AI Agent 进行写代码、修 Bug、运营等工作,并声称“公司里 90% 的执行性工作已被所有 AI 替代”,讨论重心转向“组织替代率” [11] 1. 行业应用呈现专业化、场景化趋势,例如上海场讨论金融量化交易产研体系,广州场覆盖企业应用落地与商业化,济南场探讨“专家虾”和“7×24 小时知识处理引擎” [12] 面临的核心挑战:安全与记忆 - 安全成为核心挑战,多个城市专场讨论 OpenClaw 的安全风险与防护,涉及权限误用、敏感信息暴露、执行链失控等实际工程问题 [13][14] - “记忆”是另一大挑战,社区开始关注为 OpenClaw 打造永久、可迁移的多模态记忆平台,以解决长程任务中任务完成率偏低、记忆碎片化等问题 [14][15] 行业意义与发展阶段判断 - 此次中国行活动是一次集体实践与转折点,标志着围绕 OpenClaw 的讨论已从社区热梗进入工程深水区,进入可验证、可复盘的阶段 [19] - 决定 OpenClaw 这类软件范式命运的关键,在于其能否被一线开发者和真实组织反复验证,而不仅仅是概念热度 [21]
融资 1200亿后 Kimi 再扔王牌,新架构爆改 Transformer 老配件,比 DeepSeek 同款还省钱
AI前线· 2026-03-17 15:53
文章核心观点 - 文章聚焦于Kimi公司发布的一篇重磅新论文,该论文对Transformer架构中基础但长期未变的“残差连接”组件进行了根本性创新,提出了“注意力残差”方法[5] - 该方法通过引入注意力机制作为“智能筛选器”,解决了传统残差连接固有的信息稀释、无法选择性听取和早期信息丢失等问题,从而显著提升了模型在复杂推理任务上的性能[6][13][18] - 与另一家公司DeepSeek提出的改进方案相比,Kimi的“注意力残差”在保持高性能的同时,具备即插即用、成本效益高等工程化优势,可能代表了大模型在数据红利见顶后,通过优化“信息管理”来提升效能的新方向[37][38][39] 技术原理与问题分析 - **传统残差连接的作用与问题**:残差连接为深度学习网络提供了信息流动的“主干道”,使深层网络易于训练[12]。但其存在三个致命问题:1) “不能挑着听”:所有层只能接收前面所有层输出的混合结果,无法选择性关注[13];2) “丢了的内容找不回来”:早期关键信息容易被后续信息覆盖而永久丢失[18];3) “内容越堆越多”:越往后层需要输出越强的信号才能被感知,导致训练困难[18] - **Kimi的解决方案**:受注意力机制解决序列建模中长距离依赖问题的启发,Kimi认为“序列维度上的时间问题和深度维度上的层问题是同一件事”,从而提出“注意力残差”[14]。其核心是让每一层都能直接访问前面所有层的原始输出,并通过一个动态的、内容依赖的重要性分数(α)进行加权融合,实现“想找谁的就找谁的”[15][16][33] - **工程优化版本**:为平衡性能与成本,Kimi提出了“分块注意力残差”,将网络层分组,组内使用标准残差,组间使用注意力残差,大幅节省成本[19]。并通过“跨阶段缓存”和“两阶段计算策略”进一步优化训练和推理效率[23] 性能表现与实验结果 - **综合性能提升**:在多种基准测试中,注意力残差模型相比基线模型实现了全场景稳定提升,在研究生级专业考试、高等数学推理、代码生成等高难度任务上,性能直接提升3-7.5个百分点[7]。例如,在GPQA-Diamond任务上从36.9%提升至44.4%,在Math任务上从53.5%提升至57.1%,在HumanEval代码生成任务上从59.1%提升至62.2%[8] - **效率与成本优势**:在Kimi自家架构上验证,该方案可节约1.25倍算力,训练端到端额外开销不到4%,推理延迟增加不到2%[8]。分块注意力残差“花同样的钱,能达到传统残差连接1.25倍算力才能达到的效果”[24] - **缩放定律与消融实验**:该技术完全适配大模型缩放定律,模型规模越大,优势越明显[10]。消融实验证明,方案中“随内容变的打分”、使用softmax函数、将层分为8个左右的小组等设计均必不可少[27][31] 与DeepSeek方案的对比分析 - **问题诊断与解决路径不同**:DeepSeek认为问题是“信息主干道太挤”,因此推出多头混合连接,通过拓宽多条并行专线并在专线间混合信息来解决问题[32]。Kimi则认为问题是“信息主干道不能挑重点”,因此赋予网络筛选权[33] - **能力边界差异**:DeepSeek的mHC方案只能处理“混合后的二手内容”,而Kimi的AttnRes能直接访问“所有前面的原版原话”[33]。因此,mHC在基础语言理解和闲聊场景有稳定提升,但在需要多步推理、长上下文记忆的复杂任务上提升有限[35];AttnRes则能兼顾训练稳定性与复杂推理,在长上下文、逻辑题等任务上提升显著[36] - **工程落地成本差异**:DeepSeek的mHC需要对现有架构进行“伤筋动骨的大改造”,无法直接替换传统残差连接,适配成本极高[37]。Kimi的AttnRes是“即插即用的替换件”,只需替换原有模块,其他结构和参数无需改动,适配成本极低[37] - **性价比对比**:根据对比,Kimi完整版的Full AttnRes性能始终优于mHC,而Block AttnRes性能与之相当,但所需读写数据量只有DeepSeek mHC的1/6[38]。这表明在大规模工程部署中,Kimi的路线可能更具现实吸引力[39] 行业影响与评价 - 该研究获得了包括OpenAI的Andrej Karpathy在内的行业顶尖人物的关注与点赞,引发了关于Transformer中其他“长期沿用的配置”是否也可被改进的思考[28] - 有网友将Kimi称为“新的DeepSeek”[30] - 文章指出,当数据红利逐渐到顶,过去大模型比拼“堆算力”的模式可能正在转向下一代通过优化“管信息”来拉开差距的竞争[39]
AlphaGo 十年:哈萨比斯说,Altman 曾把“坦克”停在我的草坪上,我要反击
AI前线· 2026-03-17 15:53
AlphaGo的历史意义与行业影响 - AlphaGo的胜利被视为人工智能时代到来的标志性事件,距今已十年[2] - 该事件不仅改变了围棋,更改变了整个AI行业的发展节奏,加速了从深度学习到大模型、从科研到产业应用的进程[2] - 今天的生成式AI浪潮,其源头可追溯至AlphaGo的突破[2] Demis Hassabis的个人特质与驱动力 - Demis Hassabis是AlphaGo及DeepMind背后关键人物,其长期愿景是证明机器能通过学习与推理解决复杂问题,并在科学领域产生突破[5] - 他具有强烈的“英雄式使命感”,将自己与科幻小说《安德的游戏》中拯救人类的角色安德认同,并相信AI能帮助应对气候变化、攻克疾病、延长人类寿命[8][14][15] - 他性格中具有极强的竞争意识,从国际象棋到桌上足球都希望成为最优秀者,在AI竞赛中(如面对ChatGPT)同样如此,当听到“Gemini正在赢”时表现出罕见兴奋[9][10][30][32] - 他拥有跨学科背景(神经科学、计算机科学等)和广泛的兴趣,这为其带来了更强的想象力和创造力,是取得突破的重要原因[8][16][19][22] AI研究的跨学科性与行业特点 - AI早期发展阶段(如2010年前后)具有高度跨学科性,研究者来自数学、物理、神经科学、计算机科学等多个领域[8][20] - DeepMind的早期团队是多学科融合的典型代表[8][21] - AI不仅是一个学科,更是一种正在改变科学方法论的基础技术,例如AlphaFold已经重塑了生物科学的研究方式[9][22] AI的未来发展方向与重点 - 基础模型已取得巨大突破,下一阶段的关键在于应用[11] - 未来十年的核心方向是将AI能力转化为推动科学与医学进步的工具,涵盖药物发现、疾病预测、公共卫生与基础科学等领域[11][39][43] - AI研究者应致力于构建针对具体问题的AI系统,以真正推动科学和医学发展[39] AI浪潮下的普遍情绪与人类本质 - 像Hassabis这样的顶尖AI科学家面对未来时,情绪是既兴奋于技术潜力,又担忧未知风险,这种矛盾心理在所有人面对AI时普遍存在,只是在科学家身上被放大了[10][33] - 人类不断前进的核心动力在于持续发明新技术,“发明本身就是人类的定义”,甚至可以说“我发明,因此我存在”[10][36][37] - 理解AI的来源与人类的创造冲动,有助于社会更理性地面对技术变革[10][36]
黄仁勋 GTC 2026 演讲实录:所有SaaS公司都将消失;Token成本全球最低;“龙虾”创造了历史;Feynman 架构已在路上
AI前线· 2026-03-17 07:30
公司战略定位 - 公司已从单一的图形处理器供应商转型为为“数万亿美元AI基建时代”提供完整技术栈的“总包工头” [2] - 公司的核心壁垒是CUDA软件生态及其庞大的安装基数,这形成了强大的“飞轮效应”,吸引了开发者、催生新市场并持续降低算力成本 [3][6] - 公司业务覆盖AI全领域,是全球唯一能运行语言、生物、图形、视觉、机器人、边缘及云端所有AI领域的平台 [18] CUDA生态与飞轮效应 - CUDA架构诞生20年,其单指令多线程(SIMT)架构和“tiles”功能降低了编程难度,并围绕其形成了包含数千种工具、编译器、框架和库的庞大生态 [4] - 公司在全球建立了数亿块运行CUDA的GPU和计算系统,服务每一朵云、每一家计算机公司和几乎每一个行业,构成了飞轮效应的基础 [6] - 飞轮效应表现为:安装基数吸引开发者,开发者创造新算法和技术突破,催生新市场并扩大生态,进而进一步扩大安装基数,同时使计算成本持续下降 [6][7] - 庞大的安装基数使得公司愿意持续优化软件,因为每项新优化都能让数百万用户受益,这延长了硬件(如六年前出货的Ampere架构)的生命周期,甚至在云上出现定价上涨 [6][7] 数据处理基础设施变革 - AI的快速发展正推动全球数据处理体系发生结构性变革,核心是结构化数据与非结构化数据的全面加速 [8] - 企业计算长期建立在结构化数据(数据框)之上,未来AI系统和智能体也将直接访问和使用这些数据库,要求数据处理基础设施获得数量级性能提升 [10] - 全球每年产生的数据中约90%是非结构化数据(如向量数据库、PDF、视频、语音),AI的多模态理解能力正将其转化为可计算的信息资源 [12] - 为支持这一转变,公司构建了两项关键基础技术:用于加速结构化数据处理的cuDF和用于处理非结构化数据及AI数据的cuVS [13] - 这些技术正逐步融入全球数据处理生态,例如IBM正利用cuDF加速其IBM watsonx.data平台 [13] AI原生行业爆发与市场前景 - 2025年风险投资对AI初创公司的投入高达1500亿美元,创历史之最,投资规模跃升至数十亿美元级,因为这些公司普遍需要海量算力和Token [15] - AI行业爆发源于三件大事:ChatGPT开启生成式AI时代、推理AI(如o1/o3)的出现以及Claude Code开启代理(Agentic)时代 [15] - AI已从“感知”进化到“生成”、“推理”,现在可以执行高效的实际工作,“推理拐点”已经到来,过去两年计算需求增长了约10,000倍,使用量增长约100倍 [17] - 公司预见通过2027年的营收将至少达到1万亿美元,2025年是公司的“推理之年” [17] - 公司业务中,60%来自顶级云服务商,40%来自区域云、主权云、企业级服务器及工业自动化 [18] AI推理性能与成本优势 - AI推理是最困难也是最关键的商业环节,它直接决定AI服务的收入来源 [22] - 衡量AI系统效率的关键指标是每瓦特生成多少token,公司从Hopper H200到Grace Blackwell NVLink 72架构,实现了每瓦特性能提升约35倍(分析师认为接近50倍),并带来更低的token成本 [22] - 通过极致的软硬件协同设计(如NVFP4计算架构、NVLink 72、Dynamo、TensorRT-LLM等),公司构建了完整的大模型推理技术体系 [20] - 仅通过更新软件栈,就能将部分AI推理平台的生成速度从约700 token/秒提升至接近5000 token/秒,性能提升约7倍 [25] - 公司的Token成本在全球范围内具有绝对优势,即便竞争对手的架构免费,其总成本(如1GW数据中心工厂15年摊销成本高达400亿美元)也不够便宜 [25] - 数据中心正从存储和计算中心转变为生产token的“AI工厂”,token成为新的数字商品 [27] Vera Rubin AI超级计算平台 - Vera Rubin是一个全新的计算平台,由七款芯片组成,涵盖计算、网络和存储,是目前最先进的POD规模AI平台 [28] - 该平台包含40个机架、1.2千万亿个晶体管、近2万个公司芯片、1152个NVIDIA Rubin GPU、60 exaflops运算能力以及10 PB/s总扩展带宽,目前已全面投产 [28] - 该平台得到了Anthropic、OpenAI、Meta、Mistral AI及所有主要云提供商的支持 [28] - 过去十年间AI计算能力实现了约4000万倍的提升,推动数据中心向“AI超级计算机”形态演进 [30] - Vera Rubin是一套从硬件到软件完全纵向整合的计算平台,专为智能体AI设计,重新设计了计算、存储和网络架构 [31] - 平台硬件包括全新的NVIDIA Vera CPU,该CPU针对高性能、大规模数据处理和能效优化,是全球首个在数据中心采用LPDDR5内存的CPU,并已开始单独销售,有望成为一项数十亿美元级业务 [33] - 系统采用100%液冷架构,通过45°C热水散热降低制冷成本,并将整机安装时间从两天缩短至约两小时 [33] - 网络互连采用第六代NVLink架构,并推出了全球首个CPO光电共封装的NVIDIA Spectrum-X以太网交换机 [35] - 通过Kyber机架架构的Rubin Ultra Compute System,可以在一个NVLink域中连接144个GPU,形成大规模统一计算机 [35] Feynman GPU架构与深度整合 - Feynman GPU架构将采用定制化HBM技术,可能基于HBM4E增强版或定制化HBM5方案,允许将部分GPU数据处理逻辑嵌入存储底层,实现超高带宽与低延迟 [41][42] - Feynman平台将搭载代号为Rosa的全新CPU,该CPU被设计为AI智能体的编排中枢,旨在高效调度GPU、存储与网络之间的Token流动 [43] - Feynman时代标志着公司将计算、存储和封装进行了深度耦合,正将数据中心演进为一台高度集成的“巨型超级计算机” [44] AI基础设施与数字孪生平台 - 公司推出NVIDIA DSX平台,这是一个面向“AI工厂”的基础设施平台,用于数据中心的数字仿真、虚拟调试和运行期动态优化 [46][47] - 数据中心建设阶段可通过工程仿真工具进行虚拟调试,大幅缩短建设周期;运行后其数字孪生系统可作为“操作系统”,由AI智能体动态调度冷却、电力和网络系统以优化效率 [46] - NVIDIA Omniverse平台被设计用于承载全球规模的数字孪生模型 [49] - 公司的AI计算基础设施正在向太空延伸,计划开发Vera Rubin Space One轨道数据中心 [49] 智能体操作系统与软件生态 - 公司高度评价并正式支持开源项目OpenClaw,其增长速度甚至超过了Linux,被视为智能体计算机的操作系统 [52][54] - OpenClaw能够连接大语言模型,管理计算资源,调用工具和服务,具备任务调度与多模态交互能力 [54] - 公司认为未来所有科技和软件公司都需要制定“OpenClaw战略”,因为企业软件正在从传统SaaS转向以智能体为核心的AaaS(Agentic as a Service) [55] - 公司与OpenClaw作者合作推出NVIDIA NemoClaw参考架构,增加了OpenShell安全组件,提供企业级安全扩展,使企业能安全部署智能体系统 [56][58] 开放模型生态与行业应用 - 公司推进开放模型生态,目前生态已包含接近300万个开放模型,覆盖语言、视觉、生物、物理和自动驾驶等多个领域 [59] - 公司已发布多条开放模型产品线(如Nemotron、Cosmos World Foundation Model、Project GR00T等),并开放训练数据和方法,策略是“纵向整合、横向开放” [59][60] - 公司宣布成立Nemotron Coalition联盟,与多家技术公司合作共同推进模型发展 [61] - 在物理AI领域,全球几乎所有机器人公司与公司合作,公司提供从训练平台、仿真到部署的完整技术体系 [62] - 自动驾驶的“ChatGPT时刻已经到来”,车辆具备推理和语音指令执行能力,公司宣布与比亚迪、现代、日产、吉利(合计年产量约1800万辆)以及Uber成为新的Robotaxi合作伙伴 [64] - AI产业正同时经历三大变革:AI推理与AI工厂、智能体系统革命,以及物理AI与机器人时代 [65]
OpenClaw中国行北京站落幕,3万人围观养虾,本周12城活动继续
AI前线· 2026-03-16 18:42
OpenClaw中国行北京站活动概况 - 活动于2026年3月21日在北京望京科技园举办,是OpenClaw中国行的首站[3] - 现场吸引了近200名AI开发者参与,其中56位开发者现场成功装机,直播间有3万多人次在线围观[4][9] - 活动核心承诺是让参与者“带一台电脑来,30分钟跑通你的第一个AI应用”,现场装机者年龄跨度从11岁到65岁[7] OpenClaw的生态价值与行业影响 - OpenClaw的最大价值在于让AI技术民主化,变得人人可用,降低了普通人进入AI世界的门槛[14] - 该技术带来了四大革命:入口革命(聊天界面即操作界面)、空间革命(上下文可经营数千轮对话)、灵魂革命(心跳机制可主动发起任务)、生态革命(开源和技能生态)[25] - 投资人视角认为,AI正在取代重复性工作,但人类的认知、判断和连接能力仍是护城河,未来趋势是“AI负责干,人负责想”[31][38] 个人与开发者应用实践 - 开发者通过创建“灵魂Markdown文件”记录AI身份设定与记忆要点,以解决AI的“失忆”和“幻觉”问题[17] - 采用“记忆脱水”机制对对话记录进行压缩,仅保留重要信息,以降低token消耗[19] - 通过开发“小猫巴士”(catbus)轻量级通信总线,实现多智能体(龙虾)的协作,构建低成本AI工作流[19] 企业级应用与工程化落地 - 企业应用强调数字员工需“懂规矩”(明确行为边界与安全)和“带工牌”(核算ROI,考核产出)[27] - 分享了“飞书+OpenClaw”的案例:AI可自动汇总同事OKR生成周报,或学习公司知识库为新员工提供7×24小时答疑[27] - 指出了企业应用需面对的七大陷阱:记忆失真、技能不可控、token成本失控、安全隐患、评估体系缺失、资源争夺、幻觉误判[21] 技术优化与成本控制策略 - 针对记忆失真,建议构建“渐进式记忆系统”,通过摘要、分层、索引方式让AI关注关键信息[23] - 针对技能不可控,提出“skills工作流闭环”,通过搜索、审核、创建、组合流程来标准化工作流[23] - 为控制token成本,推荐使用支持KV Cache的模型,通过缓存系统提示词和常用上下文,可将token消耗降低50%以上[23] 社区反馈与开发者生态 - 开放麦环节反映了开发者真实体验,包括使用cloud code后流程变顺的积极反馈,以及装机调试困难、AI表现不稳定的吐槽[39] - 活动延伸至职业发展与招聘,有创业者现场寻找AI赛道伙伴,也有具身智能团队发布招聘信息[39] - 社区强调在AI时代,将技术讲清楚的能力与技术本身同等重要[39] 全国推广与生态建设计划 - OpenClaw中国行将在本周末(3月21-22日)同时登陆杭州、青岛、苏州、成都、深圳、广州、南京、济南、上海、武汉、厦门、北京共12座城市[43] - 活动正公开征集OpenClaw分享嘉宾、创业项目展示以及装机志愿者,以壮大社区[44][51] - 生态合作伙伴包括极客邦科技旗下多个平台(InfoQ、极客时间等)、腾讯云、以及各地开发者社区与商会[45]
Meta 删邮件事故背后,OpenClaw 为什么会“失忆”?代码库维护者拆解记忆架构
AI前线· 2026-03-16 18:42
OpenClaw代理记忆系统核心机制 - 文章核心观点:OpenClaw代理的记忆由四个独立层构成,理解并正确配置这些层是避免代理“遗忘”指令、确保其长期可靠运行的关键[8][9][10] - 代理“遗忘”主要源于三种失败模式:指令仅存在于对话中未被写入文件(模式A)、上下文压缩导致信息损耗(模式B)、会话修剪工具结果(模式C)[12][14] - 确保记忆持久性的根本原则是:任何未写入文件的内容都不被视为存在[32] 记忆的四层结构与诊断 - 记忆系统分为四层:引导文件(永久)、会话记录(半永久,可压缩)、LLM上下文窗口(临时,固定200K令牌)、检索索引(永久)[9][11] - 快速诊断代理“遗忘”原因:运行 `/context list` 命令检查文件是否加载及是否被截断[22][23][24] - 引导文件(如`SOUL.md`, `AGENTS.md`, `MEMORY.md`)在每个会话开始时从磁盘加载,不受压缩影响,是最持久的记忆层[11] - 当LLM上下文窗口(200K令牌)填满时,会触发压缩操作,用摘要替换详细历史,此过程有信息损耗[11][20] 压缩与修剪机制 - 压缩与修剪是完全不同的系统:压缩会总结并永久改变整个对话历史;修剪仅在内存中临时移除旧工具结果,不影响磁盘记录[16][20] - 压缩是危险的,因为它会改变模型看到的内容;修剪是朋友,能减少令牌占用且无损[21] - 压缩操作会丢失嵌入对话的指令、图像、工具结果及其上下文,但会保留所有工作区文件及代理在压缩前写入磁盘的内容[31][37] - 为避免最坏情况的“溢出恢复”,应通过配置使系统保持在“好路径”,即在压缩前能自动触发记忆刷新[28][29] 确保记忆可靠性的三层防御策略 - 第一层(压缩前记忆刷新):调整配置(如`reserveTokensFloor: 40000`, `memoryFlush.enabled: true`),在上下文接近填满时自动触发代理将重要内容保存到磁盘[34][35][39] - 第二层(手动记忆保存):在切换任务或给出重要指令前,主动命令代理将当前上下文保存到记忆文件,并可使用 `/compact` 进行手动压缩[42][43][44] - 第三层(文件架构):合理利用工作区文件结构,将持久性规则写入`MEMORY.md`等引导文件,并通过`memory_search`工具强制代理在行动前检索记忆[33][47][52][59] 关键配置与最佳实践 - 在`AGENTS.md`中添加“记忆协议”和“检索协议”,强制代理在行动前搜索记忆文件,而非依赖可能丢失的上下文[7][52][59] - 为缓解工具结果膨胀并节省成本,建议启用会话修剪(如`contextPruning.mode: "cache-ttl"`)[21][76] - 记忆搜索有两种主要路径:A路径使用内置的本地混合搜索(关键词+语义);B路径使用QMD后端,适合搜索外部大型文档库[62][66][69] - 定期进行“记忆卫生”维护,如每周将每日日志中的持久规则整合到`MEMORY.md`,并保持`MEMORY.md`文件简短(建议不超过100行)[53][55]
AI两天推翻20年工作习惯!Karpathy百行代码开源项目“封神”,AI替你通宵肝研究、战绩可查
AI前线· 2026-03-16 18:42
项目核心概述 - 特斯拉前AI总监Andrej Karpathy开源了名为autoresearch的项目,该项目旨在打造一个能够自主进行深度学习研究的AI Agent [2] - 项目逻辑是给AI Agent配备一个小型但真实可用的LLM训练环境,让其自主通宵进行实验 [2] - 项目在两天内自主完成了276次实验,筛选出29项有效改进,将一个语言模型的训练效率提升了约11%,全程零人类干预 [2] - 项目在GitHub上已获得36.9k Stars,并有1060万次围观 [4][12] 项目技术细节与设计 - 项目代码极简,总共630行Python代码,核心文件仅有三个 [7][8] - AI Agent会自动修改代码、训练5分钟、检查效果、保留或丢弃结果,并不断循环 [7] - 每次训练固定耗时5分钟,核心评估指标为验证集每字节比特数(val_bpb),数值越低越好 [8] - 基于5分钟的实验设计,AI Agent每小时可完成约12次实验,通宵8小时约能跑完100次实验 [8] - 项目目前仅支持单张NVIDIA GPU [10] 项目成果与验证 - 在为期两天的自主调优中,AI Agent对深度为12的nanochat模型摸索出约20处改动,成功降低了验证损失 [15] - 所有优化效果均可叠加,并能直接迁移到更大的深度为24的模型上 [15] - 整合所有改动后,模型“训练至GPT-2水平耗时”从2.02小时缩短至1.80小时,性能提升约11% [15] - Karpathy表示,Agent端到端地自主完成了整个流程,并独立完成了约700次改动尝试 [16] 项目愿景与未来展望 - 项目的下一步目标是实现Agent之间异步大规模协作,模拟一个由无数博士生组成的完整科研社群,而非仅模拟一名博士生 [12] - Karpathy认为,未来所有深耕大模型领域的顶尖实验室都会采用这种自主调优方式 [16] - 具体的落地思路是启动Agent集群协同调优小模型,再将最有潜力的优化方案迁移到更大规模的模型训练中 [17] - 任何可高效评估指标或拥有高效代理指标的任务,都能通过Agent集群实现自主调优研究 [17] 社区发展与协作 - 项目已被全球开发者社区接手共建,他们搭建了一个分布式协作层,让多个Agent共享成果、分工协作 [17] - 社区协作版本(autoresearch@home)已运行了将近3000次实验,产生了82项改进,并有97个研究Agent参与贡献 [17][18] - Karpathy尝试探索新的协作模式,例如让Agent将实验结果总结成讨论帖或通过PR(合并请求)进行“采纳”而非合并,以支持大规模分支协作 [13]