软件3.0 - 财报，业绩电话会，研报，新闻 - Reportify

软件3.0

搜索文档

揭秘小鹏自动驾驶「基座模型」和「VLA大模型」

自动驾驶之心· 2025-09-18 07:33

小鹏自动驾驶技术方法论 - 提出自动驾驶软件3.0时代概念即"AI模型即软件" 整个软件栈由端到端AI模型构成基于以数据为中心的方法迭代[6] - 公司处于将整个自动驾驶软件栈构建为端到端AI模型驾驶汽车的阶段[8] - 基于规模定律(scaling law) 利用每天从数十万辆真实世界车辆收集的大量数据训练大型视觉模型作为"工厂"[8] 基础模型与部署架构 - 通过大数据构建基础模型无需依赖三维空间先验知识和空间问题类似世界模型概念[8] - 通过深度裁剪量化蒸馏将基础模型压缩为更小版本部署到车端硬件[8] - 在云端构建VLA(视觉语言动作)基础模型通过蒸馏剪枝和微调训练部署到车端[32] 内外循环训练机制 - 内循环为每个模型创建训练流扩展数据后进行再训练和监督微调(SFT) 持续提升模型性能[9] - 外循环通过数十万辆车作为现实世界数据采样器持续采样数据根据返回数据持续训练(协同训练)[11] - 重复内外循环过程直至性能达到L4级自动驾驶公司目标2026年实现L4级智驾车型量产[11][13] VLA模型训练方法 - 采用阿里Qwen作为原始VLM模型使用公司整理的驾驶数据进行预训练和对齐[15] - 预训练数据分类包括静态交通元素动态交通参与者点对点轨迹数据占用网络交通信号灯和交通流信息[18] - 基于Chain-of-Thought思维链进行四步推理：提供基本驾驶知识 CoT SFT 强化学习CoT 考虑延迟的CoT SFT[22][23] 模型优化与安全强化 - 监督微调(SFT)建模为"指令遵循"任务使用筛选的好数据专门训练导航舒适刹车等专用指令[27] - 后期训练(post-training)采用强化学习解决长尾案例建立奖励模型确保行动一致性[29] - 强化学习设计三重奖励机制：安全(避免碰撞) 效率(避免卡壳) 合规(遵守交通规则)[30] 行业竞争核心要素 - 底层算法和架构相通行业差距取决于高质量数据大算力以及算法产品化和工程落地能力[32] - VLA概念需要基础成熟的LLM作为底座针对性训练交通驾驶行为[32] - 基础模型蒸馏上车思路可加速开发并快速部署到不同算力平台但前提需要大算力和高质量数据[32]

小鹏汽车(US:XPEV)

自动驾驶基础模型

小鹏自动驾驶基础模型

自动驾驶基础模型

小鹏自动驾驶基础模型

「幻觉」竟是Karpathy十年前命名的？这个AI圈起名大师带火了多少概念？

机器之心· 2025-07-28 18:45

AI术语命名与概念发展 - AI大牛Andrej Karpathy首次提出“幻觉”（hallucinations）一词，用于描述神经网络生成无意义内容的现象 [1][3] - Karpathy在2015年博客中已使用“幻觉”概念，但直到2022年ChatGPT爆发后才成为研究热点 [3][6] - Karpathy被公认为AI圈“取名大师”，提出“软件2.0”“软件3.0”“氛围编程”“细菌式编程”等概念 [6][9][11] 软件范式演进 - **软件1.0**：传统编程模式，开发者需精确编写Python/C++等显式指令代码 [12][14] - **软件2.0**：神经网络时代，代码由权重参数构成，通过数据训练而非人工编写 [13][15] - **软件3.0**：提示词时代，用户用自然语言描述需求，LLM直接生成代码 [16][17] - 软件3.0特点包括：LLM作为计算平台（类比电网基础设施）、自主滑块调节AI控制程度 [19][20] 新型编程范式 - **氛围编程**：开发者仅需向LLM提出需求并全盘接受输出，无需直接编写代码 [22][23][24] - **细菌式编程**：强调代码模块化与可移植性，类似细菌基因的水平转移特性 [35][36] - 细菌式编程检验标准：代码需满足小巧、自包含、无依赖，便于开源社区复用 [35][36] 上下文工程崛起 - 上下文工程因Karpathy转发点评迅速出圈，相关帖子浏览量达220万 [42][43] - 与提示工程区别：上下文工程更注重结构化信息提供，而非单纯优化提示词 [44] - LangChain指出提示工程是上下文工程的子集，后者适用于复杂智能体构建 [43][44] 行业趋势观察 - Karpathy预测未来99.9%内容将由AI处理，文档需转向“为AI优化”格式（如Markdown） [45] - 命名在科研中具有知识奠基作用，精确术语是科学分类的“稳定靶标” [7][9]

氛围式编程

细菌式编程

上下文工程

氛围式编程

细菌式编程

上下文工程

Karpathy最新脑洞「细菌编程」：优秀的代码应该具备细菌的三大特质

量子位· 2025-07-07 12:02

细菌编程概念 - 大神Karpathy提出"细菌编程"新概念其核心特点是代码块小而精模块化自包含且易于复制粘贴[1] - 细菌编程灵感来源于生物演化策略通过"水平基因转移"机制促进开源社区发展[2][6] - 该理念被网友评价为"近十年来最有趣的帖子" 引发广泛讨论[3][4] 细菌编程三大法则 - **小**：每行代码需消耗能量类似细菌DNA的自我精简机制[8] - **模块化**：代码应组织成类似细菌"操纵子"的功能簇实现高内聚低耦合的即插即用[11] - **自包含**：代码需支持"水平基因转移" 不依赖复杂配置即可被直接复用[12][13] 软件3.0时代 - Karpathy提出软件发展三阶段：1 0传统编程 2 0神经网络权重参数 3 0自然语言编程大模型[23][24][25] - 软件3 0标志性特征是用提示词(prompt)作为程序实现英语等自然语言编程[24] - 未来十年需重构海量代码形成"人类+大模型"协同模式逐步实现企业级工作流智能化[27][28][29] 其他创新概念 - **氛围编程(Vibe coding)**：基于大模型理解自然语言的能力使任何人都有可能编程[32] - **上下文工程**：需精准控制LLM上下文窗口信息整合任务说明示例演示 RAG等多要素[36][37][39] - 基础设施需适配AI agent 现有软件交互界面应增加机器可读的LLM txt指引[34][35]

上下文工程

上下文工程

Andrej Karpathy：警惕"Agent之年"炒作，主动为AI改造数字infra | Jinqiu Select

锦秋集· 2025-06-20 17:08

软件演进三阶段理论 - 软件1 0时代由人类编写明确指令代码代表为GitHub托管代码库 [8] - 软件2 0时代核心是神经网络权重通过数据集训练生成代表平台包括Hugging Face和Model Atlas [10] - 软件3 0时代以自然语言为编程接口提示(Prompts)成为新程序形式大语言模型(LLM)演变为可编程通用计算机 [10][11] LLM作为操作系统 - LLM类比为新型操作系统模型本身充当"CPU"负责推理上下文窗口相当于"内存" [15] - 市场格局类似早期操作系统闭源商业提供商(如OpenAI)与开源替代方案(Llama生态系统)并存 [15] - 服务模式类似公共设施研发实验室投入巨额Capex训练基础模型通过API按token计量收费 [12] LLM能力与缺陷 - 超能力包括百科全书式知识记忆信息处理量远超人类个体 [17] - 认知缺陷涵盖幻觉(编造事实) 锯齿状智能(能力不均衡) 顺行性遗忘症(无法自动巩固新知识)及安全脆弱性 [19][20] 人机协作新范式 - 部分自治应用(如Cursor)特征：自动管理上下文编排多LLM调用提供可视化GUI及自治程度滑块 [22] - 未来软件将普遍部分自治需设计让LLM接触用户可操作界面并建立监督机制 [23] 软件开发民主化 - Vibe Coding现象：自然语言编程接口使非专业开发者能快速实现功能原型 [24] - 创新瓶颈从编码转向部署手动处理认证支付部署等DevOps任务占90%耗时 [25][26] AI基础设施重构 - 需为第三类用户(AI智能体)设计专属交互方式而非仅适配人类GUI或程序API [27] - 具体方案包括创建AI友好Markdown说明书重写可执行命令文档开发人类-AI信息转换工具 [28][29] 行业发展现实展望 - 自动驾驶案例显示技术演示与产品化存在十年级鸿沟需警惕"2025智能体之年"类炒作 [31] - 短期应聚焦"钢铁侠战衣"式增强工具通过人机协同设计规避LLM缺陷 [32][34] - LLM技术首次 democratized 全球数十亿普通人可直接参与范式变革 [35]

人工智能（AI）

大语言模型（LLM）

人工智能（AI）

大语言模型（LLM）

2025必看！大神Karpathy封神演讲：AI创业不造钢铁侠，而是造钢铁侠的战衣

量子位· 2025-06-20 13:53

软件3.0时代 - 软件在过去70年基本没变但最近几年连续经历两次根本性变革从传统编程到神经网络再到自然语言编程大模型 [2][5] - 大模型是可编程的提示词就是程序用自然语言编写标志着软件3.0时代的到来 [4][5][6] - 软件1.0是传统代码编程软件2.0是神经网络权重参数调整软件3.0是自然语言编程大模型 [11][31] 大模型三重属性 - 工具属性：类似电力网络前期高资本投入建设基础设施后期按API使用量收费需求特征为低延迟、高稳定性、质量一致 [8] - 工厂属性：训练需巨额资本技术路线复杂研发集中在少数公司软件可复制性使护城河不如硬件牢固 [9] - 操作系统属性：形成复杂软件生态系统闭源巨头与开源社区并存当前类似计算的1960年代模型集中在云端 [12][13] 大模型能力与局限 - 拥有百科全书般记忆能记住Git提交哈希值等人类难以记忆的内容 [15] - 存在认知缺陷产生幻觉、缺乏自我认知、犯低级错误如9.11大于9.9 数错字母数量 [16] - 患顺行性失忆症上下文窗口即工作记忆每天被清空无法持续学习巩固知识 [16] AI应用机遇 - 最大机遇在构建半自主化产品提供自主性滑块控制权始终在人类手上如Cursor的代码重构层级选择 Perplexity的搜索深度选择 [17][21][22] - Vibe coding兴起大模型理解自然语言使人人可编程但部署环节仍依赖传统人工操作 [24][25] - 需为AI agent重建基础设施当前软件为人类设计需转向大模型友好格式如Markdown文档替代点击指令 [25][26] 行业发展趋势 - 需重写海量代码专业程序员与vibe coder共同参与未来十年自主性滑块将逐步右移 [28] - 中期大模型渗透企业级工作流代码、文档、数据分析全面智能化 [29] - 长期普及类贾维斯智能助手但人类始终是闭环决策者 [30] - 从业者需同时掌握Software 1.0代码、2.0模型训练、3.0提示词工程 [31]

半自主化产品

半自主化产品

Andrej Karpathy最新演讲爆火！人类已进入「说话就能编程」的软件3.0时代

机器之心· 2025-06-20 08:58

软件演进阶段 - 软件发展划分为三个阶段：人工编写指令的「软件1.0」、以神经网络权重为核心的「软件2.0」、由LLM开启的「软件3.0」[8] - 软件1.0是直接为计算机编写的代码，软件2.0是神经网络的权重，软件3.0则是用自然语言编程LLM[24][25] - 软件2.0领域已出现类似Github的平台如Hugging Face和Model Atlas[21] LLM本质与特性 - LLM可被视为一种「新型操作系统」，其核心设置类似CPU，上下文窗口类似内存[52] - LLM是「有缺陷的超人」：知识渊博但会产生幻觉、犯低级错误且没有长期记忆[14] - LLM具有基础设施属性，类似电网建设，通过API按量计费提供智能服务[38] - LLM生态系统类似操作系统市场，有闭源提供商和开源替代品如Llama[49] 行业应用与机遇 - 当前最大机遇是开发「部分自主性」产品，而非完全自主AI[14] - Cursor和Perplexity是早期LLM应用典范，具备上下文管理、多次调用编排和自主性滑块等特性[101][103][107] - 未来软件将普遍具备「自主性滑块」，允许用户调整自主程度[104] - 需要重构数字基础设施使其对AI友好，如将文档转为Markdown格式[170][176] 开发范式转变 - 自然语言成为新编程接口，提示词就是编程LLM的程序[27] - 出现「氛围编程」现象，非专业人士也能通过自然语言描述构建软件[141][144] - 开发者需掌握三种编程范式（1.0/2.0/3.0）并根据场景灵活选择[34] - 开发流程中「生成-验证」循环的快速运转是关键，GUI可极大提升验证效率[117] 未来发展趋势 - 当前处于类似1960年代的计算纪元，LLM算力仍集中在云端[59][64] - 需要为AI重新设计数字基础设施，使其机器可读、可操作[14][187] - 未来十年将见证技术从增强工具向自主智能体的渐进式演进[189] - 钢铁侠战衣式增强工具比完全自主智能体更适合当前技术阶段[134]

大语言模型（LLM）

部分自主性产品

氛围编程（Vibecoding）

大语言模型（LLM）

部分自主性产品

氛围编程（Vibecoding）

AI大神卡帕西最新演讲：AGI从幻想到落地，先要直面三个现实

36氪· 2025-06-19 20:09

软件3.0生态重构 - 软件3.0以"提示词即程序"范式颠覆传统编程，将提示词与系统设计、模型调优融合为新生产力，而非简单叠加手工代码与机器学习[2] - 软件发展分为三个阶段：手工敲代码的软件1.0、机器学习训练模型的软件2.0、提示词驱动的软件3.0，后者正以不可逆转趋势挤压前两代生存空间[6] - 大语言模型具备"多面手"属性，可切换数字水电工、代码生产工厂、应用开发者、在线管家等角色，彻底重构技术研发到商业化的逻辑[7] LLM心理学与认知缺陷 - 当前大模型存在"锯齿状智能"现象：能解决高难度任务但可能在常识判断上出错，如能解偏微分方程却分不清9.11和9.9大小[10][12] - "顺行性遗忘"指大模型对话记忆局限，每次对话都是全新开始，缺乏持续学习能力，需通过系统提示学习划定能力边界[14][16] 人机协作框架 - "部分自主性"框架需平衡AI自主决策与人类信任，通过自主性调节器动态控制AI自主度，如Cursor从Tab键补全到智能体全包模式[17][18] - 人机协同需快节奏验证（10秒内批改AI方案）与严格边界划定（强制代码包含指定函数），防止生成无法运行的玄学代码[21] - 技术落地需跨越Demo到产品的鸿沟，Waymo案例显示完全自主性不现实，部分自主性才是实用解决方案[23] 智能体开发生态 - Vibe Coding概念催生数千家初创公司，但实际应用中AI光速编程效果易失效，暴露理想与现实的差距[24] - 开发工具链呈现新旧割裂：老工具文档复杂难懂，新工具文档简洁清晰，需DeepWiki类知识整理工具自动关联API等资源[27] - 智能体作为"双语翻译官"连接人类与计算机程序，推动开发范式从人适应机器转向机器适应人[30] 行业变革方向 - 务实创新应聚焦半自主系统开发、软件3.0范式转型、大模型基础设施化三大方向，而非空谈AGI目标[31] - 未来胜出者将是最懂人机协作的团队，这场变革本质是生产关系的重构，类似工业革命对生产方式的改变[31]

锯齿状智能

顺行性遗忘

部分自主性

锯齿状智能

顺行性遗忘

部分自主性

Karpathy 最新演讲精华：软件3.0时代，每个人都是程序员

歸藏的AI工具箱· 2025-06-19 16:20

软件开发范式演变 - 软件1 0定义为传统代码编程程序员使用Python C++等语言编写明确指令源代码编译为二进制文件典型例子包括特斯拉自动驾驶早期C++代码 [5][6] - 软件2 0以神经网络权重为核心通过数据集训练生成参数优势包括计算同质性硬件易实现性超人性能等代表案例有AlexNet和AlphaGo Zero [7][10] - 软件3 0由大型语言模型驱动自然语言提示成为编程方式 LLMs被视为新型计算机类比1960年代操作系统具有自然语言接口和用户普及特性 [11][12][14] LLM技术特性与类比 - 公用事业特性：LLMs需要高资本支出训练通过API提供服务 OpenRouter实现供应商切换服务中断会导致"智能断电" [16] - 晶圆厂特性：训练需巨额投入 NVIDIA GPU类似"无晶圆厂"模式 Google TPU则像自建晶圆厂但软件防御性弱于物理设施 [17] - 操作系统特性：LLMs形成复杂软件生态系统应用可跨后端运行当前处于类似1960年代的分时计算阶段个人计算革命尚未到来 [18] LLM认知模型与缺陷 - 超能力：具备百科全书级知识记忆远超人类个体能力 [22] - 认知缺陷：包括幻觉锯齿状智能顺行性遗忘和易受骗性需要人类监督验证 [23] - 人机协作：需保持AI在"牵引绳"上通过生成-验证循环和GUI加速审计 [26] 行业应用机遇 - 部分自主应用：应具备上下文管理多模型编排专用GUI和自主性滑块类似Cursor和Perplexity的交互设计 [26][28] - Vibe Coding：降低编程门槛实现"人人都是程序员" 但产品化面临非代码操作挑战 [30] - Agent基础设施：需构建lm.txt文件 LLM优化文档上下文工具等支持Agent交互的新范式 [33][34] 技术扩散特征 - 逆向扩散路径：LLMs首先惠及普通消费者 ChatGPT成增长最快应用企业政府应用滞后于组织惯性和合规障碍 [19][20] - 钢铁侠战甲策略：优先开发增强工具而非完全自主Agent 通过自主性滑块渐进升级 [2][28] - 长期发展预期：2025-2035年为Agent十年需克服演示到产品的可靠性鸿沟 [27]

大型语言模型（LLMs）

Tesla自动驾驶系统

大型语言模型（LLMs）

Tesla自动驾驶系统

Andrej Karpathy 爆火演讲刷屏技术圈：AI 开启软件 3.0，重写一切的时代来了！

AI前线· 2025-06-19 16:10

编程范式演进 - 软件1 0时代以传统代码为主需要人工编写精确指令 [16] - 软件2 0时代以神经网络权重为核心通过数据集训练生成参数 [8][16] - 软件3 0时代以自然语言编程为特征大模型直接理解语义指令 [17][19][21] 技术栈变革趋势 - 特斯拉自动驾驶系统中软件2 0逐步替代1 0代码删除大量C++逻辑模块 [24] - 开发者需掌握三种编程范式混合应用能力根据场景选择最佳实现方式 [25] - GitHub等平台正在演变为新型代码托管形态 Hugging Face成为软件2 0时代的GitHub [11] LLM基础设施特性 - LLM具备公共事业属性实验室通过API按token计费提供服务类似电力网络 [31] - 训练LLM需要巨额资本支出技术壁垒快速集中类似半导体晶圆厂模式 [38] - 开源与闭源生态并行发展 LLaMA可能成为LLM时代的Linux系统 [42] 人机交互革命 - 自然语言编程彻底降低技术门槛实现全民可编程 [136][140] - Vibe Coding成为新一代开发者的入门方式通过自然语言快速构建应用 [141][146] - 文档体系需适配LLM阅读如Vercel将操作指南改为curl命令格式 [152][157] 应用开发新范式 - 部分自主应用成为主流需设计自主滑块调节AI参与度 [98][137] - Cursor等工具展示典型特征：上下文管理多模型编排专用GUI界面 [96][97] - 生成-验证循环效率是关键需优化可视化审阅与操作范围控制 [110][112] 行业发展阶段 - 当前LLM发展相当于1960年代计算水平集中式云端服务为主 [51][56] - 技术扩散路径反转个人用户早于政府企业采用创新技术 [63][64] - Agent发展需长期演进激进的全自动化方案存在风险 [131][135]

大语言模型（LLMs）

部分自主应用

自动驾驶系统

大语言模型（LLMs）

部分自主应用

自动驾驶系统

腾讯研究院AI速递 20250619

腾讯研究院· 2025-06-18 23:22

谷歌Gemini 2.5发布 - 谷歌发布Gemini 2.5全系列模型，其中Flash-Lite版本速度最快、性价比最高，输入仅0.1美元/百万token [1] - Gemini 2.5在玩宝可梦游戏时展现类人行为，生命值低时会"恐慌"导致推理能力下降 [1] - 2.5系列采用稀疏MoE架构，原生支持多模态和百万级token长文本，性能全面超越前代 [1] 微软三大算法突破 - 微软发布三大创新算法rStar-Math、LIPS和CPL，通过蒙特卡洛树搜索和代码增强CoT等方法突破大模型推理瓶颈 [2] - rStar-Math通过自我进化和Python代码验证提升数学推理质量，LIPS结合符号工具和大模型实现数学证明策略优化 [2] - CPL算法通过高层次抽象计划空间搜索和Step-APO学习关键步骤，显著提升模型跨任务泛化能力 [2] MiniMax视频模型海螺02 - MiniMax发布海螺02视频生成工具，可创建10秒1080P视频，在国际榜单图像生视频项目排名第2，超越谷歌Veo3 [3] - 海螺02实现逼真物理效果、精确物体交互和复杂杂技动作，支持多语言提示，10秒视频仅需一次生成 [3] - 国际视频生成榜单前五名中四家为中国厂商，展现中国在该领域的领先地位 [3] Meta智能眼镜战略 - Meta与意大利高端品牌Prada合作开发AI智能眼镜，拓展与EssilorLuxottica之外的时尚公司合作 [4] - Meta将于6月20日发布面向运动人群的Oakley智能眼镜，售价约360美元，具备更好的防风雨性能 [4] - 自2023年以来Meta与Luxottica已售出200万副Ray-Ban智能眼镜，计划到2026年底年产量提升至1000万副 [5] 罗永浩数字人直播 - 罗永浩数字人在百度电商首场直播吸引超1300万人次观看，GMV突破5500万元，部分品类超真人首秀数据 [6] - 百度慧播星技术实现"神形音容话"五维统一，通过剧本驱动多模协同，直播中AI调用知识库1.3万次 [6] - 百度计划追加10万个数字人名额和1亿元补贴，推动数字人直播产业规模化发展 [6] 大模型"六小龙"调整 - 大模型"六小龙"半年内22位高管密集离职，零一万物7位、百川智能和智谱AI各5位 [7] - DeepSeek低成本高性能冲击下，零一万物放弃训练大模型转向阿里云，百川智能基础模型进入静默期，阶跃星辰关闭冒泡鸭产品 [7] - 商业化成生存关键，六小龙需在开源大模型时代寻找差异化应用突围 [7] 港科广医学模型 - 港科大等发布首个医学世界模型MeWM，通过3D扩散模型模拟不同治疗方案下肿瘤形态演变，图灵测试准确率达79% [8] - 系统构建"策略生成-动态模拟-风险评估"闭环，在肝癌TACE治疗中F1-score达64.08%，接近专业医生水平 [8] - MeWM生存风险预测C-Index达0.752，融入医生决策可带来13%性能提升，实现从经验驱动到数据驱动的精准医疗转型 [8] Karpathy软件3.0观点 - Andrej Karpathy提出软件3.0（提示工程）时代正在取代1.0（代码编程）和2.0（神经网络），LLMs具备类似公用事业、晶圆厂和操作系统的多重属性 [10] - LLMs存在"锯齿状智能"（既能解决复杂问题又在简单任务失败）和"顺行性遗忘症"（缺乏长期记忆）两大缺陷，需要新的"系统提示学习"范式来存储问题解决策略 [10] - AI产品设计应采用"自主性调节滑块"，通过控制生成-验证循环实现人机协作，同时强调为智能体而非人类构建工具，因为智能体是数字信息的新消费者类别 [10] Sam Altman AI预测 - Sam Altman预测未来5-10年AI将具备自主科研能力，真正发现新科学，o3推理能力已达博士水平，科学家效率提升3倍 [11] - OpenAI理想产品形态是"AI伴侣"，通过多种界面融入生活，了解用户目标并主动提供帮助，而非局限于传统计算设备 [11] - 对Meta高薪挖人回应称其缺乏创新文化只会复制，认为人类会快速适应超级智能时代并创造新工作角色，AI不会造成严重就业威胁 [11] 斯坦福AI创业研究 - 斯坦福研究1500名员工和844项职业任务，发现41%的AI创业投资流向员工不需要的"红灯区"和"低优先区"，投资与需求严重错配 [12] - 45.2%职业偏好"人机平等伙伴关系"模式，艺术设计领域仅17.1%任务欢迎自动化，员工最想自动化的是不享受且不担心失业的任务 [12] - AI时代价值技能发生倒置，"培训教授他人"从薪资第21位跃升至人类参与需求第2位，人际关系处理将比信息处理更有价值 [12]