Workflow
AI前线
icon
搜索文档
“我可能不再建议学计算机”!图灵奖得主炮轰半个行业,并断言:AI Agent最后全是数据库问题
AI前线· 2026-05-01 13:33
数据库行业历史与现状批判 - 图灵奖得主Mike Stonebraker认为计算机科学未来很可能不再是一个增长型行业,对建议年轻人学习计算机持保留态度 [2][65] - 批评Oracle创始人Larry Ellison早期的销售策略是“撒谎”,将未实现的功能卖给客户并让其帮助debug [3][12] - 批评Google早期推广的MapReduce和最终一致性是“愚蠢”的,Hadoop效率低得离谱,最终一致性只适合极少数场景,Google后来通过Spanner回归了传统事务系统 [3][28][29][32] - 批评AWS同时维护大约15种数据库产品,认为其中许多(如图数据库)缺乏足够的性能和市场理由,真正需要的可能只有3种 [3][35][36] 数据库技术演进与核心理念 - 关系模型相比早期的Codasyl网络结构和IBM的IMS层次结构更为合理,是Ingres项目的起点 [9] - 从Ingres到Postgres最核心的变化是引入了可扩展类型系统,允许用户自定义数据类型(如GIS的几何类型、债券业务的时间计算规则)以高效支持更多领域 [13][14][15] - 提出“One size fits none”观点,认为通用型数据库并非最优解,针对具体需求定制的方案(如流处理、列式存储)性能可高出传统方案一个数量级 [16][17] - Postgres在低端通用场景(非每秒百万次事务或PB级数据仓库)是最好用的起点,拥有巨大开发者社区且免费,但在高端场景缺乏竞争力 [18][19] 数据库与硬件/新架构 - GPU的SIMD(单指令多数据)模式与索引(如B树)存在冲突,索引所需的串行内存访问难以并行化,因此当索引是正确答案时GPU通常不是好选择 [20][21][22][23] - 查询优化器是数据库系统中最难实现的部分,其算法层面非常复杂 [25][26] - DBOS项目提出用数据库系统替换Linux操作系统上半部分(如调度器、文件系统)的核心状态管理,证明基于数据库的文件系统比Linux文件系统更快,并能天然获得高可用等特性 [39][40][45] - DBOS公司在此基础上转型,提供支持TypeScript、Java、Go、Python的编程框架,将应用状态持久化在数据库中,并支持事务性的工作流,其三分之二的客户目前从事只读型Agentic AI应用 [41][42][43] AI与数据库的结合与挑战 - 当前大多数Agentic AI本质是“大模型 + 一层系统包装”,且多处于“只读”阶段,一旦进入“读写”世界(如转账、更新库存),核心问题将回归分布式数据库的事务、一致性、原子性 [4][43] - 在公开的text-to-SQL基准测试(如Spider、Bird)上,大模型准确率可达80%甚至85%,但在四个真实生产数据仓库的测试中,大模型准确率为0% [6][50][54] - 即使结合RAG等技术,在真实数据仓库测试中准确率仅能提升至10%;若明确提供FROM子句和JOIN条件,准确率最高也只能达到35%,远低于熟练人类工程师90%以上的准确率 [6][54][59][60] - 真实场景的挑战包括:业务数据不在模型训练语料中、SQL查询复杂度高(常为100行起步)、Schema混乱(表名列名不直观、存在大量物化视图)、以及存在大量系统特有的本地化概念 [55][56] - 应对思路包括:将复杂查询拆解为包含FROM和JOIN条件的简单片段;将不同来源的数据(如SQL、CAD、文本)都转化为表,再用类查询优化器的方式进行处理 [58] 职业发展与行业展望 - 对于刚起步的人,建议选择一个非主流、不随大流的技术方向并努力做成 [65] - 在职业选择上,认为医疗保健、建筑、维修等工种是相对安全的选择,而计算机科学行业的增长性存疑 [65] - 强调工作热情的重要性,认为从事真正有热情的事业比纯粹为了谋生更能获得满足感 [67]
“客户测950,不到一周下单了”,DeepSeek V4 逼出昇腾真功夫
AI前线· 2026-04-30 10:34
昇腾产品市场认可度与销售表现 - 近期昇腾销量比以前更好,客户认可度提高,有客户测试昇腾950后不到一个礼拜就决定下单[2] - 互联网公司和大模型初创公司已开始完全基于昇腾进行模型的训练和推理[3] - 客户对推理和训练的需求不同:推理看重性价比和快捷性,训练则要求经过长时间可靠性验证的成熟、稳定的大规模集群系统[3] - 今年大量客户开始基于昇腾训练大模型和超大参数模型,包括一些国内领先的模型,体现了昇腾产品成熟度的提升[3] 昇腾产品在关键模型中的能力验证 - DeepSeek V4的发布验证了昇腾超节点全系列产品的能力,该系列产品均支持DeepSeek V4[4] - 昇腾950系列芯片可兼顾低时延和高吞吐:在950 DT系列上,DeepSeek V4 Flash模型实现低于10毫秒的低时延推理,Pro模型实现约20毫秒的低时延推理;在Atlas A3系列上,DeepSeek V4 Flash实现约30毫秒的高吞吐性能[4] - DeepSeek V4模型结构变化大,引入了混合注意力机制、MoE结构等,对硬件和软件栈提出了更高要求[4] - 昇腾CANN软件栈针对DeepSeek V4的关键模块(如mHC、混合注意力、Compressor、MoE)进行了原生适配和优化[5][6] 昇腾硬件架构与芯片的演进 - 去年以来,昇腾对芯片体系进行了一轮大幅调整,以应对大模型推理和Agent场景的新需求[9] - 调整方向包括:重新优化算力配比以提升不同负载的适配能力;引入SIMT能力以增强编程灵活性;强化细粒度访存能力[9] - 加速推进低精度计算能力(如FP8、FP4)的落地,以满足产业对更高Token产出效率的需求[9] - 团队“拼尽全力”将FP8、FP4提前做出来,使得Token产出能力相比此前实现翻倍提升[10] - 面对新的算力周期,芯片厂商不仅要提升峰值算力,更要围绕真实业务场景优化计算效率、访存能力、编程体验和生态开放能力[10] 昇腾软件栈的升级与生态建设 - 昇腾对软件栈进行了重要升级,将原本高度耦合的软件体系拆分为更清晰的结构模块,使能力模块化、结构化,便于开发者调用和推动代码开源[12] - 此次架构解耦工作量巨大,接近“把软件重写一遍”,原计划一年半完成,最终在4个月内完成核心改造,开发者试用后反馈更容易上手[14] - 推出了面向Python开发者的新编程方式PyPTO,旨在与业界主流的Triton编程方式保持一致,降低开发者迁移门槛[14] - 坚持Python(负责灵活便捷)与C语言(负责性能优化)并行的开发路径[15] - 昇腾生态建设的核心是让开发者能够理解、使用和扩展底层能力,而非简单“放代码”[15] - 今年以来昇腾算子开发者数量增长较快,已达到约1.3万人;社区月活开发者约2000人[15] - 模型从CUDA迁移到CANN的时间大幅缩短:比较熟悉的模型约需6小时(如千问3.6),模型架构较新的可能需要一两周[15] - 昇腾坚决拒绝走“仿CUDA”的捷径,认为那无法建设真正自主的AI计算生态[16] - 生态建设思路:底层关键能力必须自主掌握;上层兼容主流开发方式和开发者习惯;逐步将自主NPU的关键特性和功能组件引入主流开源社区[18] - 积极与海外开源社区(如Triton、PyTorch)沟通,推动相关插件和能力进入主流项目,以改变被动适配的状态[19] 昇腾面临的挑战与未来展望 - AI产业面临“一卡难求”的局面,包括昇腾内部也面临算力资源紧张的问题[8] - Agent应用的兴起对时延、多轮推理、长序列处理及系统综合能力提出更高要求,可能带来新的“算力荒”,这既是机会也是挑战[23] - 昇腾团队的目标是不满足于某一轮市场机会,而是要在每一轮产业变化中持续暴露问题、修正问题、补齐能力[23] - 昇腾团队认识到产品永远不完美,面向未来还有很多工作要做[24] - 生态建设是长期且困难的工作,取决于公司是否愿意持续投入、压到极致并在短时间内补齐能力,以及是否有能力进行长期、持续的投入[22]
AI 写代码太烧钱了:Copilot、Claude 一起涨价,不如把程序员请回来?
AI前线· 2026-04-29 12:24
文章核心观点 - 主要AI代码辅助工具(GitHub Copilot和Claude Code)的商业模式正从固定订阅制转向按使用量(token)计费,这标志着行业早期“烧钱换增长”阶段的结束,AI辅助编程的真实成本正被显性化并转嫁给企业用户[2][3][9] - 随着按token精确计费,AI辅助编程的成本可能很快会超过雇佣程序员的成本,AI从“降本工具”转变为“成本黑洞”的临界点正在逼近[9][29][31] 行业商业模式转变 - **GitHub Copilot计费模式变革**:从2026年6月1日起,GitHub Copilot将从“按请求计费”转为“按使用量计费”,推出虚拟计费单位“GitHub AI Credits”,每个Credit价值0.01美元,消耗的输入、输出及缓存token将根据模型分别计价并折算为Credits[4][11] - **订阅套餐表面价格不变但逻辑改变**:Copilot Pro保持每月10美元(含1000 Credits),Pro+为每月39美元(含3900 Credits),超额后需额外付费或等待下月重置,但用户难以提前算清token账单[12] - **高端模型价格大幅上涨**:对于按年订阅的用户,高端模型价格显著上调,例如Anthropic的Opus 4.7模型计费倍率将从7.5倍提升至27倍,OpenAI的GPT-5.4将从1倍上涨到6倍,这实质是将高阶模型真实的推理成本转嫁给用户[14][16] - **Anthropic Claude Code同步调整**:Anthropic限制了Claude Code中Opus模型的访问,每月20美元的Pro用户需额外付费才能使用,其负责人直言原有订阅模式并非为高强度使用设计[6][17] AI行业成本与盈利压力 - **行业从“补贴”转向“变现”**:过去AI公司以接近“自助餐”的低价或免费模式扩张,用“平均成本”覆盖不均衡的使用,但Agent普及后该模式失效,平台开始将成本按token拆解回每次真实使用[18][19] - **基础设施投入巨大且回报要求高**:2024至2029年,全球AI数据中心资本投入预计达6.3万亿美元,为避免资产减值,厂商需要约25%的投资回报率,最低红线为7%,要达到7%的回报率,大型AI公司到2029年需累计赚取近7万亿美元AI收入,即平均每年2万亿美元[20] - **收入目标与token消耗量存在巨大鸿沟**:要实现年收入2万亿美元(假设10%利润率),token消耗量需在未来几年增长5万到10万倍,从目前的每年百万亿级跃升至每年1后面21个零(sextillion)级别,但当前公司既无能力处理如此多token,且许多token业务可能亏损[21] - **利润空间被间接成本吞噬**:仅计算基础设施和电力成本时,每个token利润看似合理,但计入扩建算力及训练下一代模型的“天文级”间接成本后,利润几乎被完全吞噬,市场整合将不可避免[22] AI代码辅助的具体成本构成 - **推理token是主要成本项**:使用带“深度思考”的模型时,模型内部会生成大量推理token,账单是“推理token + 输出token”的总和,高级推理意味着更高价格[26] - **工具调用与系统token成本高昂**:为模型接入工具时需发送JSON schema,每次调用可能额外增加3000~4000 token,且Agent的循环调用(思考→调工具→读结果→再思考)可能使一个50 token的用户问题最终消耗超过10万token[26] - **多种token类型共同推高成本**:包括视觉token(一张截图比一页文字贵)、音频视频token(一小时会议录音约18万token)以及各种结构性token(如序列标记、角色token等)[27] 企业内部使用与成本浪费 - **技术机制导致“无效token”浪费**:AI Agent在后台推演路径、启动子任务、验证结果时会产生大量用户看不见的token消耗,且不可避免会产生走错路、反复检查等“无效token”[24] - **企业内卷文化放大资源浪费**:部分企业出现“tokenmaxxing”现象,员工通过大量消耗token来证明自己“深度拥抱AI”,例如Visa的token使用量从2月的1万亿翻倍至3月的2万亿,摩根大通和迪士尼内部设有仪表盘追踪员工AI token消耗[28] - **内部滥用导致巨额成本**:Meta内部出现Claudeonomics排行榜,有员工为冲榜让Agent跑无限循环脚本,30天内全公司烧掉60万亿token,按公开定价估算相当于9亿美元,排名最高的个人月账单接近200万美元[28] AI成本与人力成本的临界点 - **AI成本与程序员成本的比较框架**:假设工程师年综合成本为25万美元(月均约2万美元),若AI工具月花费1000美元但能稳定替代5%以上工程产出则划算;若团队月token账单达数万甚至数十万美元却只换来无效产出,则AI比人贵[29] - **临界点已经迫近**:硅谷投资人指出,token成本超过员工工资的临界点“马上就会发生”,重度使用AI、长时间跑Agent的开发者早已到达此点[30] - **具体成本案例**:通过Claude API运行单个Agent,一天可能花费300美元,一年即10万美元,团队生产力必须至少提升2倍才能覆盖“工资+AI账单”的总成本[30]
从 Coding 到 Agent:QCon 北京 2026 全景复盘,优秀出品人 & 明星讲师名单揭晓
AI前线· 2026-04-29 12:24
作者 | QCon 全球软件开发大会 4 月 16 至 18 日,由极客邦科技旗下 InfoQ 中国主办的 QCon 全球软件开发大会·北京站(2026) 圆满落地。为期三天的大会带来超过 100 场 精彩演讲,吸引 超过 2000 位 开发者、技术专家与行业从业者现场参与,围绕 Agent 架构与工程实践、研发新范式、数据智能、多模态理解与 生成等多个前沿话题展开深入交流,为参会者带来了兼具行业洞察与实践价值的内容体验。 如果说过去一年 AI 还停留在"辅助开发",那么在 QCon 北京 2026,一个更明确的共识已经形成: 软件工程,正在从"以代码为中心",转向"以智能体为核心"。 围绕 AI 与工程实践,释放前沿洞察 主题演讲环节,多位来自产业一线的技术领袖围绕 AI 技术演进、软件生产方式重构与安全治理等关键议题,分享了各自的观察与思考。 TiDB 联合创始人兼 CTO 黄东旭表示,传统软件构建模式已发生根本性转变, Coding 问题已基本解决,Software 重构才刚刚开始 。过去软件 围绕代码展开思考与设计,而未来软件生产将以 目标、上下文、约束 为核心框架,人类应专注定义目标与规则,把执行与 ...
小米万亿模型全面开源:MIT 协议、1M 上下文,但还是打不过 DeepSeek
AI前线· 2026-04-28 15:49
小米MiMo-V2.5系列模型发布 - 公司开源了MiMo-V2.5和MiMo-V2.5-Pro两款模型,其中基础模型提供原生多模态能力,Pro模型专为“长周期一致性”和复杂软件工程设计[2] - 模型采用宽松、对企业友好的MIT License,适合商业应用,用户可修改并在本地或私有云上运行[2] - 在GDPVal-AA (Elo)基准测试中,Pro模型取得1581分,超过了Kimi K2.6 (1480分) 和 GLM 5.1 (1535分) 等竞争对手[2][3] 模型技术架构与训练 - MiMo-V2.5-Pro是一个总参数规模为1.02T的MoE模型,激活参数为42B,支持最高100万token的上下文长度[25][28] - MiMo-V2.5核心采用稀疏专家混合架构,总参数规模达到310B,激活参数15B[25] - Pro模型采用混合注意力架构,局部滑动窗口注意力和全局注意力以6:1的比例交错排列,可将KV-cache存储量减少近7倍[28] - 模型训练遵循五阶段路线:文本预训练(基于48万亿token)、Projector Warmup、多模态预训练、Agentic后训练(上下文窗口从32K扩展到1M)以及RL和MOPD[27] - MiMo-V2.5-Pro使用27T tokens进行训练,采用FP8混合精度,训练重点转向扩展后训练计算量以注入“脚手架意识”[32] 模型性能表现 - 在多项基准测试中,MiMo-V2.5-Pro表现强劲:GDPVal-AA (Elo) 1581分,T3-bench 72.9分,ClawEval (pass^3) 63.8分,Humanity‘s Last Exam 48.0分(不使用工具)[3] - 在ClawEval基准测试中,V2.5-Pro以每条轨迹约7万token的消耗,取得了64%的Pass^3成绩,比Claude Opus 4.6、Gemini 3.1 Pro和GPT-5.4少用了大约40%到60%的token[17] - 模型被强调具有较高的token效率,在完成基准测试中的claw任务时表现很强,同时消耗的token最少[14] - 模型展示了完成高复杂度任务的能力:用4.3小时、672次工具调用从零实现Rust编译器并在测试集取得满分;用11.5小时、1868次工具调用生成8192行的全功能视频编辑器;在研究生级工程任务中将线性调整率等指标提升了22倍[9] 定价策略与市场定位 - 公司为模型提供了有竞争力的价格,覆盖国内和国际市场[8] - 对于海外开发者,MiMo-V2.5-Pro在最高256K上下文窗口内,缓存未命中时每百万输入token价格为1.00美元,输出为3.00美元;对于256K到1M token的超长上下文任务,价格翻倍[10] - 公司推出了重新设计后的“Token Plan”,分为四档:Lite “Starter Pack” 提供7.2亿credits年费63.36美元;Standard档提供24亿credits年费168.96美元;Pro档提供84亿credits年费528.00美元;Max档提供192亿credits年费1056.00美元[24] - 所有套餐包括更优惠的API价格、离峰调用20%折扣,以及对Cursor、Zed、Claude Code等工具的“Day-0”支持[20] - 当前模型定价处于较低位置,限时免收缓存写入费用,整个MiMo-V2.5-TTS套件也完全免费[18] - 公司宣布提供100万亿免费token[21] 行业背景与竞争格局 - 行业正从AI推理补贴时代转向按使用量计费,微软GitHub Copilot宣布转向基于token消耗的计费方式[6] - 在Agent编程场景下,真实成本来自长上下文、反复工具调用、缓存命中率和模型倍率等[7] - 与竞争对手相比,从单纯模型定价角度看,MiMo在国内模型横向比较中价格并不便宜[11] - 与DeepSeek-V4相比,V2.5-Pro更接近主流推理框架可部署方案,架构创新相对更工程化,而DeepSeek-V4更偏自研系统栈和底层kernel优化,系统复杂度高、部署门槛可能更高[30] - 公司大模型负责人认为“价格战是陷阱”,真正的出路是“更高token效率的Agent框架”叠加“更强大高效的模型”[17] 用户反馈与评价 - 有开发者评价MiMo-V2.5-Pro是目前token效率最高的开源模型之一,会思考但不会陷入冗长的循环[17] - 有用户指出该模型在工作和个人爱好(如游戏开发、创意写作、数据分析)中表现良好[23] - 也有用户指出模型存在不足,例如思考时间过长、在缺乏明确错误反馈时长链推理表现不佳、以及存在免费期后使用占比下降的情况[23][32][34]
阿里HappyHorse开启灰测,720P视频生成低至0.44元/秒
AI前线· 2026-04-28 15:49
阿里巴巴发布视频生成模型 - 阿里巴巴于4月27日开启视频生成模型HappyHorse 1.0的灰度测试,专业创作者和企业客户可通过官网及阿里云百炼平台注册使用,大众用户可在千问App体验[2] - 该模型依托原生多模态架构,采用音视频联合生成方案,主要面向广告、电商、短剧、社交媒体创意等内容生产场景,提供从智能生成到编辑的一体化创作能力[4] - 模型核心功能包括视频生成和视频编辑,视频生成支持文生视频、图生视频及多图参考生视频,视频编辑支持对视频进行灵活的二次创作[4] - 模型支持生成15秒多镜头叙事视频,适配多种画幅,并可进行1080P超分输出[4] 产品定价与商业化 - 官网公布的视频生成刊例价为720P分辨率0.9元每秒,1080P分辨率1.6元每秒[2][4] - 专业会员包月价格叠加限时折扣后,720P视频生成成本降至0.44元每秒,1080P降至0.78元每秒[4] - 官网为新用户提供免费额度[4] 模型技术性能与特点 - 模型在画面质感与光影效果、运镜与转场流畅度以及人物真实感等方面表现优秀,能够呈现电影级质感,尤其擅长大光圈、浅景深、强氛围感的中近景镜头表达[5] - 模型支持拉近、拉远、景深变换等多种运镜方式,并具备音画同步能力,可生成对白台词及环境音效[5] - 模型能够还原多种艺术风格,包括水墨工笔、折纸、粘土定格动画等[5] 生态整合与发展规划 - HappyHorse 1.0模型已接入阿里旗下的悟空、MuleRun和JVS Claw等Agent平台[6] - 官方表示,在灰度测试阶段,模型能力仍在不断迭代升级[6]
智能体工程的隐形技术债:10分钟造出一个 Agent,公司却要为它养一个平台团队
AI前线· 2026-04-27 16:39
文章核心观点 - 智能体(Agent)的本地构建和演示虽然简单,但将其投入生产环境、供整个工程部门使用并处理真实数据和后果时,会引发严重的“隐性技术债务” [2][4] - 智能体生产系统中,核心的智能体代码仅占极小部分,围绕其构建的庞大基础设施模块才是复杂性和技术债务的主要来源,这与2015年谷歌论文中描述的机器学习系统模式高度相似 [4][5][6] - 若不系统性地构建和管理这些基础设施模块,随着智能体数量(可能超过员工数量)的激增,公司将面临集成混乱、上下文过时、治理缺失、度量困难等一系列问题,最终需付出更高代价进行重构 [5][61][65] 智能体生产系统的七大基础设施模块 1. 集成 - 智能体需要连接到众多实际系统(如CI/CD、云提供商、代码库、密钥管理器等),若缺乏集中管理,每个团队独立设置连接将导致数百个集成点,带来配置、调试和有效期的管理难题 [9][10][11] - 分散的集成导致数据视图不一致(例如,不同权限的Token访问不同范围的数据)和重复劳动(如API变更时各团队需分别调试),即使采用MCP标准,也仅解决了工具调用方式,未解决凭证管理、数据范围及API变更应对等核心问题 [11] 2. 上下文湖 - 智能体的表现依赖于**运行时上下文**(实时数据,如服务信息、所有权、部署记录)和**决策痕迹**(历史决策及结果),这两类上下文都处于动态变化中 [13][14][16] - 使用静态Markdown文件管理运行时上下文会导致信息过时(如服务所有权已转移但文件未更新)[15] - 缺乏决策痕迹共享机制会导致智能体重蹈覆辙,重复尝试已被否决的解决方案,且无法从历史经验中学习,造成知识在每次运行后消失 [16] 3. 智能体注册表 - 随着智能体数量(可能达到员工数量的5-10倍)在各类工具(如Claude Code、Cursor、n8n等)中激增,缺乏集中注册表将导致智能体不可见 [18] - 后果包括:团队重复创建功能相似的智能体、集成令牌过期无人知晓、API升级时各团队重复调试、上下文管理无人负责且支离破碎 [19][20] - 在拥有20或30个工程团队的公司中,智能体责任重叠、行为冲突和依赖项不可见的问题将迅速出现 [21] 4. 向智能体传达指令 - 需要为智能体提供类似“员工手册”的标准、技能和操作指令,但当前工程师独立创建技能文件的方式易导致重复、不准确或与平台标准矛盾 [22] - 指令信息可能需要多个层次(公司级、存储库级、团队级),挑战在于如何可靠地将这些一致且个性化的指令传递给成千上万的智能体 [23][27] 5. 智能体创建 - 智能体创建过程需要受控但不拖慢团队速度,平台团队应负责提供标准化的创建模板 [24][26] - 模板应确保每个智能体具备基本要素:所有者、描述、使用工具、连接服务及生命周期状态,以便从第一天起就可管理,避免后续追查 [26] - 工程师应能从其工作流(如在Cursor中)直接创建智能体,同时确保该过程遵循公司的标准化模板 [26] 6. 度量 - **可观测性**:需要追踪智能体采取的行动、访问的数据及运行状态,以排查问题(如智能体生成错误修复时,需定位是拉错仓库、误读所有权还是生成糟糕代码)[31] - **评估**:由于智能体响应非确定性,需有方法评估在提示、技能或模型变更后,其表现是变好还是变糟(例如,更换模型可能导致PR审查标准变化)[32][33] - **业务影响(ROI)**:难以衡量智能体解决工单数量、节省的工程时间或对平均修复时间(MTTR)的真实影响,仅追踪成本(Token、API调用)不足以证明价值 [34] - **反馈循环**:收集人类对智能体输出(如PR、工单解决)的接受、更正或明确反馈,这对于改进智能体比评估更为关键 [35][36] 7. 人机回环 - 人机回环是在完全手动与完全自动化之间实现安全自动化的机制,允许定义条件性检查点和审批规则(如生产环境部署需批准,测试环境可自由运行)[39] - 当智能体数量增多时,硬编码的审批逻辑无法扩展,会导致各团队实现方式不一,缺乏集中定义,且审批系统(Slack、邮件、自定义UI)分散,形成独立的技术债务 [39][40][45] - 工程师需要一个控制平面来查看智能体工作、必要时进行干预,这是建立信任和实现大规模可控变更的基础 [40] 8. 治理 - **访问与权限**:需要集中定义并执行针对智能体的具体治理规则(如“回滚服务仅限高严重性事件”、“生产部署总需手动批准”),而非依赖创建者的个人凭证 [42][43][46] - **策略执行与审计**:需能够从一个地方统一禁用所有智能体对某个工具(如存在漏洞的API)的访问,并具备完整的审计跟踪,以追溯哪个智能体采取了何种行动、使用了何凭证 [47][50] - **成本治理**:智能体可能因陷入循环而持续消耗资源,需能按智能体、团队或用例分解LLM支出,并设置成本限制,避免月度账单出现意外损失 [48] 9. 编排 - 智能体工作流混合了智能体、工具和人,其债务源于步骤之间的**路由、故障处理和所有权**不明确 [49] - **非确定性与契约缺失**:智能体工作流引入非确定性,且智能体间通过自然语言传递信息,缺乏像API那样的明确契约,导致模型或提示的更改可能悄无声息地破坏下游智能体 [55][59] - **故障排查与所有权**:当工作流执行错误操作时,难以追踪是哪个早期决策导致了错误路径;当工作流跨越多个团队时,缺乏明确的责任主体对整体结果负责 [52][57]
从Cursor返聘归来,90后华裔女高管带Claude开启日更模式:token成本比工程师工资低多了!
AI前线· 2026-04-27 16:39
Anthropic的产品开发与发布策略 - 公司将产品功能的开发进度从6个月大幅缩短至1个月,有时甚至只需一天,这种快速迭代状态已持续多个季度[3] - 实现高速发布的关键在于精简流程、移除发布阻碍,并建立团队预期,使每个成员都能在一周甚至一天内将想法变为上线产品[3][11] - 产品发布采用“研究预览”形式,明确告知用户为早期产品以降低承诺成本,从而能在一两周内快速上线新功能[8] - 公司建立了高度协作的发布流程,工程、市场和文档团队紧密配合,功能就绪后可于次日发布公告,极大降低了发布摩擦[8][9] Anthropic的产品管理哲学与团队运作 - 产品经理的角色从传统的跨季度路线图对齐,转变为专注于如何以最快速度将产品交付用户手中,缩短“从想法到用户”的时间[6][7] - 优秀的产品经理需具备清晰定义目标的能力,明确核心用户、待解决问题及关键使用场景,以消除大模型带来的模糊性[7] - 团队内部减少对冗长PRD的依赖,转而通过严格的每周数据指标复盘和一套团队原则来确保业务理解与自主决策[10] - 在决策优先级时,团队围绕“为全人类带来安全AGI”的单一使命,并愿意为整体使命牺牲单个产品的目标[3][29][30] AI时代下工程师与产品经理的角色演变 - 工程师与产品经理的角色边界正在重叠和融合,工程师在承担更多产品工作,产品经理也在做工程相关事务[16] - 公司倾向于招聘具有强烈“产品感”的工程师,这类人才能够减少产品发布过程中的摩擦成本,实现高效迭代[16] - “产品感”被认为是当前非常稀缺的核心能力,其价值在于决定“该写什么”,包括定义最佳用户体验和功能优先级[17][18] - 随着编码成本降低,判断功能实现难度和优先级的能力变得更为重要,工程背景在此方面具有优势[18] Anthropic的内部工具使用与效率提升 - 公司内部使用自家模型提升效率,但更关键的因素在于流程和团队预期,而非完全依赖模型能力[3][11] - 除了工程团队,公司内部使用token最多的是Applied AI团队,该团队负责帮助客户落地API和模型能力[4][44] - 尽管每次模型升级后人均token消耗会上升,但目前该成本仍远低于工程师的平均薪资[4][47] - 公司鼓励内部使用模型,但设有上限,且不鼓励浪费token,信任员工能负责任地使用[4][48] 主要产品定位与用例 - Claude Code主要面向代码产出场景,其命令行界面功能最强,新功能最先在此上线;桌面版更适合前端工作和非技术用户[32][33] - Cowork专注于非代码产出工作,如清理Slack、制作PPT、撰写文档等,增长迅速[34] - Cowork的高效使用依赖于连接所有相关工作数据源,如Google Calendar、Slack、Gmail、Google Drive,以获取充足上下文[34][35][37] - 公司内部利用Claude Code的低门槛开发了大量“个人化工作软件”,以解决具体业务场景,替代通用工具[39][41] 模型迭代对产品形态的影响 - 新模型发布后,产品团队常做的更大变化是“删除功能”,因为许多旧功能原本是为弥补模型能力不足而设[3][53] - 新模型在变得更强后,会“吃掉”之前产品层为弥补其不足而添加的补丁功能[54] - 新模型同时也会解锁全新功能,例如当模型能力足够强时,才实现了可用的代码审查功能[55] - 产品团队会随着模型能力提升,重新检查并简化系统提示,移除不必要的部分[54] 对AI工具应用与职业发展的建议 - AI提供了巨大的杠杆,建议将重复性手动任务自动化,以释放时间专注于创造性工作[58][59] - 自动化应追求100%的可用性,95%的自动化价值有限,需要投入精力打磨至完全可靠[60] - 建议使用AI工具构建每天都会实际使用的应用或工作流,而非一次性原型,才能真正获得价值与学习[63] - 应警惕过度优化工具配置和工作流,避免偏离完成核心任务的目标,简单的配置往往更有效[63][64]
“我把所有模型都换成了DeepSeek V4”:月账单将降 90%,效果还更好
AI前线· 2026-04-27 10:28
大模型定价策略与市场竞争格局 - OpenAI于2026年4月23日发布GPT-5.5,其API定价大幅上涨,每百万输出token收费30美元,比前代GPT-5.4贵了一倍[2] - 同日,DeepSeek发布V4系列模型并开源,其定价极具竞争力,DeepSeek-V4-Pro每百万输出token仅3.48美元,约为GPT-5.5的十分之一[2][3] - 主流模型定价出现显著分化,处理同等规模输入输出token,GPT-5.5成本为35美元,Claude Opus 4.7为30美元,而DeepSeek-V4-Pro为5.22美元,成本分别为前两者的七分之一和六分之一[12] - DeepSeek-V4-Flash价格更低,每百万输入/输出token合计0.42美元,缓存命中后降至0.308美元,成本不到GPT-5.5和Claude Opus 4.7的2%[13] - 除标准定价外,OpenAI为GPT-5.5设计了复杂的定价分层,包括价格是标准档2.5倍的优先级套餐,以及为科研设计的Pro版(输入/输出每百万token 30/180美元)[9] 技术性能与成本效益 - DeepSeek V4采用MIT开源协议,开发者可自行部署,规避API调用费用,对数据合规要求高的场景尤为重要[15] - 在百万token上下文场景下,DeepSeek-V4-Pro的单token推理FLOPs仅为V3.2的27%,KV cache减少90%[15] - 实际测试显示,在完成相同复杂编程任务(开发卡丁车游戏)时,DeepSeek V4 Pro输出token数(18,869)接近GPT-5.5(10,580)的两倍,但成本(0.07656美元)仅为后者的4.3分之一[19] - DeepSeek V4 Pro的生成速度达到34 tokens/秒,高于GPT-5.5的25 tokens/秒[19] - 在编码基准测试中,DeepSeek V4 Pro击败了Claude Opus 4.6和GPT-5.4[4] - 技术报告指出,通过增加推理token使用量,DeepSeek-V4-Pro-Max在标准推理基准上优于GPT-5.2和Gemini-3.0-Pro,但仍略逊于GPT-5.4和Gemini-3.1-Pro,距最前沿模型约有3到6个月差距[17] 模型规格与工程进展 - DeepSeek V4系列包含两个模型:DeepSeek-V4-Pro(总参数1.6T/激活参数49B)和DeepSeek-V4-Flash(总参数284B/激活参数13B),前者是目前规模最大的开源权重模型[12] - V4的核心进展之一是上下文窗口从128k提升至1M[15] - DeepSeek在工程层面开源了支持NVIDIA GPU和华为Ascend NPU的Mega-Kernel,目标是在Ascend上承载部分推理流量[16] - 受限于高端算力,目前V4-Pro的服务吞吐有限,官方预计下半年昇腾950超节点批量上市后,Pro版价格会大幅下调[16] 行业竞争动态与用户迁移 - 过去三个月模型竞争激烈,多家头部厂商频繁发布新的coding checkpoint,聚焦于智能体编程、长任务和多步骤规划[6] - Anthropic在GPT-5.5发布前一周推出Claude Opus 4.7,但仅为小幅升级,且因采用新tokenizer导致token用量最高可能增加35%,相当于价格变相上涨[10][11] - 有重度AI编程用户表示,在DeepSeek V4发布后,将其所有编程智能体迁移至DeepSeek端点,预计月账单将下降90%以上,且输出质量未下降[4] - 行业实测案例显示,在生成复杂UI(如Apple风格天气界面)和创意SVG图像等任务上,DeepSeek V4版本的表现逐代提升[21][26]
DeepSeek-V4 Pro API限时2.5折;豆包“提前查到2026山东事业编成绩”,最新回应;微博考核全体研发AI能力;某大模型泄露用户简历|AI周报
AI前线· 2026-04-26 13:03
行业趋势与竞争格局 - 大模型竞争已全面从预训练主导的Chat时代转向后训练主导的Agent时代,顶尖团队的预训练与后训练算力投入比例已从过去的5:1收窄至1:1 [13][14] - 国内已有包括Kimi、MiMo在内的多家公司具备1T参数以上的基座模型,中美在预训练阶段的差距“基本上已经没有”,国内顶尖模型与国际前沿模型的代差仅约两三个月 [13] - 1T参数规模是实现接近顶尖Agent水平的“入场券” [14] - AGI预计将在两年内实现,当前进度已完成约20%,今年有望推进至60%到70% [13] 公司战略与组织动态 - 微博要求全体研发参加AI能力考试,考试内容为开发前后端系统,未通过者将接受集中培训 [2] - 字节跳动部分部门已开始实施A to A端到端全代码流程,由AI全程写代码,人类负责审核,并将AI代码贡献率纳入部门OKR进行考核 [3] - 自动驾驶公司Momenta在IPO前夕进行人员调整,据传感知算法部门“137人走人”,大部分为技术岗,此举或为优化财务报表以节省上亿元人力成本 [18][19] - 苹果公司宣布蒂姆·库克将于9月1日卸任CEO,转任执行董事长,由硬件工程高级副总裁约翰·特努斯接任,这是苹果自2011年以来首次CEO换届 [27] - Meta开始跟踪员工的工作方式(如击键和鼠标点击)以训练AI模型,此举引发部分员工不满 [22] 大模型发布与性能 - OpenAI发布迄今最智能的AI模型GPT-5.5,其核心突破在于大幅升级的Agent能力,能自主规划并执行多步骤复杂任务,在多项测试中表现卓越 [33][34] - OpenAI发布新一代图像生成模型GPT Image 2,这是首个具备“思考”能力的图像模型,在文字准确率、分辨率、生成速度等方面实现突破,支持4096×4096分辨率,单张图像生成仅需3秒 [36] - 月之暗面发布并开源最强代码模型Kimi K2.6,其在多项测试中表现持平或优于GPT-5.4、Claude Opus 4.6等,并能不间断编码长达13小时,编写超过4000行代码 [42][43] - 小米发布最强大模型MiMo-V2.5系列,包括旗舰推理模型MiMo-V2.5和全模态Agent模型V2.5-Pro,新模型在达到相同性能时可比竞品节省42%至50%的Token消耗 [40][41] - 腾讯发布并开源混元Hy3 preview语言模型,这是一款主打快慢思考融合的MoE模型,总参数295B,激活参数21B,最大支持256K上下文 [38][39] - 阿里巴巴发布Qwen3.6-Max预览版,在权威评测中登顶最佳国产模型,并宣布其AI视频生成项目HappyHorse-1.0将于4月27日开放测试 [44] - 字节跳动发布更高精度的新一代3D生成大模型Seed3D 2.0,采用MoE架构以生成更丰富的纹理细节 [46] - 谷歌发布基于Gemini 3.1 Pro的新一代自主研究Agent Deep Research与Deep Research Max,支持搜索专业数据库并原生生成图表 [48] 融资、投资与估值 - 亚马逊宣布向Anthropic追加50亿美元投资,并额外提供总计6吉瓦(GW)的Trainium芯片算力,累计投资达130亿美元,未来还计划追加200亿美元 [23] - 据彭博社报道,谷歌计划向Anthropic投资最高400亿美元,其中100亿美元现金将立即注入,后续300亿美元将根据业绩目标跟进 [25] - 深度求索(DeepSeek)在融资前的估值据传为3000亿人民币(约合440亿美元) [9] - SpaceX获得一项权利,允许其在今年晚些时候以600亿美元收购AI编程公司Cursor,或就双方GPU算力合作支付100亿美元 [26] 商业化与定价策略 - 深度求索为DeepSeek-V4-Pro模型API开启限时2.5折优惠,优惠期截至2026年5月5日,折后价格为每百万tokens输入(缓存命中)0.25元、输入(缓存未命中)3元、输出6元 [4][6] - 微软GitHub Copilot将于6月1日起从按“请求次数”计费转向按Token计费,例如选用GPT-5.4模型,每百万输入Token需支付2.50美元,每百万输出Token支付15美元 [20] - 小米升级模型订阅计划Token Plan,取消4倍的Credits计费方式,计费不区分上下文长度,并新增夜间专属优惠及自动续费模式 [41] - 蚂蚁灵光App推出“灵光圈”功能,并启动“灵光闪应用创作者激励计划”,将投入1亿元专项基金扶持创作者,每天最高激励100万元 [50] 技术合作与生态适配 - DeepSeek-V4系列获得广泛生态支持,英伟达Blackwell平台已适配其Pro与Flash版本,在GB200 NVL72上开箱即用性能超150 tokens/sec/user,此外PPIO、华为云、中国联通、天数智芯、寒武纪等均完成集成或适配 [6] - OpenAI的GPT-5.5运行于英伟达GB200 NVL72机架级系统,英伟达内部已有超1万名员工使用该技术 [35] - 亚马逊与Anthropic深化合作,Anthropic将在2026年前使用Trainium芯片训练并部署Claude模型,预计在2026年上半年获得5GW算力,未来10年内将向AWS投入超过1000亿美元 [23][24] - 特斯拉车机语音服务将接入豆包大模型与DeepSeek模型,均通过火山引擎接入 [52] 安全与风险事件 - 某大模型被曝泄露用户真实简历,用户在使用翻译功能时收到陌生人完整个人信息,专家指出这更接近数据隔离失效等工程问题,而非典型的“AI幻觉” [12] - 一名程序员为使用公司算力“干私活”,违规登录服务器并删除了超过89 TB的AI训练数据和多个文生3D模型,给公司造成20余万元经济损失,最终被判处有期徒刑五年十个月 [16][17] - 有网友称通过豆包大模型提前查到了2026年山东事业编成绩,官方回应称是工作人员测试成绩查询端口时被无意中访问到,发现后已及时关闭 [10][11] 其他行业动态 - 爱奇艺公布AI选角专利,可通过AI模型为影视作品智能推荐演员组合,其CEO连发博文回应“AI艺人库”争议,称不存在未经艺人同意将其纳入的情况 [28] - 谷歌发布第八代TPU芯片家族,首次分为训练芯片TPU 8t与推理芯片TPU 8i,在大规模训练场景下,TPU 8t单位美元性能较上一代提升高达2.7倍 [49] - 索尼AI研发的乒乓球机器人Ace在遵循国际规则的正式比赛中击败多名人类精英选手,这是AI机器人首次在需要物理互动的竞技体育中击败专业人类选手 [29] - 火山引擎宣布,其Seedance 2.0 API服务现已支持1080P全高清视频生成,为模型原生能力 [52]