Workflow
Cursor
icon
搜索文档
OpenAI发布新模型硬刚Anthropic!Claude Code刚火,就被GPT-5-Codex拍在沙滩上?
AI前线· 2025-09-16 12:41
OpenA 推出"最卷" 编码智能体 GPT-5-Codex GPT-5-Codex 的一大亮点是其增强的 代码审查功能 ,能够在产品发布前发现潜在的关键错误,帮助开发者提前规避风险。 具体是怎么做到的? 整理|冬梅 9 月 15 日,OpenAI 正式推出一款新模型 GPT-5-Codex ,这是一个经过微调的 GPT-5 变体,专门为其各种 AI 辅助编程工具 而设计。该公司表示,新模型 GPT-5-Codex 的"思考"时间比之前的模型更加动态,完成一项编码任务所需的时间从几秒到七 个小时不等。因此,它在代理编码基准测试中表现更佳。 与静态分析工具不同,Codex 将 PR 的声明意图与实际差异进行匹配,对整个代码库及其依赖项进行推理,并执行代码和测试 以验证行为。只有最细致的人工审查人员才能在审查的每个 PR 中投入如此多的努力,因此 Codex 填补了这一空白——帮助 团队更早地发现问题,减轻审查人员的负担,并更自信地交付。 一旦在 GitHub 代码库中启用 Codex,它就会自动审核 PR,直到 PR 从草稿状态变为就绪状态,并在 PR 上发布其分析。如 果它建议修改,用户可以留在同一个线程中, ...
GPT-5编程专用版发布!独立连续编程7小时,简单任务提速10倍,VS Code就能用
量子位· 2025-09-16 08:52
模型升级 - 推出GPT-5-Codex特化版模型 支持独立连续编程7小时[1][5] - 新模型具备真动态思考能力 可在执行任务过程中实时调整算力分配[4] - 针对复杂工程任务训练 包括完整项目构建、功能测试、调试和大规模重构[8] 性能表现 - 在SWE-bench Verified上表现略优于原版GPT-5 代码重构任务成功率提升近20%[9] - 简单任务输出token数比GPT-5减少93.7% 响应速度提升10倍[11] - 复杂任务推理时间增加 输出token量提升102.2%[12] - 代码审查错误率从13.7%降至4.4% 高影响力评论比例从39.4%提升至52.4%[15] 产品生态 - 推出IDE插件版 支持VS Code和Cursor编辑器[2] - CLI支持图像输入 可处理截图和设计稿[18] - 集成网络搜索和MCP工具 用待办列表追踪复杂任务进度[19] - 终端界面升级 工具调用和diff展示更清晰[20] - 支持云端本地无缝切换 可在IDE创建云任务并跟踪进展[23] 基础设施 - 通过容器缓存技术 新任务中位完成时间缩短90%[24] - 自动扫描设置脚本并执行 运行时可通过pip install获取依赖[24] - 前端任务可启动自有浏览器查看构建结果 迭代改进并附加截图至PR[24] 市场时机 - 升级正值Claude Code因模型质量下降出现用户退订潮[25] - 公司借机抢占AI编程市场份额[26]
对话吴穹:软件开发的终局,是我们将迎来自己的“黑灯工厂”
AI科技大本营· 2025-09-15 08:50
作者 & 采访 | 王启隆 出品丨AI 科技大本营(ID:rgznai100) 三十年的软件工程江湖,像一条奔流不息的河。 有人淘金,有人摆渡,有人筑坝,而 吴穹 , 是那个试图画出河流走向图的人。 1995 年,师从杨芙清院士和梅宏院士,吴穹正在北大参与"青鸟工程",一个近乎理想主义的尝试——在中国建立一条真正的"软件工业生产线"。做学 术研究时,他内心总有一个强烈的声音在催促:如何将这些抽象的理论"落地"?毕业前夕,他找到了当时在全球软件工程领域声名赫掣的 Rational 公 司,毛遂自荐,最终竟促成了这家巨头在中国的第一个办事处。就这样,他几乎是以一己之力,将 Rational 及其方法论 RUP(Rational Unified Process) 这本"圣经"引入了中国。 那是一个"引渡者"的黄金时代。UML 统一建模语言、RUP,这些来自海外的严谨范式,如同精确的图纸,被递到了一群最渴望规范与秩序的中国工程 师手中。吴穹和他的同仁们,就像当年的普罗米修斯,将理性的火种带到东方。他亲手将 RUP 翻译成中文,免费提供给整个社区,无数 CTO 和 CIO 都曾感念,是 RUP 为他们野蛮生长的研发体系 ...
经纬创投合伙人王华东:AI Agent创业,要避开大模型能力迭代主赛道
新浪科技· 2025-09-13 16:03
炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 新浪科技讯 9月13日下午消息,在2025Inclusion·外滩大会上,经纬创投管理合伙人王华东分享中指 出,"创业公司在Agent领域创业,一定要避开大模型能力迭代的主赛道,否则很有可能随着大模型公司 某一个版本的升级,便把自身迭代没了。" "明确自己Agent所处的领域或能解决的任务是比较重要的。"王华东表示,"我现在越来越坚信,很多AI 类型的产品,不管Agent还是其它领域产品,初期看意义和市场规模都不大,但很可能因为这个产品做 得足够好,让这个领域被指数级地扩大了,也在这个领域内建立了应用、认知的壁垒,护城河也变得更 高了。" 在王华东看来,AI Coding就是一个大模型迭代主赛道上的核心能力,因为功能属性太强,所以企业做 通用型CodingAgent受到的影响会明显受到主流大模型能力的迭代冲击。 "去年下半年大家都觉得在AI coding领域是Cursor为王了,结果后来Claude code成为增长最快的产品, 而过去一周,OpenAI context的增速又远远超过了Claude code,这个领域的竞争无止境,没有 ...
硅谷大厂,制造了“模型越大越好”的集体幻觉
虎嗅· 2025-09-11 15:10
吴恩达是少数敢于重新定义行业话语的人。他提出"Agentic AI"这一说法,不是为了制造新标签,而是 为了打破关于"智能体"的二元争论。他把自主性拉成一个光谱:能多步规划、独立执行的是高自治,受 提示牵引的是低自治,但它们都属于 Agentic 的范畴。这种重新定位既是工程实践的需要,也是一种对 行业语境的校正。 他对"规模至上"的主流叙事持批评态度。在他看来,几家巨头用强势公关制造了"模型越大越好"的集体 幻觉。但现实远比这复杂:智能体工作流的工程化、多模态模型的重构方式、扩散式技术在跨领域的迁 移,以及企业内部的专有数据沉淀,才是决定性突破口。他甚至指出,资本不只是推动商业化,反而正 在"解决基础研究",因为资金和人才集中在最具经济价值的方向。 在吴恩达看来,"Agentic AI"不是营销热词,而是未来组织运行方式的底层逻辑。他留下的警告带着冷 锋:还在用 2022 年工作流的人,会最先被节奏淘汰。未来几年,拥抱 AI 的个人和团队会拉开难以追 赶的代差,而这场差距并不会靠宣传叙事,而是靠具体的工程与实践一步步拉开。 他把争议延伸到产品侧:当开发从数周缩短到一天,瓶颈从写代码转移到决策本身。如何在极短 ...
人工智能行业专题(12):AIAgent开发平台、模型、应用现状与发展趋势
国信证券· 2025-09-10 23:25
投资评级 - 行业投资评级为优于大市(维持)[1] 核心观点 - AI Agent是突破指令执行的智能实体 具备代理权 可主动感知 自主决策并执行复杂任务 在AGI分级中处于L3智能体阶段 性能等效90%熟练成年人[3] - AI背景下AI基础设施层面临重构 客户将重新选择云/AI平台 云厂商加大布局AI/Agent平台瓜分新市场[3] - 海外模型呈现差异化发展 国内模型层并未拉开显著差异 2025年初深度推理与长上下文模型发布推动Tokens调用量快速提升[3] - 应用C端重磅搜索产品依赖模型能力与生态导流 图像与编程类产品发展迅猛 应用越偏向垂类则技术门槛越低 产品理解要求越高 竞争越激烈 商业化闭环越容易[3] - 应用B端Copilot/Agent产品形态丰富 持续渗透 机遇与挑战并存 企业落地仍面临幻觉 数据安全 成本高等问题[3] - 全球AI IT支出2023-2028年CAGR 22.3% 其中GenAI达73.5% CBINSIGHTS预计2032年AI Agent营收有望达1036亿美元(CAGR 44.9%)[3] Agent定义、技术与发展 - AI Agent具备自主性 规划力与执行力 核心突破在于赋予代理权 可主动感知环境 自主规划决策 执行复杂任务[10] - 关键特性包括自主决策 动态学习 跨系统协作 核心模块包括感知层 记忆层 决策层 执行层[10] - 与LLM和传统自动化的关键区别在于LLM是知识顾问 Agent是战略指挥官 传统自动化仅规则执行 Agent实现端到端任务闭环[10] - 在AGI分级中 Agent处于L3智能体阶段 性能等效90%熟练成年人[11] - 代理核心构成包括记忆 感知 规划 工具使用[12][15] - 相关技术创新包括MCP(模型上下文协议)和A2A(Agent-to-Agent通信协议)[16][19] - Agent市场图谱分为基础设施类 横向职能类 垂直应用类三大类别[20][22] Agent开发平台的布局 - 海外云厂商平台布局对比:微软聚焦B端基础设施 模型支持最全面 工具链和生态整合全面 安全与稳定性强 谷歌兼顾B/C端多场景 多模态强但生态不成熟 市占率较低 亚马逊依托AWS服务中小企业 侧重算力销售与便捷部署但工具链分散[51] - 国内平台布局对比:字节扣子覆盖全场景 开发者与智能体数量领先 阿里百炼主攻B端全行业 服务30余万企业客户 MCP工具链和开源生态丰富 腾讯元器基于混元大模型 主打轻量化低代码开发 聚焦社交与游戏垂类[55] - 微软Azure AI Foundry已被80%财富500强企业使用 25Q2处理tokens超500万亿 同比增长超7倍 agent service客户数达1.4万[42] - 谷歌AI平台架构涵盖数据综合层 控制层 数据层 业务活动层 赋能基础设施包括TPU v7 Ironwood和英伟达支持[48][49] - PaaS/Agent平台面临市场份额重构机会 IDC调查显示70%受访企业将更换或新增云/AI平台供应商[56] - 平台关键需求包括提高开发交付效率 AI驱动的工作流自动化是首要需求 安全与隐私是最大落地障碍[62][63] - 企业AI战略重心分层 核心模型能力是第一抓手 云服务商在助力实现AI目标的供应商中占比49%[68][70] 模型层与Tokens调用量分析 - 根据Openrouter数据 谷歌Gemini与Anthropic Claude占API市场半壁江山 国内DeepSeek 阿里Qwen系列份额稳步提升[3][95] - 谷歌2025年7月调用量980万亿tokens 较去年增长100倍 其中内部需求占比高达97%[3] - 国内字节豆包2025年5月日均tokens 16.4万亿 增长137倍 内部占比超80%[3] - 海外模型差异化发展:OpenAI技术路径领先 聚焦推理与专业能力 谷歌端到端原生多模态领先 Anthropic编程场景领先 实用性突出[102][103] - 国内模型未拉开显著差距:DeepSeek技术研究领先 阿里自研能力与综合能力强 字节各模态均衡 百度中文场景优化 腾讯基于DeepSeek改造[105][106] - 分场景份额:编程场景Claude Sonnet4占近半调用量 角色扮演场景DeepSeekV3领先 科技金融场景Claude Sonnet4与Gemini Flash占优 营销搜索翻译场景Gemini Flash优势明显[108][111][113] - 过去半年模型周tokens消耗量增长4.7倍 深度推理与长上下文模型发布推动调用量快速提升[122][123] C端与B端Agent进展 - 应用C端重磅搜索产品依赖模型能力与生态导流 ChatGPT MAU预计年底超10亿 Gemini MAU 4.5亿 国内夸克 元宝依托生态导流[3] - 图像类Midjourney ARR 5亿美元 可灵月收入1.5亿元 编程类Cursor ARR 5亿美元 GitHub Copilot Web MAU 1.2亿[3] - 应用B端Copilot/Agent产品形态丰富 持续渗透 微软Copilot家族月活用户已超1亿 但企业落地面临幻觉 数据安全 成本高(Agent调用成本为LLM 15倍)等问题[3] - 根据CBINSIGHTS 企业工作流 编码两大领域2024年营收均超10亿美元 微软Microsoft Copilot 2024年收入约8亿美元 GitHub Copilot收入约6亿美元 总占整体市场超25%份额[25] - 垂类市场中客户服务 软件开发为高潜力赛道 64家组织中2/3计划12个月内用AI代理支持客服[25] Agent的市场空间与发展预期 - 根据IDC数据 全球AI IT支出2023-2028年CAGR 22.3% 其中GenAI达73.5%[3] - CBINSIGHTS预计2032年AI Agent营收有望达1036亿美元 CAGR 44.9%[3] - 根据Garnter与IDC 短期(2023-2025)GenAI嵌入现有应用 中期(2025-2027)Agent成核心组件 长期(2027+)自主代理网络主导业务 2035年后Agent将成为认知共生的人类助手 智能体即应用将成主流[3]
氛围编程 101:现代创始人的无代码技术栈
36氪· 2025-09-08 07:12
文章核心观点 - AI驱动的"氛围编程"正在彻底改变软件开发方式 使非技术背景的创始人能够通过自然语言提示快速构建全栈应用 [2][6][13] - 技术能力的定义从编码技能转变为系统性思维 AI熟练度与战略清晰度 投资者更关注产品嗅觉和执行速度而非代码编写能力 [15][16][18] - 开发周期从几周缩短到几小时 精英团队一天能完成过去50-100名工程师的工作 YC 2025冬季营中25%初创公司95%以上代码由AI生成 [13][19][26] 现代无代码技术栈 - 模块化技术栈包含AI原生 无代码和低代码平台 涵盖设计 UI 前后端 自动化 协作和部署六大层级 [8] - 具体工具包括Figma/Builder io(设计) Vercel/Next js(前端) Supabase/Firebase(后端) Zapier(自动化) Cursor/GPT-4o(协作) Vercel/Netlify(部署) [8] - AI模型能流畅集成标准化工具 无需记忆API或查阅文档 通过描述需求自动填补技术空白 [9] 技术能力定义演变 - 技术创始人门槛从计算机学位 GitHub作品集转变为产品拆解能力 结构化提示词能力和战略判断能力 [15][16] - 风险投资公司公开资助具有领域知识但无需编写原始代码的创始人 重点关注产品嗅觉 执行速度和架构清晰度 [18] - MVP开发成本大幅降低 精通AI的创始人能以极低成本获取早期用户 减少工程开销和所需资本 [19] 新工作流与思维模式 - 开发流程从"编写规格→分配工单→编码→审查→部署"转变为"提示词→可用草稿→优化→部署"的迭代循环 [21][22] - 支持快速A/B测试和方案比较 几小时内可上线测试 通过真实用户数据而非主观意见推动决策 [24] - 迭代周期从季度缩短到周末 显著缩短从想法到用户反馈的距离 实现更快学习和产品优化 [26] 优势与局限 - 优势场景包括快速开发MVP 构建内部工具 个人项目实验 创意界面以及赋能非技术创始人 [33] - 局限体现在安全系统 复杂架构 边缘情况处理 生产环境质量调优和长期可维护性方面 [33] - 适用于0到1阶段加速 但1到10的规模化 加固和优化仍需经验丰富的开发者 [31][32] 新兴角色 - AI产品工程师:通过提示和迭代将产品说明转化为可工作原型的混合型人才 [34] - 提示词架构师:负责构建提示词结构和管理AI工具记忆/上下文的专业角色 [35] - AI驯养师:具备技术和策略能力 调试模型输出并维持LLM 代码库与开发团队和谐 [36] - 领域专家转型开发者:金融 物流 医疗等行业专家可直接开发产品初版 [37] 技术实现特性 - AI生成的是真实可编译 运行 集成API的代码 采用React组件 SQL查询等标准技术栈 [38] - 与传统无代码平台不同 氛围编程提供通往真实工程开发的跳板 所有产出可审查 调整和扩展 [39] - 使用Supabase Next js Tailwind Django等标准工具 原型扩展时无需从头重建 [39]
Rust 天花板级大神公开发帖找工作:3000 次核心提交,不敌 “会调 OpenAI API、用 Cursor”?
AI前线· 2025-09-06 13:33
整理 | Tina 当全世界的资金和注意力都在涌向 AI 时,Rust 社区里出现了一则引人关注的动态:两位知名的核心贡献者,Nicholas Nethercote 和 Michael Goulet, 他们不得不公开发帖"找工作"。 要知道,这两位都是 Rust 大神,也是编译器核心贡献者。特别是 Nicholas Nethercote,他拥有剑桥博士学位,是著名动态分析工具 Valgrind 的作者之 一。Valgrind 如今已经成为内存调试与性能分析方面的经典工具,他还凭借 Valgrind 的相关研究获得了 PLDI 最具影响力论文奖(Time Test Award)。 这也是编程语言与编译领域的最高荣誉之一。 AI 来了,大神的日子也不好过了 Nicholas Nethercote 近期公开在博客和 Mastodon 上发文表示自己正在寻找新工作。原因在于他所在的 Futurewei Rust 团队因预算削减而缩编,职位 即将被裁撤。(因为引起大量关注,他后来又在 Mastodon 上回应网友称:"目前依然暂时留在 Futurewei",但离开应该也只是时间问题。) Nicholas 目前是 Rus ...
Anthropic突然封锁中国企业,我们该从中学到什么?
虎嗅· 2025-09-06 11:06
区域性限制措施 - Anthropic强化服务条款 禁止由中国控制51%以上所有权的公司使用其服务[1] - 美国AI公司首次对中国相关企业采取直接全面的限制措施[2] 中美AI技术对比 - 中国基础模型在推理效率和中文语境表现已逼近或超越国际一线水平[3] - 编程Agent领域存在巨大差距 Claude Code代表美国在商业化与生态层面的全面领先[6][7] - 中国缺少将模型转化为流水线和生态的能力 而非缺乏写代码的模型[21] Claude Code技术特性 - 采用编程Agent模式 可生成架构、产出代码、运行测试和自行修复错误[5] - 拥有超过11.5万开发者用户 每周处理近两亿行代码 年化收入约5亿美元[6] - 通过调度引擎和工具系统实现自动化流水线 支持文件读写、Bash命令执行和第三方工具扩展[15][16] - 采用上下文管理机制和轻量化模型优化 实现毫秒级代码搜索[18] 平台化与生态建设 - SDK发布使Claude Code从工具转变为可扩展的开发底座[22][23] - 支持构建多行业Agent模板 包括SRE故障诊断、安全审计和法律审查等应用场景[25] - 社区开发者实现JavaScript wrapper 支持多路径探索和会话版本管理功能[26] 成本结构与市场机会 - 高复杂度项目消耗大量token 有开发者月费200美元但实际产生3.5万美元推理成本[32] - Anthropic实施每周使用上限和自动模型切换以控制开销[32] - 国产替代通过优化推理框架和适配国产算力芯片降低成本[34] - 国内出现Claude Code Router方案和阿里Qwen Code等对标产品[34]
市场低估了亚马逊AWS“AI潜力”:“深度绑定”的Claude,API业务已超越OpenAI
硬AI· 2025-09-06 09:32
Anthropic API业务规模与增长 - Anthropic的API业务2025年预计收入激增至39.07亿美元 同比增长662% 而OpenAI的API业务2025年仅增长80%至18亿美元 [2][8][9] - Anthropic 90%的收入来自API业务 而OpenAI仅有26%的收入来自API 主要依赖ChatGPT消费者产品 [7][8] - AI集成开发环境(IDE)应用爆发式增长推动API需求 例如Cursor Pro用户每月平均为AWS贡献约5美元收入 [11][13] AWS营收贡献与增长潜力 - Anthropic目前为AWS贡献约1%的增长 预计第四季度在Claude 5训练和推理收入推动下可能升至4% [3][16] - Anthropic 2025年将为AWS带来约16亿美元推理收入 其年度经常性收入(ARR)预计从年初10亿美元跃升至年底90亿美元 [4] - AWS第四季度收入增长可能超出市场预期2% 当前市场一致预期为18% [15][16] AI产能扩张与基础设施 - AWS在2025年底可能拥有超过100万个H100等效的AI产能 得益于Blackwell GPU和40万个Trainium芯片上线 [18] - 自ChatGPT推出以来新增的AI产能预计到2025年底将超过100万H100等效算力 以支持Anthropic等合作伙伴的快速增长 [22] 合作关系与潜在挑战 - 行业内对通过AWS Bedrock访问Anthropic模型存在抱怨 显示合作关系可能面临挑战 [4][24] - Cursor等重要客户开始转向OpenAI的GPT-5 API作为默认选择 虽然用户可手动切换回Anthropic 但粘性较弱 [24] - Anthropic是唯一拥有三个不同基础设施团队的AI实验室 分别管理GPU、TPU和Trainium架构 提供成本和可用性灵活性 [25]