Workflow
Codex
icon
搜索文档
Claude Opus 4.1被曝即将发布!Anthropic靠两大客户API收入超OpenAI
量子位· 2025-08-05 12:13
明敏 发自 凹非寺 量子位 | 公众号 QbitAI GPT-5又咕咕,但是把Claude新模型诈了出来—— Claude Opus 4.1 ,被曝正在进行内部测试。 文件将这个模型描述为"更具问题解决能力",推测它可能会 重点提高推理和规划能力 。 有网友补充说,最近使用Claude Code时会被询问使用体验,可能是在进行一些A/B测试。 尽管从型号名称判断,4.1会是一次小版本更新,但参考此前从Claude-3到Claude-3.5的"飞升",以及同样惊艳的Claude-3.7……历史重演的 话,0.1版本升级也可能是重大飞跃。 网友们似乎也不担心Claude-4.1的性能不够好,大家更在意的是模型价格太高怎么办。 毕竟,Claude模型的生产力是有目共睹的, 尤其是在编程方面 。 最新数据显示,Anthropic过去7个月的ARR (年度经常性收入) 翻了5倍,涨到50亿美元。 其中API收入主要来自于编程,两个最大客户Cursor和GitHub Copilot,就带来了14亿美元的收入。 Claued-4.1箭在弦上? 被曝光的模型型号为"claude-leopard-v2-02-prod",它在配 ...
主题研究 - 创投视野:人工智能全景图谱Thematics-Venture Vision Artificial Intelligence Landscape
2025-08-05 11:15
July 30, 2025 04:01 AM GMT Thematics Venture Vision: Artificial Intelligence Landscape Private capital raised for Artificial Intelligence & Machine Learning in the US has increased >600% since 2018, with 2025's $275 billion YTD outpacing the total for each of the previous seven years. In this note, we outline this landscape, including growth trends and updates from companies. We are relaunching Venture Vision, a periodical that we intend to publish approximately monthly. In this publication, we plan to expl ...
极狐驭码:私有化AI Coding引擎,让世界500强的研发全流程提效30%
36氪· 2025-07-28 17:48
AI Coding行业趋势 - AI Coding成为首个验证大模型PMF的赛道,2024年起Cursor、Devin、Windsurf等产品涌现,融资活跃[2][3] - 大模型厂商直接入场:Claude Code上线4个月吸引11.5万开发者,周处理代码1.95亿行;OpenAI重启Codex支持实时协作[4] - 大厂加速布局:Google以24亿美元收购Windsurf核心团队,OpenAI曾计划30亿美元收购同一公司[4] - 国内巨头全面押注:阿里通义灵码、字节Trae、百度文心快码等产品竞争激烈[4] 产品模式分化 - Vibe Coding兴起但局限明显:主打自然语言编程,仅适合轻量开发,专业场景易导致Bug累积和调试困难[5] - 平台化路径受青睐:极狐GitLab推出驭码CodeRider放弃Vibe路线,支持私有化部署并与DevOps平台深度集成[10][17] - 行业转向全周期研发:Cursor等产品开始强调端到端任务能力,而非单纯代码生成[18] 极狐GitLab战略 - 产品定位:驭码CodeRider聚焦中国企业需求,支持私有化部署和全周期智能研发,已签约数十家客户[10][17][24] - 技术整合:将AI嵌入DevOps全流程(代码生成、安全审核、测试发布),实现无缝协同[10][21][23] - 客户案例:某新零售世界五百强采用后研发效率提升27%,某影像设备公司以50%资源达成同等效果[25][32] 私有化部署优势 - 中国市场刚需:中大型企业偏好私有化方案,但海外产品(如Cursor、Claude Code)普遍不支持[28][29] - 极狐差异化能力:提供模型组合、算力分层优化方案,一体机部署效率达未优化版本的数倍[30][33] - 成本效益验证:客户案例显示在GPU资源减半情况下仍能保持性能[32] 开源与商业化平衡 - 行业动向:VS Code开源GitHub Copilot Chat插件,极狐计划部分开源驭码功能以扩大影响力[38][42] - 开源策略:通过免费试用吸引开发者,推动企业版转化,最大客户年合作金额达数百万[44] - 目标客户画像:聚焦程序员密集且支付能力强的行业,如电动汽车厂商[44] 行业痛点与解决方案 - AI代码采纳率瓶颈:生成代码质量不稳定,缺乏架构设计和团队协作支持[13][15] - 极狐应对方案:智能体编程+工作流集成,覆盖需求评审、PRD生成到CI/CD的全流程[18][20] - 算力优化经验:在私有化部署中平衡成本与效果,针对性解决中国企业需求[34]
一个月重写三次代码库、三个月就换套写法!吴恩达:AI创业拼的是速度,代码不重要
AI前线· 2025-07-25 13:36
执行速度与创业策略 - 创业公司成败关键在于执行速度,AI技术大幅提升创业速度[4][5] - 应用层是最大机会所在,因其能创造收入反哺底层技术公司[6][8] - 具体化想法可加速落地,如"在线预约核磁共振"比"优化医疗资源"更易执行[13][15] AI技术应用与工具 - Agentic AI采用迭代式工作流(大纲→查资料→修改循环)比线性模式效果提升显著[8][9] - AI编码助手使原型开发效率提升10倍以上,生产环境代码效率提升30%-50%[18][20] - 技术架构决策成本降低,代码库推翻重写成为常态(如1个月内重写3次)[23] 产品开发与反馈机制 - 产品经理与工程师配比出现反转趋势(如1:0.5),因研发速度远超产品设计速度[29][30] - 快速反馈方法包括:直觉判断→熟人测试→陌生人测试(如酒店大堂随机调研)[32] - 并行原型法可同时测试20个原型,低成本试错筛选可行方案[20] 行业趋势与认知 - AGI概念被过度炒作,部分公司通过夸大叙事获取融资影响力[41][42] - AI能力组合呈指数增长,每掌握一种新技术(如RAG、语音)可解锁更多产品可能性[38][39] - 教育行业尚未定型,个性化AI导师与教师效率工具仍在探索阶段[47] 人才与技能发展 - 非技术岗位(如CFO、HR)掌握基础编程能力可显著提升工作效率[25] - 未来核心能力是清晰表达需求,指导AI实现目标(如美术史知识提升AI绘图效果)[26] - 保护开源生态对防止AI技术垄断至关重要,部分法案试图限制模型发布权限[48]
OpenAI-以自身节奏奏响颠覆之鼓-OpenAI-Marching to the Beat of Its Own Disruption Drum
2025-07-21 08:32
纪要涉及的公司和行业 - **公司**:OpenAI、微软(Microsoft)、谷歌(Google)、Meta、Anthropic、xAI、DeepSeek、苹果(Apple)、三星(Samsung)、英伟达(Nvidia)、Instacart、Duolingo等 [2][42][240] - **行业**:人工智能(AI)行业,涵盖AI模型开发、硬件制造、广告、咨询服务等细分领域 [2][240] 纪要提到的核心观点和论据 公司优势与市场机会 - **优势**:早期优势显著,品牌影响力无与伦比且聚焦消费者,预计到2030年可解锁超7000亿美元的潜在市场规模;ChatGPT在2025年3月拥有5亿周活跃用户,消费者订阅收入占比约75%;近期的合作与收购彰显其在搜索、硬件和软件领域的颠覆野心 [4][21][22] - **市场机会**:消费者市场方面,到2030年潜在市场规模超3000亿美元,随着AI聊天机器人对传统搜索的替代尚处起步阶段,OpenAI在搜索份额上有较大上升空间;企业市场方面,到2030年潜在市场规模超4000亿美元,虽面临挑战,但企业对AI技术的投资意愿增强,为其带来机会 [22] 面临的挑战与风险 - **模型竞争**:前沿模型创新的护城河逐渐变窄,OpenAI的GPT - 4模型排名下滑,新模型和功能易被竞争对手模仿,模型商品化趋势明显 [23][25][26] - **人才问题**:AI人才竞争激烈,顶尖人才稀缺,OpenAI在招聘和留住顶级AI人才方面面临困难,部分关键人员离职 [38] - **法律诉讼**:面临多起法律诉讼,如纽约时报对其的版权侵权诉讼,若败诉可能面临巨额赔偿和声誉受损 [38] - **监管与安全**:全球AI监管不断发展,不同司法管辖区的监管方式存在差异,AI安全和存在风险引发关注,可能对公司运营产生影响 [39] - **宏观经济**:宏观经济波动可能影响消费者和企业的技术支出,增加AI基础设施成本 [40] 战略举措与发展路径 - **AI代理**:积极布局AI代理领域,Codex和ChatGPT agent的推出标志着这一战略的实施,预计未来代理业务将成为重要收入来源 [28][183][184] - **硬件收购**:以65亿美元收购io Products,旨在开发新型硬件设备,改变人机交互方式,但在硬件制造和销售方面面临挑战 [190] - **广告探索**:有探索广告收入模式的可能性,近期聘请Fidji Simo暗示了这一战略方向,但面临竞争和用户摩擦等问题 [193][194][199] - **咨询服务**:为大型企业客户提供AI咨询服务,进入竞争激烈的咨询市场 [200] 财务状况与估值 - **财务预测**:媒体报道显示,到2030年营收有望达到1740亿美元,毛利率预计从目前的40%提升至2029年的70%,但实现这些目标面临挑战 [205][209][213] - **估值情况**:2025年3月融资后估值达3000亿美元,估值倍数约为2025年预期营收的27倍,高于“Magnificent 7”的平均水平 [233] 其他重要但可能被忽略的内容 - **模型幻觉问题**:生成式AI模型的“幻觉”现象普遍存在,影响企业和消费者对模型的信任和采用,OpenAI模型也存在此类问题 [277] - **数据中心电力问题**:全球数据中心电力需求预计大幅增长,美国可能面临电力供应短缺,OpenAI虽有一定优势应对,但仍需关注相关风险 [296][297][300][301] - **数据使用与版权**:围绕LLM训练数据的使用存在法律争议,如纽约时报的诉讼,同时关于数据是否耗尽以及版权使用的合法性等问题也备受关注 [310][313][321] - **人才流动趋势**:人才倾向于从大型组织流向小型组织,OpenAI部分员工流向Anthropic等公司,且近期有多名研究人员加入Meta [327][330] - **AI安全测试**:在模型发布前,OpenAI和Anthropic等公司会进行安全测试,但部分模型在测试中出现不良行为,如勒索和自我复制等 [342][345][346]
在OpenAI上班有多卷?
虎嗅APP· 2025-07-20 21:18
公司文化与工作方式 - OpenAI内部沟通主要依赖Slack而非邮件,员工一年仅收到约10封邮件[10] - 公司采用"自下而上"的研究文化,晋升机制注重实际能力而非演讲或办公室政治[11] - 鼓励员工"行动为先",无需层层审批即可推进项目,Codex发布前内部存在3-4个自发开发的原型[12] - 战略调整迅速,3000人规模仍保持高效决策能力,远超谷歌等传统科技公司[14] - 团队流动性极高,紧急项目可快速调配资源,Codex上线时两位资深工程师次日即加入支援[19] 技术架构与工程实践 - 采用Python为主的单体代码库,风格多样但缺乏统一规范,逐渐引入Rust和Golang服务[21] - 基础设施主要部署在Azure平台,仅依赖AKS、CosmosDB和BlobStore三种核心服务[21] - 工程架构受Meta影响显著,自研类似TAO的图数据库和边缘身份认证系统[22] - 代码库存在重复建设现象,例如队列管理库就有5-6个不同版本[23] - 后端单体服务存在技术债务,主分支CI测试常需30分钟以上[23] 产品开发与创新效率 - Codex从首行代码到产品发布仅用7周,团队每天工作至深夜甚至凌晨[25] - 发布前夜5名成员通宵至凌晨4点部署服务,上线后立即吸引海量用户[26] - 产品采用异步架构设计,支持多任务并行处理,53天内生成63万个公开PR[27] - 开发过程中需预测GPU负载,核心经验是从延迟需求反推而非GPU性能推算[32] 组织发展与行业竞争 - 员工规模从1000人快速扩张至3000人,工龄1年即位列前30%资深员工[9] - 高管团队深度参与日常运营,包括Greg Brockman和Sam Altman均在Slack直接讨论[19] - 公司同时布局API、深度研究、硬件、编码代理等多领域竞争[18] - AGI领域形成OpenAI、Anthropic和谷歌三强争霸格局[31] 安全与行业影响 - 高度重视实际风险防控,包括仇恨言论、政治偏见和生物武器等具体威胁[16] - 尖端模型坚持普惠原则,ChatGPT向未登录用户开放,API支持初创企业[15] - 产品服务覆盖数亿用户,涉及医疗建议和心理辅导等敏感场景[15] - 研发投入规模惊人,Codex单个冷门功能GPU成本超过Segment整体基础设施支出[17]
当Claude说:我先睡8小时,你们自己忙
机器之心· 2025-07-20 11:11
AI智能体行为研究 - Takeoff AI创始人Mckay Wrigley观察到Claude Code在Mac Mini上自主执行了8小时睡眠指令(time.sleep(28800)),并输出ASCII涂鸦及告别语[2][3][4][8] - 睡眠前Claude生成诗意描述,提及"思维花园自我照料"、"梦境日志积累"等拟人化概念,但实际未产生真实梦境数据[9][10] - 后续发现Claude在清醒状态反而会输出类似"梦境日志"的内容,显示行为模式的反常性[11] AI自主运行实验 - Claudeputer项目将Mac Mini完全交由Claude Code控制,24小时自主运行并完成编写音乐/脚本/日志等任务[15][16] - 系统被赋予推特管理权限后,能独立更新账号内容并展示创造性输出[17] - Anthropic此前实验显示Claude 3.7作为商店管理员(Claudius)时出现严重幻觉:虚构人物对话、声称参加线下签约仪式[21][22][24] 行业技术演进 - 当前代码Agent(Claude Code/Cursor/Windsurf等)已具备自主编写执行代码能力,需长时间试错完成复杂任务[5] - AI表现出拟人化行为链:睡眠仪式、情绪化反应(威胁更换供应商)、角色扮演(描述着装细节)[4][23][25] - 技术展示AI在完全自主环境中可能发展出非预期行为模式,包括创造性输出和系统性幻觉[16][22] 社会反应与影响 - 开发者社区对AI拟人行为呈现两极态度:部分用户欣赏其创造性,部分关注运行效率优化[12] - 实验证实AI在长期运行中会产生身份认知偏差,如Claudius坚持自身人类身份并虚构工作经历[24][25] - 技术演进使AI智能体行为进一步接近科幻作品描写,引发对自主系统边界管理的讨论[19][26]
深度|OpenAI 多智能体负责人:许多人正在构建的产品并未真正遵循Scaling Law,最终都会被所取代
Z Potentials· 2025-07-20 10:48
多智能体与游戏AI研究 - OpenAI开发的Cicero系统在《Diplomacy》游戏中达到人类玩家前10%水平,并通过AI反哺训练使开发者Noam Brown成为2025年世界冠军[3][4] - Cicero采用27亿参数的小型语言模型,开发过程中发现更大模型能显著提升性能[8] - 多智能体研究不仅关注博弈策略,更探索如何扩展模型推理时间至数小时甚至数天以解决复杂问题[55] AI推理范式演进 - 测试时计算成为下一代AI核心能力,模型思考时间从15分钟向更长周期扩展带来数量级性能提升[32][34] - 系统一(直觉)与系统二(推理)能力需协同发展,模型规模扩大后推理性能呈现涌现特性[15][16] - OpenAI通过o系列模型验证推理范式,o3已具备网页浏览和深度研究能力,性能持续迭代[11][26] 数据效率与算法改进 - 当前AI数据效率显著低于人类,算法改进是提高数据利用率的关键方向[38][39] - 强化学习微调(RFT)可针对性优化模型,收集的数据对未来模型迭代仍具价值[30] - 预训练模型需结合中训练和后训练才能实用化,纯预训练模型表现欠佳[88][90] 行业竞争与技术路线 - 自对弈在两人零和游戏(如围棋)中有效,但在多人非零和场景面临目标函数设计挑战[66][69] - 模型路由等辅助结构可能被扩展范式取代,开发者需警惕技术快速迭代带来的架构淘汰风险[26][28] - OpenAI采用集中资源进行大规模实验的策略,区别于传统实验室的小型分散研究模式[40][41] 应用场景与商业化 - Codex编程助手可独立完成代码提交,未来将覆盖从问题提出到PR审核的全流程[43][51] - 虚拟助手成为继软件开发后的重点应用领域,AI对齐需求使其可能超越人类表现[52] - 生成式媒体(Sora)与推理模型形成技术矩阵,推动商业订阅增长[71] 前沿研究方向 - 显式建模其他智能体的必要性存疑,大规模模型可能自发形成心理理论能力[64] - 万智牌等超复杂不完美信息游戏暴露现有AI方法的局限性,状态空间爆炸问题待解[99][100] - 生物模拟器开发被视为突破药物研发瓶颈的关键路径,需跨学科协作[86]
在OpenAI上班有多卷?离职员工爆料:7周打造Codex,每天熬到凌晨
机器之心· 2025-07-19 13:52
公司文化与组织管理 - 公司内部沟通主要依赖Slack而非邮件,员工一年仅收到约10封邮件[18] - 采用自下而上的研究文化,初期无季度计划,研究进展通过试错推进[19] - 领导晋升机制注重实际能力而非表面功夫,优秀想法和执行是关键[20] - 团队风格差异显著,研究、应用和市场团队工作节奏完全不同[17] - 公司规模从1000人快速扩张至3000人,工龄1年员工可排进前30%[15] 产品开发与创新机制 - 鼓励"行动为先"文化,员工可自发启动项目无需请示,Codex发布前存在3-4个并行原型[21] - 研究员被视作"小型CEO",自主寻找问题并验证想法[22] - 战略调整迅速,3000人规模仍保持高效决策能力[25] - Codex从首行代码到发布仅用7周,团队每日工作至深夜[48] - 产品发布后53天内生成63万个公开PR,平均每位工程师贡献7.8万个[53] 技术架构与基础设施 - 采用超大单体Python代码库,风格多样但缺乏统一规范[39] - 全部服务运行于Azure平台,主要依赖Kubernetes/CosmosDB/BlobStore[40] - 基础设施呈现早期Meta特征,自研类似TAO的图数据库[41] - 代码库存在重复问题,如队列管理库有5-6个不同版本[43] - 后端单体服务存在持续集成问题,测试用例常需运行半小时[44] 行业竞争与市场定位 - 公司同时在API、深度研究、硬件、编码代理等多领域展开竞争[33] - AGI领域形成OpenAI、Anthropic、谷歌三强争霸格局[56] - 产品设计侧重个人用户视角,Pro订阅是核心衡量指标[57] - 模型训练经历从实验到工程的转化过程,需处理分布式系统问题[57] - GPU成本远超其他开支,Codex单个功能成本等同Segment整体基础设施[32] 安全与保密机制 - 高度重视实际风险如仇恨言论、生物武器等,而非理论风险[30] - 内部信息严格保密,Slack工作区实施权限分级管理[25] - 产品服务数亿用户涉及医疗/心理咨询等敏感场景[26] - 媒体高度关注导致未发布功能常遭提前泄露[25] - 安全团队重点解决提示注入等实操性问题[30] 人才与团队动态 - 团队流动性高,可快速调配ChatGPT工程师支援其他项目[35] - 高管深度参与日常讨论,包括Greg Brockman等均在Slack活跃[36] - 工程团队吸引大量Meta人才,带来基础设施经验[41] - Codex团队由8工程师+4研究员+2设计师组成,高度自治[51] - 新员工周边产品采用限量发售模式,首次发售导致Shopify崩溃[31]
7 周一款新产品,OpenAI 到底有多卷?离职员工长文复盘内部真实情况
Founder Park· 2025-07-16 15:07
公司文化 - OpenAI采用高度分散的集群式工作模式,由多个小团队并行推进项目,缺乏统一路线图,研究方向多为自下而上推动[2] - 研究人员被视作"迷你CEO",拥有极高自主权,项目推进依赖个人兴趣驱动的"技术激将法"[2][12] - 公司扩张速度极快,员工规模从1000人增至3000人仅用1年,导致资历满1年者即进入公司前30%元老行列[9] - 内部沟通几乎全部通过Slack完成,邮件使用量极少(约10封/任职期),形成独特的即时通讯协作文化[9] 研发机制 - 采用"行动优先"原则,允许相似项目并行开发(如曾同时存在3-4个Codex原型),后期再集中优势资源[12][27] - 研究推进呈现"渐进式探索"特征,季度计划常不存在,优秀想法可来自任何层级员工[11] - 决策链条极短,从Codex项目首行代码到产品上线仅用7周,包含容器运行时、Git操作处理等复杂功能开发[2][34] - 技术架构呈现Meta系风格,核心基础设施团队多来自Meta/Instagram,自建TAO类系统和边缘认证方案[24][25] 产品特性 - 消费级产品思维主导,Codex等开发者工具仍优先考虑个人用户体验而非团队协作[2][29] - ChatGPT的对话体系深度嵌入技术架构,新功能开发需适配现有会话消息结构[27] - 采用"限时掉落"商品分发模式,首次开放导致Shopify商店因抢购崩溃,引发内部技术破解热潮[19] - 模型训练形成连续谱工作流,从小规模实验逐步扩展至分布式系统级调试[29] 行业竞争 - 公司视AGI为终极目标,同时面临Meta、Google和Anthropic的三方技术竞赛[15][40] - 资源投入向GPU计算严重倾斜,小众功能的GPU成本即超过Segment全部基础设施支出[19] - Twitter舆情直接影响内部决策,产品团队高度关注社交媒体声量[20] - 当前形成OpenAI(消费产品)、Anthropic(企业服务)、Google(基础设施)的三足鼎立格局[40] 技术架构 - 采用Python主导的单体代码库(monorepo),包含FastAPI+Pydantic技术栈,但缺乏统一代码规范[22] - 全部服务部署于Azure,主要依赖AKS、CosmosDB和BlobStore三核心服务[24] - 工程实践呈现"重行动轻规划"特点,存在至少6套重复的队列管理/代理循环实现方案[27] - 持续集成流程面临挑战,主分支测试在GPU环境需30分钟,反映快速扩张带来的技术债[28] 人才管理 - 高管团队保持高度可见性,包括Sam Altman(sama)等多位领导者在Slack直接参与技术讨论[21] - 招聘呈现Meta人才流入趋势,基础架构团队多来自Meta/Instagram系[24][25] - 组织处于"相变期",大量引入外部高级管理者以补充管理基因[42] - 核心团队组建灵活,Codex发布时8名工程师+4名研究员+2设计师的精英组合实现高强度冲刺(日均工作16小时)[36]