Workflow
AI Coding
icon
搜索文档
如何用好 Codex?OpenAI 内部实践指南:7 个最佳应用场景,6 个使用 Tips
Founder Park· 2025-09-19 12:25
周二,OpenAI 发布了用于编程任务的 GPT-5-Codex 模型 ,Codex 具备能够与开发者即时协作,以及能 长时间独立完成冗长复杂任务等特点。 OpenAI Codex 团队在一场线上活动中提到,他们也在积极地使用 Codex 来构建 Codex 产品本身。 总结来说,Codex 已经全面融入到了 OpenAI 内部开发流程当中。 这篇博客文章,详细地介绍了内部工程师们在日常工作中是如何使用 Codex 的,同时结合内部使用数 据,给出了一份真实用例和实践指南。 文章很详细,不止是针对使用 Codex,实际上是总结了一套方法论:如何通过提供精准的上下文、结构 化的指令以及优化的环境等,将 AI Ccoding 工具从一个「代码补全玩具」 训练成一个可以深度融入专 业开发流程的「初级工程师」 。 01 本篇文章来自「宝玉老师」编译版本。 原文链接: https://cdn.openai.com/pdf/6a2631dc-783e-479b-b1a4-af0cfbd38630/how-openai-uses-codex.pdf 超 13000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应 ...
LLM开源2.0大洗牌:60个出局,39个上桌,AI Coding疯魔,TensorFlow已死
机器之心· 2025-09-17 12:00
机器之心原创 编辑:吴昕 卷王指南又更新了,这次还有番外篇。 开源 2.0 :变脸堪比整容 等了一百多天,悬念终于揭晓。 9 月 13 日上午,蚂蚁集团开源团队(「开源技术增长」)携《 2025 大模型开源开发生态全景图 》 2.0 版 ,亮相上海外滩大会。 三个月前,「一场直播中的 『 现实世界的黑客松 』 (A Real-world Hackathon ) 」的断言,今天依然成立—— 彼时「撕拉片」记录下生态初现的模样 ,而今,已经大变样。 访问地址: https://antoss-landscape.my.canva.site/ 这一次,全景图收录了 114 个 项目(比上一版减少 21 个),覆盖 22 个 领域。其中, 39 个是新晋项目,同时也有 60 个项目消失在舞台,其中不乏一 度高光的 Star 王者—— 如 NextChat 、 OpenManus 、 FastGPT 、 GPT4All ,因迭代迟缓、社区乏力而被后来者超越。 最 drama 的,当属 TensorFlow 的谢幕,这位昔日巨星最终没能抵挡 PyTorch 的攻势,后者自此一统江湖。 整体趋势是显而易见:生态正在经历一轮剧 ...
中信证券:巨头持续布局的AI浏览器以及情感陪伴类应用潜力值得关注
新浪财经· 2025-09-08 08:44
AI行业数据处理量增长 - 谷歌7月Token处理量达980万亿 较5月翻倍[1] - 微软Azure AI Foundry第二季度Token处理量达310万亿 环比增长210%[1] AI应用收入表现 - 海外前100名AI应用7月年度经常性收入总额达393亿美元 较5月增长17.3%[1] - ChatGPT和Claude等头部应用带动收入持续兑现[1] 热门应用方向 - AI编程和多模态技术成为最火热发展方向[1] - Lovable、Replit、Pixverse、Nano Banana等产品陆续出圈[1] - 科技巨头持续布局AI浏览器领域[1] - 情感陪伴类应用展现出显著发展潜力[1]
Vibe Coding两年盘点:Windsurf已死、Cursor估值百亿,AI Coding的下一步怎么走?
Founder Park· 2025-09-05 19:46
AI Coding行业发展阶段 - 2023年初处于核心能力和基建不足的草莽阶段 GPT-4存在高推理成本和小context window限制 指令遵循能力在生产场景表现欠佳[10] - 2024年中Claude 3.5 Sonnet发布成为转折点 其200K窗口和关键指标10%以上提升使其成为现象级模型 代码生成任务HumanEval达93.7% 软件工程任务SWE-bench达49%[36][37][38] - 2025年开源模型DeepSeek R1引发行业变革 API定价低至输入1元/百万token 输出16元/百万token 成本仅为OpenAI o1的1/20-1/30[58][59][60] - 2025年中行业出现第一波"缩圈" 商业模式面临重构 目标需支撑到2028年才可能诞生千亿美金级公司[7][75][83] 主要产品发展轨迹 - Cursor从基于VS Code的"套壳"产品转型为AI原生IDE 初期依赖GPT-4和Claude系列提供代码补全 后通过代码库分析能力保住市场份额[10][13][14] - Codeium从开源VS Code扩展起步 吸引超100万开发者 后转向混合模式 商业版编辑器Windsurf在2024年底ARR达1200万美元[21][41] - Devin作为首个AI软件工程师推出 端到端独立开发能力赢得高盛等大客户 五个月后估值达20亿美元 企业版定价500美元/月[42][43][52] - 2024年底主要玩家估值:Cursor 26亿美元 Windsurf 12.5亿美元 Devin 20亿美元 Replit约30亿美元[47] 技术演进与挑战 - Agent设计模式存在token消耗问题 复杂任务单轮消耗达百万token级别 日常任务可达千万token水平[49][51] - Claude Sonnet 3.7时代单用户日均成本10-50美元 高频用户可达每天100美元以上 与20美元订阅费形成严重倒挂[52] - 极端"坏用户"可使商业模式瞬间崩塌 单月可能造成8000美元损失 交付质量与token成本间平衡成为关键挑战[55][57] - CoT思维链对模型参数量要求较低 100亿参数即可受益 ToT和GoT需要千亿级参数支撑 但泛化成本较高[29] 商业模式与经济性分析 - 基础模型年均价格降幅达90% 但用户倾向使用最好模型 导致实际成本并未真正收敛[66][67] - 追求顶尖性能的代码应用仍处于成本爆炸状态 SOTA模型价格卡在10^1水平线[68] - 用户价值认同极限约100-200美元/月 但当前成本结构大多无法覆盖[66][74] - 订阅模式基于CPU服务时代边际效应 在AI时代已不适用 需要新的经济模型[78] 技术范式转换 - 从Workflow向CLI Code Agent演进 更依赖模型本身能力完成长时间自主工作[75][76] - 新一代Agentic Code CLI具备全流程任务执行能力 支持项目级架构理解和超长上下文[79][80] - Claude Code可连续工作7小时自主重构多文件代码库 Gemini CLI支持100万token分析整个项目[79] - 传统IDE插件向开发工具链原生融合转变 经济模型从订阅制转向按量付费/免费+开源策略[80] 核心竞争壁垒 - Knowledge Suggestion功能成为护城河 通过抽取方法论和行为准则创建"数字分身"[11][93] - 业务数据闭环是核心组成部分 与设计模式Agentic UI等形成"道"与"术"的区别[96] - 目标用户聚焦工作价值高的领域:AI芯片设计(中国50-150万元/年) 生物技术制药(美国中位数20万美元/年) 量子计算(美国10-25万美元/年)[98] - 需服务认知足够值钱的人群 为其创造十倍百倍价值和提高效率 而非普通用户[11][99] 行业关键洞察 - 欧美投资与技术绑定深厚 技术创业者在大模型成功前就已布局 国内项目多始于2023年LLM爆火后[23] - 模型需要显式提示 CoT对参数要求低更适合快速验证 ToT和GoT因泛化成本高逐步退出舞台[29] - 企业级市场存在刚需 中大型企业需要内部模型接入IDE 担心代码数据安全[18][19] - 在生产力领域 当执行变得廉价时 "术"不再重要 关键是找到正确人群提供极致价值[11][99]
GPT-5:前端开发者的“选择自己的冒险路线”
AI前线· 2025-09-05 13:33
GPT-5前端编码能力 - OpenAI内部测试显示GPT-5在前端Web开发中70%的时间击败OpenAI o3模型[5] - 开发体验负责人称GPT-5在前端开发方面"惊人地出色"[6] - 前端基础设施公司Vercel评价GPT-5为"最好的前端AI模型"[6] 开发者对GPT-5的争议评价 - YouTube影响力人物Theo Browne最初称赞GPT-5使竞争对手"无关紧要",但后续发布视频称体验明显变差且Cursor中表现不佳[6] - GitHub Copilot Pro用户抱怨GPT-5在总结和解释方面非常弱,总体令人失望,认为Claude Sonnet 4更好[6] - AI工程专家Shawn Wang的民意调查显示超过40%参与者认为GPT-5"一般"或"糟糕"[7][8] - AI开发者Kevin Kern指出GPT-5对紫色的偏好反映其前端设计缺乏原创性[9] GPT-5对前端开发框架的影响 - OpenAI提示指南推荐与Next.js、React和HTML等框架配合使用[11] - AI创业者Ben Hylak使用GPT-5创建无需React、打包或框架的网站,仅用HTML/CSS/JavaScript[13] - GPT-5一次性解决问题能力被描述为"任何模型无法比拟"[13] - 技术趋势显示GPT-5可能使开发者绕开React框架,直接利用底层Web平台构建应用[13] 模型版本与编码特性差异 - 测试者指出GPT-5不同版本存在性能差异,如"gpt-5-high"版本表现更佳[14][15] - 代码安全公司Sonar研究显示不同LLM有独特编码风格:GPT-4o为"高效的全才",Claude Sonnet 4为"资深架构师"[15][16] - Claude Sonnet 4功能通过率77.04%,高于GPT-4o的69.67%[16] - 问题密度数据显示Claude Sonnet 4为19.48 Issues/KLOC,低于GPT-4o的26.08[16]
无代码还是无用?11款 AI Coding 产品横评:谁能先跨过“可用”门槛
锦秋集· 2025-09-04 22:03
AI Coding工具测评概览 - 测评涵盖十余款AI Coding工具 包括Manus、Minimax、Genspark、Kimi、Z.AI、Lovable、Youware、Metagpt、Bolt.new、Macaron、Heyboss 覆盖通用产品、低代码工具和工程化开发助手[6] - 测试基于六项实际业务任务 包括官网设计、路演PPT、投研报告、科普网页、生态对比分析和小游戏开发 评估维度涵盖生成速度、成本、逻辑性、可读性、审美性和可用性[13][14][16] - 测评采用统一任务集和固定参数设置 确保结果可比性 所有工具均能快速生成基础框架 但多数存在信息准确性不足和工程化欠缺的问题[12][66][67] 产品性能对比 - Minimax在多项任务中表现突出 投研报告任务生成721积分成本(占免费额度72%) 耗时15分钟 内容完整且附带信息来源声明 路演PPT任务正确呈现产品图片和商业模式[29][31][38] - Manus官网任务消耗169积分(占每日免费额度56%) 耗时5分钟 生成内容逻辑清晰但信息覆盖有限 路演PPT任务成本483积分(占免费额度161%) 但能提供较高准确性[17][29] - Genspark成本效率显著 路演PPT任务仅耗100积分(占每月免费额度100%) 耗时8分钟 科普网页任务3分钟完成 附带游戏和视频资源[29][42][49] - Kimi和Z.AI在部分任务提供免费服务 Kimi官网任务免费生成但内容简略 Z.AI免费生成全栈网站且逻辑完整[17][42] 任务专项表现 - 官网设计任务中 Minimax信息准确率最高 能提取基金简介、投资理念和被投信息 其他工具普遍存在信息虚构问题[20][24][25] - 路演PPT任务显示 Minimax和Manus能准确生成产品定位和商业模式 Genspark和Z.AI保持基础准确性 而Lovable、MetaGPT等出现严重信息偏差[31][32][33] - 投研报告任务要求高信息准确性 Minimax唯一提供信息来源引用 其他工具如Manus和Genspark内容完整但未注明来源 影响可验证性[38][39][40] - 科普网页任务中 Minimax、Genspark和Macaron交互设计丰富 包含模拟器和知识测验 但部分产品视频功能不可用[42][44][45] - 生态对比报告任务 Minimax、Genspark和Z.AI覆盖维度全面 但多数工具缺乏数据支撑和来源标注 限制研究价值[53][54][57] - 小游戏开发任务 Macaron功能最完整 支持积分排行榜和知识卡片 Minimax提供题型多样 而Heyboss出现无效题目[62][64][65] 行业技术边界 - AI Coding工具显著降低开发门槛 非专业人员可快速生成应用框架 4-15分钟内完成基础构建 但距交付级产品仍有差距[71][76][77] - 工具普遍存在信息虚构问题 即使提供官网链接仍生成大量不可验证内容 缺乏事实校验机制 将用户从写作者转为事实编辑者[20][66][71] - 形式创新与工程化不足并存 Macaron等产品提供网页化交互界面 但功能稳定性差 部分按钮不可用或显示错误[18][26][68] - 下一代竞争焦点将从生成速度转向真实性和工程化 需解决信息溯源和跨端部署问题 才能从速写板升级为生产力工具[74][78][79]
OpenAI斥巨资收购Statsig,金融科技ETF(516860)盘中交易溢价,信安世纪领涨
新浪财经· 2025-09-04 11:18
指数表现 - 中证金融科技主题指数上涨0.31% 成分股信安世纪上涨5.25% 新国都上涨3.41% 楚天龙上涨2.73% 拓尔思上涨2.39% 拉卡拉上涨2.05% [3] - 金融科技ETF近1月累计上涨10.89% 涨幅排名可比基金1/4 [3] 产品交易 - 金融科技ETF最新报价1.57元 当日下跌0.38% [3] - 金融科技ETF盘中换手率4.81% 成交额9966.31万元 [3] - 近1周日均成交额3.61亿元 [3] - 近2周规模增长2.64亿元 新增规模位居可比基金1/4 [4] - 最新份额达13.15亿份 创成立以来新高 位居可比基金2/4 [4] 行业动态 - OpenAI宣布11亿美元收购产品测试公司Statsig 强化应用层技术与产品能力 [3] - AI技术深入应用推动金融科技企业降本增效 [3] - AI Coding技术演进聚焦多智能体协同与个性化开发 应用场景扩展至低代码平台与代码迁移升级 [4] - 商业模式从订阅制转向效果付费和私有化部署 适应企业安全需求 [4] 指数构成 - 中证金融科技主题指数选取金融科技相关领域上市公司证券作为样本 [4] - 前十大权重股合计占比54.08% 包括同花顺、东方财富、恒生电子、指南针、润和软件、东华软件、银之杰、新大陆、四方精创、广电运通 [4]
OpenAI斥资11亿美元重金收购Statsig,科创人工智能ETF华夏(589010)盘中强势反弹收窄跌幅
每日经济新闻· 2025-09-03 11:13
ETF表现 - 科创人工智能ETF华夏下跌0.48% 盘初一度下跌近2%后大幅收窄跌幅[1] - 盘中成交金额1770万元 换手率6.6% 较往日显著缩量[1] - 持仓股表现分化 凌云光、奥比中光上涨超3% 寒武纪领跌4.18% 航天宏图和合合信息下跌超2%[1] 行业动态 - OpenAI宣布以11亿美元收购产品测试公司Statsig 强化应用层技术与产品能力[1] - Statsig在5月C轮融资时估值约为11亿美元[1] - 科创人工智能ETF跟踪上证科创板人工智能指数 覆盖全产业链优质企业[2] 发展前景 - AI Coding技术演进聚焦多智能体协同与个性化开发[1] - 应用场景扩展至低代码/无代码平台与代码迁移升级[1] - 商业模式从订阅制转向效果付费和私有化部署 适应企业安全需求[1] - AI Coding有望作为核心生产力推动从"人力驱动"向"智能驱动"转型[1] - 该ETF兼具高研发投入与政策红利支持 20%涨跌幅与中小盘弹性助力捕捉AI产业"奇点时刻"[2]
Z Event|¥1万奖金,我们决定用一场黑客松来验证 Vibe Coding 是自嗨还是真有用?
Z Potentials· 2025-08-31 11:54
比赛概况 - 活动为24小时黑客松比赛 由VibeFriends与SegmentFault联合举办 主题为"用Vibe Coding优化Vibe Coding" [1][3] - 招募33组参赛者 每组1-3人 并邀请20+行业专家和200+目标用户参与投票 [4][13] - 目标为让真实目标用户投票选出真正会使用的产品 [4] 比赛主题方向 - 优化Token消耗的工具开发 [4] - 开发过程中自动记录的任务列表功能 [4] - 等待输出时的小游戏设计 [4] 参赛者资源支持 - 提供价值数百元人民币的模型Token [7] - 每组参赛者获得小红书3万+曝光流量支持 [7] - AI创业者 大模型专家 AI自媒体和投资人担任导师全程支持 [7] - 不间断供应饮品和食物 [7] - 接触潜在真实目标用户的机会 [7] 奖项设置 - 真的会用奖获奖者获得1000元人民币 [8] - 第一名获得10000元人民币 第二名5000元人民币 第三名3000元人民币 [8] - 社区人气奖获奖者获得1000元人民币 [8] 活动详情 - 活动时间为2025年9月13日 地点在北京 [13] - 设置200名特约观察员参与 [13] - 报名需通过指定微信联系方式(HejaBVB666或Glowjiang) [13] 合作伙伴 - 主办方为VibeFriends和SegmentFault思否 [15] - 战略合作伙伴为小红书科技 [16] - 技术合作伙伴包括硅基流动(SiliconFlow)和WeaveFox [18][19][20] - 社区合作方包括devv_ BAPITAL生财有术等22家机构 [21][22]
比 996 还狠!让面试者8小时复刻出自家Devin,创始人直言:受不了高强度就别来
AI前线· 2025-08-28 15:31
公司文化与招聘策略 - Cognition采用极端面试流程,要求候选人在6-8小时内从零构建端到端AI代理(类似Devin或Windsurf),并完成数据库连接、依赖修复和测试验证[2] - 公司文化强调高强度工作模式,每周工作6天且工时超过80小时,明确拒绝工作生活平衡理念[2] - 团队高度精英化,初期35名成员中有21位曾为创业者,招聘标准侧重高层次决策能力、技术深度和产品直觉而非语法细节记忆[3][54][60] 核心产品与技术定位 - 主打产品Devin定位为AI软件工程师,采用异步任务处理模式,通过Slack/Linear等平台接收指令并独立完成完整开发任务(如功能开发、迁移重构)[26][27] - 当前Devin能力相当于初级工程师,在部分领域(如知识检索)表现卓越但决策能力仍存缺陷,客户覆盖从高盛/花旗等大银行至小型创业公司[28][30] - 关键业务指标为合并PR占比,在成功部署团队中Devin完成30%-40%的合并请求,企业级迁移场景实测效率提升8-15倍[31][36] 行业竞争与战略观点 - AI编码工具领域存在两种范式:同步IDE辅助(如GitHub Copilot)和异步智能代理(如Devin),预计两种模式将长期共存并逐步融合[33][80] - 认为即使模型能力冻结,产品层仍有十年发展空间,强调现实场景复杂性(如Angular迁移、Datadog调试)需要特定领域数据而非纯通用智能[38][66] - 收购Windsurf仅用3天完成,主要获取其企业工程/基础设施/交付团队,形成产品互补(同步IDE+异步代理)并快速发布整合功能Wave 11[72][78][81] 技术演进与生产力影响 - 软件工程复杂性分为本质复杂性(架构决策)和偶然复杂性(重复实现),当前工程师80%-90%时间耗费于后者,而AI代理可释放人类聚焦高价值决策[34] - IDE工具生产力常被低估(如周均238次Tab补全使用),但智能代理因端到端任务完成能力使量化提升更显著(如迁移任务从人日投入变为5分钟PR审查)[37] - 未来编程界面将不再是代码,而是架构级指令交互,但计算机科学教育重要性反而提升,因需理解计算机模型和决策逻辑[62] 行业发展与生态格局 - AI产值为各层(硬件/模型/应用)均存在发展机会,因差异化显著且相互依赖(如NVIDIA与台积电关系),否定过度纵向整合趋势[44][45][46] - AI经济模式正从按席位收费转向按使用量收费,因代理劳动量和GPU算力消耗更适配用量计费,未来可能形成代理经济生态[48][58] - 行业呈现两极分化趋势,超大规模玩家与出局者并存,新型交易结构(如49%授权式收购)可能持续出现以规避监管风险[83]