Codex
搜索文档
国产模型性能继续迭代,成本优势持续凸显
东方证券· 2026-06-21 15:04
1)智谱今日上线并开源 GLM-5.2,在 Code Arena 评估系统中,GLM-5.2 取得全 球第二、可用模型第一的表现。 计算机行业 行业研究 | 动态跟踪 国产模型性能继续迭代,成本优势持续凸 显 核心观点 事件: 2)据 Axios 报道,微软正在考虑将中国开源模型 DeepSeek V4 的微调版本,引入 其企业 AI 工具 Copilot Cowork,作为 OpenAI 和 Anthropic 模型的低成本替代选项。 投资建议与投资标的 我们认为,Anthropic 领先模型的下架,将有利于国产领先模型公司形成替代效 应,相关标的包括智谱(02513,未评级)、MINIMAX-W(00100,未评级),另外, GLM-5.2 在 Coding 能力上的提升并开源,有利于国内 AI Coding 业务企业,相关标的 包括卓易信息(688258,买入)。 国产模型公司服务需求的增长,对算力和 Token 工厂行业带来驱动,相关公司包括 润建股份(002929,未评级)、协创数据(300857,未评级)、海光信息(688041,买 入)、中科曙光(603019,买入)、亚康股份(301085,未 ...
花钱雇AI当同事,我的生意怎么样了?
虎嗅APP· 2026-06-21 11:13
文章核心观点 - “数字员工”(AI Agent)正从科幻概念转变为现实的工作方式,其能力在最近一两年得到显著提升,能够接管浏览器、读写文件、执行代码、调用终端,真正“动手干活”[3] - 多个行业的独立开发者、小团队、中小企业主和打工人已在实际工作中部署“数字员工”,这些数字员工无需支付工资和社保、可24小时在线,每月成本仅为一两千元人民币,显著提升了工作效率并降低了人力成本[4] - 成功应用“数字员工”的关键在于找到具体的工作场景,将个人方法论沉淀为技能(Skill),并持续积累“上下文”以训练出真正有用的智能体,而非追求一步到位的全自动化[11][12][19][34] 各行业应用案例与关键实践 法律行业应用 - 律师使用Agent工具处理法律业务,例如从数十上百页的证据和数百条合同条款中定位关键信息,并将Agent渗透到办案、研究、创作等环节[7][8] - 通过编写45个特定技能(Skill),让Agent自动完成法律新闻抓取、材料归档、格式转换、法律检索分析及文书初稿撰写等工作,将律师本职业务的工作时间压缩至20%[8][11] - 每月在AI工具订阅上花费约一千元人民币,使用的工具包括Claude Code、Codex、WorkBuddy和QodeWork[10] 跨境电商行业应用 - 一家跨境电商公司用四个数字员工(Claude、Fin、Cursor及自动化系统)替代了原有的三名员工(美工、运营、客服),将每月近五万元人民币的人力与社保成本降至约四千元人民币的AI订阅与API月费[14][17] - 数字员工分工明确:Claude负责英文文案、Fin处理客服、Cursor管理代码、自动化系统监控广告投放与数据,实现了竞品价格监控、客服响应、广告规则自动化运行等[15] - 应用过程中曾出现AI生成错误促销文案的事故,因此强调所有面向客户的内容必须经过人工审核[17] 投资行业应用 - 投资经理利用在本地电脑上运行的Agent,在夜间自动完成公司研究,包括抓取专利、分析数据库、爬取创始人公开信息等,从而节省时间、增加睡眠[22][23] - 构建多智能体系统用于初步筛选商业计划书,每周可处理三四百份BP,AI进行初筛分级后,由人工或另一Agent进行后续处理,显著提升了项目覆盖率和效率[25] - 每月AI开销平均在一千美元以内,在密集尽调时可达两千多美元,估算“数字员工”可解决80%以上的工作,而其成本占个人收入比例不到10%[26][27] 创业与软件开发 - 一名非职业程序员背景的创始人,借助ChatGPT、Cursor、Codex等AI工具,独立搭建并维护复杂的商业网站,完成了从需求构思到结果上线的全流程,极大压缩了产品开发周期[29][30] - 将AI工具按角色分工:ChatGPT作为首席顾问、Cursor作为工程师、Codex处理重复性工作、Figma负责设计,形成了高效的“数字团队”[31] - 每月在AI工具上投入约一千元人民币,并为其团队表现打分7.5分,认为其执行力强但缺乏责任感,核心决策必须由人类把控[32] 媒体与内容创作 - 记者使用AI(如Claude、Kimi、写作Agent)作为“实习生”、“编辑”和“老师”,协助完成访谈整理、稿件润色、逻辑梳理及降低学习门槛等工作[36][37][38] - 每月在AI工具上的花费在1000到1500元人民币之间,用于接入本地知识库、信息调研和写作辅助[39] - 为当前AI员工表现打7分,认为其绝对质量尚有不足,强调最有效的使用者是清楚AI边界并能将想法快速落地的人,而非单纯追求效率提升[40]
你以为是 AI 在干活,其实那个循环一直是你——一个 OpenAI 员工聊 loop engineering
深思SenseAI· 2026-06-21 10:15
Loop Engineering 的核心概念 - Loop Engineering 的核心在于从委托单个步骤转变为委托整件事的持续推进,系统负责管理中间步骤、调用技能并检查进度,仅在完成或卡住时反馈[4][8] - 其关键在于系统在每一轮中执行几个核心判断:目标、当前状态、下一步行动、验证方式以及决定继续、停止或上报[9] - 完全的委托应减少的是注意力而非责任,系统可以持续工作,但结果的责任始终由设计者承担[17][18] 公司作为一组循环的构想 - 一家公司可被构想为由多个具有不同自主度的循环组成,例如采购、营销、客服、bug处理、产品分析等,每个循环拥有自己的目标、工具、记忆和上报规则[11][12][15] - 采购循环可自动检查库存、对比供应商并在预算内下单,仅在价格波动大或风险不明时上报[11] - 营销循环的目标是在预算内将获客成本控制在目标线以下,并持续测试和调整投放策略[11] - 产品分析循环不止于报告数字,而是能自动进行文案修改、漏斗调整、A/B测试并保留更优版本[11] 实施循环工程的关键考量 - 系统必须包含有效的否决机制,例如通过确定性检查或另一个agent进行目标审查,对于高风险改动仍需人工介入[13] - 需警惕“理解力债”风险,即循环产出代码的速度可能超过团队理解它的速度,导致心智模型落后[13] - 自主度的设置必须与团队的检查能力和理解程度相匹配,不应盲目追求最大化[13][19] - 建议从一件具有清晰结果和停止条件的重复性小事开始实践,逐步构建系统并提升其自主度[16] 循环工程的应用与影响 - Loop Engineering 中的“工程师”角色不限于软件工程师,可以是任何对结果负责并设计系统的人,其工作重心转向定义目标、边界、检查方式和上报路径[16] - 当前与编码代理的典型协作流程仍大量依赖人工进行记忆、决策和完成度判断,凸显了向自动化循环转变的必要性[4] - 触发循环的模式是执行细节,其核心在于每一轮中系统所做的持续性判断与推进[9]