人工智能编码
搜索文档
GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。
数字生命卡兹克· 2026-02-12 09:25
文章核心观点 - 2026年AI领域的核心主航道是Coding(编程)与视频,而Agent(智能体)是构建在这两大基础之上的关键方向 [3] - 智谱AI最新发布的开源大模型GLM-5在编程能力上取得重大突破,其整体能力已能比肩Claude Opus 4.5,标志着国产大模型在AI编程领域已跻身全球一线水平,显著缩小了与顶尖模型的差距 [3][12][71] - GLM-5凭借其接近顶级模型的能力、开源属性及极具竞争力的价格,正在急剧降低国内AI编程的门槛,有望推动AI应用的普及和生态的正向循环 [5][73] 模型性能与基准测试 - **参数规模**:GLM-5从上一代的355B参数(32B激活)扩展到744B参数(40B激活),参数量扩大了一倍以上 [7] - **综合排名**:在Artificial Analysis的跑分中,GLM-5位列开源模型第一,仅次于GPT-5.3-codex和Claude Opus 4.6等顶级闭源模型 [7] - **关键能力突破**: - 在BrowseComp基准(测试Agent网上搜索信息能力)上得分为75.9,超过普通GPT-5.2模型10个百分点,与GPT-5.2 Pro(77.9分)接近 [12] - 在SWE-bench、Terminal-Bench 2.0、τ²-Bench、MCP-Atlas等涉及代码修改、终端操作、工具调用等现实场景的基准测试中,表现已接近Claude Opus 4.5 [12] - 在Long-horizon基准(测试长链条复杂任务规划与执行能力)上表现出色,与实测感受一致,在对标Opus 4.5的长程任务处理上具备竞争力 [12][16] - **效率与成本**: - 上下文窗口为200K,输出为128K,与GLM-4.7一致 [16] - 模型非常节省Token,使用效率高,与GPT-5.3-codex类似 [16] - API价格极具竞争力:输入长度在0-32K tokens时,输入单价为4元/百万tokens,输出为18元/百万tokens;输入长度在32K+时,输入单价为6元/百万tokens,输出为22元/百万tokens [17] - 其API价格仅为Claude Opus 4.5/4.6(输入$5/百万tokens,输出$25/百万tokens)的约七分之一 [17][18] 产品化与市场反馈 - **Coding Plan套餐**:智谱推出了对标Claude Max和ChatGPT Pro的包月套餐,价格是Claude Max套餐的2/3,但提供的Token额度是后者的3倍,市场反响热烈,部分套餐因算力不足已被抢购一空 [19][20] - **开发生态集成**:智谱提供了Coding Tool Helper工具,可便捷地将GLM-5集成到Claude Code、OpenCode、Crush、Factory Droid等主流编码工具中,降低了使用门槛 [20][23] - **开发者推荐组合**:对于无法使用GPT-5.3-codex的用户,推荐使用“Claude Code + GLM-5”的组合,被视为国内可用、门槛最低的体验AI编程魅力的方案 [5] 实际应用案例评估 - **全平台内容分发Chrome扩展开发**: - GLM-5能够根据简单提示词(如“开发一个全平台内容分发Chrome扩展…”)快速生成详细的项目规划和架构设计 [29][30][32] - 成功开发出支持微信公众号、小红书、知乎、掘金、CSDN、微博、今日头条等至少6个平台同步功能的扩展 [38][39] - 在开发过程中遇到一个关于正文提取不全的复杂BUG,GLM-5与Claude Opus 4.5均未能解决,最终由GPT-5.3-codex一轮完成修复,体现了GLM-5与顶尖模型在解决棘手问题上的细微差距 [40][41] - **欢乐斗地主PC模拟器记牌插件开发**: - GLM-5能够根据模糊需求(“帮我写一个记牌插件”)主动进行技术咨询,提供包括Python+OCR识别、图像匹配、手动点击等多种实现方案供选择 [42][43][45] - 在自动识别方案遇到OCR识别失败的问题时,GLM-5能自主添加调试功能,定位问题环节,并最终采用图像模板匹配的方案成功实现记牌功能,识别效果良好(除大小王外) [51][53][55][58] - 其针对该复杂场景(涉及屏幕交互、图像处理)提出的技术方案,与Opus 4.6和GPT-5.3-codex给出的方案一致 [58] - **其他案例**: - 成功复刻了一个包含作物生长、枯萎、杂草虫子等细节,并使用浏览器LocalStorage存储数据的QQ农场游戏,仅消耗约13万tokens [61][62] - 在封装yt-dlp为可下载视频的Skill时表现优异,一轮对话即成功封装,并能准确指出下载YouTube视频需要Cookies的关键点,优于Opus 4.5过去的表现 [65][66][67] 行业意义与竞争格局 - **竞争态势变化**:GLM-5的出现,使得国产大模型在AI编程领域从过去“让人绝望的差距”缩小到“可以追赶的范围”,进入了与OpenAI和Anthropic同一维度的竞争赛道 [70][71][72] - **降低应用门槛**:GLM-5“能力接近、开源免费、价格便宜”的特点,使得企业(B端)和个人都能以更低成本使用顶级AI编程能力,将加速AI编程在国内的普及 [73] - **推动生态发展**:更低的使用门槛预计将吸引更多用户,从而形成更活跃的社区、更多的反馈,驱动模型更快迭代,形成正向循环 [73] - **持续迭代挑战**:尽管差距缩小,但OpenAI和Anthropic仍在快速迭代,下一个版本可能再次拉开差距,竞争将持续 [73]
奥特曼被吓坏,Codex全家桶上线倒计时,恐将撕开全网漏洞
36氪· 2026-01-26 08:21
OpenAI即将发布新版Codex及其网络安全风险评级 - OpenAI预告将在一周后陆续释放与Codex相关的一系列新能力[1] - 这些模型的能力强大到可以在数秒内定位人类多年未发现的安全缺陷,并能被用来复现历史上几乎所有的网络攻击[1] - 因此,OpenAI将这些模型的网络安全风险评级首次定为「高」级别,仅比最高的「关键」等级低一级[1] - OpenAI计划对模型严加防范,阻止用户利用其实施网络犯罪[1] AI模型对网络安全格局的根本性改变 - 当AI模型学会理解软件的全部结构时,它也学会了如何攻击它[3] - 未来,世界上的漏洞数量将不再由人类决定,代码自主生长,系统彼此连接,攻击可能仅需一次提示词而无需动机[2] - 网络安全进入新阶段:问题不在于“有没有问题”,而在于“问题被谁先发现”,而最先发现漏洞的可能已不再是人类[4] - 根据OpenAI安全框架,「高」风险意味着模型能力极可能打破现有网络攻防平衡,导致攻击数量激增[5] - 如果模型达到「严重」等级,则意味着它能自主发现零日漏洞并执行攻击,无需人类指导[6] OpenAI的应对策略:限制使用与辅助防御 - OpenAI采取「先限制使用,后辅助防御」的策略应对潜在风险[8] - 限制使用:对Codex的某些能力进行限制,防止其被滥用[9] - 辅助防御:利用AI提升整体软件安全性,帮助防御方建立防线[9] - OpenAI认为,在更强模型问世前,部署现有技术是构建防御体系的关键一步[9] - 其逻辑是抢先部署能力,帮助好人建立防线,以应对可能被滥用的风险[10] - 防御必须跑在滥用之前,短期内依靠产品级限制阻断恶意指令,长期则需极限加速防御性能力的发展[11][12] - 因为可以预见,世界上很快将同时存在大量强大的模型[13] AI编程工具的理念之争:Codex与Claude Code - 近期,Claude Code在硅谷受到程序员广泛关注,但技术观点认为Codex将赢得人工智能编码之战[14] - 对比的焦点不应是哪个AI更聪明,因为Claude Code和Codex都足够强大,能让不懂代码的人开发出完整应用[19] - 核心问题在于未来大多数软件构建者并非工程师,他们更想要能自主完成任务、无需频繁交互的工具[19] - Claude Code建立在「结对程序员」理念上,强调与用户协作,让用户保持在环节中,设计上需要反复互动[20] - Codex则像「自主打工人」,接受任务后直接工作、修改代码、运行测试并交付结果,无需人工干预,可连续工作数小时[22] - Claude Code适合热爱编程过程、想要参与感和掌控权的工程师[22] - Codex则适合数量庞大的、只想得到结果而非享受过程的非技术背景构建者[25] - 未来软件将成为日用品,核心技能将从写代码转变为定义产品,职业工程师群体将变得相对微不足道[25] - 未来的关键选择在于:AI是一个需要互动的同事,还是一个可以放手让其工作的工具[25]
Suno 的 ARR 1.5 亿美金了,一个刻意保持简单的产品突破 400 万美金 ARR
投资实习所· 2025-10-16 18:08
音乐AI公司Suno的业务与财务表现 - 公司上线2年时间,年度经常性收入已突破1.5亿美元,年增长率高达400% [1] - 公司去年中旬完成1.25亿美元融资,用户数量已超过1000万 [1][2] - 公司主要收入来源于个人用户订阅费和积分购买,付费套餐为10美元/月和30美元/月 [1] Suno的目标用户与价值主张 - 目标用户覆盖范围极广,核心用户群是从未创作过音乐的"普通人" [2] - 付费用户需求包括创意自由与便利性、成本效益以及商业机会 [2][4] - 付费用户在订阅期间创作的歌曲拥有商业发布权,吸引了希望通过YouTube广告、音乐销售等途径盈利的用户 [2][4] Suno的付费用户构成 - 个体创作者和音乐爱好者:包括业余音乐家、内容创作者等,用于生成个性化歌曲或背景音乐 [5] - 专业内容创作者:如视频制作者、独立艺术家等,需要高质量音乐和商业使用权 [5] - 企业或商业客户:小型企业或广告公司可能使用Suno生成定制音乐内容,可能占较高价位计划的比例 [5] 行业竞争对手动态:OpenAI - OpenAI年度经常性收入已增长至130亿美元,其中70%来自ChatGPT订阅,其余主要来自API [6] - 公司今年上半年亏损约80亿美元,意味着每获得1美元收入需支出近3美元 [6] - 公司制定5年计划探索新收入方式,包括政府合同、ChatGPT内电商购物、视频服务、消费硬件及成为计算供应商 [6] 行业竞争对手动态:Anthropic - Anthropic预计今年年度经常性收入将达到90亿美元,明年正常情况下将突破200亿美元,表现好可能达260亿美元 [6] - 公司拥有超过30万家商业和企业客户,约占其整体收入的80% [6] - 今年刚推出的Claude Code产品年度经常性收入已接近10亿美元,是AI Coding领域增长最快的产品之一 [6] 行业产品策略案例 - 某小团队产品在拥挤赛道通过保持产品简单,在没有融资的情况下实现400万美元年度经常性收入 [7] - 产品坚持不做功能扩展和平台化,专注单一功能,因此获得ChatGPT大量推荐,一度25%新注册用户来自ChatGPT [7] - 其理念是"简单就是我们的优势,也是我们的护城河" [7]