Workflow
人工智能编程
icon
搜索文档
谷歌新版Gemini一夜端掉UI:单HTML文件复刻macOS,成功率100%
36氪· 2025-10-15 09:47
Gemini 3.0 Pro的核心技术能力 - 仅通过几行提示词即可在单一HTML文件中生成功能完整的网页版操作系统,成功复刻了macOS的动画、窗口最小化、工具栏、浏览器等核心UI元素,且所有功能均可正常运行[2][3] - 模型在A/B测试中展现出高成功率,所展示的macOS、Windows、Linux网页版操作系统均为一次性生成的结果,源代码已在CodePen平台公开[5] - 与竞争对手相比优势明显,在相同提示词下,Claude 4.5 Sonnet生成的系统连应用图标都无法点击,凸显了其编程能力的领先性[10] 生成操作系统的功能特性 - 生成的网页版Windows操作系统不仅成功模拟了界面,还在终端内置了Python环境,具备玩游戏、运行代码等完整功能[8] - 生成的Linux桌面环境(Ubuntu/GNOME风格)要求所有应用程序必须完全功能化,体现了对复杂系统功能实现的高要求[13] - 系统内置创意彩蛋,例如在终端输入特定命令可触发《黑客帝国》同款特效,展示了超出预期的细节处理能力[3] 市场预热与行业影响 - 尽管谷歌尚未公布正式发布时间,但业内推测Gemini 3.0 Pro可能在未来几个月内亮相,近期来自各路影响者的演示视频数量显著增加,超过了Gemini 2.5 Pro发布前的规模[14] - 谷歌可能延续了上一轮NanoBanana的成功营销策略,通过提前预热市场来营造高期望值,但这种做法也伴随着因期望过高而产生落差的风险[15] - 该演示在业界引发强烈反响,有观点认为若正式版能达到演示水准,Gemini将成为史上最强的编程型模型,这将对AI辅助开发乃至前端UI行业产生深远影响[7]
GPT-5仅23.3%,全球AI集体挂科,地狱级编程考试,夺金神话破灭
36氪· 2025-09-22 19:27
SWE-Bench Pro基准测试概述 - 新一代AI编程智能体评估基准SWE-Bench Pro正式发布,专为评估真实企业级工程任务而设计[5][13] - 基准包含1865个经人工验证与增强的问题,分为公开集(731个实例)、商业集(276个实例)和保留集(858个实例)[18][19] - 相较于前代SWE-Bench,Pro版本在任务难度、抗数据污染能力和逼近真实代码库三大方面实现突破[4][6] 基准测试的核心设计特点 - 采用强著佐权许可证(GPL)代码库构建公开集和保留集,并从真实初创企业获取专有代码构建商业集,以降低数据污染风险[18] - 任务复杂度显著提升,排除了1-10行代码的修改,参考解决方案平均涉及4.1个文件和107.4行代码,所有任务至少修改10行代码[21] - 引入三阶段人机协同验证流程,确保任务可解,同时澄清模糊信息并补充缺失上下文[24] 主要大型语言模型表现 - 在公开集测试中,GPT-5以23.3%的解决率排名第一,Claude Opus 4.1以22.7%的解决率位列第二,其他模型得分均低于15%[7][25][26] - 在更具挑战的商业集测试中,模型表现进一步下降,最佳模型Claude Opus 4.1的解决率仅为17.8%,GPT-5为14.9%[27][28] - 早期代际模型如GPT-4o和DeepSeek Qwen-3 32B表现明显落后,解决率分别为4.9%和3.4%[25][26] 模型性能影响因素分析 - 模型性能因编程语言而异,在Go和Python任务中解决率较高(部分超过30%),但在JavaScript和TypeScript任务中波动较大(0%至超过30%)[30] - 代码仓库的复杂度、文档质量及问题类型显著影响模型表现,部分仓库所有模型解决率均低于10%,而有些仓库能达到50%[32] - 故障分析显示,不同模型的失败原因各异:Claude Opus 4.1主要问题在语义理解(错误解决方案占35.9%),而GPT-5则更多暴露工具使用差异[36] 行业意义与影响 - SWE-Bench Pro的推出解决了现有基准(如SWE-Bench Verified)可能在未来6-12个月内饱和的问题,为衡量AI编程进步提供了更真实的标尺[13][37] - 现有基准存在数据污染风险高和任务过于简单(如SWE-Bench Verified中32.2%的任务仅需修改1-2行代码)两大缺陷,无法反映工业级应用需求[14][16] - 该基准表明,在贴近真实世界的编程任务中,大型语言模型的长程编码能力仍是主要短板,距离工业级应用标准仍有差距[8][17]
马斯克入局AI编程!xAI新模型限时免费用:256K上下文,主打一个速度快
搜狐财经· 2025-08-29 09:32
产品发布与定位 - xAI推出智能编程模型Grok Code Fast 1 主打快速和经济性 支持256K上下文 并限时7天免费[1] - 新模型适用于多步骤、工具调用密集的复杂自动化任务 定位为轻量级智能编码助手[14] - 与GitHub Copilot、Cursor、Cline、Kilo Code、Roo Code、opencode和Windsurf等平台深度合作 可在IDE中快速理解开发者指令[1][4] 性能表现 - 在ToyBench基准测试中整体排名第5 得分62.67% 仅次于GPT-5(93.67%)、Claude Opus 4(84.94%)、Gemini 2.5 Pro(65.00%)和DeepSeek Reasoner(73.83%)[2] - 在内部基准测试SWE-Bench-Verified的完整子集上成绩达70.8% 性能处于编程模型中较为领先水平[4] - 支持256K上下文窗口 每分钟最多处理480个请求 约200万token[6] 技术特点 - 采用全新模型架构 使用专门代码语料库预训练 并通过真实世界拉取请求与编码任务数据微调[4] - 具备优秀的指令遵循能力 思考时长在几秒内 指令缓存命中率超过90%[3][4] - 支持多种编程语言包括Type、Python、Java、Rust、C++和Go 可完成从创建项目到点对点bug修复的全流程任务[4] 定价策略 - 输入tokens每百万收费0.2美元(约1.4元人民币) 输出tokens每百万收费1.5美元(约10.7元人民币) 缓存调用tokens每百万仅需0.02美元(约0.14元人民币)[11][15] - 价格仅为Claude Sonnet 4(10.05美元)和GPT-5(18.77美元)的十分之一 性价比显著[1][2][16] - 相比同系列产品Grok-4(3.00-15.00美元)和Grok-3(3.00-15.00美元)具有明显价格优势[11] 市场竞争力 - 在编码代理任务(agentic coding)方面表现优异 性能比肩Claude Sonnet 4和GPT-5[1][7] - 通过开发者主观评估与自动化行为监控确保模型快速可靠 满足日常编码任务需求[6] - 与Grok-4形成差异化定位 Grok-4更适合单次问答类场景如复杂概念解析或深度调试[14]
Anthropic发布Claude 4.1编程测试称霸
搜狐财经· 2025-08-07 11:01
技术升级与性能表现 - Anthropic发布Claude Opus 4 1模型 在SWE-bench Verified基准测试中达到74 5%的成绩 超越OpenAI的o3模型69 1%和谷歌Gemini 2 5 Pro的67 2% [2] - 新模型增强了研究和数据分析能力 特别是细节跟踪和自主搜索功能 采用混合推理方法 支持64 000个Token处理复杂问题 [4] - 模型被归类为AI安全等级3ASL-3 实施最严格的安全协议以防止盗用和滥用 [4] 收入增长与客户风险 - 公司年度经常性收入7个月内从10亿美元增长至50亿美元 增幅达五倍 [2] - API收入31亿美元中49%14亿美元依赖两个客户Cursor和GitHub Copilot 后者由竞争对手微软控制 [2][3] - 行业专家警告客户集中风险 单一合同变更可能对公司造成重大冲击 [3][6] 市场竞争与行业动态 - 此次发布被视为应对OpenAI即将推出GPT-5的防御性举措 业界质疑其发布紧迫性 [3] - 编程助手市场倾向快速模型切换 开发者可通过简单API更改测试新系统 [5] - GitHub Copilot报告新模型在多文件代码重构中性能显著提升 乐天集团称赞其在大型代码库中的修正精度 [5] 市场前景与潜在挑战 - AI编程市场已成数十亿美元规模战场 开发者工具是生成式AI最明确的即时应用场景 [5] - 硬件成本下降和推理优化可能在未来5年内推动行业利润 加剧竞争并导致AI能力商品化 [5] - 行业分析师指出Anthropic增长高度依赖编程领域优势 若GPT-5挑战成功 市场份额可能逆转 [5]
国产AI编程技术力量跻身全球第一梯队!信创ETF(562570)平收
每日经济新闻· 2025-08-01 16:10
指数表现与ETF交易 - 中证信息技术应用创新产业指数8月1日上涨0.24% 成分股普元信息上涨10.30% 品高股份上涨7.60% 卓易信息上涨5.52% 中望软件上涨5.02% 安恒信息上涨5.01% [1] - 信创ETF(562570)最新报价1.34元 近1周累计上涨2.37% 截至7月31日近1周日均成交6412.58万元 [1] - 信创ETF盘中换手率11.54% 成交额7308.83万元 市场交投活跃 [1] 人工智能技术突破 - 阿里Qwen3-Coder模型采用MoE架构(480B参数/激活35B) 在70%代码含量的7.5T数据上训练 强化学习增强的Agent能力媲美Claude3 Opus 部分场景超越GPT-4.1 [2] - 阿里模型原生支持256K上下文(可扩至1M) 显著优化多步骤复杂任务处理 已在魔搭社区开源并应用于一汽、中石油等企业 [2] - 腾讯云CodeBuddy实现"对话即编程" 10分钟生成产品初稿 结合截图调整样式后30分钟完成开发 效率提升10倍 [2] 行业生态与平台创新 - 腾讯Craft智能体支持全流程自动化 使腾讯内部编码时间缩短40% [2] - 美团NoCode平台通过"氛围编程"降低技术门槛 阿里通义灵码等工具深度集成IDE生态 [2] - 国产AI编程技术已跻身全球第一梯队 正从代码辅助工具向全生命周期智能体协作范式进化 [2] 指数构成与产品定位 - 信创ETF(562570)跟踪中证信息技术应用创新产业指数 该指数聚焦自主可控头部公司 [3] - 指数覆盖人工智能、数据算力、工业软件、信息安全等前沿科创产业 [3] - 信创ETF(562570)为跟踪该指数规模最大的ETF产品 [3]
智通港股早知道|香港金管局下周公布“稳定币发行人发牌制度”的摘要说明 大摩预测美联储今年不降息
金融界· 2025-07-24 08:29
香港稳定币监管 - 香港金管局将于下周公布"稳定币发行人发牌制度"摘要说明,阐述牌照申请安排[1] - 《稳定币条例》8月1日生效后,向香港公众宣传推广无牌稳定币属违法行为[1] - 近期出现借数码资产和稳定币进行的诈骗行为,导致民众损失[1] 美股市场表现 - 道琼斯指数上涨507.85点至45010.29点,涨幅1.14%[2] - 标普500指数上涨49.29点至6358.91点,涨幅0.78%[2] - 纳斯达克指数上涨127.33点至21020.02点,涨幅0.61%[2] - 纳斯达克中国金龙指数上涨0.75%,爱奇艺涨超4%,拼多多涨近3%[2] 代币化货币市场 - 高盛与纽约梅隆银行将为机构投资者创建代币化货币市场基金购买渠道[3] - 项目已吸引贝莱德、富达投资等基金巨头参与[3] - 代币化货币市场基金规模达7.1万亿美元,将为持有者提供收益[3] 美联储政策预测 - 摩根士丹利预测美联储今年不降息,可能延至2026年3月[4] 印度旅游市场 - 印度自7月24日起恢复向中国公民发放旅游签证[5] - 去哪儿平台印度德里机票搜索量瞬时增长最高达10倍以上[5] - 香港至德里机票平均含税价格862元[5] - 今年以来赴印度商务签证量同比增长63%[5] 多晶硅价格 - n型复投料成交均价4.68万元/吨,周环比上涨12.23%[6] - n型颗粒硅成交均价4.40元/吨,周环比上涨7.32%[6] 生猪养殖 - 全国生猪出场价格14.96元/公斤,较前期下降0.53%[7][8] - 生猪养殖头均盈利48.96元[8] - 猪料比价为5.50,环比下跌0.54%[8] 海南自贸港政策 - 海南自贸港内企业生产含进口料件加工增值达30%以上货物进入内地免征进口关税[9] - 涉及港股海南封关板块[9] 香港新股市场 - 2025年上半年香港新股融资额达141亿美元,同比增长695%[10] - 港股平均每日成交金额同比增长82%至2400亿港元[10] - 恒生指数期内上涨超过20%[10] 能源投资 - 国网新源控股增资规模365亿元,创国资产权交易史上现金募资规模之最[11] - 投资者包括中国石油、中国人保等大型央国企和金融机构[11] 人工智能 - 阿里云百炼上线Qwen3-Coder API,每百万Tokens最低输入和输出价格分别为4元和16元[12] - 推出低至5折的限时优惠[12] 半导体产业 - 时代电气宜兴IGBT芯片产线预计年内达产[13] - 株洲产线预计2025年底拉通,为8英寸SiC晶圆[13] - IGBT一期、二期产线已经满产[13] 企业动态 - 马可数字科技拟认购稳定币支付平台鲲KUN优先股,代价总额600万美元[14] - 中创新航预期上半年净利润7.09亿至7.93亿元,同比增长70%至90%[15][16] - 优必选推出工业人形机器人Walker S2,可实现7×24小时不间断作业[17] - 西部水泥预期中期股东应占溢利同比增长80%至100%[18] - 商汤-W拟向无极资本发行约16.67亿股新B类股份,净筹约24.98亿港元[19] 造纸行业 - 玖龙纸业7月第三次发布涨价函,涨幅30元/吨[20] - 新版国标加强能耗限制,或催化行业供给端出清[20] - 头部纸企新旧产能较中小纸企有明显优势[20]
看似加速,实则拖慢:AI 写代码让开发者效率倒退19%
36氪· 2025-07-14 17:48
研究核心发现 - AI编程工具使经验丰富的开源开发者完成任务的时间平均增加19% [1][9] - 开发者普遍预期AI能提升效率24%,但实际效果与感知相反,存在显著“快感错觉” [2][9][21] - 研究采用随机对照实验方法,在真实环境中测试AI工具使用效果,是目前衡量因果关系最严格的方法 [4][19] 实验设计与执行 - 实验追踪16名高级开发者,在其开源项目中完成246个实际任务,任务涵盖复杂模块开发与修复 [7] - 任务被随机分配至使用AI工具组(主要使用Cursor Pro,集成Claude 3.5和Claude 3.7 Sonnet模型)与不使用AI工具组 [7] - 通过屏幕录制验证执行情况,并利用统计方法剔除任务难度差异干扰,测量实际耗时与预期耗时的差距 [7] AI对工作流程的影响 - AI工具启用后,开发者在“主动编码”上的时间减少,更多时间花费在提示设计、AI产出审查、等待响应及理解生成内容上 [10][11][14] - 工作流程变得碎片化,开发者频繁切换于提示生成、回顾产出、人工修正等任务,心理节奏发生变化 [15][16] - 开发者从“写代码”转变为“与AI沟通如何写代码”,这种交互过程看似充实但并未提升最终产出速度 [12] 对AI评估体系的质疑 - 研究指出当前主流AI评估基准(如SWE-Bench和RE-Bench)存在严重偏差,测试环境高度理想化,与真实项目复杂性脱节 [18] - 传统测试为人工设置的小型孤立题目,无需考虑上下文、团队协作及历史遗留负担,导致对AI性能的评估过于乐观 [18] - METR的随机对照实验在真实任务流程中直接部署和测量AI,能揭示主观感知与客观现实的偏差,是更有价值的测试方法 [19][20] AI工具的应用场景与价值重估 - 对于新项目或快速原型开发,AI能提供帮助;但对于成熟的大型复杂项目,AI可能因需要大量补充说明和频繁审查而成为负担 [14] - AI工具的价值可能并非直接“提高效率”,而是“改造流程”,即改变工作节奏、重构问题表达方式和干扰注意力分配 [23] - 企业、教育机构及平台服务商若仅依赖开发者主观感知或存在偏差的基准测试,可能全面高估AI工具的价值 [21][22]