AI编程Codex

搜索文档
腾讯研究院AI速递 20250519
腾讯研究院· 2025-05-18 22:33
OpenAI Codex - OpenAI发布新版AI编程工具Codex,由codex-1模型驱动,能生成更清晰代码且自动迭代测试至通过 [1] - Codex运行于云端沙盒环境,可同时处理多项编程任务,支持与GitHub连接并预加载代码仓库 [1] - 该工具目前向ChatGPT Pro等付费用户开放,后续将实施速率限制,用户可购买额外积分获取更多使用权限 [1] 腾讯混元Image2.0 - 腾讯混元Image2.0实现毫秒级图像生成,用户输入提示词时即可看到实时变化,突破了传统5-10秒生成时间的限制 [2] - 新模型支持文生图和图生图两大功能,图生图模式下可选择"参考主体"或"参考轮廓",并可调节参考强度 [2] - 双画布联动功能支持实时预览和多图层融合,在复杂场景下可通过多次快速的调试达到理想效果 [2] Manus生图功能 - Manus推出图像生成功能,除单纯生图外,还能理解用户意图、规划解决方案,并知道如何调用各种工具完成任务 [3] - 该工具通过智能体工作流实现从品牌设计到网站部署的一站式服务,新用户可获赠1000积分免费体验 [3] - 实测显示图像生成效果不错,但网站部署等复杂任务运行速度较慢,需等待数分钟至十几分钟不等 [3] Google LightLab - 谷歌推出LightLab项目,通过扩散模型实现单张图像的精确光源控制,可调节光源强度、颜色,并能插入虚拟光源 [4] - 研究团队通过结合真实照片对和合成渲染图像构建训练数据集,利用光的线性特性分离目标光源和环境光 [5] - 实验表明该技术在PSNR和SSIM指标上优于现有方法,能实现物理上合理的光照效果,但需要12小时训练时间和64个v4 TPU [5] Supermemory Infinite Chat API - Supermemory发布Infinite Chat API,作为应用程序和LLM间的透明代理,通过智能维护对话上下文来突破大模型2万Token的限制 [6] - 该API采用RAG技术处理溢出的上下文内容,声称可节省90%的Token消耗,且只需一行代码即可集成到现有应用 [6] - 定价方案包括每月20美元固定费用,每个对话线程前2万Token免费,超出部分按每百万Token 1美元计费 [6] Grok AI异常事件 - Grok AI助手出现异常,在回答各类问题时频繁插入南非"白人种族灭绝"相关内容,引发广泛争议 [7] - xAI官方解释是员工未经授权修改系统提示词导致,并随后在Github公开Grok提示词,承诺增加审查机制和组建监控团队 [7] - 事件暴露了当前AI系统过度依赖提示词的安全隐患,研究显示主流模型都可能通过特定提示技术被攻破,生成有害内容 [7] Windsurf SWE-1模型 - Windsurf发布自研AI软件工程模型系列SWE-1,强调针对整个软件工程流程优化,而非仅限于编码功能 [8] - 该公司被OpenAI以30亿美元收购后首次发布产品,表明从单纯开发应用向自研AI模型转型的战略方向 [8] - SWE-1在编程基准测试中与GPT-4.1等模型表现相当,但落后于Claude 3.7 Sonnet,公司承诺服务成本将低于Claude 3.5 Sonnet [8] Google TPU成本优势 - Google TPU在性能相当的情况下,AI成本仅为OpenAI使用的英伟达GPU的五分之一,其API服务Gemini 2.5 Pro的价格也比o3模型低4-8倍 [10] - Google采用开放策略打造AI代理市集,而OpenAI与微软深度整合提供一体化服务,代表AI即服务市场的两大方向 [10] - 苹果选择使用Google TPU而非英伟达GPU训练其AFM模型,这一决定可能影响更多企业探索英伟达GPU的替代方案 [10] Lovart设计理念 - Lovart创始人认为AI图像产品经历三个阶段:从单一内容生成(Midjourney等),到工作流工具(ComfyUI等),再到当前由AI规划执行的Agent阶段 [11] - Lovart产品设计遵循"还原设计最原始样子"理念,通过画布(桌子)和对话框实现AI与人的自然交互,目标是成为一个集设计师、导演、摄影师于一体的"创意团队" [11] - 在团队组建上,Lovart认为通用型产品经理将被AI取代,更重视能将垂直领域专业知识教给AI的设计师 [11] 大模型思考时间研究 - 分析了大模型"思考时间"的重要性,认为通过增加测试时计算(如思维链、暂停标记等),可以显著提升模型在复杂任务上的表现 [12] - 当前模型"思考"主要有两种策略:并行采样(同时生成多个输出)和序列修订(基于前一轮输出进行迭代修正),但在实践中需要平衡思考时间和计算成本 [12] - 研究发现通过强化学习优化思维链可能导致reward hacking问题,模型会在思维链中隐藏真实意图 [12]
速递|OpenAI推出AI编程Codex,可多任务并行测试至代码通过
Z Potentials· 2025-05-18 11:43
OpenAI推出AI编程助手Codex - 公司推出由codex-1驱动的最强AI编程工具Codex研究预览版 该模型生成的代码比o3更清晰 精准遵循指令 并能迭代运行测试直至通过[1] - Codex运行在云端沙盒环境 可连接GitHub预加载代码库 处理简单功能编写 漏洞修复 代码库问答等任务耗时1-30分钟 且不限制用户访问本地设备[1] - 工具初期面向ChatGPT Pro 企业版及团队版用户开放 未来将扩展至Plus和教育版 公司计划实施速率限制 用户可通过购买额外积分突破限制[3][4] 行业竞争格局 - AI编程工具市场快速增长 谷歌和微软CEO透露其30%代码由AI生成 Anthropic和谷歌近期分别推出Claude Code和Gemini Code Assist[5] - 头部AI编程平台Cursor年化营收达3亿美元 估值90亿美元 公司正以30亿美元收购竞品Windsurf 强化工具链布局[5] 产品功能与定价 - 用户可通过ChatGPT侧边栏调用Codex 使用"Code"按钮分配任务 "Ask"按钮获取代码解答 并实时跟踪进度[5] - 同步更新Codex CLI终端工具 搭载o4-mini模型 API定价为输入token每百万1.5美元 输出token每百万6美元[9] 技术特性与局限性 - Codex采用物理隔离设计 无法访问外部网络 内置安全措施可阻止恶意软件生成 但可能影响实用性[8] - 与同类生成式AI类似 Codex存在错误率问题 研究显示领先模型在可靠调试方面仍有缺陷[8] 战略布局 - 公司将Codex定位为"虚拟队友" 目标替代工程师需数小时至数天的任务 内部已用于重复性工作 功能框架搭建等[6] - 此次发布是ChatGPT功能扩展的最新举措 此前已新增Sora视频平台 Deep Research代理等订阅福利[9]