Workflow
Responses API
icon
搜索文档
GPT-5差评启示录:用户与AI交互方式还停留在上一个时代
36氪· 2025-08-21 16:49
产品发布与市场反馈 - GPT-5于8月8日正式发布,定位为具有博士水平智能的AI产品,但发布后口碑不佳并引发大量用户退订诉求[1][7] - 官方在发布前下架旧模型,但因使用体验问题被迫紧急恢复旧版模型访问权限[1] - 尽管技术测试和跑分显示其优势明显,但用户实际体验中存在严重问题[1] 技术能力与性能表现 - 在数学、真实世界编码、多模态理解和健康领域表现突出,被评测人员称为"理科生"[4][5] - 处理大型代码库重构、复杂Bug修复及从零构建完整应用的能力显著提升,相当于全栈工程师水平[13][14] - Tau-Bench测试(零售场景)分数从73.9%提升至78.2%,体现性能优化[23] - 逻辑推理、常识理解和创造力较旧版本增强,但存在智能不稳定性,简单任务可能出错[5][15] 核心功能演进 - 智能体任务性能:从问答式交互升级为可自主规划步骤、选择工具并持续完成复杂任务的项目管理模式[10][12] - 可引导性:对指令细微差别高度敏感,支持精确控制行为、语气和输出风格[17][18][19] - Responses API新增支持远程连接MCP服务器和图像生成,通过"previous_response_id"实现上下文记忆,降低token消耗成本[20][21][22] 用户交互模式变革 - 需从传统搜索引擎式交互转变为与"数字心智"协作,旧沟通方式导致使用效率低下[8][9] - 新增推理强度(reasoning_effort)和详细度(verbosity)双参数控制系统,分别控制思考深度和回答长度[29][53] - 指令冲突问题显著:严格遵循所有指令的特性导致矛盾指令会引发资源消耗和逻辑混乱[54][56][61] 优化策略与应用场景 - 效率优先场景:通过降低推理强度、设置工具调用预算及提前停止标准来简化输出[29] - 复杂探索场景:提高推理强度并明确困难处理机制,鼓励自主决策[32][33][35] - 代码开发场景:采用"自我反思提示法"先进行需求架构设计再生成代码,提升输出质量[39][42][43] - 风格一致性控制:通过提供详细规则手册确保AI输出与现有项目风格匹配[46] 高阶功能与工具 - 极速模式:在低延迟场景下最小化推理能力以提升速度,但需配合高质量提示词和持久性提醒[69][70][72] - 元提示(Metaprompting):通过AI自我优化提示词设计,降低用户修改负担[73][74] - Prompt optimizer tool官方工具可自动识别指令逻辑冲突问题[65]
科创板人工智能ETF(588930)盘中溢价,芯原股份涨超4%,机构:2025年有望迎来“中国AI”的投资机会
21世纪经济报道· 2025-05-27 09:46
市场表现 - A股三大指数集体低开 科创AI指数跌0.1% [1] - 科创板人工智能ETF(588930)跌0.27% 溢折率0.05% 盘中现溢价交易 [1] - 成分股中芯原股份涨超4% 中邮科技涨超3% 乐鑫科技涨超2% [1] - 上证科创板人工智能指数(950180.CSI)选取30只市值较大且业务涉及AI基础资源、技术及应用的科创板上市公司证券 [1] AI行业动态 - 谷歌I/O开发者大会发布多款AI模型、应用及Agent产品 Gemini系列模型全面升级 [2] - Gemini模型将逐步登陆手机、手表、汽车、电视等多平台 持续赋能终端产品 [2] - OpenAI宣布Responses API支持MCP A2A协议和MCP生态完善将提升AI Agent开发效率及交互能力 [2] 机构观点 - 天风证券指出AI正融入消费级设备 推动人机交互范式变革 建议关注中国头部AI科技企业模型迭代及DeepSeek新模型发布预期 [2] - 华西证券看好AI加速发展 模型能力提升+AI提升企业ROI+AI优化报表等因素将催化前瞻布局AI的企业业绩增长 [2] - 市场空间有望从IT预算进入企业人力预算 带来AI应用企业估值重构 [2]
AI加速落地,算力产业链确定性高
每日经济新闻· 2025-05-27 08:50
通信与半导体行业表现 - 通信ETF(515880)5月26日收涨0.83% [1] - 半导体设备ETF(159516)5月26日收涨1.1% [1] AI大厂动态与模型升级 - 谷歌在I/O开发者大会发布多款AI模型、应用及AI Agent产品,Gemini系列模型全面升级 [3] - Gemini模型将逐步登陆手机、手表、汽车、电视等多平台 [3] - OpenAI宣布Responses API支持MCP,A2A协议和MCP生态完善将提升AI Agent开发效率和交互能力 [3] 海外巨头资本开支情况 - Meta 25Q1 CAPEX为137亿美元(同比+104%,环比-8%),全年指引上调至640~720亿美元(同比+63~84%) [3] - 亚马逊25Q1 CAPEX为263亿美元(同比+74%,环比-7%) [3] - 谷歌25Q1 CAPEX为172亿美元(同比+43%,环比+20%) [3] 国内大厂资本开支加速 - 阿里25Q1 CAPEX为246亿元(同比+120.6%,环比-22.6%),云业务单季度收入301亿元 [4] - 腾讯25Q1 CAPEX为275亿元(同比+91%,环比-25%) [4] 行业趋势与投资机会 - AI大厂持续发布新模型,AI Agent逐步完善,国内外大厂加码资本开支推进IDC建设 [4] - 国产AIDC算力产业链确定性高,通信ETF(515880)和半导体设备ETF(159516)具备长期投资机会 [4]
腾讯研究院AI速递 20250523
腾讯研究院· 2025-05-22 23:09
OpenAI技术更新 - Responses API新增MCP服务支持,开发者可简化外部服务连接流程,无需手动函数调用[1] - 新版API强化安全控制,通过allowed_tools参数和权限管理防止工具滥用[1] - 新增图像生成、Code Interpreter、文件搜索功能,并引入后台模式等新特性[1] 微软开源项目 - 发布Web Agent项目Magentic-UI,支持自动浏览网页和代码操作,用户可实时监控干预[2] - 采用协同规划和执行机制,生成任务计划需用户确认,集成神经样式引擎等创新技术[2] Mistral开源模型 - 发布240亿参数模型Devstral,可在RTX 4090或32GB Mac上运行,SWE-Bench测试得分46.8%超越GPT-4.1-mini[3] - 采用Apache 2.0许可证,商用定价为每百万输入Token 0.10美元,输出Token 0.30美元[3] xAI实时数据API - 推出Live Search API为Grok AI提供实时数据访问,支持X平台和网页内容检索[4][5] - 提供搜索控制功能如结果数量限制和时间范围指定,结合DeepSearch展示推理过程[5] OpenAI硬件布局 - 以65亿美元收购前苹果设计官Jony Ive的硬件团队io,开发AI耳机和可穿戴设备,预计2026年发布[6] - 关联公司LoveFrom将承担ChatGPT界面设计,Ive称此为职业生涯最重要工作[6] 昆仑万维AI办公产品 - 发布天工超级智能体,集成5个专家智能体,支持文档、PPT、表格生成,成本为OpenAI的40%[7] - 基于deep research技术,支持信息溯源和个人知识库构建,已开源相关框架[7] 微软大气AI模型 - 推出大气模型Aurora,计算速度比IFS数值预报系统快5000倍,训练周期仅4-8周[8] - 在空气质量、热带气旋预测中表现优异,采用3D Swin Transformer架构[8] Gartner智能应用原则 - 提出智能应用五大原则:自适应体验、嵌入式智能、自主编排、互联数据和可组合架构[9] - 强调AI需深度嵌入业务逻辑,实现跨系统自然语言交互和自动化流程优化[9] AI编程市场趋势 - AI Coding市场价值约3万亿美元,开发者角色将向产品经理或QA工程师转变[10] - 新范式降低编程门槛,但系统架构等专业知识仍为软件开发核心[10]
OpenAI教你做Agent:2025年,评估标准和如何产品化是Agent的重点
Founder Park· 2025-04-25 21:29
AI Agent技术演进 - 2024年至2025年AI agent的行动能力和交互方式发生质变,头部模型厂商将agentic能力融入模型,成为模型竞赛重点之一 [2] - agent获取信息方式从单次搜索决策模式转变为完全自主的Deep Research模式,能同时打开多个网页节省时间 [3] - OpenAI判断agent可调用的工具数量将在几个月内从10个量级扩展到100个量级 [4] - multi agent系统具备更高可控性和优化潜力,通过任务分拆提升整体工作效率 [5] - vertical agent将直接受益于multi-agent系统发展 [6] 开发者工具与评估 - 开发者需要构建agent评估微调飞轮,通过强化微调能力让模型找到正确tool use路径 [7] - 评估器需能将模型输出与权威资料对比或执行代码验证数学正确性,而非简单字符串比对 [8] - 强化微调方法可推动模型在特定行业深入应用,实现专业化能力提升 [20] - 目前AI领域核心问题是评分机制,如何构建高质量任务和评分器成为重要课题 [21] Computer Use创新 - Computer Use处于早期阶段,VM(虚拟机)需要开发者填补空白,可能出现专门做iPhone VM的公司 [10] - computer use应用场景包括无API的传统软件系统自动化,如医疗行业手工操作和Google Maps街景分析 [22] - BrowserBase和Scrapybara等公司提供computer use模型托管服务,开发者可便捷访问底层控制 [25][26] - Arc浏览器开发的Dia项目将agent深度集成到浏览器中,成为浏览器本身的一部分 [29] 开发者实践与API设计 - multi agent系统通过任务分拆使调试更独立,降低修改风险 [31][33] - OpenAI采用"阶梯式API"设计理念,平衡易用性与可定制性,如向量搜索默认配置可逐步调整 [34] - Assistants API的tool use功能(如文件搜索)找到市场契合点,但使用门槛过高需优化 [36] - Responses API优化多轮交互体验,与MCP生态互补,需深入思考如何更好整合 [37] 行业应用与前景 - AI infra公司垂直化发展仍有市场需求,如Runloop AI为AI coding初创企业提供测试虚拟机 [38] - computer use在网络安全领域应用,如探测网站系统漏洞 [42] - 模型在科学研究领域应用被低估,可能加速科研进程 [53] - 旅游行业存在创新机会,期待AI agent打破传统格局 [56]