Responses API

搜索文档
Wall Street Brunch: Hooray For DevDay
Seeking Alpha· 2025-10-06 02:16
hapabapa/iStock Editorial via Getty Images Listen below or on the go on Apple Podcasts and Spotify Government shutdown now seen lasting three weeks. (0:17) Sam Altman will give the DevDay keynote for the world’s biggest startup. (4:47) Bitcoin top $125,000 for first time. (2:57) The private sector continues to lead the way for Wall Street with the government shutdown entering its second week. Prediction market Kalshi now has the shutdown lasting nearly 21 days (a 64% chance of its lasting more than 1 ...
GPT-5差评启示录:用户与AI交互方式还停留在上一个时代
36氪· 2025-08-21 16:49
产品发布与市场反馈 - GPT-5于8月8日正式发布,定位为具有博士水平智能的AI产品,但发布后口碑不佳并引发大量用户退订诉求[1][7] - 官方在发布前下架旧模型,但因使用体验问题被迫紧急恢复旧版模型访问权限[1] - 尽管技术测试和跑分显示其优势明显,但用户实际体验中存在严重问题[1] 技术能力与性能表现 - 在数学、真实世界编码、多模态理解和健康领域表现突出,被评测人员称为"理科生"[4][5] - 处理大型代码库重构、复杂Bug修复及从零构建完整应用的能力显著提升,相当于全栈工程师水平[13][14] - Tau-Bench测试(零售场景)分数从73.9%提升至78.2%,体现性能优化[23] - 逻辑推理、常识理解和创造力较旧版本增强,但存在智能不稳定性,简单任务可能出错[5][15] 核心功能演进 - 智能体任务性能:从问答式交互升级为可自主规划步骤、选择工具并持续完成复杂任务的项目管理模式[10][12] - 可引导性:对指令细微差别高度敏感,支持精确控制行为、语气和输出风格[17][18][19] - Responses API新增支持远程连接MCP服务器和图像生成,通过"previous_response_id"实现上下文记忆,降低token消耗成本[20][21][22] 用户交互模式变革 - 需从传统搜索引擎式交互转变为与"数字心智"协作,旧沟通方式导致使用效率低下[8][9] - 新增推理强度(reasoning_effort)和详细度(verbosity)双参数控制系统,分别控制思考深度和回答长度[29][53] - 指令冲突问题显著:严格遵循所有指令的特性导致矛盾指令会引发资源消耗和逻辑混乱[54][56][61] 优化策略与应用场景 - 效率优先场景:通过降低推理强度、设置工具调用预算及提前停止标准来简化输出[29] - 复杂探索场景:提高推理强度并明确困难处理机制,鼓励自主决策[32][33][35] - 代码开发场景:采用"自我反思提示法"先进行需求架构设计再生成代码,提升输出质量[39][42][43] - 风格一致性控制:通过提供详细规则手册确保AI输出与现有项目风格匹配[46] 高阶功能与工具 - 极速模式:在低延迟场景下最小化推理能力以提升速度,但需配合高质量提示词和持久性提醒[69][70][72] - 元提示(Metaprompting):通过AI自我优化提示词设计,降低用户修改负担[73][74] - Prompt optimizer tool官方工具可自动识别指令逻辑冲突问题[65]
科创板人工智能ETF(588930)盘中溢价,芯原股份涨超4%,机构:2025年有望迎来“中国AI”的投资机会
21世纪经济报道· 2025-05-27 09:46
市场表现 - A股三大指数集体低开 科创AI指数跌0.1% [1] - 科创板人工智能ETF(588930)跌0.27% 溢折率0.05% 盘中现溢价交易 [1] - 成分股中芯原股份涨超4% 中邮科技涨超3% 乐鑫科技涨超2% [1] - 上证科创板人工智能指数(950180.CSI)选取30只市值较大且业务涉及AI基础资源、技术及应用的科创板上市公司证券 [1] AI行业动态 - 谷歌I/O开发者大会发布多款AI模型、应用及Agent产品 Gemini系列模型全面升级 [2] - Gemini模型将逐步登陆手机、手表、汽车、电视等多平台 持续赋能终端产品 [2] - OpenAI宣布Responses API支持MCP A2A协议和MCP生态完善将提升AI Agent开发效率及交互能力 [2] 机构观点 - 天风证券指出AI正融入消费级设备 推动人机交互范式变革 建议关注中国头部AI科技企业模型迭代及DeepSeek新模型发布预期 [2] - 华西证券看好AI加速发展 模型能力提升+AI提升企业ROI+AI优化报表等因素将催化前瞻布局AI的企业业绩增长 [2] - 市场空间有望从IT预算进入企业人力预算 带来AI应用企业估值重构 [2]
AI加速落地,算力产业链确定性高
每日经济新闻· 2025-05-27 08:50
通信与半导体行业表现 - 通信ETF(515880)5月26日收涨0.83% [1] - 半导体设备ETF(159516)5月26日收涨1.1% [1] AI大厂动态与模型升级 - 谷歌在I/O开发者大会发布多款AI模型、应用及AI Agent产品,Gemini系列模型全面升级 [3] - Gemini模型将逐步登陆手机、手表、汽车、电视等多平台 [3] - OpenAI宣布Responses API支持MCP,A2A协议和MCP生态完善将提升AI Agent开发效率和交互能力 [3] 海外巨头资本开支情况 - Meta 25Q1 CAPEX为137亿美元(同比+104%,环比-8%),全年指引上调至640~720亿美元(同比+63~84%) [3] - 亚马逊25Q1 CAPEX为263亿美元(同比+74%,环比-7%) [3] - 谷歌25Q1 CAPEX为172亿美元(同比+43%,环比+20%) [3] 国内大厂资本开支加速 - 阿里25Q1 CAPEX为246亿元(同比+120.6%,环比-22.6%),云业务单季度收入301亿元 [4] - 腾讯25Q1 CAPEX为275亿元(同比+91%,环比-25%) [4] 行业趋势与投资机会 - AI大厂持续发布新模型,AI Agent逐步完善,国内外大厂加码资本开支推进IDC建设 [4] - 国产AIDC算力产业链确定性高,通信ETF(515880)和半导体设备ETF(159516)具备长期投资机会 [4]
腾讯研究院AI速递 20250523
腾讯研究院· 2025-05-22 23:09
OpenAI技术更新 - Responses API新增MCP服务支持,开发者可简化外部服务连接流程,无需手动函数调用[1] - 新版API强化安全控制,通过allowed_tools参数和权限管理防止工具滥用[1] - 新增图像生成、Code Interpreter、文件搜索功能,并引入后台模式等新特性[1] 微软开源项目 - 发布Web Agent项目Magentic-UI,支持自动浏览网页和代码操作,用户可实时监控干预[2] - 采用协同规划和执行机制,生成任务计划需用户确认,集成神经样式引擎等创新技术[2] Mistral开源模型 - 发布240亿参数模型Devstral,可在RTX 4090或32GB Mac上运行,SWE-Bench测试得分46.8%超越GPT-4.1-mini[3] - 采用Apache 2.0许可证,商用定价为每百万输入Token 0.10美元,输出Token 0.30美元[3] xAI实时数据API - 推出Live Search API为Grok AI提供实时数据访问,支持X平台和网页内容检索[4][5] - 提供搜索控制功能如结果数量限制和时间范围指定,结合DeepSearch展示推理过程[5] OpenAI硬件布局 - 以65亿美元收购前苹果设计官Jony Ive的硬件团队io,开发AI耳机和可穿戴设备,预计2026年发布[6] - 关联公司LoveFrom将承担ChatGPT界面设计,Ive称此为职业生涯最重要工作[6] 昆仑万维AI办公产品 - 发布天工超级智能体,集成5个专家智能体,支持文档、PPT、表格生成,成本为OpenAI的40%[7] - 基于deep research技术,支持信息溯源和个人知识库构建,已开源相关框架[7] 微软大气AI模型 - 推出大气模型Aurora,计算速度比IFS数值预报系统快5000倍,训练周期仅4-8周[8] - 在空气质量、热带气旋预测中表现优异,采用3D Swin Transformer架构[8] Gartner智能应用原则 - 提出智能应用五大原则:自适应体验、嵌入式智能、自主编排、互联数据和可组合架构[9] - 强调AI需深度嵌入业务逻辑,实现跨系统自然语言交互和自动化流程优化[9] AI编程市场趋势 - AI Coding市场价值约3万亿美元,开发者角色将向产品经理或QA工程师转变[10] - 新范式降低编程门槛,但系统架构等专业知识仍为软件开发核心[10]
OpenAI教你做Agent:2025年,评估标准和如何产品化是Agent的重点
Founder Park· 2025-04-25 21:29
AI Agent技术演进 - 2024年至2025年AI agent的行动能力和交互方式发生质变,头部模型厂商将agentic能力融入模型,成为模型竞赛重点之一 [2] - agent获取信息方式从单次搜索决策模式转变为完全自主的Deep Research模式,能同时打开多个网页节省时间 [3] - OpenAI判断agent可调用的工具数量将在几个月内从10个量级扩展到100个量级 [4] - multi agent系统具备更高可控性和优化潜力,通过任务分拆提升整体工作效率 [5] - vertical agent将直接受益于multi-agent系统发展 [6] 开发者工具与评估 - 开发者需要构建agent评估微调飞轮,通过强化微调能力让模型找到正确tool use路径 [7] - 评估器需能将模型输出与权威资料对比或执行代码验证数学正确性,而非简单字符串比对 [8] - 强化微调方法可推动模型在特定行业深入应用,实现专业化能力提升 [20] - 目前AI领域核心问题是评分机制,如何构建高质量任务和评分器成为重要课题 [21] Computer Use创新 - Computer Use处于早期阶段,VM(虚拟机)需要开发者填补空白,可能出现专门做iPhone VM的公司 [10] - computer use应用场景包括无API的传统软件系统自动化,如医疗行业手工操作和Google Maps街景分析 [22] - BrowserBase和Scrapybara等公司提供computer use模型托管服务,开发者可便捷访问底层控制 [25][26] - Arc浏览器开发的Dia项目将agent深度集成到浏览器中,成为浏览器本身的一部分 [29] 开发者实践与API设计 - multi agent系统通过任务分拆使调试更独立,降低修改风险 [31][33] - OpenAI采用"阶梯式API"设计理念,平衡易用性与可定制性,如向量搜索默认配置可逐步调整 [34] - Assistants API的tool use功能(如文件搜索)找到市场契合点,但使用门槛过高需优化 [36] - Responses API优化多轮交互体验,与MCP生态互补,需深入思考如何更好整合 [37] 行业应用与前景 - AI infra公司垂直化发展仍有市场需求,如Runloop AI为AI coding初创企业提供测试虚拟机 [38] - computer use在网络安全领域应用,如探测网站系统漏洞 [42] - 模型在科学研究领域应用被低估,可能加速科研进程 [53] - 旅游行业存在创新机会,期待AI agent打破传统格局 [56]