Workflow
智能体
icon
搜索文档
刚刚,OpenAI开发者大会重磅发布:AgentKit、Codex正式版、Apps SDK与Sora 2 API
机器之心· 2025-10-07 08:14
机器之心报道 编辑:Panda OpenAI 今年的开发者大会(OpenAI DevDay 2025)正在进行中。 Keynote 一开场,山姆・奥特曼便分享了 OpenAI 这两年取得的成绩: 4 0 0 万 开发者、 8 亿 周活 ChatGPT 用户、API 每 分 钟 60 亿 token 消耗量。 更重要的是,OpenAI 在今年的开发者大会上可真是发布了不少东西,简单总结起来包括:AgentKit、Codex 正式版、ChatGPT 内置应用与 Apps SDK、gpt-realtime- mini、gpt-image-1-mini、Sora 2 API、GPT-5 pro API。 下面具体来看看这些新模型和新工具。 OpenAI 为 AgentKit 设计了一些全新的模块化组件,可助力用户更快地开发智能体,包括 Agent Builder、Connector Registry 和 ChatKit。 Agent Builder AgentKit 首先,最引人瞩目的便是: AgentKit 。 AgentKit 是一套面向开发者和企业的完整工具集,可用于构建、部署和优化智能体(agent)。 这让 ...
从「知题」到「知人」:UserRL让智能体学会「以人为本」
机器之心· 2025-10-05 14:42
"知人者智,自知者明。"——《道德经》 古人早已洞见:真正的人类智慧,不仅仅在于公式推演、掌握技艺,更是能理解他人、洞察人心。今天的大语言模型已能在代码、数学与工具使用上 出色 地完 成 任务 ,然而距离成为真正的 用户伙伴 ,它们依旧缺少那份 "知人" 的能力。这主要源于现实交互远比解题更加复杂: 这正是智能体面临的下一个时代课题: 从 "会解题" 迈向 "懂用户" 。而要真正回答这一课题,我们需要全新的动态评测框架与训练机制:不仅能测量模型在交互 中的表现,还能驱动其学会在用户不确定与多目标的世界里,问之有道,断之有衡,答之有据。为此,来自 UIUC 与 Salesforce 的研究团队提出了一套系统化方 案: 二者相辅相成,把 "以用户为中心" 从理念落地为 可复现的流程、接口与评测指标 。 UserBench 论文链接:https://arxiv.org/pdf/2507.22034 UserBench 代码仓库:https://github.com/SalesforceAIResearch/UserBench 现实交互中, 用户目标常常未在最初完全成形 (underspecification)、而是 ...
AI+ Tech Week来袭,听Meta,Character.ai, Pokee, Wanderboat等分享Agent前沿
锦秋集· 2025-10-02 16:38
峰会概览 - 2025年AI+ Multimodal Day & Agent Everywhere峰会将于10月10日至11日在旧金山举办,聚焦多模态AI与智能体两大前沿方向,汇聚技术、资本与产业力量推动AI技术落地与生态共建[2] - 峰会预计汇聚超过2000名行业精英,其中创始人占比40%、投资人占比30%、研究员占比30%[2][18] - 锦秋基金作为合作伙伴参与,其被投企业Pokee AI创始人朱哲清和Wanderboat.ai CEO You Wu将在现场交流[2] 核心亮点 - 活动采用双主题并行模式,首日聚焦“AI+ Multimodal Day”探讨视觉、语音与跨模态数据处理,次日围绕“Agent Everywhere”深入智能体架构与工作流重构[16] - 超过20家AI团队将进行现场产品首秀,涵盖多模态数据库、智能体基础设施及AI原生应用领域,包括Genspark、Browserbase、OpusClip等知名公司[17] - 活动设置四个主题论坛,分别讨论智能体操作系统、多模态数据库、AI原生娱乐及物理AI智能革命,并包含产品展示和 networking 环节[9][14] 参与企业及业绩 - Character.ai 是全球排名第一的AI社交平台,其多模态负责人将参与论坛[23] - Genspark.ai 的通用智能体产品在45天内达成3600万美元年度收入[23] - Browserbase 已完成4700万美元融资,提供基于云的无头浏览器服务[23][24] - Tinyfish 成功融资4700万美元,打造了部署量最大的企业级网页智能体[24] - LanceDB 作为多模态数据库先锋融资3000万美元,打造下一代非结构化数据存储引擎[26] - GMI Cloud 作为GPU云基础设施领军者融资8200万美元,反映市场对算力底层技术的强烈需求[26] - OpusClip 成立18个月积累1000万用户,年经常性收入达八位数,被软银视为下一代AI视频编辑工具标杆[31] - Creatify.ai A轮融资1550万美元,18个月实现900万美元ARR,团队来自Meta、Snap等大厂[31] - Higgsfield.ai 在5个月内实现5000万美元ARR,用户超1100万,展现AI产品规模化落地的极致效率[31] - Plaud.ai 产品Plaud Note是全球领先的AI录音笔,年化收入超过1亿美元,设备全球出货量近70万台,并实现连续两年10倍增长[35] - Composio 平台已集成超500种工具,成功融资2900万美元,致力于构建AI智能体无缝调用外部能力的核心骨干网[36] - E2B 完成2100万美元A轮融资,定位为企业级AI智能体云基础设施的定义者[37] 论坛议题聚焦 - 智能体操作系统论坛将探讨下一代AI智能体需超越文本处理,具备看、说、做能力,通过视觉、语音和交互捕获人类情境[21] - 多模态数据库论坛强调数据库需从静态仓库转变为能主动理解内容、连接语义的智能引擎,以支持自动驾驶、医疗影像等应用[24] - AI原生娱乐论坛关注AI如何通过处理文字、图像、声音能力发明全新文化玩法,重塑内容生产流程[29] - 物理AI论坛深入探讨硬件与AI交叉点,包括传感器、交互界面到具身智能体,探索汽车、机器人等行业变革机遇[33] 被投企业介绍 - Pokee AI 利用强化学习开发前沿AI Agent,具备高级规划、推理能力,并能灵活调用多样化数字工具,其技术可扩展至数千种工具与复杂工作流[10] - Wanderboat.ai 是旅行垂类AI应用黑马,拥有500万用户,通过智能规划与社交互动重塑旅行体验[11][13]
大厂集体走进智能体“致富课”,转身重划一条起跑线
搜狐财经· 2025-10-01 22:37
巨头竞争焦点转移 - 大厂将竞争焦点从单智能体的工具化探索转向多智能体应用场景的跃迁 [9] - 国内市场仅上半年就有超过50款智能体产品发布 [9] - 阿里巴巴百炼平台上线MCP服务,用户无需代码几分钟即可完成智能体应用搭建 [3],平台同步上线高德、无影等50多款MCP服务 [5] - 百度发布全端通用智能体GenFlow2.0,支持超100个专家智能体同时工作,3分钟并行完成超5项复杂任务,生成速度超主流同类型产品10倍 [7] - 钉钉推出智能体驱动的钉钉ONE,通过多智能体协同工作流重构工作方式,以卡片流形式主动推送信息 [9] 智能体核心价值与演进 - 智能体核心运行逻辑为感知环境、自主判断并采取行动 [11] - 人工智能演进路径为聊天机器人 → 副驾驶 → 智能体,智能体的根本突破在于能做决策和真执行 [11] - 智能体本质是数字员工,可将传统依赖人力的流程压缩为一句指令启动的端到端任务链 [11] - 智能体带来体验革新和用户入口的重新分配机制,实现效率提升10倍 [13] 市场前景与商业模式 - 中国企业级AI Agent市场预计在2028年达到保守估计270亿美元以上的规模 [14] - AI Agent核心价值聚焦于大模型调度能力与全链路自动化闭环,目标是推动企业从流程效率提升走向决策智能化 [14] - 智能体时代企业为具体任务成果买单,而非功能模块或服务时长 [14] - 智能体价值关键在于有多少任务能被售卖和复购,并转化为持续现金流 [16] - 行业竞争焦点从比拼AI技术转向技术赋能与商品化能力的较量 [16] - 行业过渡到重视商业成效的实战阶段,能解决企业问题并证明商业价值的公司才能坚持到最后 [16]
余承东,新任命!
国芯网· 2025-09-30 16:00
公司管理层变动 - 华为常务董事、终端BG董事长余承东被任命为华为产品投资评审委员会(IRB)主任,任命文件由任正非亲自签发[1] - IRB是华为产品投资决策的最高机构,负责公司级资源分配、跨业务协同和长期战略规划[3] - IRB主任需协调产品线、研发、供应链等多部门,直接参与核心投资决策,并拥有项目否决权[3] 公司战略重点 - 余承东增任IRB主任的主要使命是带领华为打赢人工智能(AI)关键战役,取得全球领先地位[3] - 公司预测智能世界正在加速到来,具身智能将形成多个万亿级产业,超过90%的中国家庭将拥有智能机器人[3] - 公司展望未来十年智能体将驱动产业革命,早期催生千亿美元产业,中期缔造万亿美元产业,远期开拓十万亿美元产业[3] 行业活动信息 - 2025年10月15日至17日将在深圳会展中心举办湾区半导体产业生态博览会[4] - 该博览会展览面积达60000平方米,预计有超过600家参展企业和60000名专业观众,并举办20多场峰会论坛[4]
刚刚,Claude Sonnet 4.5重磅发布,编程新王降临
36氪· 2025-09-30 09:32
产品发布与核心定位 - Anthropic正式发布Claude Sonnet 4.5,并将其定义为全球最强的代码模型 [2][3] - 该版本在智能体构建、计算机使用、推理和数学能力上展现出显著突破,旨在提升现代工作中运用工具和解决复杂问题的效率与可靠性 [3][5] 性能基准测试表现 - 在SWE-bench Verified测试中达到82.0%的准确率,优于Claude Opus 4.1的79.4%、Claude Sonnet 4的80.2%以及GPT-5的74.5% [4] - 在终端编码测试Terminal-Bench中取得50.0%的准确率,显著高于Claude Sonnet 4的36.4%和GPT-5的43.8% [4] - 在计算机使用基准OSWorld测试中以61.4%的成绩位居首位,相比四个月前Sonnet 4的42.2%有大幅提升 [4][13] - 在金融分析测试Finance Agent中取得55.3%的准确率,高于Claude Opus 4.1的50.9%和GPT-5的46.9% [4] 全新功能与产品升级 - Claude Code新增“检查点”功能,支持随时保存进度和回滚,并更新了终端界面及推出原生VS Code插件 [6] - Claude API增加上下文编辑功能和记忆工具,使智能体能运行更久并处理更复杂的任务 [6] - Claude apps支持在对话中直接执行代码、生成文件(包括表格、幻灯片和文档) [6] - 向开发者社区推出Claude Agent SDK,开放驱动Claude Code的底层基础设施 [8][9] 专业用户验证与实际应用效果 - iGent AI CEO表示,Claude Sonnet 4.5能自主编程超过30小时,帮助工程师在极短时间内完成原本需数月的复杂架构工作 [22][23] - replit内部测试显示,代码错误率从Sonnet 4的9%降至0% [22] 安全性与对齐性改进 - Sonnet 4.5是迄今为止对齐性最好的Claude模型,在减少迎合、欺骗等行为方面成效明显,并特别加强了对提示注入攻击的防御 [28] - 模型按照AI Safety Level 3框架发布,包含针对化学、生物等内容的分类器过滤机制,与Sonnet 4相比误报率已降低十倍 [31] API新特性与定价 - API层面重要更新包括记忆工具、上下文编辑、新的停止原因提示及工具参数改进 [34] - 定价保持与Sonnet 4一致,输入为3美元/百万Tokens,输出为15美元/百万Tokens [35] - 模型可通过Claude API、Amazon Bedrock、Google Cloud Vertex AI及Claude.ai与Claude Code平台使用 [37] 研究预览与行业影响 - 发布临时研究预览“Imagine with Claude”,该功能可实时生成软件演示视频,向Max订阅用户开放5天 [33] - 该版本被视为编程领域的重大跃升,预计将引发新一轮AI编程大战,成为行业争相对标的新对象 [40]
余承东新任命:IRB主任
每日经济新闻· 2025-09-30 07:21
余承东有了新任命。 据媒体29日报道,华为内部最新发布任命文件,华为常务董事、终端BG董事长余承东被任命为华为产品投资评审委员会(IRB)主任,任命文件由任正非 亲自签发,这意味着余承东又多了一个管理职位。 图片来源:华为官网截图 有媒体引述内部人士话语称,余承东增任IRB主任,主要使命是带领华为打赢人工智能(AI)关键战役,取得全球领先地位。 截至发稿,华为官网仍未更新余承东最新职位,仍为"华为常务董事、终端BG董事长"。 据记者了解,IRB(投资评审委员会)是华为产品投资决策的最高机构,负责公司级资源分配、跨业务协同和长期战略规划。IRB主任需协调产品线、研 发、供应链等多部门,直接参与核心投资决策,IRB控制华为研发预算与重大投资,主任拥有项目否决权。"这意味着余承东将负责整个华为公司的投资决 策。"知情人士对记者表示。 而到远期阶段,智能体将重构产品与体验,AI PC等新产品引发办公革命,具身机器人成为人们的贴身助手,有望开拓出十万亿美元产业。 华为在《智能世界2035》报告中预测,智能世界正在加速到来,具身智能将跨越鸿沟,形成多个万亿级产业。超过90%的中国家庭将拥有智能机器人。人类 将逐渐进入全息 ...
余承东 增任关键新职务
上海证券报· 2025-09-29 23:45
余承东有了新任命。 9月29日,记者从接近华为的消息人士处获悉,华为公司今天任命余承东为公司产品投资评审委员会(IRB)主任,任命文件由任正非亲自签发。 据悉,华为产品投资评审委员会的核心职能是对公司重大战略方向的资源投入、项目立项、预算审批等关键决策进行评估与把控,确保资源向核心战略目 标高效倾斜。 据华为内部人士分析,余承东增任IRB主任,主要使命是带领华为打赢人工智能(AI)关键战役,取得全球领先地位。 余承东仍然担任华为常务董事、终端BG董事长,掌管华为终端、鸿蒙智行等业务。 该任命也意味着AI在华为内部已上升至新的高度。 华为在《智能世界2035》报告中预测,智能世界正在加速到来,具身智能将跨越鸿沟,形成多个万亿级产业。超过90%的中国家庭将拥有智能机器人。人 类将逐渐进入全息生活空间的时代,家庭场景将迎来由技术驱动的沉浸式变革。 华为预测,未来十年智能体也将驱动各产业发生范式革命。早期,智能体聚焦于提升运营与办公效率,化身客服、销售与办公助手,催生出千亿美元产 业。中期,它会变革生产方式,比如在AI药物研发、专业服务咨询等领域,大幅降低科研与生产成本,有望缔造万亿美元产业。而到远期阶段,智能体 将 ...
5000亿元!国家发改委重磅宣布!
金融时报· 2025-09-29 19:16
8月份部分经济指标出现了波动,在消费增速放缓、投资增长乏力、出口面临不确定性的情况下,全年经济增长目标能否按计划实现? 针对这一问题,李超表示,从全局全貌看,尽管面临外部压力,但在宏观政策持续发力等因素带动下,我国经济运行总体平稳,高质量发展扎实推进。从 供给侧看,生产平稳增长,制造业、服务业的重点领域增势良好。从景气程度看,工业企业利润明显改善。从需求侧看,政策效能持续显现,展现出较强 的韧性和抗压能力。 9月29日,在国家发展改革委召开的新闻发布会上,国家发展改革委政策研究室副主任、新闻发言人李超就经济领域热点问题进行了回应。 新型政策性金融工具 规模共5000亿元 李超表示,为促进金融更好服务实体经济,推动扩大有效投资,国家发展改革委会同有关方面积极推进新型政策性金融工具有关工作。新型政策性金融工 具规模共5000亿元,全部用于补充项目资本金。 "我们正在会同有关方面,抓紧将新型政策性金融工具资金投放到具体项目,后续将督促各地方推动项目加快开工建设,尽快形成更多实物工作量,推动 扩大有效投资,促进经济平稳健康发展。"李超表示。 我国经济运行总体平稳 面清洁,有效提高生活品质;智能可穿戴健康设备可以随时为 ...
附下载|业内首份企业级智能体产业落地研究报告:从场景试点到规模化应用实践
腾讯研究院· 2025-09-29 16:03
智能体范式转变 - 人工智能正从辅助工具向自主生产力发生深刻的身份跃迁,推动AI从被动执行者进化为能够自主理解目标、规划路径、调用工具的数字员工[6] - 大型语言模型在推理、规划与工具调用能力上的飞跃是变革背后驱动力,思维链与反思机制赋予智能体类人的规划与纠错能力[7] - 智能体应用形态百花齐放,在个人生活领域演变为数字伙伴,在企业运营中以嵌入式或产品化形态深度融入核心业务流[8] - 智能体能力边界从数字世界向物理世界延伸,与机器人、自动驾驶等硬件深度融合推动具身智能发展[9] 智能体核心能力与结构 - 智能体具备大脑(自主规划)与双手(工具调用)的协同结构,通过无缝调用API、数据库与应用程序将模型思考转化为真实行动[7][8] - 多个智能体构成的协同网络正以虚拟项目组形式自主完成软件开发、市场研究等复杂项目,预示着全新组织形态与生产关系正在形成[8] 企业级智能体应用场景评估 - 报告创新提出智能体场景罗盘,以任务复杂度和自主规划依赖度为坐标划分高效助手、执行专家、决策专家、全能专家四大象限[19] - 为企业提供覆盖金融、零售、医疗、教育、制造、出行、政务等14大行业100多个典型智能体应用场景参考[19] - 智能体规模化落地面临训推成本高昂、模型幻觉与泛化性问题、安全防护等六大挑战[19] 行业先锋实践案例 - 华住集团打造7×24小时全能酒店管家,住客提出需要一瓶水后,AI管家可在5秒完成响应并调度机器人完成配送[20] - 绝味食品AI会员营销智能体由人群洞察、智能选品等5个子Agent协同工作,在对比测试中AI组销售业绩是人工组的3.1倍[20] - 邯郸公积金边聊边办数字柜台将退休提取业务办理时间从15分钟缩短至3分钟,提速超过80%[20] - 碧桂园服务构建一问知识库与问答机器人,接入30多个业务系统提供7×24小时自动答疑[20] - 运达能源科技集团装配支持智能体通过自然语言快速理解现场提问,显著减少人员查找资料和等待支持时间[20]