Workflow
Agent
icon
搜索文档
腾讯邱跃鹏:推理需求爆发,云基础设施也要同步升级
华尔街见闻· 2025-09-16 16:04
作者 | 黄昱 2025年AI应用爆发,同时迎来Agent元年等背景下,推理需求暴涨。为了抓住这一机遇,云服务厂商也积极升级云基础设施,来满足市场需求。 9月16日,在2025腾讯全球数字生态大会上,腾讯集团副总裁、腾讯云总裁邱跃鹏表示,大模型产业重心从训练到推理的转变,已经成为行业共识。同时客 户对于使用大模型和建设Agent迸发出强烈热情,这都带来了推理需求的暴涨。 这也意味着,AI基础设施要同步升级。 近年来,腾讯云正不断升级云基础设施,以支撑Agent规模化落地和企业全球化发展。据邱跃鹏介绍,腾讯云已在推理加速、Agent Infra和国际化布局等方 面取得突破,并将以更加开放的姿态,助力企业把握时代机遇。 在推理加速方面,腾讯云深入参与开源贡献,向DeepSeek、vLLM、SGLang等社区提交了多项优化技术。同时,针对大模型推理面临的内存瓶颈,腾讯云自 研并开源FlexKV 多级缓存技术,大幅降低KVCache的占用,将首字时延降低多达70%。 同时,邱跃鹏透露,腾讯云依托异构计算平台整合多种芯片资源,向外界提供高性价比的 AI 算力。目前,该平台已全面适配主流国产芯片。 据悉,软硬件协同全栈优 ...
腾讯云总裁邱跃鹏:腾讯云已全面适配主流国产芯片
新浪科技· 2025-09-16 11:26
AI基础设施升级 - 腾讯云通过异构计算平台整合多种芯片资源提供高性价比AI算力 并全面适配主流国产芯片[1] - 大模型产业重心从训练转向推理 客户对Agent应用热情推动推理需求暴涨[3] - 自研FlexKV多级缓存技术将首字时延降低70% 对话时延降低57%[4] - 集成多token联合预测技术使生成速度提升35% 注意力数据并行功能使吞吐量提升30%[4] - MoE-Chunk技术支持超过256K超长输入 适用于长文档分析和复杂代码生成场景[5] 全球化基础设施布局 - 云基础设施覆盖全球55个可用区 部署3200多个加速节点 为超1万款游戏提供安全防护[1][10] - 在日本大阪和沙特新建可用区 全球设立9个技术支持中心 获得400多项专业认证[1][14] - 自研星星海服务器全球累计部署核数超2亿 旗舰SA9单机规格提升至768核[9] - 防护容量达25T(同比增长70%) 带宽储备达400T(同比增长100%)[13] 企业级解决方案创新 - 推出Agent Runtime解决方案 集成执行引擎/云沙箱/安全服务 提供100毫秒极速启动支持数十万实例并发[6] - 云沙箱通过MCP/SDK/API多种方式接入 具备严格身份权限管理和数据安全防护[6] - 专家服务智能体Cloud Mate集成超90%腾讯云产品 提供超100万次智能架构治理服务[7] - Cloud Mate对风险SQL拦截率达95% 累计检测超770万行代码 平均排障时间从30小时缩短至分钟级[8] 客户实践与性能提升 - 完成印尼GoTo集团超大规模迁移 管理1亿注册用户/10000台云主机/730+数据库实例/1000+微服务[13][14] - 5个月建成印尼第三可用区 交付500+定制化需求 进行5轮全链路演练[14] - 新一代TDSQL数据库在复杂查询场景下总时延下降80% 专有云TCE达到RTO 2分钟容灾能力[9] - EdgeOne Pages产品上线3个月助力超10万用户出海 互动直播组件客户数增长超300%[11][12] 行业领导地位与技术贡献 - 与AWS/Google/Microsoft同被评为全球游戏云平台领导者[10] - 深度参与开源社区 向DeepSeek/vLLM/SGLang提交优化技术[1] - 优化DeepEP使IB网络性能提升30% RoCE网络性能翻倍[3] - 支撑国家级活动8000万观众同时在线直播 保障亚太超一半正版英超直播[13]
张小珺对话OpenAI姚顺雨:生成新世界的系统
Founder Park· 2025-09-15 13:59
文章核心观点 - 语言是人类实现泛化的核心工具,是构建通用人工智能系统的最本质要素 [4][7][77] - AI Agent发展已进入下半场,重点从模型训练转向任务定义和环境设计 [5][62][63] - 创业公司最大机会在于设计新型人机交互界面,而非重复ChatGPT模式 [110][112][113] - 未来AI生态将呈现既单极又多元格局,由不同超级应用共同定义智能边界 [5][146][154] 姚顺雨背景与研究历程 - 清华姚班本科、普林斯顿博士,2019-2024年在普林斯顿攻读博士学位 [13] - 2016年接触多模态嵌入技术后转向深度学习,2018年系统性开始深度学习研究 [14][15] - 博士期间从计算机视觉转向语言模型研究,因认为语言是实现AGI的更核心方向 [15] - 专注Language Agent研究6年,2024年加入OpenAI [4][19] AI Agent技术演进 - 技术发展三阶段:符号主义AI(规则系统)→深度强化学习(环境特定)→大语言模型(泛化推理)[40][41][43] - 语言智能体与传统Agent本质区别在于具备推理能力从而实现泛化 [36][38][39] - ReAct框架成为最通用方案,实现推理与行动的协同 [26][50] - 代码环境是数字智能体最重要的"手",提供天然机器表达形式 [53][54][55] 任务与环境设计 - 当前瓶颈从方法创新转向任务定义和环境设计 [62][63] - 优秀任务需具备:结果导向奖励机制、基于规则的白盒评估、可解释性 [64][66][71] - 任务分类标准:可靠性需求型(如客服)vs创造力需求型(如证明猜想)[70][72] - 评估指标需区分Pass@k(多次尝试成功率)和Pass^k(每次成功率)[74] 产业发展与创业机会 - 模型能力溢出为创业公司创造机会,关键在于设计新型交互界面 [110][112] - 成功案例包括Cursor(编程副驾驶)、Manus(通用交互)、Perplexity(研究型搜索)[117][127][129] - 数据飞轮形成需三个条件:自主训练能力、清晰奖励信号、数据好坏分离 [123][124] - 成本不是核心瓶颈,真正关键在于找到价值超过成本的应用场景 [139][141] 未来生态展望 - OpenAI五级能力划分:聊天机器人→推理者→智能体→创新者→组织者 [44][45] - 未来12-24个月趋势:Chatbot系统自然演进为Agent系统,新型Copilot应用涌现 [165][166] - 记忆系统(Memory)将成为核心竞争壁垒,特别是上下文管理能力 [51][158][159] - 最终生态将由多个超级应用共同定义,呈现中心化与分布式并存格局 [146][152][154]
对谈 Macaron 创始人陈锴杰:RL + Memory 让 Agent 成为用户专属的“哆啦 A 梦”|Best Minds
海外独角兽· 2025-09-11 20:02
嘉宾:陈锴杰 访谈:Cage 编辑:Haozhen 随着 ChatGPT 加入 memory 功能,ChatGPT 的用户粘性进一步增强。在此基础上,Agent 的开发也进入了更加成熟的阶段: 过去大家主要依赖 prompting,只能构建基础的 Agent,如今通过 RL 和 memory 开发者可以开发出 Agentic 能力明显更强的 Agent。 这意味着 AI 的角色正在发生有趣的转变:AI 不再是仅仅帮你写代码、做 PPT 的助手,更有潜力成为一个真正懂你的生活伙伴,可以更加个性化 地完成日常任务。 为了更好了解这一趋势,我们访谈了 Macaron 创始人陈锴杰,锴杰分享了将 Memory 当作一种智能能力进行训练的经验,也强调了 RL 在 Agent 开发中的重要性。 Macaron 的产品最近引发了很多争议和讨论,锴杰坦言,如果满分是 100 分,自己只会给产品打 7-8 分,产品还有很大的提升空间, 他 期待未来 的 Agent 能成为用户专属的多啦 A 梦,既是有趣的伙伴,又能随时创造实用工具: • Multi-agent 系统可以将 Memory Agent 和 Coding agent ...
院士张宏江:Agent将替代企业流程,也会改变未来的人类组织构成
新浪科技· 2025-09-11 10:34
专题:2025 Inclusion·外滩大会 新浪科技讯 9月11日上午消息,今日外滩大会现场,源码资本投资合伙人,美国国家工程院外籍院士张 宏江表示,DeepSeek R1出现之后,跟当时世界上最好的推理模型之间的差距,成本上只有几十分之 一,性能却非常接近。说明其实在资源这件事情上,当成本降低之后,它的需求会更大幅度成长。 他提到,以ChatGPT发布为标志,大模型两年多时间,今年三月份,ChatGPT的日活跃已经接近搜索引 擎的30%,说明大模型已经成为大家日常。还能看到的是,无论是OpenAI的ChatGPT还是其他,各家公 司使用大模型也在加速。 AI曾经是我们的助理,但是这个助理的时间很短,很快将会变成我们的伙伴,他表示,AI会有自己的 规划和行动,这是人和机器、人和模型的新的关系。他总结,Agent将替代企业流程,也会改变未来的 人类组织构成和就业。(罗宁) 责任编辑:江钰涵 张宏江表示,模型性能快速提高,使用成本快速降低。而这件事会伴随大模型的发展持续发生。大模型 的生态又在推动很多产业发生Scaling Law,并带动整个经济的发展。 张宏江提到agent的规划能力指数性成长,并出现摩尔定律 ...
李飞飞的答案:大模型之后,Agent向何处去?
虎嗅APP· 2025-09-07 10:51
Agent AI核心框架 - 提出由环境与感知、认知、行动、学习、记忆五大模块构成的智能体认知闭环架构 这代表对未来通用人工智能发展路径的前瞻性思考[10][12][17] - 感知模块具备多模态信息接收能力和任务规划与技能观察功能 使智能体能主动从物理或虚拟世界获取信息[12] - 认知模块作为处理中枢 由大语言模型和视觉语言模型提供世界知识、逻辑推理和上下文理解能力[14] - 行动模块通过控制器生成物理世界交互指令或虚拟世界API调用[15] - 学习模块支持预训练、零样本/少样本学习、强化学习和模仿学习等机制 实现持续自我进化[16] - 记忆模块采用持久化结构化系统存储知识、逻辑和推理结果 支持长期经验积累[17] 大模型驱动机制 - 大型基础模型特别是LLM和VLM的成熟是Agent AI框架的根本驱动力 为智能体提供零样本规划能力[20] - 大模型存在的"幻觉"问题可通过环境交互机制解决 环境反馈能迫使模型内部知识与外部现实对齐[21] - 基础模型存在社会偏见风险 需通过多元化数据训练和偏见检测机制确保包容性[22] - 个人数据隐私保护需建立明确法规框架 通过提示工程和人类监督层确保安全可控[22] 游戏领域应用 - 彻底改变传统NPC由固定脚本驱动的模式 实现基于记忆、目标和情感的动态行为调整[25] - 支持玩家用自然语言与游戏世界互动 为开放世界游戏带来前所未有的沉浸感和自由度[25] - 可作为创作者副驾驶 根据指令自动生成游戏关卡、道具和完整3D场景 大幅提升开发效率[25] 机器人领域应用 - 用户可用日常语言下达指令 机器人自主规划执行复杂物理操作 如GPT-4V可将人类演示视频转化为可执行任务序列[27] - 通过领域随机化技术在模拟训练中引入变化 增强对真实世界差异的鲁棒性[27] - 融合视觉、语言、触觉等多模态信息理解环境 实现更精准的物理交互[27] 医疗健康应用 - 作为医疗聊天机器人进行初步问诊和病史收集 基于医学知识库提供诊断建议 提升初级诊疗覆盖率[29] - 连接实时更新的医学数据库 在生成诊断时同步进行事实核查和来源引用 抑制模型幻觉[29] - 处理分流患者信息并监控慢性病患者生命体征 实现高效个性化健康管理[31] 发展挑战与方向 - 需解决视觉、语言、听觉、动作等多模态深度融合问题 而非浅层拼接[32] - 需训练能跨游戏、机器人和医疗等不同领域工作的通用智能体 而非定制化模型[32] - 建立科学评测体系至关重要 研究团队已提出CuisineWorld多智能体协作基准和VideoAnalytica视频理解基准[32]
跨学科注意力机制访谈系列开篇
36氪· 2025-09-05 11:48
绿洲资本AI投资布局 - 2023年上半年完成AI和具身智能方向核心投资组合构建 近二十个项目包括MiniMax、Vast、Boson、逐际动力、千寻智能、极壳科技等[1] - 投资逻辑基于对AI创新能级的判断 认为这是超越工业革命级别的创新 时间更短 能级更大[1] 技术认知演进路径 - 首次深度访谈形成核心认知:大模型本质是未来基础设施 智能将被标准化管理和分发 类似电力系统[2] - 第二次访谈聚焦Agent领域 提出Agent不是割裂工具 而是由大模型驱动的需求与智能一体化服务[4] - 2023年年中Agent尚未成为主流 缺乏统一理论认知 绿洲率先布局该领域[3] 注意力机制技术突破 - MiniMax发布Flash Attention技术 在Transformer架构内部优化注意力模块 显著提升训练与推理算力效率[7] - Attention机制已突破模型结构优化 渗透至脑科学、认知科学、心理学等多学科领域[7] - AI学习注意力的过程正在帮助人类重新理解自身感知与认知机制[7] AI技术发展双重路径 - 全球学者在Transformer结构上进行更大规模训练[8] - 认知结构和算法框架层面持续创新 推动AI掌握注意力机制[8] - 技术探索从教会机器理解注意力 转向构建可扩展的新范式[6] 人类注意力系统挑战 - 人类平均每日拿起手机超过500次 注意力持续时间压缩至不足100秒[11] - 从长篇电影到短视频 从深度阅读到信息切片 人类注意力窗口持续衰减[11] - AI将信息获取与响应速度提升至前所未有的水平 可能进一步削弱人类注意力[11] 未来研究方向 - 探索人类与AI共同构成系统中注意力的本质含义[10] - 研究当Agent成为社会主要生产者时 人类注意力机制面临的挑战[10] - 关注注意力管理作为人类自我管理的核心要素[11]
李飞飞的答案:大模型之后,Agent向何处去?
虎嗅· 2025-09-05 08:34
论文核心观点 - 李飞飞领衔的14位专家团队发布80页Agent AI综述 提出统一的多模态智能体认知框架 为行业提供前瞻性发展蓝图 [1][2][3][5][6][61] 技术架构 - 建立感知-决策-行动加记忆与学习的五模块认知闭环架构 形成动态迭代的智能交互系统 [9][10][26] - 感知模块支持多模态信息输入 包含视觉听觉文本传感器数据 并具备任务规划与技能观察能力 [12][13][14] - 认知模块由大语言模型和视觉语言模型驱动 负责多步推理与策略制定 [16][17] - 行动模块生成物理世界或虚拟世界的操作指令 通过控制器改变环境状态 [18][19] - 学习模块支持预训练/零样本/强化学习/模仿学习等多种机制 通过环境反馈持续优化 [20][21][22] - 记忆模块实现持久化结构化存储 保留知识逻辑推理路径 支持经验复用 [23][24][25] 基础模型作用 - 大语言模型和视觉语言模型为智能体提供世界知识库与零样本规划能力 显著降低任务规则编写成本 [28][29][31] - 模型存在幻觉问题 Agent通过环境交互获得物理规律反馈 倒逼模型与现实世界对齐 [32][33][34][35] - 基础模型可能继承社会偏见 需通过多元化训练数据和偏见检测机制确保包容性 [36][37] - 在医疗等敏感领域需建立数据隐私保护框架 通过提示工程和人类监督层确保安全可控 [38][39] 应用场景 - 游戏领域可创建具备记忆情感的NPC 支持自然语言交互与动态行为调整 显著提升开放世界沉浸感 [41][42][43][44] - 作为AI副驾驶自动生成游戏关卡道具及3D场景 大幅提高开发效率 [45] - 机器人领域实现自然语言指令解析 自主规划复杂物理操作序列 [47][48] - 通过GPT-4V理解人类演示视频并转化为可执行任务 简化编程流程 [49] - 采用领域随机化技术增强模拟到现实的迁移能力 提升环境适应性 [50] - 融合视觉语言触觉等多模态信息实现精细环境交互 如根据"易碎"指令调整抓取力度 [51] - 医疗领域作为聊天机器人进行初步问诊病史收集 提升初级诊疗覆盖率 [54] - 连接实时医学数据库实现事实核查与来源引用 抑制模型幻觉保障诊断准确性 [55] - 处理分流患者信息并监控慢性病体征数据 实现高效个性化健康管理 [57] 发展挑战 - 需突破视觉语言听觉动作等多模态深度融合技术 而非简单拼接 [59] - 需开发跨游戏机器人医疗等不同领域的通用智能体 而非定制化模型 [60] - 建立科学评测体系如CuisineWorld多智能体协作基准和VideoAnalytica视频理解基准 [61]
中美 Agent 创业者闭门:一线创业者的教训、抉择与机会
Founder Park· 2025-09-04 20:22
文章核心观点 - Agent行业在2025年成为AI领域最热话题 但实际落地产品稀少 面临技术、商业化和交互设计等多重挑战 行业正从通用化转向垂直深耕 核心竞争壁垒将围绕环境理解、学习记忆和场景优化能力构建 [5][8][36] 技术实施挑战 - 新一代Agent Model的规划与工具调用能力提升 取代了大量基于规则的工作流编排等外围工程 导致早期工程化工作被大模型能力迭代淹没 [6][10] - 隐性知识获取是核心挑战 包括默会知识(如广告创意规则)、组织共识性知识(如字节各小组Golang使用差异)和企业自定义规则(如ACV计算标准) [11][12] - 环境构建成为实施重点 包含三要素:执行能力(Computer Use)、业务连接(企业系统工具化)和上下文载体(领域术语与企业知识) 其中Context质量决定实际落地效果 [13][14][15] 技术路线选择 - Workflow-based与Agentic技术路线将长期并行 Workflow适用于规则驱动型任务(如订单处理可节省10多人人力) Agentic更适合多步骤灵活任务(如数据分析) [16][17][19] - 企业过往积累的流程机器人和系统集成(如RPA资产)可转化为Agent工具 实现技术路线平滑过渡 [18] 商业化路径 - 大客户(KA)市场预算充足但实施成本高、决策链长 中小客户(SMB)市场呈现民主化机遇 AI将大组织专属运营能力标准化赋能中小企业 [21] - 分层并进策略:通过SMB市场验证产品价值和商业模式 用标准化案例撬动KA市场建立标杆 [21] - 巨头对AI推进持谨慎态度 因生产力提升难以量化 且更关注实际收入而非创新 [22] 产品战略方向 - 通用Agent留存率仅约10% 因场景深度不足(仅60分水平) 垂直Agent留存率可达20%以上 需从通用转向垂直深耕 [23][27] - PPT Agent案例显示 通过专用模型训练(内容检索与排版视觉)、工作流补齐(美化/按大纲制图)和企业知识库对接 可显著提升输出质量 [26][27] 人机交互设计 - GUI操作价值存在争议 但短期内难以绕过现有GUI应用体系 且GUI承载丰富上下文信息 若视觉理解能力提升可能重新凸显价值 [28][29] - 交互颗粒度设计需平衡用户偏好询问与自主推进 关键是通过学习机制记忆用户修正反馈(如LemonAI旅游规划案例) [30] - 借鉴管理学情境领导理论 需建立共享上下文机制使Agent理解权限边界和协作规则 最先进AI产品正尝试让Agent主动提出建议和请求协助 [31][32] 多Agent协作 - 多Agent落地核心矛盾在于上下文共享精度:共享过多退化为单体Agent 抽取不准导致交接失败 [33] - 有效路径采用任务分解加专家模型组合(类似MapReduce模式) 并引入异步协作机制平衡一致性、延迟和成本 [34] 模型能力演进 - Claude Code代表"模型即Agent"路径 Cursor代表"Agent下沉环境"路径 长期护城河在于环境操作、学习闭环、场景优化和多Agent协作标准 [36][37] - 需关注四大技术拐点:长期规划与连续行动能力(如Claude Code)、多模态深度融合、界面自动生成、Context Engineering与记忆机制 [38][39] - 多模型分工比单一超级模型更务实 各模型能力侧重不同:ChatGPT强于战略思考 Gemini覆盖面广 Claude规划与代码能力最强 [40][41][43] 学习记忆机制 - 学习能力是核心挑战 需从认知科学角度构建三类记忆:Semantic Memory(概念记忆)、Episodic Memory(情景记忆)和Procedural Memory(程序记忆) [42][44][45] - 当前AI缺乏Episodic Memory 因企业过程数据稀缺 需通过过程数据收集、人机协作轨迹学习和场景化学习机制建立情景记忆 [44][46] - 前沿探索包括LemonAI通过记录用户修改反馈改进推荐算法 实现从结果导向到过程导向的转变 [47]
李飞飞的答案:大模型之后,Agent 向何处去?
36氪· 2025-09-04 16:28
3、大模型是驱动 Agent 的核心引擎,但环境交互是解决幻觉和偏见的关键锚点。论文强调,LLM/VLM 提供认知能力,但必须通过真实或模 拟环境的反馈来校准现实,减少幻觉,并引入伦理与安全机制。 划重点: 1、李飞飞最新论文,为当下火热的 Agent 划定了边界、确立了范式。谷歌、OpenAI 和微软等巨头的最新布局,几乎都遵循了论文给出的能力 栈。 2、论文提出了一套完整的认知闭环架构——从感知、认知、行动,到学习与记忆,构成动态迭代的智能体体系。这不仅是技术的整合,更是 对未来 AGI 路径的系统性构想。 4、应用潜力横跨游戏、机器人和医疗三大前沿领域——游戏中的沉浸式 NPC、机器人中的自主规划与物理操作、医疗中的智能问诊与健康管 理,展现了 Agent 从理论走向实践的清晰路径。 2025年,被普遍认为是 Agent 的元年,与之相关的概念从年初至今热度持续走高,包括智能体、AI Agent、Agentic AI 等等。 而就在最近,一篇由李飞飞领衔的 Agent 重磅论文在业内引发了广泛讨论,热度居高不下。网友们如此评价:"几乎是跪着看完的"、"太清晰,硬控了我3 个小时"。 这篇长达80页的综述 ...