大模型智能体

搜索文档
RL 圈的夏夜之约!12 人唠嗑局:当强化学习撞上大模型 Agent
机器之心· 2025-07-08 12:09
强化学习新范式探索之夜活动概况 - 活动主题为强化学习新范式探索 聚焦从基础模型到Agent的进阶之路 [3] - 活动时间定于2025年7月26日19:00-21:10 与WAIC展会形成联动 [3] - 活动地点位于上海世博展览馆附近 采用12人封闭式深度交流模式 [3][7] 核心讨论议题 - 探讨强化学习与大模型智能体的协同效应 分析技术组合优势 [4] - 辩论训练推理环节的策略选择 平衡探索新方法与保持稳定性 [4] - 研究智能体对齐评估体系 提升智能体执行效率与可控性 [4] 参会专家阵容 - 清华大学交叉信息研究院助理教授吴翼 代表学术理论研究前沿 [5] - OPPO AI个性化实验室负责人周王春澍 提供产业落地实践经验 [5] - Pokee AI CEO朱哲清 分享创业公司技术商业化案例 [5] 目标参会群体特征 - 学术界研究人员需携带最新研究成果与未解决问题 [6] - 产业界从业者需准备实际应用案例与解决方案 [6] - 创业公司代表需提出产品技术痛点与合作需求 [6] 活动差异化价值 - 采用小众深度交流形式 确保每位参与者充分输出观点 [7] - 设置非正式交流场景 促进跨领域灵感碰撞 [7] - 覆盖学术到产业全链条资源 构建高质量技术社交网络 [7]
【焦点】香港中文大学(深圳) 赵俊华:大模型智能体在电力系统中的应用初探
搜狐财经· 2025-06-29 21:01
人工智能发展历程 - 决策式AI阶段(1950s~1980s):以逻辑程序和专家系统为主,1956年首次人工智能研讨会召开标志着领域诞生,1965年Logic Theorist程序实现数学证明推理[4] - 技术积淀阶段(1980s~2010年):1986年Backpropagation算法突破,1997年Deep Blue击败国际象棋冠军,2006年深度学习技术发明[4] - 快速发展阶段(2011-2016年):2011年IBM Watson在Jeopardy获胜,2014年GAN出现,2015年AlphaGo战胜围棋冠军[4] - 爆发阶段(2017年至今):2017年Transformer架构提出,2018年GPT/BERT发布,2022年ChatGPT推出,2024年Sora面世[4] 大语言模型技术架构 - 预训练三要素:大数据(无标注文本)、大模型(深度神经网络)、大算力(并行计算集群)[11][12][13] - 训练流程:预训练(月级/千级GPU)→有监督微调(天级/百级GPU)→强化学习(天级/百级GPU)[22] - 微调技术:LoRA方法仅需训练百万参数,效果媲美全参数微调,GPU需求降至3090*4级别[15][20] - 强化学习:通过RLHF量化人类喜好,训练打分模型优化最终输出[18][19] 智能体关键技术 - 工具使用:通过API调用、搜索引擎、代码执行等扩展能力[26][27] - 任务分解:实现复杂任务的子目标拆解与试错机制[28][30] - 长期记忆:存储经验、知识、技能,支持读写持久化[31][32][33] - 自主学习:结合权重微调、提示优化、自我反思等多路径提升[35][36][38] 电力系统应用场景 - 负荷预测:ITA-LF框架整合新闻文本,预测准确率达94.7%,显著优于LSTM(82.08%)和SARIMA(89.93%)[64][68][71] - 调度系统:构建70b参数调度大模型集群,支持检修单成票(94.46%准确率)、规程检索问答(RAG召回率58.7%)[77][91][94] - 市场仿真:多代理模型实现碳市场均衡分析,量化价格弹性系数(煤炭企业7,278吨/元)[113][115][120] - 机理研究:AI4S框架处理10万节点电网建模,年算例超10亿,推动动态建模与稳定性分析[125] 技术融合路径 - 模型融合:推理大模型+PINN+因果模型+符号模型,保留准确性同时提升计算速度[54][56][58] - 人机协同:必要场景引入人工反馈,作为最终决策质量判定者[56][59] - CPSSE仿真:结合真人、因果模型和大语言模型,构建数字孪生系统[62] - 范式演进:从参数学习(机器学习)→提示工程(大模型)→机制工程(智能体)的能力获取转变[40]
大模型智能体如何突破规模化应用瓶颈,核心在于Agentic ROI
机器之心· 2025-05-30 12:16
大模型智能体可用性瓶颈 - 当前大模型智能体应用主要集中在专业领域如代码生成、科研辅助等,在大众日常场景中普及率较低 [1] - 核心制约因素并非模型能力不足,而是Agentic ROI(投资回报率)未达实用化门槛 [1][3] - Agentic ROI衡量信息收益与使用成本比值,需同时满足信息质量阈值和成本节省比例要求 [4] Agentic ROI关键构成要素 - Information Quality:智能体生成信息的准确性和完整性 [5] - Human Time/Agent Time:人类与智能体完成任务的耗时对比 [5] - Interaction Time:用户与智能体交互过程的时间消耗 [5] - Expense:模型调用和API使用的经济成本 [5] 当前应用场景矛盾 - 高人力成本场景(如科研)因替代效应显著而ROI较高 [7] - 日常场景(如电商)因任务简单且交互成本低,智能体边际价值不明显 [7] - 额外交互成本和延迟导致日常场景Agentic ROI偏低 [7] 发展路径优化策略 - 采用「之字形」发展模式:先规模化提升信息质量,后轻量化降低使用成本 [8][9] - OpenAI模型系列(o1-mini到o3-mini)验证该路径有效性,新一代小模型在保持性能同时降低60%推理费用 [9] 规模化提升阶段 - 预训练规模化:扩大模型参数/数据量,扩展上下文窗口和记忆机制 [11] - 后训练规模化:通过用户反馈构建数据飞轮实现持续优化 [12] - 推理时规模化:构建多模态世界模型,支持复杂任务处理 [13] - 多智能体协作和工具调用扩展可提升任务分解能力 [15] 轻量化优化阶段 - 记忆机制复用历史知识减少重复计算 [18] - 模型压缩技术可降低50%推理延迟而不显著影响性能 [18] - 优化推理策略避免冗余链条,硬件升级(如Groq芯片)提升实时响应 [18] - 主动意图理解设计可降低30%用户交互时间 [18]
探元计划香港站|AI 赋能历史溯源,解码九龙寨城中华文脉基因
腾讯研究院· 2025-05-23 15:47
探元计划2024香港场景活动 - 活动聚焦文化与科技融合 推动文化遗产数字化保护 来自文化 技术 运营领域的专家共同参与[1] - 活动包括实地调研九龙寨城公园 香港历史博物馆 现场体验大模型智能体 AI互动叙事游戏与三维虚拟空间[3] - 项目成果将在深圳文博会和香港书展展出[13] 项目背景与发起方 - 探元计划由国家文物局科技教育司指导 中国文物信息咨询中心 腾讯SSV数字文化实验室等联合发起[3] - 香港联合出版集团与华粹星光公司合作开展"在九龙城 阅见香港"项目[3] - 项目从全国81个文化需求场景中脱颖而出 入选探元计划六大文化共创场景[4] 项目技术应用 - 开发多模态知识智能体 支持两文三语交互 助力用户了解九龙城历史并创作故事[4] - 设计AI互动叙事游戏 以寻物解谜玩法激发历史文化探索兴趣[4] - 构建九龙寨城三维虚拟空间 还原不同历史时期风貌[4] 项目意义与目标 - 通过数字科技活化出版资源 构建AI赋能的沉浸式文化场景[9] - 增进香港居民对国家身份认同 向海外展现中华文化影响力[9] - 解决历史记忆碎片化 青年认知片面化等文化传承挑战[10] 专家研讨重点 - 强调技术与文化双向赋能 借助大模型提升传播精准性[11] - 推动用户参与从单向输出向共建共享转变[11] - 聚焦教育与文旅场景 构建可持续发展模式[11] 项目创新路径 - 技术应用创新:重构故事创作生产线[10] - 内容传播创新:游戏化沉浸体验激活传播场景[10] - 持续生态创新:开放知识库鼓励社会共创[10]