Workflow
语言模型
icon
搜索文档
【焦点】香港中文大学(深圳) 赵俊华:大模型智能体在电力系统中的应用初探
搜狐财经· 2025-06-29 21:01
人工智能发展历程 - 决策式AI阶段(1950s~1980s):以逻辑程序和专家系统为主,1956年首次人工智能研讨会召开标志着领域诞生,1965年Logic Theorist程序实现数学证明推理[4] - 技术积淀阶段(1980s~2010年):1986年Backpropagation算法突破,1997年Deep Blue击败国际象棋冠军,2006年深度学习技术发明[4] - 快速发展阶段(2011-2016年):2011年IBM Watson在Jeopardy获胜,2014年GAN出现,2015年AlphaGo战胜围棋冠军[4] - 爆发阶段(2017年至今):2017年Transformer架构提出,2018年GPT/BERT发布,2022年ChatGPT推出,2024年Sora面世[4] 大语言模型技术架构 - 预训练三要素:大数据(无标注文本)、大模型(深度神经网络)、大算力(并行计算集群)[11][12][13] - 训练流程:预训练(月级/千级GPU)→有监督微调(天级/百级GPU)→强化学习(天级/百级GPU)[22] - 微调技术:LoRA方法仅需训练百万参数,效果媲美全参数微调,GPU需求降至3090*4级别[15][20] - 强化学习:通过RLHF量化人类喜好,训练打分模型优化最终输出[18][19] 智能体关键技术 - 工具使用:通过API调用、搜索引擎、代码执行等扩展能力[26][27] - 任务分解:实现复杂任务的子目标拆解与试错机制[28][30] - 长期记忆:存储经验、知识、技能,支持读写持久化[31][32][33] - 自主学习:结合权重微调、提示优化、自我反思等多路径提升[35][36][38] 电力系统应用场景 - 负荷预测:ITA-LF框架整合新闻文本,预测准确率达94.7%,显著优于LSTM(82.08%)和SARIMA(89.93%)[64][68][71] - 调度系统:构建70b参数调度大模型集群,支持检修单成票(94.46%准确率)、规程检索问答(RAG召回率58.7%)[77][91][94] - 市场仿真:多代理模型实现碳市场均衡分析,量化价格弹性系数(煤炭企业7,278吨/元)[113][115][120] - 机理研究:AI4S框架处理10万节点电网建模,年算例超10亿,推动动态建模与稳定性分析[125] 技术融合路径 - 模型融合:推理大模型+PINN+因果模型+符号模型,保留准确性同时提升计算速度[54][56][58] - 人机协同:必要场景引入人工反馈,作为最终决策质量判定者[56][59] - CPSSE仿真:结合真人、因果模型和大语言模型,构建数字孪生系统[62] - 范式演进:从参数学习(机器学习)→提示工程(大模型)→机制工程(智能体)的能力获取转变[40]
大佬面对面!斯坦福2025 CS336课程全公开:从零开始搓大模型~
自动驾驶之心· 2025-06-24 19:47
课程概述 - 斯坦福大学2025年春季CS336课程「从头开始创造语言模型」已全面上线网络 提供完整课程视频和主页链接[2][4] - 课程目标为引导学生从零开发语言模型 覆盖预训练数据收集 Transformer构建 模型训练及部署评测全流程[5] 师资团队 - 核心讲师Tatsunori Hashimoto为斯坦福计算机科学系助理教授 研究成果累计引用超3万次 研究方向聚焦机器学习模型性能权衡[3] - 联合讲师Percy Liang为斯坦福副教授兼基础模型研究中心主任 学术引用量超10万 主导多项AI领域研究项目[3] 课程模块 - 五大模块涵盖基础 系统 扩展 数据 对齐和推理强化学习 强调实践操作与深度技术掌握[7] - 实践要求包括Python编程能力 PyTorch熟练度 系统优化经验及数学基础(线性代数 概率统计等)[7] 实践作业 - 作业1要求实现BPE分词器 Transformer架构和Adam优化器 仅允许使用PyTorch原语进行模型训练[8] - 作业2聚焦GPU加速 需在Triton中实现Flash Attention 2及分布式并行优化[8] - 作业3涉及Scaling Law拟合 学生需在有限计算预算内通过训练API收集数据点[8] - 作业4侧重数据工程 要求完成Common Crawl数据清洗 去重及有害内容过滤[8] - 作业5要求实现监督微调 专家迭代等对齐技术 在Qwen 2 5 Math 1 5B模型上运行强化学习[8] 课程安排 - 18周课程包含16次讲座和2次嘉宾分享 内容覆盖分词 GPU并行 混合专家系统 推理优化等核心技术[9] - 作业周期与课程紧密衔接 例如第5周完成作业1提交后立即发布作业2 强化学习实践贯穿后期课程[9]
新鲜出炉!斯坦福2025 CS336课程全公开:从零开始搓大模型
机器之心· 2025-06-23 12:04
课程发布与师资 - 斯坦福大学2025年春季CS336课程《从头开始创造语言模型》已全面上线 提供课程视频和主页链接[1][5] - 讲师Tatsunori Hashimoto为斯坦福计算机科学系助理教授 研究方向为机器学习模型性能权衡 学术成果累计引用超3万次[2][3] - 另一位讲师Percy Liang为斯坦福副教授兼基础模型研究中心主任 学术引用量超过10万次 研究方向涵盖自然语言处理与机器学习[6][7] 课程内容与结构 - 课程目标为引导学生完成开发语言模型的全流程 包括数据收集、模型构建、训练及评估等环节[8] - 课程分为5个单元共19门课 涵盖token化、PyTorch应用、GPU优化、Scaling Law拟合、数据清洗及模型对齐等核心技术[10] - 实践作业包括实现BPE分词器、Transformer架构、Flash Attention 2优化及分布式训练等 要求学生直接使用PyTorch原语编程[10] 学习门槛与技能要求 - 需熟练掌握Python编程 课程作业代码量显著高于其他AI课程 涉及底层框架开发[11] - 需具备深度学习与系统优化经验 包括PyTorch应用及GPU并行计算能力[11] - 需掌握大学微积分、线性代数、概率统计及机器学习基础知识[11] 行业合作与资源 - 课程包含阿里巴巴达摩院研究员和Meta AI科学家的客座讲座 聚焦Qwen和Llama 3等工业级模型开发经验[10] - 提供Triton框架实现、Common Crawl数据处理等实战内容 强调工业级技术栈应用[10]
不是视频模型“学习”慢,而是LLM走捷径|18万引大牛Sergey Levine
量子位· 2025-06-10 15:35
语言模型与视频模型的对比 - 语言模型通过预测下一个词学习,取得了显著成功,其算法为下一词预测+强化学习微调[9][10] - 视频模型通过预测下一帧学习,但效果远不如语言模型,尽管视频数据信息更丰富[13][14][17] - 语言模型能解决复杂问题和推理,而视频模型仅能生成逼真视频[19][20] 语言模型的优势与局限性 - 语言模型调用人类总结的知识,模仿已有推理结果,形成"抄近路"效应[22][24] - 语言模型仅接触文本"影子"(人类认知投影),却比直接观察物理世界的视频模型更具推理能力[25] - 语言模型是对人类认知的"逆向工程",而非真正理解世界[26][33] 柏拉图洞穴的类比 - 互联网被比作洞穴,真实世界比作洞穴外阳光,AI通过语言模型学习人类知识如同看到洞穴墙壁上的影子[31][32] - AI目前依赖人类中介(文本数据),长期目标是通过传感器直接与物理世界交互[34][35] - 跨模态连接被视为突破洞穴困境的潜在方法,需建立视觉、语言、行动系统的共享结构[35] 研究背景与作者观点 - 人类心智复杂性可能源自单一算法,AI复现该算法可达到人类智能高度[7][8] - 作者Sergey Levine为UC伯克利副教授兼Google Brain研究员,学术引用18万次[2][3] - 研究提出AI需突破"影子依赖",将语言模型作为通用AI的起点[34][35]
完整版|谷歌创始人最新访谈,揭秘Gemini为什么突然变得这么强大?
36氪· 2025-05-26 08:49
谷歌AI发展现状 - 谷歌I/O大会发布了一系列AI创新功能包括搜索中的虚拟试穿反响热烈但仍有大量工作需完成交付[2] - 语言模型成为AI发展主要驱动力这一趋势在15年前并不明显DeepMind过去更专注物理基础[14] - 思维模型展现出惊人可解释性能清晰展示推理过程从安全角度看具有显著优势[14] 模型架构与技术演进 - 不同模态模型架构高度相似视频传播模型与文本语言模型共享大量Transformer核心技术[15] - 后训练阶段占比显著提升从99%预训练转变为80-90% 新增工具使用等功能增强模型能力[16] - Gemini 2.5 Pro实现技术飞跃在多数基准测试中保持第一2.5 Flash模型速度超快位列第二[20][21] 深度思考与推理扩展 - 谷歌开发五种不同方法实现深度思考模型可延长推理时间至数小时甚至数月以解决复杂问题[17] - 模型需突破长上下文输入限制当前支持百万级信息未来需实现无限上下文处理[18] - 从短期任务训练到长期开发存在显著技术差距需模型具备持续数天的思考能力[18] 谷歌创新战略与转型 - 公司需定期自我重塑从网页到移动再到AI转型凭借谷歌大脑和Transformer技术积累占据优势[19] - 2025年产品发布速度明显快于2024年Gemini系列模型迭代加速体现技术突破[19][20] - 原生音频功能耗时一年才正式推出需解决输入输出同步等技术难题[10] 生成式AI应用进展 - 生成媒体模型如Imagen和Veo 3实现超人级创作效率艺术领域突破远超人类专家水平[7] - 音频生成技术通过Diffusion实现与视频生成类似可观察训练过程中逐步优化的过程[10][12] - 文本模型已广泛应用于编码和数学问题解决可靠性持续提升但仍存在偶发错误[7]