Workflow
GPT4
icon
搜索文档
“AI 教父”Geoffrey Hinton 首度在华演讲:AI 恰似一只小虎崽,而人类本身是大语言模型?
AI前线· 2025-07-27 12:30
人工智能发展路径 - 人工智能发展存在两种范式:逻辑型范式(基于符号规则和推理)和生物型范式(基于神经网络连接学习)[4] - 1985年尝试将两种理论结合 通过特征向量建模词语理解 不存储句子而是生成预测[4] - 30年间技术演进路径:Yoshua Bengio扩大特征建模→计算语言学采用特征嵌入→谷歌发明Transformer[5] 大语言模型原理 - 大语言模型是微型语言模型的扩展 通过多层神经元结构处理复杂特征交互 与人类理解语言方式高度相似[7] - 词语理解采用"乐高积木"比喻:每个词是多维特征组合 通过动态"握手"方式实现语义连接[8][9] - 模型通过特征整合实现理解 其机制类似蛋白质氨基酸组合 产生有意义的内容[9] 数字智能优势 - 数字智能实现软件硬件分离 知识可永久保存且跨硬件复现 功率效率比生物脑高30倍[10] - 知识传递效率差异显著:人类每秒最多传递100比特 AI通过权重共享可实现每秒万亿比特传输[11][12] - 分布式智能体系统可加速学习 多个拷贝同时运行并共享权重 比单体学习效率高数十亿倍[12][13] AI发展现状与挑战 - AI已具备自我复制和设定子目标能力 存在获取更多控制权的内在倾向[14] - 技术不可逆性:AI提升各行业效率(医疗/教育/气候变化) 任何国家单方面禁用都不现实[14] - 当前AI治理类似"饲养虎崽" 需建立国际协作机制确保AI发展符合人类利益[14][17] 国际合作建议 - 参照冷战时期核管控经验 各国可在AI安全领域开展合作 建立主权AI研究网络[15][17] - 提议组建跨国AI安全机构 专项研究控制超级智能的技术 共享"AI向善"方法论[17] - 核心挑战是开发控制比人类更聪明AI的技术 这是人类长期生存的关键问题[17] 行业活动 - 首届AICon全球人工智能大会将于8月22-23日在深圳举行 聚焦Agent/多模态/AI产品设计等方向[18] - 会议将展示大模型降本增效案例 汇集头部企业及创业公司的前沿实践[18]
大模型强化学习,相比PPO,DPO 还是个弟弟?
自动驾驶之心· 2025-06-22 22:09
DPO与PPO的对比研究 - 论文指出当前开源榜单上DPO占据领先位置,但顶级闭源模型如GPT4和Claude仍采用PPO方案,引发对两者实际优势的探讨[1] - DPO存在与PPO类似的reward hacking问题,即可能产生不符合人类偏好但能获得高奖励的解决方案[2] - 理论分析表明PPO导出的策略是DPO导出策略的真子集,DPO可能产生偏离参考策略的解[3] - 实验数据显示在编程比赛等硬核任务上PPO显著优于DPO,如Code Llama 34B模型在APPS测试集上PPO达到44.4%通过率,而DPO-Iter为34.2%[11] DPO的缺陷分析 - DPO在偏好数据集未覆盖的数据点上可能分配过高概率,导致无法预期的行为[6] - 表格数据显示DPO在安全相关指标上表现较差,如Helpfulness为-4.19,Harmfulness为-0.97,Safety Rate仅55.4%[7] - 通过SafeSFT、迭代DPO和数据过滤等方法可提升DPO性能,但仍无法超越PPO[8] PPO性能提升关键因素 - 采用优势函数规范化、大Batch训练和参考模型滑动更新三项技术可显著提升PPO性能[9] - 实验显示当batchsize太小时PPO性能甚至差于SFT[9] - 在编程任务中PPO刷新了SoTA,如Code Llama 34B模型在测试集上达到22.4%通过率,显著高于DPO的0%和DPO-Iter的3.2%[12] 编程任务实验结果 - 在APPS测试集上,Code Llama 34B模型PPO方法在Intro、Inter和Comp三个难度级别分别达到44.4%、18.0%和9.1%通过率[11] - PPO在编程任务中直接利用测试用例结果作为奖励信号,无需人工标注或训练奖励模型[13] - 对比实验显示DPO训练失败产生无意义结果,而PPO刷新了该领域的最高水平[13]
从AI上下半场切换看产业后续投资机会
长江证券· 2025-06-05 10:49
报告行业投资评级 - 看好,维持 [5] 报告的核心观点 - AI是典型的周期性成长行业,历史上经历三次“浪潮”起伏,每轮AI技术创新周期分上下半场,上半场聚焦模型和方法创新,追求模型智力极限,算力为王;下半场转向定义问题,推动AI与现实场景融合落地变现,应用为王 [7][11] - 本轮大模型技术周期起源于Transform框架,带来涌现效应和Scalling Law,推动AGI实现,AI从机械智能向类人智能转化,后续大模型演进更多偏向应用效果提升 [14][18][22] - 复盘2023年以来AI行情,多轮行情由模型侧不同边际大变化驱动,AI应用投资短期要把握不同场景奇点爆发,中期要把握Agent AI原生应用范式变革,云是现阶段AI下半场产业投资的核心 [31][35][40][63] 根据相关目录分别进行总结 AI本质及发展历程 - AI是生产力革命,历史上经历三次“浪潮”:20世纪50 - 70年代为起步阶段,因算法理论和计算机性能问题无法推广应用;80 - 90年代以专家系统和日本第五代计算机为代表,推动AI从理论走向实践;2000年以后以机器学习、深度学习为代表,在细分领域取得巨大进步并规模化落地 [7] AI技术创新周期上下半场 - 上半场聚焦模型和方法创新,追求模型智力极限,算力为王,核心指标为巨头认可、模型智力斜率变化;下半场转向定义问题,推动AI与现实场景融合落地变现,应用为王,核心指标为AI系统构建、产品能力节点 [11] 本轮大模型技术周期影响 - Transform框架带来涌现效应和Scalling Law,推动AGI实现,AI从机械智能向类人智能转化,生成式AI带来理解、生成、逻辑和记忆四大核心能力,从感知智能向认知智能转化 [14][18] 后续大模型演进情况 - 短期智力天花板逐渐显现,模型后续升级更多偏向应用效果提升,如效率提升、逻辑提高、全模态发展等 [22] AI应用落地阶段 - AI落地分为辅助人工、替代人工、超越人工三个阶段,大模型助力软件开发生产力大幅提升 [28] AI行情复盘 - 2023年以来多轮行情由模型侧不同边际大变化驱动,2023年3 - 7月行业普涨,光模块表现亮眼;2024年3月kimi实现长文本突破,办公软件阶段性上涨;2025年Agent智能体加速落地,相关公司涨幅明显 [31] AI应用投资短期策略 - AI应用核心问题是面对不确定性,商业化奇点较晚,投资要把握不同场景奇点爆发,报告列举了不同分类、场景下公司的业务、市值、涨跌幅等信息 [36][37][38] AI应用投资中期策略 - 把握Agent AI原生应用范式变革,Agent与Workflow可融合成智能体系统,Manus工作流程构建完整自动化链路,大模型能力提升,AI Agent智变元年已至,基于大模型的应用对智算算力需求日益提升,大厂推动MCP生态,Agent执行能力大幅提升 [44][48][52][55][62] 云在AI下半场产业投资中的核心地位 - 大模型日均调用量持续攀升,促使云服务需求上升,大厂云市场份额领先,预计图像、视频类大模型调用量将起量,云是反应应用落地情况的核心指标,国内有望复制海外云重估路径 [63][67]
Agent初具技术雏形,重点关注三大演化方向
国投证券· 2025-05-20 16:19
报告行业投资评级 - 领先大市 - A,维持评级 [6] 报告的核心观点 - 人工智能技术迈向自主行动阶段,分为 Agent、具身智能两个方向,聚焦 Agent 梳理技术构成与演进阶段 [1][16] - 2023 年至今模型迭代快,推动 Agent 产品感知、规划、记忆能力提升,成本下降 [1] - MCP 协议有望推动 Agent 工具生态建立,当前处于 workflow 到 Agent 过渡期,类比自动驾驶规则驱动阶段 [2][3] - Agent 产品早期探索,产业链关注模型开源与闭源之争、科技大厂布局、工具层机会 [3] 根据相关目录分别进行总结 技术层:模型与工具能力显著进化,类比自动驾驶规则驱动阶段 - 发展路径:人工智能迈向自主行动阶段,应用场景分 Agent 和具身智能,前者在数字世界交互,后者借助硬件与现实交互 [16] - 关键技术:模型承担感知、规划、记忆职能,工具补充感知信息辅助行动,评估 Agent 关键标准为强大模型能力、强工具拓展性、强工程化能力 [19][20][22] - 模型:2023 年至今迭代快,感知、推理能力提升,成本下降,但存在幻觉问题和上下文窗口不足限制场景 [23][26][33] - 工具:调用工具方式有插件、函数调用、模拟人机交互,MCP 提供标准协议降低成本,A2A 关注 Agent 间通信,二者存在潜在竞争,主导权格局未清 [34][36][43] - 所处阶段:AGI 处于 L2 到 L3 过渡阶段,当前产品多为 AI Workflow,正从其向 Agent 过渡,类比自动驾驶规则到模型驱动演进 [47][50][52] 产业链:商业化模式仍处早期,关注三大主线下动态演化 - 主线 1:模型分闭源和开源模式,闭源能力强,开源成本低,DeepSeek 推动开源生态,开源与闭源之争影响大模型厂商商业化 [56][57][58] - 主线 2:2025 年头部科技大厂在 Agent 布局,产品以领先推理模型为基座,有网页浏览等功能,入局大厂分云厂商、大模型厂商、互联网大厂、硬件终端厂商,基于资源禀赋布局 [61][62][63] - 主线 3:MCP、A2A 推动产业链分化,工具层适合中小公司入局,目前 Agent 产品覆盖多场景,未来走向垂直场景,但模型与工具层边界待清晰 [65][66][67] 投资建议 - 利好算力基础设施,关注商汤、阿里巴巴、腾讯 [11][68] - 端侧硬件换机周期将至,关注小米集团 [11][68] - 端侧芯片性能需求增长 [68] - To C 关注现有 C 端应用和手机助手升级,关注小米集团、腾讯 [11][68] - To B 关注 Mass 软件平台和私有化部署服务商,关注第四范式、商汤、云从科技等 [11][68]
一手体验:首款通用Agent产品Manus,效果如何?
虎嗅APP· 2025-03-06 18:23
Manus产品能力 - 首款通用Agent产品Manus在GAIA评分上超越OpenAI的DeepResearch成为第一[7][8] - 整合OpenAI的DeepResearch和Claude的Computer Use功能并能自主编写代码[5] - 具备复杂任务拆解、规划和执行能力可自动在云端运行[23][24] - 交互设计优秀提供实时进度同步和可视化任务步骤[36][37][39] 技术性能 - GAIA测试包含466个多步骤实际问题分为三个难度级别[11][12] - 2023年人类在GAIA测试成功率90%而GPT-4仅15%[14] - 支持PDF转PPT、发票整理、股票分析等复杂任务[25][42][55] - 任务执行时间从几分钟到30分钟不等[40][52][63] 应用案例 - PDF转PPT案例展示完整任务拆解和执行流程[26][27][28][29][30][33][34] - 发票整理案例实现OCR识别和Excel自动生成准确率接近100%[42][43][44][45][49][50][53] - 股票分析案例生成交互式图文报告质量超越OpenAI[56][57][58][59][60] - 开源模型时间线案例展示30分钟生成能力[62][63] 行业影响 - 代表中国团队在AI领域的技术突破[69][70][71] - 将Agent工程推向新高度可能改变行业格局[65][69] - 需要清晰具体的prompt以获得最佳执行效果[66][67] - 2025年3月6日被视为AI发展重要里程碑[68][69]