Workflow
Scaling Law
icon
搜索文档
“大就是好”,但技术男阿里云并不执著“上头条”
观察者网· 2025-09-29 17:46
资本市场反应 - 阿里巴巴CEO吴泳铭在云栖大会发表演讲后 公司港股股价当日大涨9.16% [1] 战略方向与投入 - 大模型被视为下一代操作系统 未来全球可能仅存5-6个超级云计算平台 [3] - 阿里云在三年3800亿AI基础设施建设计划基础上追加投入 [3] - 2032年阿里云全球数据中心能耗规模将提升10倍 [3] 技术进展与模型能力 - 通义千问Qwen3-Max成为万亿参数模型 在LMArena全球文本处理能力排名第三(1430分) 是前十名中唯一中国模型 [4][5] - Qwen3-Max预训练数据量从18T提升至36T 采用拆分Instruct/Thinking双版本架构 上下文扩展至1M [6] - 下一代基础模型Qwen3-Next采用超稀疏MoE架构 总参数量80B 仅激活3B即可媲美当前235B模型效果 [6][7] - 通义大模型全球下载量突破6亿次 衍生模型超17万个 成为全球第一开源模型 [10] 市场竞争格局 - IDC报告显示2025年上半年中国公有云大模型调用量达536.7万亿tokens 火山引擎以49.2%份额居首 阿里云以27%位列第二 [16] - Omdia报告显示同期中国AI云市场阿里云占比35.8% 相当于第二至四名份额总和 [16] - 沙利文报告指出超53%财富中国500强生成式AI企业选择阿里云 [16] 商业模式与定价策略 - 火山引擎采用低价策略 其豆包1.6模型按输入长度区间定价 使用成本降至前代三分之一 [18][19] - 阿里云明确不再以亏损代价扩大营收 2024年后未再全面降价 [20][21] 基础设施与芯片布局 - 阿里自研AI芯片接近英伟达H20水平 由国内晶圆厂代工且兼容英伟达生态 [25] - 平头哥在中国联通项目中提供16384张算力卡 交付1945P算力 [25] - 新一代HPN 8.0网络实现800Gbps存储带宽与6.4Tbps GPU互联带宽 支持10万卡GPU集群 [27] 行业技术趋势 - 超节点技术限于分布式推理场景 训练环节无显著提升且存在可靠性挑战 [23] - 字节跳动与台积电合作研发两款AI芯片 预计2026年量产 [27] - 华为云收缩传统云业务转向AI算力 与采用其昇腾芯片的阿里云/火山引擎形成竞合关系 [27]
人形与具身智能产业何以叩响“Scaling Law”之门?
机器人大讲堂· 2025-09-24 19:09
行业阶段与核心矛盾 - 人形机器人行业正从主题炒作迈向产业趋势投资前期,海外及国内企业已开启小批量量产 [1] - 行业核心矛盾并非能否出货,而是能否形成可持续的产业飞轮,当前交付多集中于科研、教育等ToG领域,本体企业主要扮演硬件卖铲人角色 [1] - 行业真正转折点在于机器人大脑的Scaling Law时刻,即智能随数据量和模型规模呈非线性提升,从而突破场景泛化能力瓶颈 [1] Scaling Law的挑战与瓶颈 - 硬件端成本高且方案未定型,以特斯拉Optimus Gen1为例,当前BOM成本仍处高位,目标未来降至2万美元/台 [3] - 行业缺乏统一技术标准,行星滚柱丝杠与微型丝杠、轴向磁通电机与无框力矩电机等方案并存,延缓了规模化降本进程 [3] - 软件端缺乏机器人版ChatGPT,机器人大脑面临运动数据模态复杂、真实场景采集成本高、专用场景数据缺失等数据困境 [3] 技术路线演进 - 双系统分层VLA(大小脑架构)凭借均衡性成为当前工程落地最优解,端到端VLA被视为通用AGI的终极方向 [4][5] - Figure的Helix系统采用快慢双系统协同,7B参数慢系统处理认知任务,80M参数快系统以200Hz高频实现毫秒级实时控制 [7] - 若未来算力芯片效率提升且低成本数据生成技术突破,端到端VLA仍是终极方向,但大小脑路线将作为行业过渡桥梁 [7] 商业化路径与场景落地 - 商业化遵循从ToG到ToB再到ToC的路径,当前ToG场景已实现小规模落地,国内本体价格下探至3.99万元 [8] - ToB场景成为关键战场,服装制造业是典型案例,全球缝纫工人约6000万人,年人工开支超万亿人民币,存在刚性替代需求 [8][9] - 大模型端到端架构改变现状,无需手动编程即可通过视觉识别面料特性,杰克科技方案已能解决单层面料分离难题,拟推进批量化应用 [9] - 2030年前后人形机器人将全面进入B端装配、质检、柔性搬运环节,2035年有望在家庭场景实现护理、家务协作 [9] 资本流向与生态建设 - 行业资本从重硬件本体转向重软件大脑,谷歌、英伟达等国外科技大厂已率先布局具身智能大模型 [11] - 2024年下半年起国内具身智能大模型赛道迎来融资潮,千寻智能2025年3月完成5.28亿元Pre-A轮融资,穹彻智能累计获数亿元融资 [11] - 平台化企业开始补位行业生态短板,仙工智能等企业正以控制器为核心搭建机器人大脑开发平台,连接本体厂商与零部件企业以提升效率 [11] 未来行业展望 - 行业终极目标是复刻新能源车、智能手机的非线性增长曲线,关键在于机器人大脑的Scaling Law时刻 [13] - 若未来两年内头部企业能在简单工业场景验证智能泛化能力并形成成熟硬件方案,行业将进入规模化增长阶段 [13]
百度及AI的前途
36氪· 2025-09-24 18:53
百度AI战略与搜索业务转型 - 百度搜索正经历十年来最大变化,全面AI化,支持长文本和多模态输入,但被认为仍是一种过渡状态,未完全摆脱搜索框限制 [1] - 百度文库业务定位为“一站式AI创作平台”,已开发内容操作系统和系列创作工具,团队规模达1200人,旨在消除内容创作门槛,超越流量逻辑 [1] - 公司布局AI时间早,2013年成立深度学习研究院,2017年明确AI为公司战略,但在近期百模大战中表现不突出 [20] 信息生态演变与行业竞争格局 - 互联网生态围绕信息、人与商品(服务)三类连接展开,对应BAT三巨头,算法分发模式由字节跳动异军突起,但未替代BAT原生生态,仅威胁衍生内容和直播业务 [2][8] - 搜索引擎曾通过关键字排序赋予全网信息结构,接管信息生态,但结果受SEO污染;算法分发则强化用户成见,商业成功但社会评价稍逊 [3][8] - 算法分发将人降级为信息标签,导致内容同质化、标签极化,作者配合标签生产,平台最大化流量商业模式,引发信息过载与社会对抗性议题放大 [5][6][9][10] AI产业发展挑战与技术路径 - AI产业发展严重依赖算力堆砌的资本密集路线,英伟达市值达4万亿美元,但DeepSeek通过创新架构和算法开源,将API定价大幅降低,引发行业对算力成本控制的重视 [20][22] - AI训练语料主要依赖线上公开数据,质量普遍不高,知识专业化且存在壁垒,导致AI难以处理结构化知识,输出质量受限,发展失衡 [27][28] - AI在C端应用面临通约性挑战,长文本和多模态虽具全网通约性,但进入专业领域后增长线性化,难以实现大规模网络效应 [24][28] 百度历史战略反思与未来机遇 - 百度在移动互联网时代未触及信息生态核心,App模式导致信息孤岛,削弱搜索业务;公司投资策略保守,追逐本地服务、YY等风口但成效有限 [17][18][19] - AI被视为百度同调的机会,可解决App模式缺陷,但需面对训练数据贫瘠、应用场景专业化等挑战;公司强调“模型世界应用天下”,认为应用将统治未来 [19][28][32] - 行业建议AI发展应借鉴“中层理论”,从线下业务采集高质量数据训练垂直模型,自下而上构建知识体系,而非依赖通用大模型 [36] 概念驱动与业务支撑的行业对比 - 互联网行业高概念驱动,中国业界经历业务本土化、去硅谷概念、去概念三阶段演进,2010年后“互联网思维”标志互联网下沉和业务驱动 [29] - 中美AI发展再次合流,但硅谷依赖技术舒适区和资本驱动,缺乏业务支撑;中国有业务基础,AI提供回归创新、带动经济整体的机会 [30][31] - 当前AI概念与现实脱节,资本缺乏耐心等待长期回报,气氛类似2001年纳斯达克崩盘前夜;企业需平衡概念创新与业务落地 [29][30]
在「外滩大会·具身智能:从泛化到行动,重塑产业未来」上,这些大牛都说了什么?
机器之心· 2025-09-16 16:37
文章核心观点 - 具身智能被视为AI发展的下一站,其核心是实现从“数字认知”到“物理世界”真实生产力的转化,当前技术已将其推至产业变革的商业化临界点 [2] - 行业发展的关键挑战在于如何通过颠覆性创新赋予具身智能真正的泛化行动能力,并跨越从“技术可行”到“商业成功”的鸿沟 [2] - 实现上述目标的核心突破口在于解决数据瓶颈,训练场被多位专家视为AI时代的新型“数据工厂”,是推动产业落地的关键基础设施 [6][8][11][18] 主题演讲要点总结 孙富春:训练场与产业落地 - 具身智能的定义已从赋予机器物理身体演变为构建沉浸式感知过程,融入物理学各种视觉、触觉感知可大幅提升鲁棒性和泛化能力 [6] - 数据问题是制约行业发展的核心挑战,训练场具有降本增效、安全模拟、标准统一等核心价值,但存在分散化、重复化等“各自为战”现象,亟需制定标准以推动协同发展 [6][7] - 具身智能是结合本体、数据知识、场景和进化架构的综合体,需依赖沉浸式训练场与多模态数据采集,并结合大模型泛化推理,通过持续学习进化迈向真正智能 [7] 江磊:构建数据飞轮 - 新研发范式为“AI + 机器人”,流程是开发机器人→训练场收集数据→构建具身大模型→推向应用智能体,训练场在此范式中扮演关键角色 [10][11] - 行业技术路径尚未收敛,主要玩家涉及智能驾驶、机械臂、腿足式机器人及芯片研发,但无论何种路径均需依赖大数据集,训练场是必不可少的基础设施和关键技术 [11] - 国地共建人形机器人创新中心正聚焦数据采集与训练场建设,旨在打造低代码、可开发、可发布的具身智能领域MCP,以适用于所有机器人 [11] 许华哲:开启下一站 - 星海图发布的全身智能VLA模型G0采用100%开放真实世界数据,通过“慢思考+快执行”协同及预训练,可实现端到端模型泛化操作,并具备动作自动修正能力 [14] - 行业数据主要包括真实数据、仿真数据和互联网数据,真实数据质量好但昂贵,仿真和互联网数据便宜易得但存在Gap,即使真实数据本身也可能存在Real2real的Gap,影响模型质量 [14] - 公司通过R1 Lite平台在50个开放世界场景进行数据采集和标注,并将数据集开源,未来模型G0也将开源,旨在与业界共建生态,探索具身智能Scaling Law [14][15] 张直政:仿真合成数据驱动 - 行业重点问题是训练数据来源,真机遥操作费时费力且数据复用性有限,而实现跨行业、跨任务泛化可能需要上万亿条数据,全部采用真实数据不可行 [18] - 银河通用的技术路线分两阶段:第一阶段用大规模仿真合成数据进行预训练(“义务教育”),提供通用知识;第二阶段用少量真实数据学习技能应用(“职业教育”),强化专业知识 [18] - 公司围绕该训练范式构建了全栈团队和能力,以确保基座模型稳定性与硬件一致性 [19] 金国强:产业机遇 - 人形机器人蕴藏着下一个万亿美元的产业变革机遇 [20] 苏洋:灵巧手泛化之路 - 好的灵巧手关键在于“用得上、买得到、买得起、不怕用”,实现多技能泛化以在各种场景广泛应用,价格是影响泛化的重要因素 [24] - 当前最贵的成本是数据,合成数据因真机数据太贵而被广泛使用,但其迁移到真机的胜率很低,受限于物理约束如标准、电机、结构、磨损等差异 [24] - 降低开发成本和合成数据使用难度的关键是扩大机器人应用规模,当有100万个真实人形机器人或灵巧手运行时,每日上传数据量将超过2025年全球全年采集数据 [26] 思辨环节要点总结 技术路线与数据关键性 - 具身智能发展处于早期,技术路线未收敛,当前热门路径包括完全端到端的VLA路径(真实数据+大模型)以及仿真到现实的迁移路径 [30] - 数据是技术路线划分的关键维度(如真机、仿真、视频数据),模型侧路线包括端到端、分层及世界模型等,上海AI Lab采用Real2SIM2Real数据路线并关注端到端模型 [31][32] 形态终局与发展路径 - 当AI发展到一定程度,本体形态重要性下降,数据采集和模型训练方式对本体不敏感,人形机器人不一定是唯一载体 [33][35] - 当前技术不成熟,正从专用走向通用螺旋发展,协作臂或轮式双臂机器人是有限场景下实现局部通用的良好载体 [35] - 视角差异导致形态看法不同:科研视角充满想象(如火星改造),人形是理想形态;创业公司则需“戴着镣铐跳舞”,在资源有限下探索实际应用场景,需执行多项任务才能体现成本效益 [35] 世界模型与落地时间 - 世界模型研究意义重大,但距离具体场景实际应用还需很长时间打磨 [36][37] - 具身智能进入日常生活是渐进过程,达到保姆或管家级别可能还需5到10年,未来2-3年仍处早期,技术路线未完全收敛,未来4-5年将是人类降低期待与机器人技术打磨的双向修正过程 [38] 圆桌对话要点总结 超级助手设想 - 工业场景中,“超级助手”是能听懂自然语言、直接驱动机器行动的智能体,如同“工业现场指挥家”,为现有自动化叠加AI大脑 [43] - “超级助手”可兼具工具人和生活伙伴角色,解决家务或情感交互问题,理想状态是能进行自然、平等、主动交互的伙伴 [43] - 从投资终局看,“超级助手”具有巨大市场潜力,未来企业内除老板外所有职位都可能由机器人代替 [43] - “超级助手”需具备高度泛化能力、良好交互体验、个性化服务、自我学习能力,并确保安全可靠 [44] 困难挑战与应对策略 - 工业场景挑战包括硬件本体可靠性、精准度、一致性不成熟;模型泛化性和部署便捷性存在问题;执行具体任务时面临诸多工程化问题需细化解决 [45] - 应对策略是先垂直再通用、先落地再泛化,关注模型和数据闭环;技术未成熟时可先突破局部专用场景,降低用户期待,迎合需求 [45][46] - 行业仍处早期解决单点问题阶段,单点问题不解决则泛化无价值,需进行从基础模型到Agent能力的突破 [46] - 软件上模型泛化性和数据是主要挑战;硬件上需解决“看得清、摸得明”的问题;工业落地挑战还涉及数据治理、软硬件结合及行业know-how [46][47] 产业链协同期待 - 行业缺少具通识物理智能的基座模型,若有此类模型结合本体特点采集或生成仿真数据,可将模型准确率从80%-90%提升至99.9%以上 [48] - 合作原则不限于技术,需融合芯片、模型、音视频交互、云服务等多领域,共同开辟新品类实现更大价值 [49] - 期待行业在数据集标准化、数据共享、模型开源等方面合作,共同加速解决动作基础模型、空间智能、末端灵巧控制等重要问题 [49] - 短期生态融合不显眼,多聚焦特定领域应用;长期需更多伙伴参与推动生态向更广泛场景发展 [49]
谁说Scaling Law到头了?新研究:每一步的微小提升会带来指数级增长
36氪· 2025-09-16 15:46
Scaling Law与模型规模扩大的经济价值 - 研究发现虽然单步任务准确率提升幅度减小,但这些微小进步叠加能使模型完成任务长度实现指数级增长,这在现实中更具经济价值 [1][2] - 论文指出模型在现实世界的价值往往源于智能体能够完成任务的长度,从这个角度观察,更大的模型非但没有收益递减,反而能将单步准确率微小提升复合放大,在任务完成长度上实现指数级跃升 [2] - 人类劳动报酬按时间计算,如果智能体经济价值源于能够完成任务时长,那么单轮或短任务基准可能并非评估进一步投资大语言模型计算资源所带来收益的可靠参考 [18] 长程任务执行的挑战与突破 - 长程任务执行一直是深度学习的致命弱点,自动驾驶demo很炫酷但要真正上路跑长途用了十多年才实现,AI能生成惊艳图片但拍一段连贯一致的长视频仍是难题 [4] - 研究通过解耦推理或智能体任务中规划和执行需求来解决问题,规划涉及决定检索什么信息或使用什么工具及顺序,而执行是让规划变成现实 [6] - 实验证实即使去除规划和知识要求,长时程任务执行对LLM仍具有挑战性,即使是表现最佳模型Qwen3-32B准确率在15个轮次内也降至50%以下 [23] Self-Conditioning效应的影响 - 研究发现随着任务推进,每步错误率本身会上升,这与人类通过练习进步形成对比,推测模型以自身容易出错历史为条件会增加未来出错可能性 [8] - 实验显示随着历史中错误率升高,后续步骤准确率急剧下降,验证模型会进行self-conditioning,这种性能下降不会通过增大模型规模而得到缓解 [8][26] - 与长上下文问题不同,扩大模型规模不能缓解self-conditioning效应,即使是参数2000亿以上的前沿大型模型仍然容易受到self-conditioning作用影响 [30] 思考模型的关键作用 - 近期思考模型不会受到先前错误影响,能够修正self-conditioning限制,顺序测试时计算量显著提升模型在单轮对话中可完成任务长度 [9] - 在没有思维链情况下,前沿大语言模型如DeepSeek V3连两步执行都无法完成,而具备思考能力版本R1则能执行200步,凸显行动前进行推理的重要性 [9] - 借助思维链,模型在单轮中能够执行步骤数量显著增加,经过强化学习训练的思维模型DeepSeek R1性能显著优于其经指令微调的对应模型DeepSeek-V3 [35] 模型性能基准测试结果 - 对前沿思考模型基准测试发现GPT-5思考版本(代号Horizon)能够执行超过1000步,远超能执行432步的Claude-4-Sonnet [9] - 实验显示开源权重模型在长时程执行方面仍在追赶仅通过API提供的模型,这凸显未来研究的机遇 [35] - 研究发现在显式提供所需知识和规划后,scaling模型大小仍能显著提高模型成功执行轮次数量,说明scaling模型价值不仅体现在让模型记住更多知识或更会寻找问题解答上 [7]
马斯克周末血裁xAI 500人
搜狐财经· 2025-09-16 14:27
公司战略调整 - xAI通过内部测试裁员33% 超过500名员工被解雇[1] - 数据标注团队规模从1500人缩减至1000余人 裁员近三分之一[11] - 公司战略转向重点扩张专业数据标注员 计划将专业团队规模扩展现有基础的10倍[11] 团队结构变化 - 数据标注团队原为xAI最大团队 在Grok开发过程中发挥关键作用[3] - 团队包含专业数据标注员(负责STEM/编程/金融/法律/媒体)和通用数据标注员(负责视频/音频/写作)两类[11] - 9月初已有9名数据标注团队经理被解雇[4] 后续通过一对一谈话评估员工价值[5][6] 测试与裁员过程 - 公司通过Slack发布突袭测试 要求员工在次日早上前完成[8] - 测试内容涵盖STEM/编程/金融/医学等传统领域 以及Grok个性/段子手/安全测试等特殊方向[8] - 测试引发内部恐慌[7] 超过100名员工在Slack表示不满[9] 行业趋势转向 - 人工智能行业从通用模型转向垂直领域模型 更注重数据质量而非数量[12] - 高质量语料消耗导致Scaling Law边际效应递减 训练成本快速攀升[12] - 垂直模型在金融/医疗/法律等行业更具准确性与合规性优势[14] 管理层风格 - 强调精悍团队理念 认为小团队更具创意和效率[22] - 对低绩效者容忍度低 注重高强度工作和出色表现[22][24] - 曾在特斯拉2年内裁员7000余人[18] 在Twitter一周裁员3700人[20]
马斯克周末血裁xAI 500人
量子位· 2025-09-16 13:58
xAI裁员事件与战略调整 - xAI进行内部突袭测试 淘汰率高达33% 超过500名员工被裁[1][2] - 数据标注团队规模从1500人缩减至1000余人 裁员比例接近三分之一[18] - 被裁员工主要为通用数据标注员 负责视频标注 音频标注和写作等任务[17][18] 数据标注团队结构与成本 - 数据标注团队是xAI最大团队 在Grok开发中发挥关键作用[3] - 公司采用直接雇佣而非外包模式 以增强对模型训练的控制和隐私保护[4] - 直接雇佣模式导致成本更高[5] - 2025年2月计划招聘数千人 半年内新增约700名数据标注员[6] 战略转向与招聘计划 - 公司战略转向专业数据标注领域 计划将专业数据标注员规模扩大10倍[19] - 专业数据标注员专注于STEM 编程 金融 法律和媒体等垂直领域[18] - 此次调整反映公司从"数据数量"向"数据质量"的战略转变[21] 垂直领域AI发展背景 - 互联网高质量语料枯竭导致Scaling Law出现边际效应递减[24] - 垂直模型在金融 医疗 法律等行业更具准确性与合规性优势[25] - 行业从通用大模型向垂直场景应用发展趋势明显[25][27] 马斯克管理风格 - 马斯克偏好精悍小团队 强调性能与效率[35] - 其管理理念认为小团队更具创造力 沟通效率更高且迭代更快[36][37][38] - 历史上在特斯拉2年内裁员7000余人 在Twitter一周裁员3700人[31][34] - 实行"硬核文化"要求 要求员工长时间高强度工作[42][43] 战略影响与行业意义 - 此次裁员可能帮助Grok在垂直应用领域建立优势[28] - 过度依赖专家库可能限制数据多样性 带来模型盲点风险[22] - 行业需要重新平衡数据质量与数量的关系[23] - 若战略失败 xAI可能在Scaling Law赛道落后于OpenAI等竞争对手[29]
谁说Scaling Law到头了?新研究:每一步的微小提升会带来指数级增长
机器之心· 2025-09-16 12:01
Scaling Law的收益递减争议 - 很多人认为Scaling Law面临收益递减 继续扩大计算规模训练模型的做法被质疑[1] - 研究发现即使模型在单步任务准确率提升变慢 这些微小进步叠加能让完成任务长度实现指数级增长 这在现实中更有经济价值[1] - 虽然scaling law显示LLM在测试损失等指标存在收益递减 但模型现实世界价值源于智能体能完成任务的长度 从这个角度 更大模型能将单步准确率微小提升复合放大 在任务完成长度上实现指数级跃升[3] 论文核心发现 - 论文标题The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs 来自剑桥大学等机构[5][6] - 长期以来完成长程任务一直是深度学习致命弱点 自动驾驶demo炫酷但真正上路跑长途用了十多年 AI能生成惊艳图片但拍连贯一致长视频仍是难题[6] - 可以通过解耦推理或智能体任务中规划(planning)和执行(execution)需求来解决长程任务问题 规划涉及决定检索信息或使用工具顺序 执行是让规划变成现实[7] - 在思考的幻觉论文中 LLM显然知道规划 最初正确执行许多步骤 最终失败在于执行 随着任务变长 模型执行规划时更容易犯错[7] Scaling是否存在收益递减 - 虽然单步准确率提升幅度减小 但准确率微小提升可复合放大 导致模型能完成任务长度呈指数级增长[7] - 在显式提供所需知识和规划后 scaling模型大小仍显著提高模型成功执行轮次数量 说明scaling价值不仅体现在让模型记住更多知识或更会寻找问题解答上[8] - 当步骤准确率超过70%后 步骤准确率微小提升带来比指数级更快任务长度改善 即使在短任务问答基准测试中准确率提升似乎放缓 从数学角度仍可期待更长任务上取得显著收益[15] Self-Conditioning效应 - 随着任务推进 每步错误率本身会上升 这与人类形成对比 人类执行任务时通常通过练习进步[9] - 由于模型训练很大部分根据上下文预测最可能下一个token 让模型以自身容易出错历史为条件会增加未来出错可能性[9] - 随着历史中错误率升高 后续步骤准确率急剧下降 验证模型会进行self-condition设定[9] - 除了长上下文问题 self-conditioning设定还会导致模型在长程任务中性能下降 且这种性能下降不会通过增大模型规模缓解[9] 思考的影响 - 近期思考模型不会受到先前错误影响 能够修正self-conditioning限制[10] - 顺序测试时计算量显著提升模型在单轮对话中可完成任务长度[10] - 没有思维链情况下 DeepSeek V3等前沿大语言模型连两步执行都无法完成 而具备思考能力版本R1能执行200步 凸显行动前进行推理重要性[10] - GPT-5思考版本(代号Horizon)能执行超过1000步 远超能执行432步Claude-4-Sonnet[10] 经济价值衡量 - 人类劳动报酬往往按时间计算 如果智能体经济价值源于它能完成任务时长 那么单轮或短任务基准可能并非评估进一步投资大语言模型计算资源带来收益可靠参考[19] - 这些基准可能让人产生进展放缓错觉 而更能体现经济价值指标 模型能完成任务时长 实际上仍在快速增长[19] - 如果一个模型能完成任务长度表明其经济价值 那么持续投入增加计算量可能值得 即便短任务基准测试给人进展放缓错觉[11] 实验设计与结果 - 通过显式提供必要知识和规划隔离执行失败情况 将航班选择智能体示例中"先检索后组合"步骤串联起来[23] - 规划负责决定检索什么以及如何组合 而执行是实际执行这些操作 符合键值(key-value)词典抽象[23] - 即使去除了规划和知识要求 长时程任务执行对LLM仍具挑战性 所有模型第一步达到100%准确率 但任务准确率在后续回合迅速下降[25] - 更大模型在更多轮次保持更高任务准确率 导致任务长度呈现明显scaling趋势[27] - 随着轮次数量增加 各轮次准确率稳步下降 长上下文和self-conditioning都会导致准确率下降[28] - 当以无错误历史为条件时 模型在第100轮轮次准确率低于初始值 这与长上下文退化观察一致 随着上下文中注入错误比例提高 第100轮准确率持续下降 证明self-conditioning效应[28] 单轮任务执行能力 - 没有思维链情况下 不具备思考能力模型难以在单轮中完成两个步骤衔接[34] - 更大规模Qwen3 32B Gemma3 27B 以及DeepSeek-V3(670B)和Kimi K2(1026B)等前沿非思考型模型 连复杂度为2单轮任务都无法完成[34] - 借助思维链 模型在单轮中能执行步骤数量显著增加 对于智能体 行动前先进行推理至关重要[36] - 对于长时程执行任务 顺序性测试时计算比并行测试时计算更有效[36] - GPT-5(代号Horizon)与其他模型如Gemini 2.5 Pro Grok 4和DeepSeek R1之间存在巨大差距[36] - 经过强化学习训练思维模型DeepSeek R1性能显著优于其经指令微调对应模型DeepSeek-V3[36] - 长时程执行是挑战 开源权重模型仍在追赶仅通过API提供模型[37]
院士张宏江:Agent将替代企业流程,也会改变未来的人类组织构成
新浪科技· 2025-09-11 10:34
大模型成本与性能趋势 - DeepSeek R1模型成本仅为当时世界最佳推理模型的几十分之一,性能却非常接近[1] - 大模型使用成本快速降低,模型性能快速提高,该趋势将伴随大模型发展持续发生[1] - 以ChatGPT发布为标志,其日活跃用户在2025年3月已接近搜索引擎的30%,表明大模型已成为日常工具[1] Agent技术发展 - Agent规划能力呈指数性成长,出现摩尔定律3.0,其能力以任务长度衡量每7个月翻一倍[1] - 随着基础模型能力提高,Agent Scaling Law还将加速[1] - AI将从助理角色转变为伙伴角色,具备自身规划和行动能力,改变人机关系[2] 产业与经济影响 - 大模型生态推动多个产业发生Scaling Law,并带动整体经济发展[1] - Agent技术将替代企业流程,改变未来的人类组织构成和就业模式[2] - 无论是OpenAI的ChatGPT还是其他公司,大模型的使用都在加速[1]
国内外AI大厂重押,初创梭哈,谁能凭「记忆」成为下一个「DeepSeek」?
36氪· 2025-09-07 17:07
大模型记忆能力的技术演进 - 大模型记忆能力是指模型具备人类对记忆的组织、检索和应用方式 属于长期记忆或终身记忆范畴 区别于当前依赖长文本和外部数据库的短期记忆[3] - 技术演进背景是模型推理能力已成为行业标配 而通用Agent仍空缺 技术曲线放缓促使行业寻求通过记忆能力实现持续学习和长上下文理解[2] - 记忆能力研究自2023年底兴起 因Scaling Law边际效应下降 算力堆叠仅能带来不足10%的性能提升 需寻找新技术范式[12][19] 行业参与者布局动态 - 2024年8月多家厂商密集推出记忆功能:Anthropic的Claude支持对话记忆检索[4] 谷歌Gemini支持跨对话提炼用户偏好[4] 字节跳动Seed团队发布多模态M3-Agent系统[4] - OpenAI于2023年2月已在ChatGPT上线记忆功能 2024年Sam Altman明确将记忆作为GPT6重点[4][5] - 新兴玩家加速入场:马斯克xAI的Grok于4月实现多轮对话记忆[6] Mistral AI宣布与20多个企业平台集成记忆系统[6] 技术实现路径分析 - 参数化记忆路径:通过模型架构创新实现记忆存储 如Temp-Lora方法用临时模块记录历史交互[18] 非Transformer架构包括谷歌Titans三级记忆机制和Meta的记忆层替换方案[25] - 上下文工程路径:通过Prompt和KV cache管理实现记忆 如Manus公司极致化Agent间记忆复用 但依赖人工工程且错误归因困难[26] - 外部数据库路径:采用RAG和向量数据库存储信息 但存在检索准确性低 工程成本高且无法通过训练提升模型性能的局限性[27] 应用场景与商业前景 - 记忆能力是AI Agent突破的关键 需支持不依赖Context Window的终身记忆 满足游戏陪伴等长期交互场景需求[15][21] - 两类商业模式分化:OpenAI等C端厂商通过全局记忆或局部记忆增强用户粘性[31] 中间件服务商如MemOS和Zep提供开源框架推动去中心化记忆生态[32] - 技术成熟度需1-2年实现大规模应用 3-5年解决幻觉和隐私等治理问题 市场格局未定 存在黑马机会[34][35] 学术与产业研究进展 - 中国科学院院士鄂维南团队于2024年7月发布记忆分层模型Memory³ 将参数拆解为隐性/显性/外置记忆库 获Meta和谷歌跟进[8] - 腾讯AI Lab早期研究RAG提升记忆能力 2021年获ACL杰出论文奖 2024年1月开发出参数化记忆方法解决游戏Agent终身记忆需求[13][18]