Workflow
Scaling Law
icon
搜索文档
Now, Scaling What?
机器之心· 2025-05-24 22:12
Scaling What的阶段性探索 - 自2024年起Scaling范式发生转移,预训练环节的Scaling Law边际效益递减且文本数据受限,行业开始探索「Scaling What」的新目标[3] - 业界对「预训练Scaling Law收益递减」达成共识,OpenAI、Anthropic等团队仍保持乐观但转向寻找正确的Scaling对象[4] - 新研究方向包括Densing Law、「50%任务完成时间」等替代性评估指标,以及Self-Play RL+LLM、Post-Training Scaling Law等技术路线[4] 推理阶段计算优化(TTS)的兴起 - 谷歌DeepMind 2024年8月首次提出通过增加推理时计算提升模型输出质量,OpenAI o1模型和DeepSeek-R1的GRPO技术进一步验证该方向[4][5] - 2025年5月学术综述将此类技术统称为TTS(Test-Time Scaling),提出What-How-Where-How Well四轴分类框架,显示研究重点从预训练转向推理优化[6] - TTS应用范围从数学推理扩展到开放式问答,方法从重复采样演进为混合扩展和内部扩展策略[6][7] 四大Scaling技术路线 - Parallel Scaling:通过并行生成多个输出并聚合答案,依赖覆盖度和聚合质量,实现方式包括多模型采样和输入调整[9] - Sequential Scaling:模拟人类系统2思维,通过逐步更新中间状态分步骤解决问题[9] - Hybrid Scaling:结合并行生成与序贯筛选,先迭代候选解再通过选择函数聚合[9] - Internal Scaling:模型自主分配推理计算资源,如OpenAI-o1模仿人类长推理链[10] 后训练技术的范式重构 - 传统观点认为预训练奠定基础能力,微调(指令微调/SFT/RLHF)负责领域适应[11] - 当前趋势显示微调与推理优化(TTS)在后训练阶段具有同等重要性,共同塑造模型最终性能[6][11] 注:原文中未提供具体财务数据或公司运营细节,故未包含相关分析
2024年中国人工智能产业研究报告
艾瑞咨询· 2025-05-23 17:42
人工智能产业宏观环境 - 2024年国家将人工智能纳入战略重点,各地政府推进科研创新与算力基建,因地制宜出台特色政策 [4] - GDP增速放缓背景下,AI作为新质生产力在效率提升和产业升级方面展现潜力,政府支持提供强劲动能 [4] - 资本市场聚焦语言/多模态模型应用、芯片、算力服务等领域,基础层与应用层协同完善产业生态 [4][12] - 生成式AI普及提升公众接受度,但就业替代和隐私问题引发焦虑 [4] 技术发展与创新 - Transformer架构仍主导大模型发展,研发侧通过强化学习、思维链优化提升推理能力,加速跨模态融合 [4][16] - Scaling Law面临高质量数据与资源限制挑战,厂商转向后训练思维链优化和强化学习推理优化 [18] - DeepSeek开源模型通过多令牌预测(MTP)、多头潜在注意力机制(MLA)等技术降低训练/推理成本达50%以上 [31][83] - 端到端语音大模型架构(如GPT-4o)提升交互流畅度,但级联式架构仍保持可控性优势 [50] 市场规模与商业化 - 2024年中国AI产业规模2697亿元,增速26.2%低于预期,主因大模型场景落地成本高且处于探索阶段 [6][24] - 预计2025-2029年CAGR达32.1%,2029年规模破万亿,DeepSeek开源推动2025年加速增长 [25] - B端以项目制为主(政务、教科、通信、能源领域占60%),C端采用"免费+订阅制" [6][37][39] - 价格战激烈:字节大模型降价99%,阿里云通义千问降价97%,百度部分模型免费 [34] 产业动态与竞争格局 - 算力需求向推理侧转移,开源模型推动智算中心利用率提升 [6] - 分布式框架(DeepSpeed、Colossal-AI)、LLMOps平台及一体机产品降低企业应用门槛 [28] - 大厂主导C端生态(如kimi、豆包),创业公司聚焦垂类B端市场 [66] - 出海集中在图像/视频(占40%)和社交/情感陪伴(占35%)赛道,字节、阿里云、Minimax为主要厂商 [71][73] 产品创新方向 - AI Agent从对话问答向复杂任务代理演进,智谱AutoGLM支持超长任务规划 [45][76] - 具身智能成为战略高地,需解决硬件加速与跨行业协作挑战 [80] - AI硬件端侧落地加速:华为、荣耀等手机集成大模型,豆包推出AI耳机 [47] - 多模态模型分化为生成向(DiT架构)与理解向(MLLM架构),技术融合是未来关键 [63] 技术普惠与生态建设 - DeepSeek开源策略降低中小开发者使用门槛,带动沐曦、阿里云等产业链合作 [7][37][83] - MCP协议连接1100+工具服务,推动Agent生态标准化 [77] - 视觉生成产品商业化提速,Sora验证DiT架构在视频生成的优势 [56][63]
博士宿舍激情脑暴,革新了Scaling Law?Qwen和浙大联手推出新定律,直接干掉95.5%推理内存!
AI前线· 2025-05-21 18:04
核心观点 - 阿里巴巴与浙江大学合作提出并行计算缩放定律(ParScale),通过增加模型并行计算而非参数数量提升大模型能力,内存增加量仅为参数缩放法的4.5%(1/22),延迟增加量16.7%(1/6)[1] - ParScale可通过后训练少量token将预训练模型转为并行缩放模型,降低训练成本,适用于任何模型结构、优化过程或任务[1][7] - 该方法在数学、编程等强推理任务中表现突出,P=8时编码任务提升4.3%,数学任务提升7.3%,GSM8K准确率提高10%[15][16] 技术实现 - **并行流机制**:输入通过多样化前缀生成多视角版本,并行处理后动态加权融合输出[13] - **两阶段训练**:第一阶段1T token传统训练,第二阶段仅20B token微调实现ParScale适配[14] - **计算效率**:复用现有参数扩展并行路径,内存占用仅为参数扩展法的1/22,延迟为1/6[1][19] 性能验证 - **基准测试**:在常识(MMLU)、数学(GSM8K)、编码(HumanEval)等任务中,P值越大性能提升越显著[15] - **成熟模型适配**:在已训练18T token的Qwen-2.5模型上应用,持续预训练和参数高效微调均获显著提升[16] - **边缘设备优势**:适合手机、汽车等小batch场景,内存和延迟效率优于传统方法[18][19] 行业应用前景 - **低成本部署**:通过后训练适配现有模型,降低资源需求,促进低资源场景应用[1][12] - **动态调整能力**:同一模型权重可灵活调整并行流数量,实时平衡性能与推理开销[16] - **技术互补性**:未来可能与MoE架构结合,形成内存友好与延迟友好的混合方案[19] 开源与社区反馈 - 代码已在GitHub开源,HuggingFace提供体验链接[2] - 社区评价为"突破性思路",尤其看好边缘计算场景的适用性[18] - 研究团队计划扩展至MoE架构及更大规模数据验证[19]
10万美元成本训练的小模型,在特定任务超越GPT-4o,延迟低99倍
36氪· 2025-05-14 17:45
公司概况 - Fastino是一家专注于开发"任务特定语言模型"(TLMs)的早期初创公司,由连续创业者Ash Lewis和George Hurn-Maloney共同创立[4] - 公司技术团队来自谷歌DeepMind、斯坦福大学、卡内基梅隆大学及苹果等知名机构[6] - 已累计获得近2500万美元融资,包括1750万美元种子轮和700万美元前种子轮[3] 技术方案 - 采用低端游戏GPU训练TLM模型,平均成本不到10万美元[3] - TLM模型在特定任务上性能媲美大型语言模型,推理速度比GPT-4o快99倍(100ms vs 4000ms)[8] - 基准测试显示TLM模型的F1分数比GPT-4o高出17%[9] - 模型架构基于Transformer但引入任务专精优化,消除参数冗余和架构低效[8] 产品特点 - 首批模型覆盖文本摘要、函数调用、文本转JSON等企业核心需求[10] - 提供PII屏蔽、文本分类、脏话过滤、信息提取等具体功能[17] - 支持部署在虚拟私有云、本地数据中心或边缘设备[13] - 已在金融、医疗、电子商务等行业应用,获得财富500强企业采用[13] 商业模式 - 采用订阅制收费而非用量定价,个人开发者每月1万次免费请求[11] - Pro用户每月10万次请求收费45美元,团队用户300万次请求收费1275美元[11] - 极低的模型运行成本支撑其定价策略[13] 行业趋势 - 大语言模型训练成本高达数千万美元,部署和推理成本同样高昂[7] - 小模型在成本、推理时延和特定任务性能上具有显著优势[14] - 类似企业包括Cohere、Mistral、阿里云Qwen3和Writer的Palmyra系列[14] - 对于高并发、低延迟要求的应用场景,小模型更具经济性[14]
早融合 VS 晚融合,Natvie 多模态大模型的 Scaling Law 有所不同吗?
机器之心· 2025-05-10 21:10
本期通讯总计 21681 字,可免费试读至 6% 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 机器之心PRO · 会员通讯 Week 19 --- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 --- 1. 早融合 VS 晚融合,Natvie 多模态大模型的 Scaling Law 有所不同吗? 什么是Native多模态模型?相较目前流行的「晚融合」方案,「早融合」的Native多模态模型的训练过程有何不同?苹果公司 近期发布的「NNM」技术报告中,有哪些反直觉的新发现?近期业内有哪些获得较好表现的多模态模型?「早融合」是否正在 成为主流?... 2. Agent产品,快者为王?Anthropic 和 Databrick CEO 对话解读 Dario Amodei 为什么说「AI 的未来是 Agents」?数据的「Scaling Law」依然乐观?围绕 Agents 进行数据创新?MCP和 A2A范式下,企业怎样维护数据系统安全?Agents产品迭代的关键缺口如何突破?人类如何把握 AI 技术的双刃剑?... 本期完整版通讯含 2 项专题解读 + 29 项 AI ...
Agent产品,快者为王?Anthropic 和 Databrick CEO 对话解读
机器之心· 2025-05-10 14:07
01 在谈论Agents之前,人们应该先关注什么 - 人类低估了AI的好处和风险,需要关注风险以实现积极的未来 [6][7] - 短期内人类可通过比较优势在经济中发挥作用,但长期需重新思考经济组织方式,包括加强全球合作、政策支持及AI风险管理 [6][7] - AI应用将覆盖整个经济领域并带来超越经济层面的社会变革,但讨论时缺乏足够想象力和具体案例 [7] - AI技术落地实际效益取决于传统企业与AI公司的合作及市场推广,需让滞后经济领域快速适应创新技术 [7] - AI的未来是Agents,企业需围绕Agents创新开发能自主调用工具、完成数据交互的产品和服务 [7] - Block利用语音识别和生成式AI开发通过语音指令自动设置店铺信息的Agents [7] - AT&T结合传统机器学习和生成式AI分析通话记录,欺诈攻击减少80% [7] - AI可在安全条件下量化数据价值并加速产品迭代,两家公司合作使用Unity Catalog工具管控数据治理风险 [8] - AI产品快速迭代需借助RAG技术,两家公司接入MCP协议以使用外部数据资源 [8] 02 数据价值无可替代,但数据治理风险如何破解 - 数据代表企业积累的知识与智慧,是与AI能力最相辅相成的要素,可用于微调模型、提供上下文或供智能体分析 [10] - 企业专有数据是构建竞争壁垒的核心,行业特有数据(如制药实验数据、金融交易记录、用户行为数据)对训练AI模型至关重要 [10] 03 Anthropic为何仍乐观看待「Scaling Law」 - Scaling Law未达上限,但实用性需预训练之外的优化,需解决数据耗尽和成本问题 [9] - 多维度协同优化和混合推理模型是关键,模型迭代速度将继续保持快速 [9]
李建忠:大模型技术创新驱动的 AI 生态和应用演进
AI科技大本营· 2025-04-24 11:39
AI发展阶段与生物智能演化对比 - AI发展分为五个阶段:1940年代符号主义起步[4]、2012-2018年感知AI(如AlexNet突破)[4]、2018-2024年生成式AI(如GPT-1.0和ChatGPT)[4]、2024-2030年AI智能体(强化学习驱动)[4]、2030年后物理AI(具身智能)[4] - 生物智能演化对应:5.5亿年前线虫大脑诞生[7]、5.4亿年前三叶虫视觉出现[8]、5000年前人类文字发明[8]、16-17世纪科学革命[9] - 两者均呈现"大脑→视觉→语言→推理"的加速发展路径,语言是智能跃迁核心[9][10] 自然语言在智能中的核心地位 - 人类文明因文字出现而腾飞,AI领域OpenAI押注自然语言路线,通过大模型实现智能突破[12] - Anthropic研究反驳统计学派:大模型内部存在规划逻辑(非简单概率输出)、跨语言泛化能力、语言映射共享概念区域(如"苹果"的抽象概念)[13][14][15] - OpenAI首席科学家Ilya Sutskever认为"语言是对人类智能的压缩",与维特根斯坦哲学观点一致[19] 大模型技术范式演进 - 三阶段划分:预训练(知识灌输)、后训练(价值观对齐)构成"快思考",推理(逻辑思维)构成"慢思考"[21] - Scaling Law持续有效:预训练受限于语料瓶颈,但强化学习(如OpenAI o1和DeepSeek-R1)通过合成数据推动新增长曲线[23] - 推理模型成为主流范式,DeepSeek-R1开源方案推动行业转向强化学习[19][21] AI应用生态与模态演进 - 生成式AI(AIGC)与AI智能体并行发展:前者提供情绪价值(toC娱乐),后者提供成就价值(toB效率)[25] - 内容模态遵循"文字→图片→音频→视频"路径,AI降低创作门槛(博客时代作者比例1%,短视频时代37.5%)[27] - 智能体五大能力:规划(推理驱动)、工具调用(MCP协议)、协作(A2A协议)、记忆、行动[28][31][33] Agent平台与协议生态 - MCP协议连接大模型与传统软件(结构化数据/中心化架构),A2A协议实现Agent间协作(自然语言/去中心化)[33][34] - Agent平台将成为大模型厂商竞争焦点,需整合MCP和A2A协议以链接传统服务与多Agent协作[35][37][38] - 传统软件需重构为"面向智能体+自然语言交互+消除割裂"的三要素,否则面临淘汰[42] AGI发展路径与组织协作 - OpenAI定义AGI五阶段:聊天机器人→推理者→智能体→创新者→组织者[45][50] - 强化学习推动AI从"人类数据时代"(知识回声)到"经验数据时代"(突破边界)[47][49] - 高阶智能体现为组织协作,未来或出现大规模Agent协作网络(如软件开发中需求分析、编码等角色Agent化)[53][55]
深度|微软CTO最新访谈: 我不相信通用Agent,未来是成千上万Agent协作的时代,聊天界面只是过渡的交互模式
Z Finance· 2025-04-19 14:31
AI可持续价值与行业趋势 - 下一代AI领域正处于技术范式转变初期,价值分布尚不明确但充满探索机会[3] - 模型需通过产品与用户需求连接才能实现价值,产品层将承载主要价值[6] - 初创公司与成熟企业将均衡分享AI价值,大公司需结合现有资源创新[6][7] - 当前工具和基础设施成本达历史低点,大幅降低创新门槛[7] Scaling Law与数据效率 - Scaling Law尚未见极限,边际收益递减的临界点仍不可见[8] - 高质量数据token价值远超低质量数据,合成数据占比持续提升[9] - 缺乏科学的数据评估手段,数据实际贡献与宣称价值常存在差距[10][11] Agent发展路径 - 未来12个月将出现更多异步任务型Agent,突破即时交互模式[21][22] - Agent记忆功能是下一阶段突破重点,需实现长期行为积累[21] - 不会出现"全能Agent",而是细分领域专业化Agent网络[18] - 5年内95%新代码将由AI生成,但核心设计仍依赖人类[23] 开源与闭源生态 - 开源与闭源将长期共存,类似搜索引擎领域的分层结构[15] - DeepSeek R1开源引发行业关注,显示中国AI实力被低估[37] 技术债务与工程变革 - AI有望将技术债务从零和问题转为非零和问题,实现自动修复[30][31] - 小团队+AI工具将释放更大能量,改变传统工程团队结构[28] 医疗AI应用前景 - AI诊断能力已超越普通全科医生,亟待规模化应用[38] 中国AI竞争力 - 中国AI研发能力被系统性低估,DeepSeek案例打破偏见[37] 开发范式演进 - 编程抽象层次持续提升,提示工程将成主流交互方式[25][26] - 图形界面构建工具的发展轨迹预示AI编程工具演进路径[25]
OpenAI自曝GPT-4.5训练内幕:数据效率是关键,预训练仍然有用
Founder Park· 2025-04-14 19:34
GPT-4.5研发历程 - 项目启动于两年前,是OpenAI迄今为止最周密的计划,涉及数百人团队协作,几乎全员上阵[7][8] - 研发耗时远超预期,原计划耗时与实际相差甚远[16][17] - 目标为打造比GPT-4聪明10倍的模型,最终性能提升达到预期[16] 技术挑战与突破 - 10万卡计算集群暴露基础设施深层次故障,故障率高达40%进度才被发现[8][18][19] - 新一代硬件部署初期系统运行面临诸多未被充分认知的技术挑战[26] - 通过协同设计打造更强大技术栈,如今仅需5-10人即可复刻GPT-4级别模型[8][20] 数据效率与算法创新 - 未来AI发展关键从算力转向数据效率,需用相同数据学到更多知识[8][24] - Transformer架构在数据压缩方面高效,但洞察深度有限[24] - 算法改进产生叠加效应,每次提升10%-20%可显著提高数据效率[43] 模型训练范式转变 - 计算资源不再是主要瓶颈,数据成为制约因素[28] - 预训练模型性能提升可预测,但智能提升路径难以量化[31][32] - 1000万块GPU同步预训练可能采用去中心化模式,类似大脑各部分运作[42] 团队协作与系统优化 - 机器学习与系统团队密切合作,不存在工作界限[34] - 采用渐进式改进策略,严格验证每个改进在不同规模下的扩展性[35] - 理想系统尚未实现,当前仍需调和资源与理想化设计的差异[39] 理论基础与行业影响 - 智能本质是压缩,数据长尾效应让Scaling Law持续有效[47][48] - 预训练通过压缩数据发现抽象联系,与推理能力互补[45] - 无监督学习有效性基于压缩原理,更大规模训练带来更高压缩率[46][48]
智谱发的「干活Agent」,不用邀请码
36氪· 2025-04-01 21:52
智谱AutoGLM新产品"沉思"发布 - 公司推出具有深度思考能力的AI Agent产品"AutoGLM沉思",免费上线并支持开放式问题探究与操作执行[3][4] - 产品能模拟人类思维过程,完成从数据检索、分析到生成报告的全流程,并支持多模态理解(图文网页)[4][5] - 展示用例包括具身智能行业研究、生成式AI技术影响分析、复古相机推荐等具体场景[4] 产品技术特性与竞品对比 - 相较于Manus强调"行动"可视化,"沉思"更突出思维链展示,展现模型理解-拆解-检索-解决的完整思考过程[9][10] - 当前预览版仅支持研究整理类任务(如输出代码),无法像Manus直接交付可操作成果(如网页游戏),需用户额外执行[12][13] - 技术架构整合三款新模型:GLM-4-Air-0414(语言理解)、GLM-Z1-Air(问题分析)、GLM-Z1(反思验证)[15] 商业化与行业趋势 - 公司提出"沉思大模型"概念,强调动态联网搜索、工具调用、自我验证等能力对突破传统AI局限性的价值[17] - 新模型GLM-Z1-Air推理速度较R1提升8倍,成本降至1/30,并支持消费级显卡运行,三款模型将于4月14日开源[18] - CEO认为未来应用形态将以模型为核心,产品化外壳变薄,模型能力直接决定产品能力[20] 公司战略定位 - 坚持预训练路线,认为强化学习等方法仍依赖基座模型天花板,预训练是必须持续投入的方向[20] - 提出Agent存在类似大模型的Scaling Law,推理计算扩展可提升性能[20] - 拒绝被标签化为To B公司,强调根据场景需求创造价值而非限定客户类型[25]