Scaling Law
搜索文档
10万美元成本训练的小模型,在特定任务超越GPT-4o,延迟低99倍
36氪· 2025-05-14 17:45
公司概况 - Fastino是一家专注于开发"任务特定语言模型"(TLMs)的早期初创公司,由连续创业者Ash Lewis和George Hurn-Maloney共同创立[4] - 公司技术团队来自谷歌DeepMind、斯坦福大学、卡内基梅隆大学及苹果等知名机构[6] - 已累计获得近2500万美元融资,包括1750万美元种子轮和700万美元前种子轮[3] 技术方案 - 采用低端游戏GPU训练TLM模型,平均成本不到10万美元[3] - TLM模型在特定任务上性能媲美大型语言模型,推理速度比GPT-4o快99倍(100ms vs 4000ms)[8] - 基准测试显示TLM模型的F1分数比GPT-4o高出17%[9] - 模型架构基于Transformer但引入任务专精优化,消除参数冗余和架构低效[8] 产品特点 - 首批模型覆盖文本摘要、函数调用、文本转JSON等企业核心需求[10] - 提供PII屏蔽、文本分类、脏话过滤、信息提取等具体功能[17] - 支持部署在虚拟私有云、本地数据中心或边缘设备[13] - 已在金融、医疗、电子商务等行业应用,获得财富500强企业采用[13] 商业模式 - 采用订阅制收费而非用量定价,个人开发者每月1万次免费请求[11] - Pro用户每月10万次请求收费45美元,团队用户300万次请求收费1275美元[11] - 极低的模型运行成本支撑其定价策略[13] 行业趋势 - 大语言模型训练成本高达数千万美元,部署和推理成本同样高昂[7] - 小模型在成本、推理时延和特定任务性能上具有显著优势[14] - 类似企业包括Cohere、Mistral、阿里云Qwen3和Writer的Palmyra系列[14] - 对于高并发、低延迟要求的应用场景,小模型更具经济性[14]
早融合 VS 晚融合,Natvie 多模态大模型的 Scaling Law 有所不同吗?
机器之心· 2025-05-10 21:10
专题解读一:早融合与晚融合多模态模型的Scaling Law研究 - 多模态模型架构发展呈现从模块化“晚融合”向一体化“早融合”演进的趋势 早期工作多将视觉编码与语言解码分开处理,近期更多工作尝试将视觉感知与多模态理解集成到单一模型中[3] - 行业领先公司已发布并定义“原生多模态模型” 谷歌2023年12月发布的Gemini 1.0被其CEO称为“新AI品种”,即原生多模态模型;OpenAI 2024年发布的GPT-4o被描述为其第一个原生全量多模态模型,两者均采用端到端统一处理多模态数据[3] - “早融合”与“晚融合”代表两种不同的设计理念 “早融合”主张在训练早期合并处理不同模态数据,使用单一Transformer处理原始多模态输入,旨在初期学习模态间交互关系[4][5];“晚融合”则先将各模态数据通过独立编码器处理,再在深层整合,常依赖预训练的单模态模型[5][6] - 苹果公司近期研究对比了两种方法的Scaling特性 研究旨在探究流行的“晚融合”方法是否具备内在优势,并指出“晚融合”虽对数据异质性容忍度高,但可能引入偏差并阻碍模型利用跨模态依赖关系[4] 专题解读二:AI Agents的发展前景与关键议题 - AI Agents被视为人工智能的重要未来方向 Anthropic公司CEO Dario Amodei提出“AI的未来是Agents”的观点[1] - 围绕Agents的发展,数据创新、系统安全与产品迭代是关键议题 行业关注在MCP和A2A范式下企业如何维护数据系统安全,以及如何突破Agents产品迭代的关键缺口[1] - 人类需审慎把握AI技术的双面性 对话亦探讨了人类应如何把握AI技术作为双刃剑的问题[1] 本期通讯概览 - 本期通讯包含两项专题深度解读及大量行业要闻速递 完整版通讯包含2项专题解读,以及29项AI与Robotics赛道要事速递[2] - 要事速递覆盖技术、国内及国外多个维度 29项速递中,技术方面14项,国内方面4项,国外方面11项[2] - 通讯内容体量庞大 本期通讯总计21681字[3]
Agent产品,快者为王?Anthropic 和 Databrick CEO 对话解读
机器之心· 2025-05-10 14:07
01 在谈论Agents之前,人们应该先关注什么 - 人类低估了AI的好处和风险,需要关注风险以实现积极的未来 [6][7] - 短期内人类可通过比较优势在经济中发挥作用,但长期需重新思考经济组织方式,包括加强全球合作、政策支持及AI风险管理 [6][7] - AI应用将覆盖整个经济领域并带来超越经济层面的社会变革,但讨论时缺乏足够想象力和具体案例 [7] - AI技术落地实际效益取决于传统企业与AI公司的合作及市场推广,需让滞后经济领域快速适应创新技术 [7] - AI的未来是Agents,企业需围绕Agents创新开发能自主调用工具、完成数据交互的产品和服务 [7] - Block利用语音识别和生成式AI开发通过语音指令自动设置店铺信息的Agents [7] - AT&T结合传统机器学习和生成式AI分析通话记录,欺诈攻击减少80% [7] - AI可在安全条件下量化数据价值并加速产品迭代,两家公司合作使用Unity Catalog工具管控数据治理风险 [8] - AI产品快速迭代需借助RAG技术,两家公司接入MCP协议以使用外部数据资源 [8] 02 数据价值无可替代,但数据治理风险如何破解 - 数据代表企业积累的知识与智慧,是与AI能力最相辅相成的要素,可用于微调模型、提供上下文或供智能体分析 [10] - 企业专有数据是构建竞争壁垒的核心,行业特有数据(如制药实验数据、金融交易记录、用户行为数据)对训练AI模型至关重要 [10] 03 Anthropic为何仍乐观看待「Scaling Law」 - Scaling Law未达上限,但实用性需预训练之外的优化,需解决数据耗尽和成本问题 [9] - 多维度协同优化和混合推理模型是关键,模型迭代速度将继续保持快速 [9]
李建忠:大模型技术创新驱动的 AI 生态和应用演进
AI科技大本营· 2025-04-24 11:39
AI发展阶段与生物智能演化对比 - AI发展分为五个阶段:1940年代符号主义起步[4]、2012-2018年感知AI(如AlexNet突破)[4]、2018-2024年生成式AI(如GPT-1.0和ChatGPT)[4]、2024-2030年AI智能体(强化学习驱动)[4]、2030年后物理AI(具身智能)[4] - 生物智能演化对应:5.5亿年前线虫大脑诞生[7]、5.4亿年前三叶虫视觉出现[8]、5000年前人类文字发明[8]、16-17世纪科学革命[9] - 两者均呈现"大脑→视觉→语言→推理"的加速发展路径,语言是智能跃迁核心[9][10] 自然语言在智能中的核心地位 - 人类文明因文字出现而腾飞,AI领域OpenAI押注自然语言路线,通过大模型实现智能突破[12] - Anthropic研究反驳统计学派:大模型内部存在规划逻辑(非简单概率输出)、跨语言泛化能力、语言映射共享概念区域(如"苹果"的抽象概念)[13][14][15] - OpenAI首席科学家Ilya Sutskever认为"语言是对人类智能的压缩",与维特根斯坦哲学观点一致[19] 大模型技术范式演进 - 三阶段划分:预训练(知识灌输)、后训练(价值观对齐)构成"快思考",推理(逻辑思维)构成"慢思考"[21] - Scaling Law持续有效:预训练受限于语料瓶颈,但强化学习(如OpenAI o1和DeepSeek-R1)通过合成数据推动新增长曲线[23] - 推理模型成为主流范式,DeepSeek-R1开源方案推动行业转向强化学习[19][21] AI应用生态与模态演进 - 生成式AI(AIGC)与AI智能体并行发展:前者提供情绪价值(toC娱乐),后者提供成就价值(toB效率)[25] - 内容模态遵循"文字→图片→音频→视频"路径,AI降低创作门槛(博客时代作者比例1%,短视频时代37.5%)[27] - 智能体五大能力:规划(推理驱动)、工具调用(MCP协议)、协作(A2A协议)、记忆、行动[28][31][33] Agent平台与协议生态 - MCP协议连接大模型与传统软件(结构化数据/中心化架构),A2A协议实现Agent间协作(自然语言/去中心化)[33][34] - Agent平台将成为大模型厂商竞争焦点,需整合MCP和A2A协议以链接传统服务与多Agent协作[35][37][38] - 传统软件需重构为"面向智能体+自然语言交互+消除割裂"的三要素,否则面临淘汰[42] AGI发展路径与组织协作 - OpenAI定义AGI五阶段:聊天机器人→推理者→智能体→创新者→组织者[45][50] - 强化学习推动AI从"人类数据时代"(知识回声)到"经验数据时代"(突破边界)[47][49] - 高阶智能体现为组织协作,未来或出现大规模Agent协作网络(如软件开发中需求分析、编码等角色Agent化)[53][55]
深度|微软CTO最新访谈: 我不相信通用Agent,未来是成千上万Agent协作的时代,聊天界面只是过渡的交互模式
Z Finance· 2025-04-19 14:31
AI可持续价值与行业趋势 - 下一代AI领域正处于技术范式转变初期,价值分布尚不明确但充满探索机会[3] - 模型需通过产品与用户需求连接才能实现价值,产品层将承载主要价值[6] - 初创公司与成熟企业将均衡分享AI价值,大公司需结合现有资源创新[6][7] - 当前工具和基础设施成本达历史低点,大幅降低创新门槛[7] Scaling Law与数据效率 - Scaling Law尚未见极限,边际收益递减的临界点仍不可见[8] - 高质量数据token价值远超低质量数据,合成数据占比持续提升[9] - 缺乏科学的数据评估手段,数据实际贡献与宣称价值常存在差距[10][11] Agent发展路径 - 未来12个月将出现更多异步任务型Agent,突破即时交互模式[21][22] - Agent记忆功能是下一阶段突破重点,需实现长期行为积累[21] - 不会出现"全能Agent",而是细分领域专业化Agent网络[18] - 5年内95%新代码将由AI生成,但核心设计仍依赖人类[23] 开源与闭源生态 - 开源与闭源将长期共存,类似搜索引擎领域的分层结构[15] - DeepSeek R1开源引发行业关注,显示中国AI实力被低估[37] 技术债务与工程变革 - AI有望将技术债务从零和问题转为非零和问题,实现自动修复[30][31] - 小团队+AI工具将释放更大能量,改变传统工程团队结构[28] 医疗AI应用前景 - AI诊断能力已超越普通全科医生,亟待规模化应用[38] 中国AI竞争力 - 中国AI研发能力被系统性低估,DeepSeek案例打破偏见[37] 开发范式演进 - 编程抽象层次持续提升,提示工程将成主流交互方式[25][26] - 图形界面构建工具的发展轨迹预示AI编程工具演进路径[25]
OpenAI自曝GPT-4.5训练内幕:数据效率是关键,预训练仍然有用
Founder Park· 2025-04-14 19:34
GPT-4.5研发历程 - 项目启动于两年前,是OpenAI迄今为止最周密的计划,涉及数百人团队协作,几乎全员上阵[7][8] - 研发耗时远超预期,原计划耗时与实际相差甚远[16][17] - 目标为打造比GPT-4聪明10倍的模型,最终性能提升达到预期[16] 技术挑战与突破 - 10万卡计算集群暴露基础设施深层次故障,故障率高达40%进度才被发现[8][18][19] - 新一代硬件部署初期系统运行面临诸多未被充分认知的技术挑战[26] - 通过协同设计打造更强大技术栈,如今仅需5-10人即可复刻GPT-4级别模型[8][20] 数据效率与算法创新 - 未来AI发展关键从算力转向数据效率,需用相同数据学到更多知识[8][24] - Transformer架构在数据压缩方面高效,但洞察深度有限[24] - 算法改进产生叠加效应,每次提升10%-20%可显著提高数据效率[43] 模型训练范式转变 - 计算资源不再是主要瓶颈,数据成为制约因素[28] - 预训练模型性能提升可预测,但智能提升路径难以量化[31][32] - 1000万块GPU同步预训练可能采用去中心化模式,类似大脑各部分运作[42] 团队协作与系统优化 - 机器学习与系统团队密切合作,不存在工作界限[34] - 采用渐进式改进策略,严格验证每个改进在不同规模下的扩展性[35] - 理想系统尚未实现,当前仍需调和资源与理想化设计的差异[39] 理论基础与行业影响 - 智能本质是压缩,数据长尾效应让Scaling Law持续有效[47][48] - 预训练通过压缩数据发现抽象联系,与推理能力互补[45] - 无监督学习有效性基于压缩原理,更大规模训练带来更高压缩率[46][48]
智谱发的「干活Agent」,不用邀请码
36氪· 2025-04-01 21:52
智谱AutoGLM新产品"沉思"发布 - 公司推出具有深度思考能力的AI Agent产品"AutoGLM沉思",免费上线并支持开放式问题探究与操作执行[3][4] - 产品能模拟人类思维过程,完成从数据检索、分析到生成报告的全流程,并支持多模态理解(图文网页)[4][5] - 展示用例包括具身智能行业研究、生成式AI技术影响分析、复古相机推荐等具体场景[4] 产品技术特性与竞品对比 - 相较于Manus强调"行动"可视化,"沉思"更突出思维链展示,展现模型理解-拆解-检索-解决的完整思考过程[9][10] - 当前预览版仅支持研究整理类任务(如输出代码),无法像Manus直接交付可操作成果(如网页游戏),需用户额外执行[12][13] - 技术架构整合三款新模型:GLM-4-Air-0414(语言理解)、GLM-Z1-Air(问题分析)、GLM-Z1(反思验证)[15] 商业化与行业趋势 - 公司提出"沉思大模型"概念,强调动态联网搜索、工具调用、自我验证等能力对突破传统AI局限性的价值[17] - 新模型GLM-Z1-Air推理速度较R1提升8倍,成本降至1/30,并支持消费级显卡运行,三款模型将于4月14日开源[18] - CEO认为未来应用形态将以模型为核心,产品化外壳变薄,模型能力直接决定产品能力[20] 公司战略定位 - 坚持预训练路线,认为强化学习等方法仍依赖基座模型天花板,预训练是必须持续投入的方向[20] - 提出Agent存在类似大模型的Scaling Law,推理计算扩展可提升性能[20] - 拒绝被标签化为To B公司,强调根据场景需求创造价值而非限定客户类型[25]
从DeepSeek R1的复现看深度思考模型的未来|ML-Summit 2025
AI科技大本营· 2025-03-31 14:55
2025全球机器学习技术大会(ML Summit 2025)概况 - 大会将于2025年4月18-19日在上海虹桥西郊庄园丽笙大酒店召开 [1] - 由CSDN & Boolan联合主办,汇聚超50位学术界和工业界顶尖专家 [1] - 设有12大技术专题,覆盖AI领域前沿热点,并设置AI企业创新展区展示最新技术产品和解决方案 [8] 大会核心演讲内容 - 新浪微博首席科学家张俊林将分享《从DeepSeek R1的复现看深度思考模型的未来》 [1] - 演讲将系统梳理DeepSeek R1开源后的各类复现研究,涵盖SFT阶段轻量适配与RL阶段创新实践 [6] - 重点剖析两阶段训练模式:冷启动微调结合多领域数据优化的SFT阶段,以及运用GRPO强化学习与全场景对齐实现能力跃迁 [6] 深度思考模型技术探讨 - 大模型时代Scaling Law仍是核心驱动力,Grok 3案例显示增大模型尺寸的传统做法性价比值得思考 [5] - 提出用S型曲线叠加解释大模型预训练、后训练及推理阶段的Scaling Law现象 [5] - 探讨关键技术问题包括:RL的Scaling Law边界、影响SFT阶段蒸馏方法效果的关键因素、如何科学解释"Aha Moment"现象 [6] 行业影响与展望 - 大会是推动AI生态融合、促进行业协同创新的重要契机 [8] - 旨在探索AI未来发展方向,推动技术在更广泛场景落地 [8] - DeepSeek R1开源引发学术界和工业界复现研究热潮,为探索更强大的深度思考模型提供新视角 [4][5]
对话2025最火具身智能团队:2个自动驾驶第一人带队,1.2亿美元天使融资震动江湖
量子位· 2025-03-26 18:29
行业与公司概况 - 具身智能被视为继AI和自动驾驶后的下一代科技风口,行业热度极高,投资机构竞相追逐新兴创业公司[2] - 它石智航(TARS)在2025年2月成立后迅速完成1.2亿美元天使轮融资,创中国具身智能领域最大天使轮纪录[3][7][8] - 公司由自动驾驶领域顶尖专家陈亦伦(华为前自动驾驶CTO)和李震宇(百度阿波罗前负责人)联合创立,团队被类比为"库里+约基奇"的梦之队组合[4][11][15][16] 技术方向与核心优势 - 核心技术引擎为AWE(AI World Engine),定位为具身智能领域的GPT大模型,但采用Human-Centric数据采集范式[14][37][65] - 技术路径强调全栈能力:超级算法(具身大模型)、超级本体(机器人硬件)、超级应用(场景解决方案)[25][26] - 核心差异点包括:4D空间对齐技术、真实世界具身数据闭环、端到端强化学习架构[42][39][36] - 工程化能力是最大壁垒,团队曾主导华为ADS和百度Apollo的量产落地[14][15][16] 产品与商业化路径 - 初期聚焦柔性物体操作场景(如汽车制造),验证物理AI的工业应用价值[28][77] - 采用模块化机器人本体设计,暂不确定灵巧手形态,但强调上肢拟人化操作的必要性[71][82][84] - 版本规划对标GPT发展路径:AWE 3.0(基础模型)→3.5(场景优化)→强化学习版本[70] - 商业化标准强调"机器人实际工作场景"而非展会演示,金标准是落地稳定性[100][101] 行业趋势判断 - 物理AI(具身智能)将接替信息AI成为主流,自动驾驶和大模型成功奠定技术基础[49][51][52] - 行业三大Scaling Law:数据规模→模型参数→推理能力,当前瓶颈在数据维度[59][60][63] - 关键技术分歧(仿真vs真实数据/通用vs垂类/大小脑架构)将随AI能力提升自然收敛[96][97][98] - 具身智能的"GPT时刻"标志是机器人用AI方法可靠完成1-2项现实任务[109][110] 团队与融资 - 核心团队包含华为"天才少年"丁文超(首席科学家)和量产专家陈同庆(首席架构师)[16][17] - 天使轮由蓝驰创投、启明创投联合领投,8家机构跟投,超募现象显著[7][14] - 融资将投入技术研发、模型训练和场景拓展,重点构建数据采集基础设施[13][43][45]
大模型“神仙打架”,掀起复现潮、技术大升级后,我们需要关注什么? | 万有引力
AI科技大本营· 2025-03-25 09:45
大模型技术竞赛与行业动态 - DeepSeek连续五天开源引发复现热潮,阿里巴巴通义实验室和腾讯分别推出ViDoRAG系统和混元快思考模型Turbo S,加速大模型演进 [1] - 马斯克用20万张GPU训练Grok 3超越业界标杆,验证"大力出奇迹"定律 [1] - Claude 3.7 Sonnet编码能力大升级,AI编程技术平权时代加速到来 [1] - DeepSeek论文与Kimi"撞车",稀疏注意力与线性注意力机制成为Transformer后的关键探索方向 [1] - Manus模式的"虚拟机"概念迅速走红,正在重塑大模型运行方式 [1] DeepSeek的技术突破与影响 - DeepSeek R1发布引发全球热议,首次展示模型能以类似人类方式思考,采用第一人称表达推理过程 [6][7] - DeepSeek开源周发布五大项目,涉及算力加速、通信优化和存储处理三大领域 [20][22] - DeepSeek利润率高达545%,颠覆行业对大模型MaaS盈利能力的认知 [33] - DeepSeek的技术路线侧重小粒度Expert,强调效率,相比Grok 3的"暴力美学"更为高效 [45] - DeepSeek的推理架构为搜索体验带来颠覆性变化,推动"边搜边想"的新搜索逻辑 [7] 行业竞争格局与趋势 - 行业可能出现两条发展路径:少数企业继续堆砌算力追求极致模型,大多数企业选择小模型路线 [46] - "百模大战"第一阶段暂时由DeepSeek领先,竞争可能向多模态和具身智能演进 [30][31] - 新兴公司在AI基础设施和大模型训练领域面临巨大投入挑战,难以与头部企业竞争 [27][28] - 阿里Qwen在国际市场表现不俗,但在推理方面未能取得DeepSeek级别的突破 [26] - 量化公司如九坤转型成立AI部门,在系统优化和数据处理方面具有优势 [27] 技术演进与创新方向 - Attention机制面临算法复杂度高的问题,改进方向包括稀疏化和状态空间模型(SSM) [62][63] - DeepSeek提出的NSA(Neural Sparse Attention)在减少计算量的同时提升模型效果 [65] - 合成数据成为重要方向,在多模态、具身智能等领域应用广泛,精准度超越传统数据增强 [75][77] - 长上下文支持技术变革搜索领域格局,Gemini的100万token窗口展现强大能力 [50] - 代码模型可能成为通往AGI的路径,通过持续学习和技能库扩展实现能力进化 [81][83] 应用场景与商业化 - AI编程是首个经过PMF验证的应用场景,Claude 3.7和DeepSeek在代码能力上仍有提升空间 [78][80] - AutoPilot类工具如Devin更适合"万事开头难"场景,成本低于雇佣实习生 [78] - MaaS商业模式面临上游价格和下游支付意愿的双重挑战,运营效率成为关键壁垒 [33][34] - 私有化部署需求增长但面临数据治理挑战,建议企业优先使用API进行验证 [36][39] - 2B领域数据治理和处理服务需求旺盛,国内加速推进数据要素市场建设 [36] 基础设施与工程实践 - 训练大模型成本极高,智源发起OpenSeek开源项目,已吸引100多位贡献者 [9][10] - OpenSeek处理约100亿网页数据,构建4亿条CoT数据集,计划全面开源 [11] - 系统训练层面缺乏成熟框架支持,DeepSeek公开自研五个项目提升训练效率 [12] - 行业Infra团队和人才稀缺,更多关注0到1搭建而非1到100的优化 [21] - 虚拟机技术可能走红,因工具调用需要沙盒化环境执行任务 [84]