Scaling law - 财报，业绩电话会，研报，新闻

Scaling law

搜索文档

「Tokens是胡扯」，Mamba作者抛出颠覆性观点，揭露Transformer深层缺陷

机器之心· 2025-07-09 17:52

机器之心编译原文作者：Albert Gu 编辑：陈陈、杜伟「Tokenization（分词）是 Transformer 模型为弥补自身缺陷不得不戴上的枷锁。」近日，Mamba 作者、CMU 助理教授、Cartesia AI 首席科学家 Albert Gu 撰写了一篇新博客，探讨了状态空间模型（SSM）和 Transformer 之间的权衡，并提出了这样一种观点。这篇博客改编自 Albert Gu 过去一年来多次进行的一场演讲。虽然演讲内容通俗易懂，面向比较广泛的受众群体，但其中的一些有趣的见解、观点和原理阐释，相信对专业研究者也不乏启发价值。在社交媒体 X 上，Albert Gu 抛出了「tokens are bullshit」的观点，并预告了接下来要发布的重大架构进展。图源： https://x.com/_albertgu/status/1942615020111876248 评论区的很多网友赞成 Albert Gu 的观点，认为移除 tokenization 会在计算效率方面带来积极影响。状态空间模型本文首先定义了什么是状态空间模型（State Space Model，SSM）。 1. ...

为什么 AI 搞不定体力活——对话清华大学刘嘉：这才是生物智能最难攻克的“万里长征” | 万有引力

AI科技大本营· 2025-07-09 15:59

以下文章来源于CSDN ，作者唐小引 CSDN . 成就一亿技术人作者 | 唐小引出品 | CSDN（ID：CSDNnews） 1997 年，AI 正处于第二次寒冬，这次寒潮的时间有点长，从 20 世纪 90 年代直至 21 世纪的第一个十年。寒冬之下，有人坚持，有人幸运，也有人不是那么地有运气。李飞飞说："我觉得自己是世界上最幸运的人，因为我的整个职业生涯始于 AI 寒冬的末期，也就是 AI 开始腾飞的时候，所以我真的非常幸运，也有点自豪。" 而在现任清华大学基础科学讲席教授、心理与认知科学系主任、人工智能学院教授、北京智源人工智能研究院首席科学家刘嘉的世界里，则不一样。 1997 年，对人工智能深感困惑的青年刘嘉远赴美国麻省理工学院（ MIT ）深造，慕名拜访人工智能之父马文·明斯基（ Marvin Minsky ），想要从这位鼎鼎大名的 AI 教父身上寻求良方。明斯基很 Nice，完全没有任何架子，让刘嘉前往 MIT 人工智能实验室面谈。但面谈的结果却让刘嘉备受打击，" 我记得当时人工智能实验室在 MIT 是一栋很高的楼，我上去的时候是仰视，终于到了那种殿堂级的地 ...

Mamba一作预告新架构！长文论述Transformer≠最终解法

量子位· 2025-07-09 12:57

一水发自凹非寺量子位 | 公众号 QbitAI Mamba一作最新大发长文！主题只有一个，即探讨两种主流序列模型—— 状态空间模型（SSMs）和Transformer模型的权衡之术。简单介绍下，Mamba就是一种典型的SSMs，它建立在更现代的适用于深度学习的结构化SSM基础上，与经典架构RNN有相似之处。在最受关注的语言任务上，Mamba-3B超越同等规模的Transformer，与两倍大的Transformer匹敌，因此被视为Transformer架构的有力挑战者。现在，Mamba一作将自己去年的几场演讲整合成一篇科普长文，向大众分享了如下观点：而且他还提前剧透，几天后将发布"架构领域的下一个重大进展" 。虽然还不知道具体内容，但他目前扔出来的消息已经足够大家抓耳挠腮一段时间了。因为他提到了一个重要观点—— 注意力机制的缺点实际上并不是它的二次复杂度。要知道之前大家都认为，ChatGPT等大模型之所以处理长文本算力消耗巨大，背后原因是Transformer架构中注意力机制的二次复杂度。而现在，这样的共识或许即将被推翻~ 不过好消息是，即将推出的新架构能够和Transf ...

训练自2.67亿个单细胞数据的AI虚拟细胞模型——STATE，无需实验，预测细胞对药物或基因扰动的反应

生物世界· 2025-07-07 11:17

近日， Arc 研究所发布了其第一代虚拟细胞模型—— STATE ，该虚拟细胞模型旨在预测各类干细胞、癌细胞和免疫细胞对药物、细胞因子或基因扰动的反应。 STATE 模型基于 1.67 亿个细胞的观察数据以及超过 1 亿个细胞的扰动数据进行训练，这些数据涵盖了 70 种细胞系。该论文已于近期发表在了预印本平台 bioRxiv 上。撰文丨王聪编辑丨王多鱼排版丨水成文人体是由细胞（Cell）构成的马赛克，其中，免疫细胞通过增强炎症来对抗感染；干细胞可以分化成各种组织；癌细胞避开调控信号而无节制地分裂。然而，尽管这些细胞之间存在显著差异，但这些看上去截然不同的体细胞都携带着（几乎）相同的基因组。细胞的独特性不仅源于 DNA 的不同，更在于每个细胞对 DNA 的使用方式。换句话说，细胞的特性源自基因表达的变化，即基因在不同时刻的"开启"和"关闭"。细胞的基因表达模式——以 RNA 分子的形式体现，而 RNA 分子本身又是从 DNA 转录而来，基因的表达不仅决定了细胞的类型，还决定了细胞的状态：细胞基因表达的变化可以揭示细胞如何从健康状态转变为炎症状态，甚至癌变。通过测量有或无化学或基 ...

原来Scaling Law还能被优化？Meta这招省token又提效

机器之心· 2025-07-06 11:49

Transformer架构演进 - 2017年《Attention Is All You Need》论文提出Transformer架构，现引用量接近19万次，成为AI领域基础范式[1][2] - Transformer核心改进方向包括Multi-Token Attention和Multi-matrix Factorization Attention等新型注意力机制[2] - Meta最新研究提出旋转不变型三线性注意力机制，性能可改变Scaling Law系数[4] 2-simplicial Transformer技术突破 - 2-simplicial Transformer源自2019年研究，将点积注意力扩展为三线性形式[7][19] - 新型注意力机制通过三线性积构建三阶张量，计算复杂度为O(n^3)[22][23][35] - Meta采用滑动窗口参数化(O(n×w1×w2))降低计算负担，最优配置为w1=512,w2=32[32][37] Scaling Law理论框架 - 神经Scaling Law公式：L(N,D)=E+A/N^α+B/D^β，其中E为不可约损失[13][14] - Hoffmann等(2022)实验得出a≈0.49,b≈0.5，表明token数量需与模型规模同步扩展[15][17] - 2-simplicial Transformer展示更优参数扩展指数，token增长可慢于参数增长[10][50] 实验性能对比 - 在1B参数模型中，2-simplicial注意力使GSM8k和MBPP任务分别提升0.79%和0.88%[43] - 参数规模超过2B后，2-simplicial注意力优势减弱，3.5B模型在MMLU-pro任务下降2.15%[43][45] - 2-simplicial注意力斜率α更陡峭，显示其Scaling Law指数优于传统Transformer[49][50] 计算优化实现 - Meta使用Triton实现新型注意力机制，采用分组查询注意力(GQA)比率64提升计算效率[38] - 对比标准点积注意力(复杂度2n^2)，窗口化2-simplicial注意力复杂度为6πw1w2[33][35] - 引入在线softmax等核优化技术，延迟最优配置达55.1ms(16k窗口)[32][39]

Meta Platforms(US:META)

Scaling Law

Transformer

2-simplicial Transformer

Artificial Intelligence

旋转不变型三线性注意力机制

Scaling Law

Transformer

2-simplicial Transformer

Artificial Intelligence

旋转不变型三线性注意力机制

深度｜Sam Altman：创业者不要做OpenAI核心要做的事，还有很多领域值得探索，坚持深耕可长成比OpenAI更大的公司

Z Potentials· 2025-07-03 11:13

初心与人才汇聚 - 创立OpenAI的最关键决策是"决定要做"这件事本身 2015年时AGI被视为天方夜谭团队几乎靠掷硬币决定是否启动[3] - 早期AI领域氛围与现状截然不同当时连有效语言模型都未出现团队仅8-20人目标仅是写出像样的研究论文[4] - 聚焦AGI方向成功吸引1%顶尖人才因"全世界只有你在做"的独特性形成人才聚集效应[5] - 伟大公司都始于微小起点零收入创业公司与未来千亿估值公司初期形态相似[6] 产品与技术的未来 - 当前AI领域存在"产品滞后"现象模型能力远超现有产品形态即使性能停滞仅推理成本下降就能催生大量创新[7] - 记忆功能是重要突破方向指向未来AI将成为了解用户、主动帮助的个人助手而不仅是被动问答工具[8] - 技术组合将创造强大体验包括新设备、新浏览器、记忆功能和持久化模型的结合[11] - 计算负载将采用混合模式部分本地运行减轻云端压力但主要计算仍依赖云端[12] 机器人与工业复兴 - 机器人发展策略是先解决认知问题再连接机械预计几年内可胜任实际工作未来需求将远超当前供应链产能[15] - AI和机器人技术为重建美国工业能力提供新路径可能实现制造业回流和复杂工业体系重建[16] - 建议创业者避开OpenAI核心业务专注空白领域如应用商店、个性化模型集成等方向[17] 界面革命与创业黄金时代 - 未来人机交互将"融化"为无感状态 AI像优秀人类助手仅在必要时出现改变当前信息过载的交互方式[21] - 计算机交互正经历第三次革命前两次是键盘鼠标和触控屏本次由AI驱动将产生全新交互范式[22] - SaaS未来可能演变为API+数据库+LLM界面 UI将由大模型即时生成当前是创业最佳时机[23] 能源与未来愿景 - AI发展与能源紧密相关能源限制决定可运行的智能规模需解决算力与地球散热的平衡问题[29][30] - 人均能耗与生活质量强相关技术乐观主义相信"激进富足" 通过AI和无限能源创造美好未来[30] - AI推动科学进步是长期增长核心未来10-20年可能出现超级智能大幅加速科学发现速度[27] 早期经历与对年轻创业者的建议 - 创业需要长期坚持信念和韧性即使遭遇失败也要继续前行首个项目失败是常见经历[32] - 招聘应关注"斜率高的人"而非"y轴截距高的人" 即选择成长速度快、有好奇心的人才[26] - CEO工作挑战在于同时处理大量不相关但重要的决策远超常人承受范围[26]

Artificial Intelligence

Artificial Intelligence

ChatGPT

华泰证券：算力链高景气延续，下半年AI眼镜有望迎来拐点

快讯· 2025-07-02 08:01

电子板块2025年下半年展望 - 大模型架构持续迭代，Scaling Law有望再次加速叠加推理需求增长，算力链高景气度有望延续 [1] - 国内制造端先进工艺产能持续推进，新产能开出将提升国产设备商的国产化率 [1] - AI眼镜下半年或迎来拐点，智驾领域因价格带下探产业趋势有望加速 [1]

虎嗅· 2025-07-01 09:33

大模型性能与竞争格局 - DeepSeek模型性能快速提升 2024年4月排名靠后 8月进入TOP10 12月成为基础能力第一的开源模型[1] - 基础模型TOP10中中国占6个美国占4个包括通义千问豆包混元文心等[3] - 模型排名轮动加速 GPT-4o曾保持200天第一现在十几天就会变化[7] - 训练成本高企每次至少几百万美元保鲜期短导致玩家减少[8] 模型训练技术趋势 - 预训练与后训练并存预训练提升基础能力强化学习从实战中学习潜力大[14] - 下游企业减少参与训练转向提示词工程检索增强工作流等工程化方法[9] - 智谱AI坚持预训练路线技术团队实力和资源储备是关键[12] Agent发展与应用 - Agent成为运行在大模型上的软件自主规划能力显著提升[21] - 提示词仍重要精心设计的系统提示词可充分激发模型能力[22] - Agent可能不是单一产品而是多功能集合开发平台将成关键[29] - 未来或形成个位数基座模型+垂直行业应用平台的格局[30] 基准测试体系价值 - "方升"测试体系包含700万条数据聚焦产业实战应用[1][44] - 测试方法标准化题目非开源每次抽取1-2万题后作废[47][48] - 基准测试是指挥棒定义方向中美差距缩小因目标一致[51] 技术路线与产业方向 - 谷歌DeepMind强化学习路线被低估在生物材料等领域价值巨大[34][37] - 当前模型缺乏世界模型能力需突破空间关系物理定律等[38] - AI下半场需减少信息过载增强意图理解任务规划等能力[52]

Artificial Intelligence

Artificial Intelligence

公布最新研究！这次1XWorldModel如何颠覆人形机器人领域？

机器人大讲堂· 2025-06-29 11:53

2024年9月，1X Technologies （以下简称 "1X"）发布全球首个人形机器人世界模型 1X World Model首证 Scaling Law（人形机器人数据显著增强扩展定律）。前不久， 1X对外公布了其世界模型在技术迭代和应用场景上取得的多项突破，再度成为行业焦点。据具身智能大讲堂了解， 1X World Model 是一种可以模拟现实世界在智能体作用下如何演变的生成式视频模型，其基于视频生成技术（ Sora）和自动驾驶世界模型（端到端自动驾驶，E2EAD）构建形成，能够通过输入图像状态与动作指令模拟出机器人在不同动作下的未来场景，预测机器人和操作对象之间的交互效果，帮助人形机器人完成精准交互，解决具身机器人评估难题。本次 1X World Model 最新突破集中在三个方面： ▍ 动作可控性：从基础动作响应到复杂物理场景精准模拟首次公开的 1X World Model具备根据不同动作命令生成不同结果的能力，通过展示以四种不同轨迹为条件对世界模型进行的不同生成过程，且每条轨迹都从相同初始帧起始，清晰地呈现了其多样化生成特性。在模拟物体间交互这一核心价值体现上 ...

Scaling Law

Generative Video Model

Embodied Intelligence

Robotics

1X World Model

Scaling Law

Generative Video Model

Embodied Intelligence

Robotics

1X World Model

肖仰华教授：具身智能距离“涌现”还有多远？

36氪· 2025-06-27 19:30

人工智能技术发展路径 - 人工智能发展呈现两条清晰脉络：生成式人工智能(AIGC)和具身智能前者聚焦机器认知能力后者侧重感知与行动能力 [3][6][7] - 生成式大模型本质是让机器具备人类大脑的认知功能包括语言生成和逻辑思考能力具身智能则模拟人类身体感知与环境交互能力 [6][7] - 认知智能与具身智能的下一个里程碑是身心协同阶段需实现身体与大脑的双向塑造 [3][8][9] 技术革命性特质 - 判断技术革命性的三大标准：基础性(如水电煤)、生产力指数级提升、对社会上层建筑的颠覆性影响 [9][10] - 生成式AI符合三大标准：成为新型基础设施脑力工作效率提升百倍渗透社会各领域 [10] - 具身智能对生产力的提升作用有限 80亿机器人产能仅相当于人口增长1-2倍且受安全伦理制约 [11][12][13] 模型发展规律 - Scaling law主导生成式AI初期发展依赖海量数据(万亿token)和大规模算力 [14] - 后训练范式崛起(如DeepSeek R1) 数据质量与训练策略取代规模成为关键参数规模让位于算法设计 [15][16] - 行业大模型落地瓶颈在于数据央国企需投入80%精力治理行业数据高质量数据集建设成产业护城河 [18][19] 具身智能发展挑战 - 数据缺口显著：最大具身数据集仅百亿token 较语言模型差2个数量级仿真/合成数据质量不足 [21][22] - 泛化能力受限：环境表达复杂性(如办公室场景需建模高维身体状态)导致数据采集困难 [31][32] - 突破路径包括增加训练量(虚拟试错) 借鉴人类类比/归纳机制但需敬畏"不可言说"的交互复杂性 [33][34] 产业实现范式 - 三大技术路线并存：连接主义(神经网络)、符号主义(知识图谱)、行为主义(强化学习) 分别对应数据学习、知识学习和实践学习 [36][37][38] - 机器人应走场景化路径而非绝对通用功能受限于物理构造机械臂案例显示需任务与身体适配 [42][43] - 集约化需适度扫地机器人通过附加刷头扩展功能但强行植入多能力违背产业逻辑 [42][43] 技术风险与治理 - 物理伤害风险远低于认知风险需警惕AI通过决策误导造成的系统性危害 [45][46] - 安全治理核心是发展AI监管师职业建立"拔插头"机制同时加强价值观对齐研究 [48][49] - 身体限制可成为安全保障思想无边界才是最大风险源 [46][47] 行业影响与教育变革 - AI将冲击产业分工基础未来工作意义转向体验而非谋生物质极大丰富改变经济逻辑 [62] - 教育需破除内卷在保留核心技能(写作/编程)基础上培养AI难以替代的鉴赏/批判能力 [55][61] - 学科交叉与内心探索是重建价值体系方向需拓展认知边界应对文明转型 [56][57]