Scaling Laws

搜索文档
训练自2.67亿个单细胞数据的AI虚拟细胞模型——STATE,无需实验,预测细胞对药物或基因扰动的反应
生物世界· 2025-07-07 11:17
近日, Arc 研究所 发布了其 第一代虚拟细胞模型—— STATE ,该虚拟细胞模型旨在 预测各类干细胞、癌细胞和免疫细胞对药物、细胞因子或基因扰动的反 应。 STATE 模型基于 1.67 亿个细胞的观察数据以及超过 1 亿个细胞的扰动数据进行训练,这些数据涵盖了 70 种细胞系。该论文已于近期发表在了预印本平台 bioRxiv 上。 撰文丨王聪 编辑丨王多鱼 排版丨水成文 人体是由 细胞 (Cell) 构成的马赛克,其中,免疫细胞通过增强炎症来对抗感染;干细胞可以分化成各种组织;癌细胞避开调控信号而无节制地分裂。然而,尽 管这些细胞之间存在显著差异,但这些看上去截然不同的体细胞都携带着 (几乎) 相同的基因组。 细胞的独特性不仅源于 DNA 的不同,更在于每个细胞对 DNA 的使用方式。换句话说,细胞的特性源自基因表达的变化,即基因在不同时刻的"开启"和"关闭"。 细胞的基因表达模式——以 RNA 分子的形式体现,而 RNA 分子本身又是从 DNA 转录而来,基因的表达不仅决定了细胞的类型,还决定了细胞的状态:细胞基 因表达的变化可以揭示细胞如何从健康状态转变为炎症状态,甚至癌变。通过测量有或无化学或基 ...
深度|Sam Altman:创业者不要做OpenAI核心要做的事,还有很多领域值得探索,坚持深耕可长成比OpenAI更大的公司
Z Potentials· 2025-07-03 11:13
初心与人才汇聚 - 创立OpenAI的最关键决策是"决定要做"这件事本身 2015年时AGI被视为天方夜谭 团队几乎靠掷硬币决定是否启动[3] - 早期AI领域氛围与现状截然不同 当时连有效语言模型都未出现 团队仅8-20人 目标仅是写出像样的研究论文[4] - 聚焦AGI方向成功吸引1%顶尖人才 因"全世界只有你在做"的独特性形成人才聚集效应[5] - 伟大公司都始于微小起点 零收入创业公司与未来千亿估值公司初期形态相似[6] 产品与技术的未来 - 当前AI领域存在"产品滞后"现象 模型能力远超现有产品形态 即使性能停滞 仅推理成本下降就能催生大量创新[7] - 记忆功能是重要突破方向 指向未来AI将成为了解用户、主动帮助的个人助手 而不仅是被动问答工具[8] - 技术组合将创造强大体验 包括新设备、新浏览器、记忆功能和持久化模型的结合[11] - 计算负载将采用混合模式 部分本地运行减轻云端压力 但主要计算仍依赖云端[12] 机器人与工业复兴 - 机器人发展策略是先解决认知问题再连接机械 预计几年内可胜任实际工作 未来需求将远超当前供应链产能[15] - AI和机器人技术为重建美国工业能力提供新路径 可能实现制造业回流和复杂工业体系重建[16] - 建议创业者避开OpenAI核心业务 专注空白领域 如应用商店、个性化模型集成等方向[17] 界面革命与创业黄金时代 - 未来人机交互将"融化"为无感状态 AI像优秀人类助手仅在必要时出现 改变当前信息过载的交互方式[21] - 计算机交互正经历第三次革命 前两次是键盘鼠标和触控屏 本次由AI驱动将产生全新交互范式[22] - SaaS未来可能演变为API+数据库+LLM界面 UI将由大模型即时生成 当前是创业最佳时机[23] 能源与未来愿景 - AI发展与能源紧密相关 能源限制决定可运行的智能规模 需解决算力与地球散热的平衡问题[29][30] - 人均能耗与生活质量强相关 技术乐观主义相信"激进富足" 通过AI和无限能源创造美好未来[30] - AI推动科学进步是长期增长核心 未来10-20年可能出现超级智能 大幅加速科学发现速度[27] 早期经历与对年轻创业者的建议 - 创业需要长期坚持信念和韧性 即使遭遇失败也要继续前行 首个项目失败是常见经历[32] - 招聘应关注"斜率高的人"而非"y轴截距高的人" 即选择成长速度快、有好奇心的人才[26] - CEO工作挑战在于同时处理大量不相关但重要的决策 远超常人承受范围[26]
OpenAI路线遭质疑,Meta研究员:根本无法构建超级智能
36氪· 2025-06-20 20:00
超级智能发展路径 - 超级智能是超越AGI和人类通用能力的更高维度AI发展方向,Meta等头部公司正投入巨资追求这一目标 [1][3] - OpenAI CEO认为构建超级智能是工程问题而非科学问题,暗示已有可行路径 [1][3] - Meta研究员质疑当前主流LLM+RL路径的有效性,认为无法实现超级智能 [1][2] 技术实现争议 - 构建超级智能的三种可能路径:纯监督学习(SL)、人类验证的强化学习(RL)、自动验证器的RL [2] - 当前LLM在训练分布内任务表现持续提升,但难以发展为单一超级智能模型 [2][34] - 文本数据具有特殊价值,非文本数据(图像/视频等)尚未证明能提升模型整体性能 [6][7] 数据与规模挑战 - 互联网文本数据面临枯竭风险,行业正全力挖掘剩余数据(如转录YouTube视频) [8][19] - 模型规模扩展遭遇硬件和电力瓶颈,部分公司尝试分布式训练甚至收购核电站 [18][19] - 参数规模突破10^19的假设难以实现,当前最大模型约千亿参数级别 [17][18][19] 学习方法比较 - 监督学习(SL)面临规模扩展极限,未来3-4年可能仅能扩展10倍 [19][20] - 强化学习(RL)存在冷启动问题,需结合SL解决 [22][23] - RLVR(可验证奖励强化学习)成为新方向,OpenAI已展示在数学题上的成功案例 [32][33] 行业竞争格局 - Meta建立秘密"超级智能"实验室,投入数十亿美元资金 [3] - OpenAI、Anthropic和Google DeepMind均公开超级智能研发目标 [3] - 行业可能进入RL任务集军备竞赛,争夺最优训练环境设计 [33]
Lex Fridman 对谈谷歌 CEO:追上进度后,谷歌接下来打算做什么?
Founder Park· 2025-06-06 23:03
久违的 Lex Fridman 又来采访 AI 行业的关键人物了。 这次是 Google CEO Sundar Pichai。过去半年,Google 凭借 Gemini 2.5 完成了 AI 竞赛的追赶,某种意 义上说,Google 和 OpenAI 现在站在了同一起跑线。 Lex 的播客一向聊的广且深,这次也不例外,Pichai 这一年的困境、核心产品搜索的未来方向、模型和 Sclaing Law,AI 编程、具身智能、AGI、ASI 还是 AJI 的探讨。 很多时候,问对了问题,好的采访就完成了一大半。Pichai 的回复,确实有蛮多干货。 2 小时多的播客,编译时我们做了一些删减。 原始播客: https://www.youtube.com/watch?v=9V6tWC4CdFQ&t=2711s TLDR: 超 6000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。 谷歌对于未来搜索的设想是,在搜索中部署了最强的模型,这些模型会围绕每一个查询执行多路 径检索,并整合信息,最终把用户引向真正有价值的内容。 随着 AI Mode 功能的成熟,谷歌会将其迁移到主页面上,可以看作是一个连续的统 ...
中金 | AI进化论(11):GTC 2025,超摩尔定律延续,CPO正式亮相
中金点睛· 2025-03-28 07:33
文章核心观点 - NVIDIA GTC 2025大会上CEO从供需端分析AI硬件行业趋势,带来CPO通信技术更新,需求端缓解算力通缩担忧,供给端芯片、服务器和网络通信有新品发布及技术进展,CPO虽处产业化初期但长期有扩大应用机会 [1][3][4] 行业需求 - 投资者因LLM预训练成本收益比下降和开源模型降成本而担忧算力硬件市场增长,公司重申预训练后、后训练和长思维链推理等场景遵循Scaling Law,加速token消耗扩大算力需求,如强化学习和思维链推理,还预计2028年全球数据中心资本开支超1万亿美元 [7] - AI产业拐点至,推理任务占比在算力需求中增长,推理需求对Blackwell GPU订单量贡献上升,大会发布Dynamo推理软件优化推理任务,协调加速GPU间通信,采用Prefill/Decode分离模式 [9] 硬件更新之芯片&服务器 - 大会公布未来三年数据中心GPU及系统级产品,FP4稠密算力三年翻10x,公司将以GPU die数量命名系统及产品 [14] - Blackwell Ultra预计2H25交付,采用新设计,FP4精度算力较B200系列提升50%,内存配置升级至288GB HBM3E [14] - Vera Rubin自2H26起成主力产品,采用TSMC 3nm工艺,释放I/O die到独立小芯粒,系统级产品以NVL 144架构起步,CPU采用新架构,互联带宽提升;2H27有望推出Rubin Ultra,性能进一步跨越,推出NVL 576机柜产品 [15] - Feymann有望2028年推出,与Vera CPU搭配并迎来HBM升级 [16] 硬件更新之网络 C2C和B2B互联持续迭代 - Scale-up网络中,Vera Rubin NVL144机柜NVLink升级至6,连接总带宽达260TB/s,2027年下半年Rubin Ultra NVL576的NVLink迭代至7,聚合总带宽达1.5PB/s,提升GPU间通信效率 [21] - Scale-out网络中,Vera Rubin NVL144用Connect-X9智能网卡,总带宽28.8TB/s,Rubin Ultra NVL576总带宽提升至115.2TB/s,Rubin平台用Connect-X9和102T Spectrum6 CPO交换机,Feynman平台有望引入Connect-X10和204T Spectrum7 CPO交换机 [22] CPO交换机正式亮相 - CPO构建高密度光互连,缩短光信号电学互连长度,减少信号衰减和失真,未来走向晶圆级封装提升互连密度 [24] - GTC 2025发布三款CPO交换机,IB CPO交换机有望2H25量产交付,两款Spectrum CPO交换机有望2H26交付 [27] - 硅光调制采用微环调制器,尺寸小、功耗低,115.2T IB CPO交换机中每个硅光引擎用MRM调制,单通道速率200Gb/s,节省3.5倍功耗 [30] - CPO处于产业化初期,面临散热、维护和实际TCO高等挑战,本次发布产品基于液冷、可插拔光连接器方案给出解决思路,长期随着技术和生态问题解决,CPO有望扩大应用,光器件与先进封装成核心增量环节 [34][35]
DeepSeek开源引领AI普惠化浪潮
Wind万得· 2025-03-03 06:40
DeepSeek开源策略影响 - DeepSeek成立于2023年,由幻方量化孵化,专注于大语言模型开发,已发布DeepSeek Coder、DeepSeek LLM、DeepSeek V3、DeepSeek R1等多款产品 [2] - DeepSeek V3训练成本仅557.6万美元,性能比肩GPT 4o和Claude-3.5-Sonnet,但成本远低于GPT 4o [2] - DeepSeek R1训练成本仅为同类模型的1/30,性能达到OpenAI o1水平,竞技场评分为1362分 [2][3] - 开源周期间发布FlashMLA、DeepEP、DeepGEMM等代码库,优化DualPipe、EPLB并行策略和3FS文件系统,提升算力效率 [5] - FlashMLA在H800 GPU上实现3000GB/s内存带宽和580TFLOPS计算性能,突破硬件极限 [6] 全球AI大模型进展 - DeepSeek R1发布后7天内用户增长1亿,周活跃用户环比增长超750%,远超Kimi的28%增速 [7] - 武汉市出台政策支持AI关键技术突破,单个项目最高资助2000万元 [7] - xAI发布Grok 3,计算能力提升10倍,支持图像分析和多模态处理,并免费开放 [8] - OpenAI发布GPT-4.5,输入/输出价格达75/150美元/百万token,为GPT-4o的30倍,在事实性问答表现优异但学术推理不及Claude 3.7 Sonnet和DeepSeek R1 [9] - GPT-4.5显示单纯扩大模型规模未必提升全面性能,OpenAI计划将GPT-5转向模型架构优化和功能融合 [10] AI大模型投融动态 - OpenAI拟融资400亿美元,头部企业仍主导资本流向 [14] - 低成本高性能模型改变估值逻辑,中小厂商可通过垂直领域创新获得机会 [14] - 投资重心转向AI应用层(金融、医疗、法律等)和Agent开发,2025年国内亿元级融资包括极睿科技(近1亿人民币B+轮)、源络科技(数亿人民币A轮)等 [15][16]
AI 月报:马斯克加速 GPU 竞赛;大模型真撞墙了? 风口转到 Agent
晚点LatePost· 2024-12-11 22:30
新栏目上线试运行。 文丨 贺乾明 编辑丨黄俊杰 到了 11 月,越来越多的人说,成就 OpenAI 的这条路似乎撞到了墙: 多家媒体报道,Google、OpenAI、Anthropic 等公司,开发下一代模型时,都没能像前些年那样让模型能力大幅提升。 硅谷风投 a16z 创始合伙人、投资了 OpenAI 等多家大模型公司的马克·安德森(Marc Andreessen)说:"我们以相 同的速度增加(GPU),根本没有智能提升。" OpenAI 联合创始人、前首席科学家伊尔亚·苏茨克维 (Ilya Sutskever) 说:"2010 年代是扩大规模的时代,现在我 们再次回到了需要奇迹和新发现的时代。" 这些公司的高管否认了 "撞墙" 的说法,也有证据表明他们仍在想办法突破,毕竟建设更大规模的算力中心的势头并没 有放缓,甚至还在加速。 他们同步在大模型应用上倾注更多的资源。从 OpenAI、Anthropic 到 Google、微软,再到风投机构,都把 Agent——让 大模型理解人类指令,调度数据库和工具完成复杂任务的系统——当作下一个赛点。 11 月,ChatGPT 迎来两周年,却是 OpenAI 官方相对沉 ...
发布视频生成模型、日均交互 30 亿次,MiniMax 第一次线下活动记录
晚点LatePost· 2024-09-02 23:40
"如果我们在竞争中打不赢,就应该被淘汰,没有其他选择。 文丨程曼祺 由 MiniMax 视频生成大模型制作的短片《魔法硬币》,MiniMax 称其中每个场景都由大模型生成,未经任何修改。 发布会所在的 "西岸漩心" 被巨大的螺旋式阶梯环绕,游人可沿着步道一直走到顶层露台,眺望浦东风景。这 是一条上升、平缓,然后再上升、平缓,最终达到顶点的路。此时 AI 领域似乎也处在螺旋中的相对平缓期。 当 MiniMax 创始人闫俊杰放映完由视频生成模型制作的动画短片后,观众席传来数声尖叫。至少 3 位在场的 投资人说, 视频生成模型是他们当天最在意的成果 。 但视频生成模型本身不新鲜了,自 OpenAI 年初发布 Sora,数家中国公司跟进这一方向。 "期货" 也在成为行业关键词:GPT-5、GPT-4o 的语音视频功能、Sora……它们要么上线晚于预期,要么亮相多 时后仍未大规模公测。据我们了解,国内 "六小龙"(MiniMax、月之暗面、智谱 AI、百川智能、零一万物、 阶跃星辰 6 家大模型独角兽)今年的基础模型或多模态模型的更新时点也多晚于原计划。 发布结束后,闫俊杰被问起如何看待技术进展放缓。他说,一条上升、平 ...
中国首批核聚变创业者谭熠:它总在你绝望时又给你希望|TECH TUESDAY
晚点LatePost· 2024-07-30 21:15
"核聚变永远还有 50 年是对的,现在不到 10 年可能也是对的。" 文丨 贺乾明 编辑丨程曼祺 "如果核聚变发电就是实现不了呢?" 听到这个问题,在清华大学研究核聚变 20 多年的谭熠沉默了几秒,然后笑了起来。他觉得这个问题 "根本没道理",因为核聚变 "从科学上是可行的"。 70 多年前的曼哈顿工程期间,科学家就了解核聚变原理。二战结束后,美国很快就用它造出了氢弹。但用核聚变发电的研究几经起伏,冷战后几乎停滞了 20 多年。 情况在 2021 年发生变化 ,美国的核聚变公司 Helion 宣布把等离子体加热到 1 亿摄氏度,实现原本只有政府项目才能做到的壮举;从麻省理工分拆的核聚变 公司 CFS 开发出形成更强磁场的高温超导磁体,把低成本建造能实现核聚变装置可能性大幅提高。 核聚变创业热潮出现:OpenAI 联合创始人山姆·阿尔特曼、PayPal 联合创始人彼得·蒂尔、比尔·盖茨、乔治·索罗斯等硅谷科技名流和富豪,以及 Google、DFJ 等机构在短时间里朝核聚变行业投资了 30 多亿美元,是美国政府数年来累计拨款的数倍。 这一年,谭熠创办核聚变公司星环聚能,担任首席科学家,在 2022 年 6 月拿到 ...
对话香港大学马毅:“如果相信只靠 Scaling Laws 就能实现 AGI,你该改行了”
晚点LatePost· 2024-06-04 18:05
文丨程曼祺 编辑丨宋玮 黄俊杰 当大部分人都相信一件事或趋势时,不同意的人可以选择沉默,也可以大声说出来。前者是少数派中的多数派,后者少数派中的少数派。 马毅就是一个少数派中的少数派。 自 2000 年从伯克利大学博士毕业以来,马毅先后任职于伊利诺伊大学香槟分校(UIUC)、微软亚研院、上海科技大学、伯克利大学和香港大 学,现担任香港大学计算机系主任和数据科学研究院院长。 他最早将 "压缩感知" 技术应用于计算机视觉领域,在人脸识别、物体分类等任务上产生了巨大影响。 知名 AI 学者李飞飞是马毅在 UIUC 时参与招聘的第一个华人助理教授,ResNet 一作何恺明是马毅在微软亚研院负责视觉组时招的第一个新员 工。 少数派中的少数派。 马毅公开表达时直言不讳。AI 业界惊叹于 GPT 等大模型的威力,担心 AI 可能毁灭人类,如图灵奖得主杰弗里·辛顿(Geoffrey Hinton) 和 OpenAI 发起者之一伊隆·马斯克(Elon Musk)就多次将 AI 类比为原子弹,呼吁监管。 "说现在的 AI 危险的人,要么是无知,要么是别有目的。" 马毅在 twitter 上回应 AI 威胁论。 强烈的观点来自他对 ...