Workflow
扩展定律
icon
搜索文档
扎克伯格“暴利抢人”继续,挖走OpenAI前首席科学家创业项目CEO
36氪· 2025-07-04 17:55
Safe Superintelligence(SSI)人事变动 - SSI联合创始人丹尼尔·格罗斯于6月29日离职并加入Meta担任AI产品部门负责人 [2] - 创始人伊利亚·苏茨克维亲自出任CEO 另一位联合创始人丹尼尔·利维升任公司总裁 [2] - 公司拒绝Meta的收购意向 强调专注于开发安全的超智能技术 [2][4] SSI公司背景与发展 - 公司成立于2024年6月 专注于开发安全的超智能技术 [4] - 2025年4月融资后估值达320亿美元 获得Alphabet和英伟达投资 [4] - 创始人苏茨克维是扩展定律的早期倡导者 但认为单纯扩大模型规模已不是AI发展的最佳路径 [4] Meta的AI人才战略 - Meta展开数百亿美元AI招聘潮 包括向Scale AI投资140亿美元并吸引其创始人加入 [5] - 公司计划通过挖掘顶尖人才解决AI发展困境 但Llama 4 Behemoth模型开发进度因技术问题推迟 [5] - Meta失去Llama研究论文14名原始作者中的11名 工程师陷入"恐慌模式" [5] AI行业人才争夺战 - Meta与OpenAI展开激烈人才竞争 OpenAI CEO指责Meta提供巨额薪酬挖角 [6] - 传闻Meta为挖高级人才开出1亿美元奖金 但遭新聘研究员否认 [6] - OpenAI紧急调整薪酬策略 首席研究官表达强烈不安 [7] Meta的技术布局与挑战 - Meta明确招聘推理专家特拉皮特·班萨尔以弥补技术短板 [7] - 公司已集结强大AI团队 但混乱做法引发对其能否维持领导地位的质疑 [7] - 行业人力资本竞争正在重塑AI领域格局 [7]
中科大华为发布生成式推荐大模型,昇腾NPU可部署,背后认知一同公开
量子位· 2025-04-06 10:33
推荐系统发展趋势 - 生成式推荐范式HSTU将推荐参数扩展至万亿级别,验证了推荐领域的扩展定律,成为颠覆当前推荐系统的新范式[1][5] - 推荐系统发展经历四个阶段:手工设计特征和简单模型→复杂深度学习模型→重新关注特征工程→基于大语言模型扩展定律的生成式推荐大模型[4][5] - 扩展定律描述模型性能与参数规模、数据集规模和训练资源之间的幂律关系,通过增加模型深度和宽度可提升推荐效果[5] 生成式推荐模型架构对比 - 在ML-1M、ML-20M和AMZ-Books数据集上测试HSTU、Llama、GPT和SASRec四种架构,小参数时各架构表现相似,大参数时HSTU和Llama扩展性显著优于GPT和SASRec[7] - HSTU在16模块时ML-20M数据集HR@10达0.3520,NDCG@10达0.2079,MRR达0.1787,显著优于其他架构[8] - GPT在推荐任务表现未达预期,因其架构缺乏专为推荐设计的关键组件[7] 可扩展性来源分析 - 消融实验显示相对注意力偏移(RAB)是关键组件,移除后HSTU性能明显下降(32模块HR@10从0.3298降至0.3149)[9][10] - 为SASRec同时引入HSTU的RAB和调整残差连接后,其扩展性显著改善(32模块HR@10从0.0301提升至0.3182)[11][12] - 残差连接模式与RAB的结合是传统推荐模型获得扩展性的关键因素[11] 复杂场景与排序任务表现 - HSTU在多域联合训练中表现优于单域独立训练,在Digital Music和Video Games等小规模场景扩展性显著[13] - 排序任务中HSTU在ML-20M数据集32模块时AUC达0.7914,优于DIN的0.7247和Llama的0.7107[14][15] - 缩减embedding维度提升小数据集性能(ML-1M和AMZ-Books),但降低大数据集ML-20M性能[17] 技术突破与行业应用 - 中科大与华为合作开发推荐大模型部署方案,首次在国产昇腾NPU上成功部署[2] - Meta提出的HSTU框架引发生成式推荐大模型研究热潮,参数规模达万亿级别[1][5] - 未来研究方向包括数据工程、Tokenizer优化和训练推理效率提升[18]
美国机器人“四小龙”:通用机器人仍需十年,专用机器人即将出现,机器人的扩展法则会在五年内被探索出来 | GTC 2025
AI科技大本营· 2025-03-26 18:20
我们这一代人 出生得太晚,没能赶上探索地球的地理大发现时代; 我们出生得又太早,可能无法亲身参与星际旅行,探索其他星系。 但我们却恰逢其时, 躬逢其盛,见证并参与到解决机器人技术难题的伟大历史进程中。相信在不久的将来,所有能够移动的物体都将实现自主化。 责编 | 王启隆 出品丨AI 科技大本营(ID:rgznai100) 今天这篇文章将会回顾英伟达大会重点宣传的一个论坛:《 通用机器人的新时代:人形机器人崛起 》(A New Era of Generalist Robotics: The Rise of Humanoids),英伟达跟紧物理世界 AI 和具身智能的新风向,邀请到美国 四家 顶尖的 人形机器人 公司老板,参与这场对话。 那么问题来了,现在全世界的人形机器人领域都有哪些顶级公司呢? 相信很多人和小编一样,只认识国内的宇树机器人,对国外现在的机器人战局不太 了解,所以我们先看一张图,了解当前的时局情况: | 特斯拉 | | Google | | NVIDIA | | | | --- | --- | --- | --- | --- | --- | --- | | 美国 | | 美国 | | 美国 | ...
黄仁勋,刷屏!
证券时报· 2025-03-19 12:30
生成式人工智能时代 - 英伟达CEO黄仁勋在GTC 2025演讲中强调,AI技术已从意识AI(Perception AI)演进至生成式AI(Generative AI),目前进入代理式AI(Agentic AI)时代,未来将迈向物理AI(Physical AI)即机器人时代 [3] - 代理式AI正经历拐点,AI智能化程度和应用范围持续扩大,算力需求激增,需关注AI模型的训练与扩展,包括预训练扩展、训练后扩展及测试时间扩展("长思维") [5] 最新硬件与技术路线图 - 发布Blackwell Ultra AI工厂平台,专为AI推理设计,包含GB300(基于Arm的CPU)和B300(GPU)两个版本,带宽为前代GB200的2倍,内存速度提升1.5倍,2025年下半年出货 [8] - 公布2026-2028年数据中心路线图:2026年推出Vera Rubin芯片(NVLink 144技术加持,性能为GB300 NVL72的3.3倍),2027年推出Rubin Ultra(FP4推理能力达15EF,性能为GB300 NVL72的14倍),2028年推出Feynman架构芯片 [8][9] - 首次公开硅光芯片进展,具备高运算速度、低功耗和低时延特性,无需依赖极紫外光刻机(EUV) [10] 市场需求与行业进展 - Blackwell芯片推出一年内,全球前四大云服务商采购量从2024年的130万片Hopper架构芯片增至2025年的360万片Blackwell芯片,预计2028年数据中心建设支出达1万亿美元 [10] 机器人产业布局 - 黄仁勋称机器人产业"很可能是未来最大的产业",发布全球首款开源人形机器人基础模型GR00T N1,并展示与谷歌、迪士尼合作的机器人Blue [11] - 开发开源物理引擎Newton(预计2025年完成),用于机器人模拟学习,迪士尼将首批应用该技术改进娱乐机器人 [13] - 推出机器人开发工具如Mega(测试大规模部署效果),支持现实数据导入进行模仿学习或强化学习 [13] - 与通用汽车合作开发自动驾驶车队,优化智驾体验及工厂设计 [13]