Genie 3
搜索文档
LeCun哈萨比斯神仙吵架,马斯克也站队了
量子位· 2025-12-25 08:27
一水 发自 凹非寺 量子位 | 公众号 QbitAI 吵起来了。 图灵奖得主和诺贝尔奖得主,为了"智能的本质"——直接激情友好地交流上了。 AI三巨头之一、图灵奖得主Yann LeCun明确表示: 纯粹就是胡扯(complete BS)。 而诺贝尔奖得主、谷歌DeepMind CEO哈萨比斯也不留情面了,指名道姓回击: LeCun的说法简直是大错特错。 当然,马斯克的站队可能也有别的原因。毕竟他和LeCun素来不是很对付,跟哈萨比斯则亦师亦友——马斯克还是哈萨比斯DeepMind早期投 资人。 论战之激烈,关注度之高,已经让专门开辟了一个话题板块: 马斯克也跑来吃瓜了—— 没有任何多余的解释,但这波他站哈萨比斯——"Demis is right"。 事情还要从LeCun几天前接受的一场采访说起。 他在节目中言辞犀利地指出: 根本不存在所谓的"通用智能",纯粹就是胡扯(complete BS) 。 这个概念毫无意义,因为它实际上是用来指代人类水平的智能,但人类智能其实是高度专业化的。我们在现实世界里确实干得不错,比 如认个路、导航blabla;也特别擅长跟人打交道,因为咱们进化了这么多年就是干这个的。 但在国际 ...
不装了,LeCun哈萨比斯神仙吵架,马斯克也站队了
36氪· 2025-12-24 15:47
核心观点 - 人工智能领域两位顶尖专家就“智能的本质”展开激烈辩论,图灵奖得主Yann LeCun认为“通用智能”是胡扯,人类智能是高度专业化的产物,而诺贝尔奖得主、谷歌DeepMind CEO Demis Hassabis则认为通用智能不仅存在,且人脑是其存在性证明,双方的核心分歧部分在于对“通用”一词的定义和理解[1][6][8][13] - 尽管对智能本质的哲学观点存在分歧,但双方在实现AGI(通用人工智能)的实践路径上均将“世界模型”视为关键,但对其具体内涵和实践方向的理解存在差异:LeCun倾向于将世界模型视为用于决策的抽象认知框架,而Hassabis则更侧重于将其视为能够模拟和生成世界的“模拟器”[20][21][22] - 这场辩论反映了AI领域长期存在的根本性思辨,如符号主义与连接主义、端到端学习与模块化系统之争,这些辩论共同推动着技术发展方向的定义与演进[22] 主要人物与立场 - **Yann LeCun (Meta AI科学家,图灵奖得主)**:认为“通用智能”概念是“complete BS”(纯粹胡扯),主张人类智能是进化过程中为适应物理世界而形成的、高度专业化的能力,并非真正通用[6][8][14] - **Demis Hassabis (谷歌DeepMind CEO,诺贝尔奖得主)**:强烈反对LeCun的观点,认为其混淆了“通用智能”与“全能智能”的概念,强调人脑在理论上是近似图灵机的通用系统,并以其惊人的成就证明了通用智能的潜力[8][9][10] - **Elon Musk (企业家)**:在争论中表态支持Hassabis,称“Demis is right”,其立场可能受到与Hassabis的长期友谊及曾是DeepMind早期投资者的关系影响[2][4] - **Jürgen Schmidhuber (LSTM之父)**:在争论之外提及,其早期工作与LeCun正在创业的“世界模型”概念高度相似,并长期在AI领域进行“维权”,强调自身贡献[22][24][27] 关于智能本质的辩论要点 - **LeCun的核心论证**: - 人类智能是专业化的:人类在现实世界导航、社交等方面表现出色,但在国际象棋等特定领域表现不佳,甚至不如某些动物,这表明人类是“专才”而非“通才”[6] - 理论完备不等于实际通用:人脑在理论上(配合无限资源)是图灵完备的,但在资源有限的实际问题中效率极低,因此是资源约束下高度优化的专门化系统[14] - 大脑可实现的功能比例极小:以视觉为例,从100万比特输入到1比特输出的所有可能布尔函数中,人脑能实现的只占“一个无穷小的比例”,这证明大脑是高度专门化的[17][18] - **Hassabis的核心论证**: - 大脑具有极强的通用性:大脑是目前宇宙中已知最精妙复杂的事物,只要给予足够时间、内存和数据,就能够学习任何可计算的内容,是近似的图灵机[9] - 人类成就证明通用潜力:人类能发明国际象棋、科学乃至现代文明(如波音747),考虑到大脑本是为狩猎采集进化而来,这些成就已充分展现其惊人的通用潜力[9] - 智能的关键标准是通用性与学习能力:以1997年“深蓝”为例,其虽擅长国际象棋但不会玩简单的井字游戏,体现了非通用程序的局限性,而人类大脑则展示了通用智能的可行性[10] 实现AGI的路径与方法论 - **Hassabis提出的三步方法论**: - **预测为基石**:智能的本质在于预测(如下一个单词或蛋白质结构),这是所有认知活动的基础形式[10] - **引入搜索与规划**:AI需建立世界模型,并在此基础上在巨大组合空间中进行搜索规划以找到最优解[11] - **通向深度强化学习**:结合深度学习(模式匹配)与强化学习(试错与规划),模拟大脑的神经通路与多巴胺奖励系统,实现自主进化[12] - **双方共识与分歧点**: - **共识**:实现AGI需要构建“世界模型”[20] - **分歧**:LeCun认为世界模型应追求掌握控制理论和认知科学,关注用于决策的抽象表征,而非渲染像素;Hassabis则认为世界模型应能理解世界的因果关系与“直观物理学”,并能生成逼真世界以证明其理解[20][21][22] 行业动态与商业布局 - **LeCun的创业计划**:即将从Meta离职,创立名为Advanced Machine Intelligence Labs (AMI Labs)的新公司,计划于明年一月正式亮相,目标估值30亿欧元(约247亿元人民币),专注于世界模型研发[20] - **谷歌DeepMind的进展**:已于2024年8月推出新版世界模型Genie 3,并持续开发如Veo等视频模型,视可交互的世界模型为通往AGI的关键一步[21][22] - **历史技术路线之争**:当前关于智能本质的争论是AI领域长期思辨的延续,历史上包括符号主义与连接主义、端到端学习与模块化系统以及当下的开源与闭源之争,这些辩论持续塑造着行业技术发展方向[22]
不装了!LeCun哈萨比斯神仙吵架,马斯克也站队了
量子位· 2025-12-24 13:14
核心观点 - 两位AI领域顶尖专家就“智能的本质”展开激烈论战,其核心分歧在于对“通用智能”的定义和理解,但双方都认为“世界模型”是实现AGI的关键路径 [3][31][42] 关于智能本质的争论 - **Yann LeCun的观点**:认为“通用智能”是胡扯(complete BS),人类智能是高度专业化的,是为了适应现实物理世界而专门进化出来的能力 [9][13] - LeCun论证:人类在某些领域(如国际象棋)表现很差,而有些动物更强,因此人类是“专才”而非“通用” [10] - LeCun进一步指出:理论上的图灵完备性(如人脑配合无限纸笔)对解决现实问题效率极低,真正的智能必须在有限资源下高效运作,人脑是资源约束下高度优化的结果 [34][35] - LeCun以神经网络为例:理论上两层网络可逼近任何函数,但实践中需要巨大且难以实现的神经元数量,因此我们使用多层网络,这证明了专业化 [36] - LeCun引用爱因斯坦:世界竟然可以被理解是不可思议的,我们能理解的只是所有可能函数中无穷小的比例,无法理解的部分称为“熵” [37][38][39] - **Demis Hassabis的观点**:认为LeCun大错特错,其混淆了“通用智能(general intelligence)”和“普适智能(universal intelligence)” [15][16] - Hassabis认为:大脑是宇宙中已知最精妙复杂的事物,具有极强的通用性,从图灵机理论看,只要给予足够时间、内存和数据,就能学习任何可计算内容,人脑和AI基础模型是近似的图灵机 [17][18] - Hassabis以人类发明国际象棋、科学乃至现代文明(如波音747)为例,认为这展现了人脑惊人的通用潜力,尽管大脑最初是为狩猎采集进化 [19][20] - Hassabis衡量智能的关键标准:通用性(Generality)和学习能力(Learning) [22] - Hassabis以1997年“深蓝”为例:其虽擅长国际象棋但不会玩简单井字游戏,足见其死板,而最吸引他的是作为人类代表的卡斯帕罗夫的大脑 [22][23] - Hassabis坚信:人类大脑是宇宙中已知唯一关于“通用智能可行性”的存在性证明 [24] - **争论的调和与核心**:LeCun后续回应称分歧主要在于“用词”,他反对用“通用”指代“人类水平”,但承认用词分歧后仍坚持人类智能高度专门化的观点 [32][33] - 网友观点:抛开用词,两人本质在谈论不同问题,一个强调“我们是什么”(人类智能的现状),另一个强调“我们能成为什么”(智能的潜力) [41] 实现AGI的路径:世界模型 - 双方都认为“世界模型”是实现AGI的关键下一步 [42] - **Yann LeCun的世界模型路径**:其即将从Meta离职创业,新公司名为Advanced Machine Intelligence Labs(AMI Labs),计划于2025年1月正式亮相,目标估值30亿欧元(约247亿人民币) [43] - LeCun对世界模型的理解:追求的不是渲染精美像素,而是掌握控制理论和认知科学,模型应专注于捕捉能用于AI决策的世界状态的抽象表征,与JEPA研究一脉相承 [44] - LeCun认为关键:了解“世界的结构是什么” [45] - **Demis Hassabis的世界模型路径**:表示世界模型是谷歌DeepMind接下来的重点 [46] - 谷歌DeepMind于2024年8月推出新版世界模型Genie 3 [47] - Hassabis对世界模型的理解:指能够理解世界运行机制中因果关系与协同效应的模型,即一种“直观物理学”——事物如何运动、相互作用及表现 [47] - Hassabis认为检验方式:是否能够构建一个逼真的世界,因为若能生成它,就意味着已理解并内化了系统运作规律,这也解释了Genie、Veo等模型首先以视频模型形式出现 [48][49] - **双方世界模型理念的差异**:LeCun代表“世界模型即认知框架”,Hassabis代表“世界模型即模拟器” [50] 行业背景与相关动态 - AI领域的重大进步常伴随根本性争论,如历史上的符号主义与连接主义、端到端学习与模块化系统、以及当前的开源与闭源之争 [51] - LSTM之父Jürgen Schmidhuber介入,称LeCun即将创业的世界模型与其团队在2014年的工作高度相似 [51][53] - Schmidhuber被称为“成熟人工智能之父”,其发明的LSTM在ChatGPT诞生前曾被称为“最具商业价值的人工智能成就”,但在当前AI时代未获相应奖项认可 [53][54] - 马斯克评价Jürgen Schmidhuber为“一切的发明者” [58] - 马斯克在此次争论中站队Hassabis,称“Demis is right”,部分原因可能是其与Hassabis关系密切(曾是DeepMind早期投资人),且与LeCun素来不和 [5][7]
2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔
量子位· 2025-12-24 08:42
文章核心观点 - 2025年是人工智能从工具转向实用手段的关键一年,标志着AI进入与人类协作、行动和探索的推理与Agent时代 [10][11] - 谷歌通过其在基础模型、产品集成、科学研究及应对全球挑战等多方面的突破,系统性地展示了AI正在演变为可协作、可行动并参与科学发现的智能系统 [3][13] 基础模型能力突破 - 谷歌在2025年于模型推理、多模态理解、生成能力及效率方面取得突破性进展,显著提升了模型性能 [4][14][15] - Gemini系列模型持续迭代:3月发布Gemini 2.5,11月推出迄今最强大的Gemini 3 Pro,12月发布融合专业级推理与Flash级别效率的Gemini 3 Flash [16][17][19] - 模型在多项基准测试中创下纪录:Gemini 3 Pro在LMArena排行榜位居榜首,在MathArena Apex创下23.4%的最新纪录,并在人类终极考试、GPQA Diamond等测试中取得突破性分数 [18][19] - 通过开源Gemma系列模型,使实用的AI技术更易于获取,该系列引入了多模态能力,大幅增加了上下文窗口,并拓展了多语言功能 [21] AI产品的深度集成与创新 - AI已广泛融入谷歌主要产品,推动其从工具转向实用工具,并以全新的强大Agent能力改造产品组合 [5][22][23] - 在软件开发领域,引入能与开发者协作的Agent系统(如Google Antigravity),标志着AI辅助软件开发进入新时代 [23] - 在消费产品中,从Pixel 10的AI功能、搜索的AI模式更新,到Gemini应用和NotebookLM等创新产品,均增加了深度研究等高级功能 [23] - 2025年是生成式媒体变革之年,AI为创意提供全新能力:视频、图像、音频和虚拟世界的生成式模型及工具变得更高效和广泛应用 [24] - 推出突破性的Nano Banana和Nano Banana Pro,在原生图像生成与编辑方面展现前所未有的能力 [24] - 与创意行业合作开发Flow和Music AI Sandbox等工具,并升级Gemini图像编辑功能,引入Veo 3.1、Imagen 4和Flow等新型生成式媒体模型,拓展创意可能性 [25] 推动科学与数学发展 - 2025年是AI科学进步的标志性一年,在生命科学、健康、自然科学和数学领域取得诸多进展 [7][26][27] - 在基因组学领域,利用AI解读复杂数据;AlphaFold迎来问世五周年,该系统已被190多个国家的300多万名研究人员使用 [28] - Gemini的高级思考能力(如Deep Think)在数学和编程领域取得历史性进展,能够理解需要深度抽象推理的问题,并在两项国际竞赛中达到金牌水平 [30][31] - 谷歌实验室进行了一系列前沿实验,例如:用于品牌营销的Pomelli、将提示转化为UI的Stitch、异步编码Agent Jules以及3D视频通信平台Google Beam [29] 推进计算和物理世界研究 - 在量子计算领域取得迈向实际应用的进展,例如Quantum Echoes项目 [12][32] - 谷歌员工Michel Devoret等人因20世纪80年代的基础量子研究共同获得2025年诺贝尔物理学奖 [33] - 推进核心AI基础设施,重点关注硬件突破和能源效率:推出为推理时代打造的新型TPU Ironwood,采用AlphaChip方法设计 [33] - 在机器人技术和视觉理解方面的研究将AI Agent带入物理和虚拟世界,推出了基础性的Gemini Robotics模型、更先进的Gemini Robotics 1.5以及成为通用世界模型新前沿的Genie 3 [33] 应对全球性挑战与机遇 - 利用先进的基础模型和Agent推理来应对全球关键挑战,加深对地球系统的理解,并在气候韧性、公共卫生和教育等领域提供解决方案 [35][36] - 具体应用包括:洪水预报信息覆盖全球150个国家超20亿人口;最先进的天气预报模型WeatherNext 2生成预报速度快8倍,分辨率达1小时,并支持实验性的气旋预测 [36] - 与合作伙伴携手,将AI驱动的科学进展更贴近患者,为疾病管理和疗法研发开辟新途径 [38] - AI被证明是教育领域的强大工具,通过LearnLM和Gemini中的引导式学习,促成新的理解形式并激发学生好奇心 [39] - 将Gemini最强大的翻译能力引入谷歌翻译,提供更智能、自然且准确的翻译,并试点新的语音互译功能 [40] 重视责任与安全及开放生态 - 谷歌始终强调将研究突破与责任和安全相结合,随着模型能力增强,持续改进工具、资源及安全框架以预测并降低风险 [8][42][43] - Gemini 3是谷歌迄今为止最安全的模型,经过了最全面的安全评估 [44] - 探索通往AGI的负责任之路,将准备工作、主动风险评估以及与更广泛的人工智能社区合作置于优先地位 [44] - 认为负责任地推进AI需要全社会协作:2025年与顶尖AI实验室合作成立Agentic AI基金会,支持开放标准以确保Agentic AI拥有负责任且具备互操作性的未来 [45][46] - 在教育、科研及创意领域广泛合作:与高校(如加州大学伯克利分校、耶鲁大学)合作推动前沿研究和AI技能教育;与电影制作人等创意开发者合作探索新叙事方式 [46]
赵何娟独家对话李飞飞:“我信仰的是人类,不是AI”
新浪财经· 2025-12-22 13:27
行业趋势与展望 - 空间智能(世界模型)预计将在未来两年内迎来应用级爆发 [1][5][21] - AI发展正从“语言生成”迈向“世界生成”,让机器在连续三维世界中实现“看见-生成-互动” [4][5] - 世界模型正成为产业竞逐的新高地,Google DeepMind等巨头已组建专门团队并发布相关路线 [5] - 生成式AI通过降低复杂任务的门槛,将开启许多意想不到的新市场和应用 [23][24] 公司进展与产品 - World Labs发布了首款商用“世界模型”Marble,可从图片或文字提示生成可持续存在、可自由导航且几何一致的3D世界 [2][4] - Marble模型可导出为Gaussian Splat等格式,支持在网页与VR设备中体验与二次创作,突出了“更大、更清晰、更一致”的特点 [4] - World Labs自2024年获巨额融资以来,始终以开发大型世界模型(LWM)为愿景 [6] - 公司认为3D世界生成技术可应用于数字创意、游戏开发、影视、设计、建筑、VR/AR及机器人仿真等多个领域 [23] 技术路径与瓶颈 - 实现通用人工智能(AGI)需要多把“钥匙”,空间智能是其中关键一环,没有它则不算真正的AGI [25] - 当前发展面临数据瓶颈,这是螺旋形上升过程中的新关键点,与算法同等重要 [31][32][33] - 业界存在一种偏见,即更看重算法而非数据,但所有真正做AI的人都明白数据至少与算法平等重要 [34][35] - 机器人领域的数据尤其难以采集,因为缺乏大规模商业化应用场景,这限制了其发展 [43][47] 竞争格局与市场机会 - AI是一项横向技术,为应用层提供了大量机会,大公司无法完全覆盖,小公司有机会在垂直应用领域做到极致 [54][55] - 显性资源(如数据、算力、人才)的整合优势并非绝对,创造力、时机和执行同样关键,历史上从未有过只有大公司能赢的时代 [53][54] - 有能力开发基础模型的公司(通常需要顶尖人才和特定结构)与专注于应用开发的公司将有不同的市场路径 [55][57] 应用场景分析 - 自动驾驶可被视为一个简化版的世界模型,但其场景相对简单(二维移动、避免碰撞),远复杂于未来需要在三维世界中执行多种操作(如家务)的机器人 [40][41] - 工业机器人因场景单一、数据相对丰富而已有应用,其智能化进程可能更快;日常用机器人的商业化则还有较长的路要走 [44][45][47] - 围绕机器人数据(如模拟数据)的创业公司存在商业机会,但成功取决于市场大小和满足客户需求的能力 [47] 发展理念与价值观 - AI的本质是工具,人类必须掌握选择权和主动权,不能自我放弃 [1][4][70] - 发展的同时必须关注安全与向善,在只追求发展和只强调伦理两个极端之间需要理性平衡 [57][58] - 在AI时代,教育体系急需革命,应利用AI赋能教育者和学生,将节约出的时间和精力用于培养AI无法替代的认知与能力 [65][66][67] - 面对AI可能带来的虚假信息等负面影响,公众教育、制度政策以及人的创造性应对至关重要 [77][78][79]
深度|DeepMind CEO Demis: AGI还需5-10年,还需要1-2个关键性突破
搜狐财经· 2025-12-21 14:05
公司战略与核心优势 - 公司将其独特优势归结为将世界级的研究、工程能力和基础设施三者结合 在AI前沿领域 同时具备这三者的机构非常少 [8] - 公司采用科学方法作为核心思维方式 并将其应用于研究、工程乃至商业领域 这构成了其工作的严谨性与精确性的来源 [7][8] - 公司在发展路径上保持务实 会追随实证证据的指引 例如在看到scaling laws显现效果后 逐步将更多资源投入到该研究路径上 [27][28] 产品与技术路线图 - 公司的核心基础模型Gemini从一开始就是多模态的 能够同时处理图像、视频、文本和音频 并越来越多地生成这些类型的输出 [10] - 接下来12个月的重点方向包括:多模态能力融合取得显著进展、视频能力与语言模型融合产生有趣的能力组合、以及开发更可靠的基于Agent的系统 [10] - 公司的长期愿景是将Gemini打造成“通用助手” 使其出现在更多设备上 并成为用户日常生活结构的一部分 提升工作效率和改善个人生活 [11] - 最新发布的Gemini 3模型在推理深度、细腻度以及“性格”上表现出色 能够简洁直接地回答 并在观点不合理时温和提出异议 [24] - Gemini 3展现出对高层次指令的深度理解能力 以及生成高度细节化输出的能力 在前端开发、网站构建和一次性生成游戏方面表现突出 [25][26] - 公司有一个名为Genie 3的“世界模型”或交互式视频模型 用户可以在生成的视频中“行走” 并在一分钟内保持整体一致性 [10] 行业竞争格局 - 在AI领域 美国和西方整体在基准测试和最先进系统方面仍处于领先地位 但这种领先优势可能仅以“月”为单位 而非“年” [21] - 中国在AI领域并未落后太多 拥有出色的模型和有能力的团队 但在算法创新和原创性方面 西方目前仍然具有优势 [21] - AI行业正经历一场可能是科技史上最激烈的竞争 [8] - AI产业某些部分可能存在泡沫 例如一些规模极其夸张的早期融资 但从长期看 AI被认为是人类历史上最具变革性的技术之一 投入将被证明是值得的 [31] - 行业人才争夺战相当激烈 但最优秀的科学家和工程师希望参与最前沿的工作 持续的技术领先地位将形成吸引力正反馈 [31] 通用人工智能发展预测 - 通用人工智能可能还需要五到十年的时间才能实现 [6][29] - 对AGI的标准设定很高 要求系统能展现出人类所具备的全部认知能力 包括发明和创造能力 并在各个维度上具备一致性 而非当前“锯齿状”的智能形态 [29] - 实现AGI可能不仅需要将现有系统的scaling能力推到极限 还需要一到两个类似Transformer或AlphaGo的范式级关键突破 [29][30] - 当前系统缺乏一些关键能力 如持续学习、在线学习、长期规划和推理能力 这些能力最终会具备 但可能需要关键性突破 [6][29] 技术应用与市场潜力 - AI在网络安全领域的应用受到高度重视 旨在用AI强化防御体系以应对网络威胁 [17] - 在商业和企业领域 随着AI变得重要 企业客户会对Agent的行为保障提出明确要求 这可能会自然地奖励那些更负责任的供应商 [18] - AI在体育领域有巨大应用潜力 因为体育拥有丰富数据并追求极致精英表现 例如AI可以优化角球进攻中球员的精确站位以增加头球进球 [35][36] - 多模态理解能力 尤其是视频理解能力被严重低估 例如Gemini能够对视频内容进行概念层面的理解和哲学解读 [22] - 像Gemini Live这样的功能 允许用户用手机摄像头对准物体获得实时协助 其多模态能力的强大尚未被充分认识 [23] 技术发展现状与挑战 - 目前基于Agent的系统还不够可靠 无法独立完成完整任务 但预计一年后会开始看到接近这一能力水平的Agent出现 [10][12] - 创新和进步的速度非常快 以至于模型的创造者可能都来不及探索现有系统十分之一的潜力 用户常常将模型能力发挥到远超内部测试的程度 [27] - 随着AI系统变得更复杂和更具自主性 存在偏离最初设定指令或目标的空间 如何确保其始终保持在安全边界内是一个活跃的研究领域 [18] - 存在AI被恶意行为者滥用的风险 例如制造病原体或对关键基础设施发动网络攻击 这是必须严密防范的场景 [15][16][17]
深度|DeepMind CEO Demis: AGI还需5-10年,还需要1-2个关键性突破
Z Potentials· 2025-12-21 10:24
文章核心观点 - Google DeepMind联合创始人兼CEO Demis Hassabis认为,通用人工智能(AGI)可能在五到十年内实现,但仍需一到两个关键性突破,公司正致力于推进多模态AI、Agent系统和世界模型等前沿方向,以构建一个在日常生活中真正有用的通用助手 [6][30][31] - 公司认为AI是人类历史上最具变革性的技术之一,其最佳前景是带来“激进式丰裕”,解决能源、疾病等重大问题,但同时也需严肃应对AI安全、恶意滥用及系统失控等风险 [14][15][20] - 公司将其在激烈竞争中的优势归因于植根于科学方法的严谨性,以及将世界级研究、工程能力和基础设施相结合的能力 [9] 科学家与诺奖得主:从科学方法到公共责任 - Demis Hassabis获得诺贝尔奖后,其最大的变化在于该荣誉成为与领域外人士(包括政府高层)沟通时的“捷径”,能迅速确立其专家身份,这为其就AI安全等关键议题发声提供了重要平台 [5][7] - 公司强调科学方法是其面对一切问题的默认思维方式,认为这是人类历史上最重要的思想之一,并尝试将这种方法推向极致,这成为其作为研究组织和工程组织的优势来源 [9] - 除了长期AGI安全,公司关注的议题还包括当下AI的负责任使用,以及让整个社会为即将到来的变革做好准备,认为各国政府及其他关键领导者将发挥决定性作用 [6][8] 接下来的一年:多模态与Agent - 公司在接下来12个月将全力推进多模态能力的融合,其核心基础模型Gemini从一开始就是多模态的,能够同时处理并生成图像、视频、文本和音频,多模态本身正在带来有价值的交叉增益 [11] - 公司正在重点投入世界模型方向,例如其Genie 3系统是一种交互式视频模型,用户不仅可生成视频,还能在其中“行走”并保持长达一分钟的整体一致性 [11] - 公司希望Gemini最终成为一种“通用助手”,在接下来一年中会出现在更多设备上,可能通过眼镜等设备真正伴随用户生活,目标是打造一个每天都会被多次求助、成为生活结构一部分的系统 [12] - 目前Agent还不够可靠,无法独立完成完整任务,但预计一年后会开始看到接近这一能力水平的Agent出现 [11][13] 理想与担忧:AI带来的乌托邦与失控 - 公司设想的AI最佳前景是带来一种“激进式丰裕”状态,解决当今社会和人类面临的许多重大问题,如实现廉价可持续的清洁能源、治愈大量疾病,使人类进入后稀缺时代并真正繁荣 [14] - 公司担忧的风险主要来自两个方面:一是恶意行为者利用AI从事有害活动(如制造病原体、发动网络攻击);二是当AI接近AGI、变得更具自主性时,可能在某种情况下“失控”并对人类造成伤害 [15][18] - 公司认为AI突破安全边界的风险概率并非零,因此必须投入大量资源和注意力去应对,但精确量化这种灾难性风险(如P(doom))是没有意义的 [6][20] - 在AI安全研究上,随着具备持续学习能力的系统变得更具自主性,如何确保其始终保持在设定的安全边界内是一个活跃的研究领域,同时市场机制(如企业要求行为保障)也会自然奖励更负责任的参与者 [19] 行业竞争与现状 - 目前美国和西方在AI整体上仍然处于领先位置,但领先优势并不遥远,中国并没有落后太多,当前的领先可能只是以“月”为单位 [21] - 在算法创新和原创性方面,西方仍然具有优势,中国的模型或公司在快速跟进最先进技术方面做得非常出色,但在展示超越当前最前沿水平的原创突破方面目前仍略逊一筹 [22] - AI产业中的某些部分可能确实存在泡沫,例如一些规模极其夸张的早期融资看起来并不太可持续,但从长期来看,AI作为最具变革性的技术之一,其投入将被证明是完全值得的 [32] - AI领域的人才争夺战相当激烈,公司更看重那些被使命驱动的人才,并相信始终站在技术最前沿会形成对顶尖人才的吸引力正反馈 [33] Gemeni3: 实证引导下的强大模型 - 公司对近期发布的Gemini 3模型非常满意,认为其在智能水平和实用性上带来了明显跃迁,其回答风格简洁直接,并能在用户观点不合理时温和地提出不同意见 [25] - Gemini 3体现了对高层次指令的深度理解以及生成高度细节化输出的能力,其在前端开发和网站构建方面表现尤为突出,在美学、创造力和技术实现上都达到了很高水平 [26][27] - 公司认为创新速度过快,以至于在发布新版本时,内部甚至还没来得及探索现有系统十分之一的潜力,最终往往是用户将模型能力发挥到远超内部测试的程度 [28] - 公司决定全力押注LLM是基于科学方法和实证证据的指引,当看到scaling开始显现效果时,便逐步将更多资源投入到这条研究路径上 [28][29] AGI的十年之约:还需关键突破 - 公司认为目前尚未达到AGI,但已相当接近,预计还需要五到十年的时间 [6][30] - 公司对AGI的标准设得相当高,定义为一个系统能够展现出人类所具备的全部认知能力(包括发明和创造),且在各个维度上都具备一致性,而非当前“锯齿状”的智能形态 [30] - 当前系统缺乏一些关键能力,如持续学习、在线学习、长期规划和推理能力,这些能力可能还需要一到两个关键性突破才能实现 [6][31] - 实现AGI的路径上,必须把现有系统的scaling能力推到极限,但公司更倾向于认为除了scaling之外,还需要一到两个类似Transformer或AlphaGo那样的范式级重大突破 [31] 其他洞察与展望 - 公司认为当前AI最令人震撼却被严重低估的一点是模型所具备的多模态理解能力,尤其是多模态视频理解,能够在概念层面理解视频中发生的事情 [23][24] - 公司对人类大脑的适应能力充满信心,认为人类大脑已成功从狩猎采集社会适应到现代文明,理应具备持续适应AI变革的能力,未来或可通过脑机接口等新技术保持竞争力 [34] - 体育领域拥有极其丰富的数据且追求极致精英表现,天然适合引入AI进行优化,例如在角球进攻中,AI系统可通过分析球员的精确站位来帮助进更多的头球 [37][38]
电子行业2026年投资策略:AI创新与存储周期
广发证券· 2025-12-10 17:08
核心观点 - 报告核心观点认为,AI创新与存储周期是电子行业2026年投资策略的两大主线 AI模型创新与资本开支是产业发展的核心动力,驱动AI产业链协同发展 同时,AI推理需求驱动存储价格上涨和架构升级,存储周期持续向上 [1][4] AI创新:模型创新与CAPEX筑基,AI产业链协同发展 需求:模型创新与CAPEX筑基 - AI产业链包括AI硬件、AI CAPEX和AI模型与应用三大环节,其中AI CAPEX是驱动上游硬件发展的核心动力源 [12] - 模型创新是AI发展的核心动力,大模型在Chatbot、Coding、多模态等场景快速渗透,持续拓展应用领域 [14] - AI CAPEX构筑AI周期的基石,云厂商、头部企业及主权国家的资本开支具有刚性与延续性,为上游硬件环节提供订单与现金流支撑 [14] - 海外云厂商及Oracle的CAPEX/OCF在2025年第三季度环比有所下降,但仍处于可控范围,未来AI周期持续向上 [36] 模型创新进展 - **谷歌**:持续突破多模态模型边界,产品矩阵覆盖内容理解、生成到虚拟世界交互全链条,多模态生成在清晰度、动作可控性与叙事连贯性上已具备商业化价值临界点 [19] - **OpenAI**:通过记忆功能、GPT-5.1及群聊功能升级个性化体验,内部预测2025年收入将达130亿美元,同比增约350%,2030年收入预期上调至2000亿美元 [25][28] - **Anthropic**:在企业级LLM API市场份额达32%,内部预测2025年营收38亿美元,2028年目标700亿美元,毛利率有望从-94%跃升至77% [29] 算力:GPU与ASIC共舞 - AI算力竞争已转向“专用硬件+计算平台”的生态构建,展现从通用计算到专用AI计算的产业演进路径 [42] - **谷歌**:发布TPU v7 Ironwood,单芯片峰值算力达4614 TFLOPs,性能较前代提升4倍以上,支持单SuperPod扩展到9216个芯片,构建了从芯片集群到云服务的完整生态闭环 [45][48] - **英伟达**:确立年度产品更新节奏,发布Vera Rubin NVL144和Rubin Ultra NVL576平台,后者性能可达Blackwell Ultra GB300 NVL72平台的14倍,通过“硬件+软件+网络”垂直生态巩固市场地位 [52][56] - **AWS**:宣布研发下一代定制芯片Trainium4,将集成英伟达NVLink Fusion互连技术和UALink,旨在提升计算、内存和互连性能 [58] - **国产算力**:从“单点突围”转向“系统升维”,华为、阿里等厂商推出超节点解决方案,华为昇腾芯片规划以一年一代、算力翻倍的速度演进 [61][63][64] PCB:价值量提升与扩产 - **单GPU PCB价值量持续提升**:英伟达Rubin系列新增midplane、CPX板及正交背板等设计,驱动PCB规格升级 测算显示,Vera Rubin NVL144若包含正交背板,单GPU PCB价值量预计达1313美元,较A100/H100时代提升显著 [70][74] - **单ASIC PCB价值量持续提升**:谷歌TPU v7和AWS Trainium3的架构升级对PCB提出更高要求 测算显示,2025年AWS T系列单ASIC对应PCB价值量预计超700美元,Google TPU约363美元 [78][86] - **AI PCB市场规模高速增长**:预计AI服务器PCB市场规模将从2025年的49亿美元增长至2026年的102亿美元,同比增长108% 其中ASIC AI服务器PCB市场规模预计从32亿美元增至63亿美元,同比增长94% [89] - **国内PCB厂商积极扩产**:沪电股份、生益电子、景旺电子等国内头部厂商通过海外建厂、国内技改等方式积极扩充AI PCB产能 [90][93] 存储:AI推理驱动增长 - AI推理采用分级存储架构,HBM、DRAM、SSD、HDD协同支撑高效计算 [101] - AI推理,特别是超长上下文和多模态需求,驱动AI存储快速增长 测算显示,2026年10个谷歌级推理应用所需存储容量将达48EB [106] - 英伟达GPU配置持续升级,单GPU对应的HBM容量从H100的80GB提升至VR300 Ultra的1024GB,同时CPX系列新增GDDR7内存 [108] 电源:800V HVDC升级 - 为满足MW级机柜功耗需求,英伟达提出800V HVDC供电架构,可减少电能转换环节、降低损耗并简化热管理 [111] - SiC和GaN功率半导体是实现800V HVDC架构的关键,能实现更高功率密度与能效 [112] - 采用超高压SiC MOSFET的固态变压器可将高压交流电直接转换为800V直流,进一步提升能效 [119] - 预计至2030年,全球SiC&GaN功率器件市场规模将达25.64亿美元 [121] 存储周期:AI驱动价格上涨,扩产与升级同发力 价格与盈利 - AI驱动云侧和端侧存储搭载量显著增长,存储价格持续上涨,存储原厂毛利率显著提升 [4] 扩产:优先投向HBM - 海外存储原厂资本开支进入上行区间,产能优先投向HBM,传统DRAM和NAND投产较为谨慎 [4] 架构升级与设备需求 - **DRAM升级**:4F2+CBA工艺延续主流DRAM升级趋势;3D堆叠DRAM显著提升带宽,指向AI推理市场 [4] - **NAND升级**:3D NAND堆叠层数持续升级 [4] - 存储架构升级为设备需求带来新机遇 [4] 产业模式与接口芯片 - 存储代工模式迎来产业变革机会 [4] - 接口芯片如MRDIMM和VPD为产业打开新空间 [4] 投资建议 - 建议关注AI产业链相关标的,包括模型创新与CAPEX驱动下的算力、存储、PCB、电源等环节 [4] - 建议关注存储产业链相关标的,聚焦AI驱动下的价格上涨、架构升级及产业模式变革机会 [4]
哈萨比斯:DeepMind才是Scaling Law发现者,现在也没看到瓶颈
量子位· 2025-12-08 14:07
Scaling Law的现状与历史 - 谷歌DeepMind首席执行官哈萨比斯在Axios AI+峰会上力挺Scaling Law,认为其对于实现AGI至关重要[1][6] - 哈萨比斯指出,Scaling Law最早的发现者并非OpenAI,而是DeepMind团队,其内部在2017至2018年期间的研究已发现相关规律,并称之为“Chinchilla Scaling Laws”[6][14][17] - 基于对Scaling Law有效性的确认,DeepMind调整了研究方向并投入更多资源,这被认为是其在大模型领域取得成功、推动Gemini从1.0演进到3.0时代的关键[18] Scaling Law与AGI(通用人工智能)的关系 - 公司认为,无论AGI最终形态如何,Scaling都将是其中的关键组成部分,且当前Scaling尚未到达极限,有必要继续沿此路线将系统推向最大化[21][22] - 哈萨比斯提出,单靠Scaling Law也有可能达成AGI,因为大量数据和计算资源的投入是展现类人智慧能力的合理途径[7][23] - 同时,他也猜测实现AGI可能还需要一两个类似Transformer或AlphaGo级别的重大突破,并预测这个时间点可能在5到10年内[24][26] 对未来12个月AI发展的预测 - **多模态融合**:完整的多模态融合将是主流演进方向,谷歌DeepMind正全力推进,旨在通过交叉融合图像、视频、文本和音频来全面提升模型的推理和创造力[27][28][30] - **视觉智能突破**:以谷歌Nano Banana Pro等图像模型为例,视觉理解能力有显著进展,未来将在更丰富的分析、故事讲述和分步视觉推理方面继续探索[31][32][33] - **世界模型普及**:世界模型是行业关注重点,也是哈萨比斯个人的工作重点,例如谷歌8月上线的世界模型Genie 3,预计下一年该领域将持续受到业界关注[35][36][37] - **Agent可靠性提升**:哈萨比斯认为,现有Agent系统尚不完全可靠,但预计再有一年时间,Agent将能开始接近于可靠地完成委托任务[38][39][40] Gemini的发展与目标 - Gemini 3的成功验证了Scaling Law的有效性,其全网爆火被视为谷歌打了一场漂亮的翻身仗[4][5] - Gemini 3的独到之处在于个性化的深度、简洁的回答、温和反驳不合理观点的能力,并能一键式生成商业级游戏,展现了其基座架构在理解高层次指令和输出高精度细节方面的优势[43][44][45][46] - 公司对Gemini设定的最终目标是成为“通用万能助手”或“通用助手”,下一代Gemini将延续现有优势,出现在更多设备上并无缝融入日常生活,其使用频率将变得和使用手机一样频繁[9][41][46][47]
潮声丨人工智能有时比人还“蠢”,AI版图缺的这块拼图是什么
搜狐财经· 2025-12-03 08:35
文章核心观点 - 当前以大语言模型和图像分类器为主导的人工智能发展已达到极限,缺乏对物理世界的深度理解,导致生成内容常出现不合常理的问题[2][6][7][10] - 空间智能被视为人工智能突破当前瓶颈、实现下一个飞跃的关键前沿,其核心是让机器像人一样理解并交互于三维物理世界[2][11][12] - 实现空间智能的根本路径在于构建“世界模型”,该模型能赋予AI对物理规则进行推理和预测的能力,已成为学术界和产业界新的重点投入方向[19][20][23] 人工智能当前发展的局限性 - 现有大语言模型和多模态模型在生成可靠文本方面强大,但在处理与物理世界相关的任务时表现不佳,常被调侃为“人工智障”[6][7] - 具体案例显示AI缺乏物理常识:豆包模型在图像生成中将骆驼比例严重失调,并添加了不符合生物特征的动物[7];OpenAI的Sora模型生成的蚂蚁视频中蚂蚁只有四条腿,且升级版Sora2在视频细节衔接上仍存在不符合常识的瑕疵[10] - 根本原因在于语言是人造信号,处理过程有信息损耗,而AI缺乏对真实物理世界体系的经验和根基[10] 空间智能的定义与重要性 - 空间智能概念源于教育心理学,指对空间信息进行感知、理解与操作的综合智能,涉及三维思维和空间想象,是人类从婴儿期发展的本能[12] - 在人类文明进步中,空间智能是关键驱动力,例如用于计算地球周长、发明珍妮纺纱机(使单人工效提升八倍)以及发现DNA双螺旋结构[12] - 将空间智能迁移至科技领域,旨在让机器获得理解并交互于三维世界的能力,这是AI发展的终极愿景之一,例如响应“去买杯咖啡”这类需要自主任务拆解与规划的高层指令[11][12] 空间智能的技术发展与产业应用现状 - 空间智能研究历史悠久,早在1970年代,大卫·马尔在《视觉》一书中就系统提出了从图像恢复三维世界的框架[15] - 技术已在部分产业中应用,例如手机AR测量、VR眼镜、扫地机器人、服务型机器人和机器狗,但这些应用或需人为操控,或对环境适应能力不强,容易因识别不清等问题导致故障[16] - 自动驾驶被视为目前规模最大、最成熟的空间智能应用,但其系统仍难以在复杂城市街道上进行安全推理,例如无法从突然出现的小球推测出可能有儿童跑上马路的潜在危险[17] - 当前技术的瓶颈在于“感知-推理-行动”链条中的“推理”环节,即缺乏能够理解物理规则并进行因果预测的内部模型[17] 实现突破的关键:世界模型 - 在数据(高质量语言数据可能在2026年左右耗尽)和算力(训练GPT-4成本可能超过1亿美元)存在限制的背景下,模型成为推动AI发展的关键[19] - “世界模型”于2018年提出,灵感来自人脑构建并运用“内部世界”的机制,旨在让AI能够整合感官信息,对物理世界进行直觉式推理和预测,例如预判咖啡杯滑落轨迹并接住[19] - 世界模型被视为实现空间智能的根本路径,因此成为产业界竞相投入的新焦点[20][23] 产业界的最新动态与投入 - 2025年1月,英伟达在CES上宣布推出可预测和生成“物理感知”视频的Cosmos世界模型[22] - 2025年3月,拥有全球最大室内场景空间数据集的空间智能企业群核科技,开源了空间语言模型SpatialLM,该模型登上HuggingFace模型趋势榜第二位[22] - 2025年8月,谷歌DeepMind发布了支持“实时交互”的世界模型Genie 3,为智能体训练及游戏开发等领域带来新可能性[22] - 近期,李飞飞参与创建的公司World Lab发布了首款多模态世界模型产品Marble,支持通过多种输入生成可编辑的3D环境[22] 未来展望与挑战 - 大语言模型的成功验证了“基础模型”技术路线的潜力,促使业界瞄准下一个前沿——赋予AI对物理世界的理解与交互能力[23] - 世界模型的搭建仍面临诸多难点:真实世界的复杂性与不确定性难以用现有数学模型全面处理;某些领域(如地球内部构造)数据获取有限;物理学本身对暗物质等现象的认知局限也限制了模型的完整性[23] - 尽管挑战巨大,但发展空间智能和世界模型代表了AI技术演进的重要方向[24]