Workflow
World Models
icon
搜索文档
深度|谷歌DeepMind CEO:中国在AI技术能否实现重大突破尚未验证,发明新东西比复制难一百倍
搜狐财经· 2026-02-02 15:26
公司战略与组织架构 - Google DeepMind是Google所有AI研究的整合实体,汇集了Google Research、Google Brain和DeepMind,作为公司的“发动机室”负责所有AI技术的研发,然后扩散到各个产品中[41] - 公司内部进行了大规模重组,将所有AI团队整合到Demis Hassabis领导下的DeepMind,形成了高度统一的技术体系和紧密的迭代闭环,这被认为是2025年通过Gemini 3取得显著成效的关键[42][53] - 公司与三星等主要设备制造商建立了深度合作,Gemini已成为三星手机的核心AI和主要聊天机器人,并且也将成为苹果新版本Siri的核心引擎,这为技术提供了巨大的部署平台[43][52] 技术进展与产品竞争力 - Gemini系列模型表现强劲,最新版本Gemini 3让公司重新回到了AI排行榜的前列,被认为几乎可以与ChatGPT平起平坐,甚至在某些方面表现更好[3][30] - 公司认为实现AGI(通用人工智能)还需要5到10年时间,并且需要一两项重大的创新,而不仅仅是对现有理念(如Scaling Laws)的规模化提升[6][10] - 当前AI系统(如LLMs)的智能是碎片化的,缺乏持续学习、在线获取新知识和真正创造原创内容的能力,要实现AGI需要发展“世界模型”以理解物理规律和因果关系[7][8] - 公司正在开发名为Genie的交互式模型以及先进的视频模型,这些被视为早期“胚胎”世界模型,是迈向AGI所需的其他关键技术和能力[9][10] 行业竞争格局 - AI领域的竞争环境被描述为科技行业有史以来最激烈的,几乎所有最有能力的参与者和大型科技公司都已入场[28] - 中国在AI领域的进展迅速,其模型(如DeepSeek、阿里巴巴的模型)与美国和西方的前沿模型相比可能只落后几个月,但在实现真正的原创性突破方面尚未得到验证[35][36][37] - 行业部分领域可能存在估值泡沫,特别是私募市场中一些几乎没有产品或业务的项目筹集了数十亿美元资金,但从长远看不可持续[32] - 拥有强大资产负债表和稳定现金流的大型科技公司(如Google、Microsoft、Meta)在激烈的竞争中处于更有利的位置,能够调整方向并持续投入[40][53] 研发重点与未来展望 - 公司长期致力于将AI作为科学的终极工具,其AlphaFold项目解决了存在50年的蛋白质折叠难题,被超过300万研究人员使用,是AI应用于科学的最佳案例[4][48] - 公司正在多个科学领域推进类似AlphaFold的变革性项目,涵盖材料科学、物理学、数学以及天气预测等,有望开启科学发现的新黄金时代[48] - 预计2026年AI领域的重要进展包括:能够自主执行任务的智能体系统开始变得可靠并真正发挥作用;机器人领域将出现有趣进展;设备上的AI助手将在现实世界中发挥作用;世界模型将得到进一步推进[49] - AI被视为解决社会重大挑战(如气候变化、疾病、能源问题)的关键工具,同时其自身的发展也是一项需要谨慎管理的挑战[11][17] 基础设施与算力 - 公司除了使用GPU,还拥有自研的TPU芯片,通常用于内部训练性能最强的模型,而GPU则用于探索新的架构或应用(如AlphaFold)[11][48] - 算力和能源是AI发展的关键瓶颈,AI本身也能帮助提高基础设施效率、改进材料设计(如更高效的太阳能材料)甚至推动核聚变等突破性技术发展以解决能源问题[11] - 通过模型蒸馏等技术创新,AI系统的效率每年以约10倍的速度提升,推动每瓦特计算性能大幅增长[12]
深度|谷歌DeepMind CEO:中国在AI技术能否实现重大突破尚未验证,发明新东西比复制难一百倍
Z Potentials· 2026-02-02 13:00
文章核心观点 - Google DeepMind首席执行官Demis Hassabis在访谈中阐述了公司在人工智能领域的战略布局、技术进展与未来展望,核心观点包括:扩展定律仍有效但需结合重大创新以实现AGI、世界模型是迈向AGI的关键能力、AI是解决全球重大挑战的双刃剑且需负责任地开发、Google通过内部重组与整合已形成强大的AI产品化能力并在激烈竞争中占据有利位置[7][11][14][17][31][42] 技术进展与AGI路径 - **扩展定律与模型能力**:通过增加算力、数据量和模型规模,系统能力仍在获得非常可观的回报,但迈向AGI可能还需要一两项重大的创新,而不仅仅是对现有理念的规模化提升[7] - **当前AI系统的局限性**:现有系统智能表现是碎片化的,缺乏一致性,且无法持续学习、在线获取新知识或真正创造原创内容,这些能力对于实现真正的AGI仍然缺失[8] - **世界模型的关键作用**:为实现AGI,需要系统理解世界的物理规律和因果关系,能够进行长期规划并验证假说,即构建“世界模型”,这是顶尖科学家所做的事情而当前AI系统尚无法做到[9][10] - **技术融合趋势**:基础模型(如Gemini)仍是核心,但实现AGI需要世界模型等其他类型的技术和能力,这些技术最终会趋向融合,例如将视频生成模型视为早期“胚胎”世界模型[11] - **实现AGI的时间表**:DeepMind创立时设想为约20年的长期使命,目前认为距离实现展示所有认知能力的AGI大约还有5到10年时间[11] 行业竞争与市场格局 - **竞争环境异常激烈**:被描述为科技行业有史以来最激烈的竞争环境,几乎所有最有能力的参与者(科技巨头和优秀初创企业)都在参与,因为AI被视为迄今为止最重要的技术[29] - **Google的竞争策略与调整**:过去两到三年,公司回归到类似初创公司的灵活、快速模式,快速推出产品并取得实质性进展,这在Gemini系列中得到了体现,并使其重新回到了排行榜的前列[31] - **对中国AI进展的评估**:中国在开发强大AI模型方面比一两年前预想的更接近美国和西方的前沿模型,可能只落后几个月,但关键问题在于其能否在前沿之外实现真正的、突破性的创新[35][36] - **AI行业是否存在泡沫**:行业的某些部分可能存在泡沫,但AI将成为人类历史上最具变革性的技术是核心支撑,过度热情不可避免,随后可能迎来清算,真正有价值的事物将生存并繁荣,特别指出私募市场中种子轮融资达数十亿美元却几乎无产品的情况不可持续[33] - **Google的竞争优势**:拥有强大的资产负债表、自由现金流和数十款拥有数十亿用户的产品,AI可以自然融入所有这些产品,使其无论未来局势如何发展都能处于有利位置并从中受益[34][40][53] 公司战略与业务整合 - **DeepMind与Google的整合**:过去三年,Google将所有的AI研究整合为Google DeepMind实体,汇集了Google Research、Google Brain和DeepMind,该团队被视为整个公司的“发动机室”,负责所有AI技术开发并扩散到各个产品中[41] - **高效的内部协作与部署**:CEO与Google/Alphabet的CEO几乎每天沟通战略,内部构建的基础设施使新模型(如Gemini)能够非常快速地部署,几乎可以当天或第二天就上线到搜索等核心产品,形成了紧密的迭代闭环和高度统一的技术体系[42] - **通过合作伙伴扩大生态**:技术与三星等大型设备厂商合作,将其作为核心AI集成到智能手机等终端,并对边缘计算和在更多设备(如智能眼镜)上部署AI助手的概念非常感兴趣[43][52] - **收购DeepMind的历史价值**:Google在2014年以约4亿英镑(当时约5.4亿美元)收购DeepMind,按照现在的估算,这笔投资的价值可能已达到数百亿甚至上千亿美元,收购被证明与Google“组织全球信息”的使命高度契合[5][44][45] AI的应用与影响 - **AI作为科学发现的终极工具**:AI最终将成为科学的终极工具,已通过AlphaFold(解决了存在50年的蛋白质折叠难题,超过300万研究人员使用)等项目证明,未来有望在材料科学、物理学、数学等多个领域开启科学发现的新黄金时代[9][47][48] - **解决能源等全球挑战**:AI本身是能源消耗者,但也能帮助提高基础设施效率、改进材料设计(如更高效的太阳能材料)、推动核聚变等突破性技术,甚至可能帮助发现室温超导材料,被认为是AI最有前景的应用场景之一[12] - **积极影响与潜在风险**:AI可能成为人类历史上最具深远影响和正向价值的技术之一,其应用包括加速药物发现以攻克疾病,但同时也可能带来类似工业革命但规模更大、速度更快的经济冲击,以及被用于恶意目的或自主系统偏离预期等风险[13][14] - **2026年及未来的关键进展**:预计能够自主执行任务的智能体系统将开始变得足够可靠,机器人领域将出现有趣进展,设备上的AI助手将在现实世界中真正发挥作用,世界模型的进一步推进以实现更高效的规划也令人兴奋[49] 产品与市场部署 - **Gemini系列的发展**:Gemini模型的表现让公司重新回到了竞争前列,其背后技术很大程度上来自DeepMind,最新版本Gemini 3的反响非常好[5][31] - **广泛的产品集成与用户触达**:Google开发的AI能够在其整个产品矩阵(如Chrome、Gmail)中全面铺开,借助Android操作系统约70%的全球市场份额,可以迅速触达海量用户,这构成了巨大的市场推广优势[51] - **关键合作伙伴关系**:三星已全面采用Gemini作为其核心AI,苹果也将在新版本Siri中使用Gemini作为核心引擎,这为Gemini提供了巨大的平台和市场份额[52]
人形机器人前沿:大型科技公司 “投身机器人领域”…… 软银 ABB、苹果、Meta、擎天柱 v3Humanoid Horizons Big Tech 'Doing the Robot'... SoftbankABB, Apple, Meta, Optimus v3
2025-10-27 20:06
好的,请阅读以下根据您提供的电话会议记录整理的详细分析。 行业与公司 * 纪要主要涉及人形机器人及具身智能行业[1][2] * 重点讨论的公司包括特斯拉、苹果、Meta、谷歌、xAI、软银、ABB、Figure AI、1X、优必选等科技巨头及机器人初创企业[3][5][7][29][34][39][42][53] 核心观点与论据 **战略动向与行业整合** * 软银同意以54亿美元收购ABB的机器人部门 标志着大型AI投资者与传统机器人/工业公司潜在合作的开端[3][5][39] * Meta的CTO将人形机器人视为公司下一个“AR级别的赌注” 长期目标是成为可与全球硬件开发商合作的软件/AI提供商[5] * 苹果疑似布局机器人领域 其CEO蒂姆·库克发布的宣传视频中出现了1X人形机器人 同时有报道称苹果将与比亚迪在越南合作生产机器人[7][34][40] **技术进展与模型开发** * 谷歌DeepMind发布了最新的Gemini Robotics 1.5系列模型 这是其最强大的视觉语言动作模型 能够将视觉输入和自然语言指令转化为实际电机命令[45][46] * xAI据称已开始构建世界模型 最初用于创建视频游戏 但未来将扩展到机器人领域 并已从英伟达招募经验丰富的工程师[5][6][45] * 亚马逊的FAR团队发布了ResMimic框架 用于人形机器人的全身运动操控 使机器人能够承载约55公斤的有效载荷[52] **产品发布与性能提升** * 特斯拉计划在2026年第一季度发布完全重新设计的Optimus v3 其拟人程度极高 并设定了v3产量100万台 v4产量1000万台 v5产量5000万至1亿台的宏伟目标[7][53] * Figure AI发布了第三代Figure 03人形机器人 具有增强的传感和触觉能力 无线充电功能 并且为大规模制造做好了准备[42] * 中国公司优必选Walker S2获得了价值1260万元人民币的实体智能项目订单[34] **市场表现与投资活动** * 等权重Humanoid 100指数自2025年2月6日创立以来上涨了27% 超越了标普500指数和MSCI欧洲指数 但落后于MSCI中国和MSCI韩国指数[11][70] * 中国机器人价值链在9月强劲上涨18%后 10月迄今下跌了11% 表现逊于MSCI中国指数[11] * Figure AI完成了由Parkway Venture Capital领投的10亿美元C轮融资 公司估值达到390亿美元[29] * 2025年中国人形机器人公司融资活动活跃 10月份有29笔交易[28][99] **政策支持与区域动态** * 中国各级政府自2023年以来出台了一系列支持人形/具身AI发展的政策 并设立了总规模约1870亿元人民币的产业基金[57][59] * 根据国际机器人联合会的数据 2024年中国占全球工业机器人安装量的54% 较十年前26%的份额大幅提升 国内供应商首次在本土市场占据过半销售额[7] 其他重要内容 **供应链挑战与关键瓶颈** * 特斯拉指出 灵巧的手和前臂是整个人形机器人中最困难的工程挑战 其机电复杂性超过机器人其他部分的总和[7][53] * 人形机器人没有现成的供应链 特斯拉需要高度垂直整合并内部制造零件[53] **长期市场潜力** * 摩根士丹利全球人形机器人总目标市场模型预测 到2050年 人形机器人存量将达到10亿台 年收入规模达5万亿美元 长远来看可能远超全球汽车行业[107]
VERSES® Recognized in the 2025 Gartner® Emerging Tech Impact Radar: Spatial AI
Globenewswire· 2025-10-21 20:58
公司动态 - VERSES AI Inc 在2025年Gartner新兴技术影响雷达报告:空间AI中被列为世界模型和空间计算用例的样本供应商[1] - 公司参与了IEEE空间网络工作组并计划在其产品Genius中支持HSML和HSTP标准以实现空间AI[2] - 公司首席执行官表示空间网络是实现下一代AI所需的基础设施并完全赞同Gartner对空间共享理解必要性的分析[3] 行业趋势与定义 - 空间AI通过将3D环境与物理原理融合来提升AI价值其发展依赖于物理AI现实捕捉和空间开发框架等突破性解决方案[2] - 空间网络被描述为一种根本性转变将通过创建一个面向现实世界的万维网来实现物理现实的货币化改变与资产人员及地点的互动方式[2] - 空间计算将物理和数字对象结合在一个共享参考系中涉及空间映射以及对物理世界中人员地点和物体的识别作为锚定数字内容的基础[5] - 世界模型是真实世界环境的计算表示可用于预测未来状态并基于历史和实时数据做出预测[5] 技术标准与框架 - IEEE于2025年5月批准了首批空间网络协议架构和治理标准未来的空间网络系统将基于这些及后续标准构建并扩展当前万维网的基础[2] - 报告建议通过积极参与空间计算/网络标准化工作专注于利用互联系统的高价值“物理数字”用例来加速空间AI的领导地位[5] - 建议通过完善用户界面设计以用于受益于物理数字互动的高价值概念验证用例来建立空间网络设计和实施的领导地位[5] 市场预测 - 到2035年从工业到无人机再到可穿戴设备的每个自治系统都将包含标准化的空间AI层而2025年这一比例还不到1%[4] - 到2028年前十名AI公司中的五家将战略性地转向专业化的物理AI解决方案使仅专注于数字领域的竞争对手在AI竞赛中掉队[4]
The Daily Tech Digest: 17 October 2025
Medium· 2025-10-17 13:39
人工智能与机器学习 - 字节跳动旗下AI聊天机器人“豆包”月活跃用户达到1.57亿,其成功表明用户体验和亲切感对于大众普及比底层模型的技术实力更为关键 [2] - Windows 11 Copilot将新增语音控制和屏幕上下文理解功能,通过Copilot Vision使其成为更深度集成、直观的助手 [4] - Google DeepMind更新其“People + AI Guidebook”,为UX专业人士、产品经理和AI团队提供构建以人为本的生成式AI体验的最佳实践 [5] - “世界模型”成为AI新前沿,这类能构建世界内部模拟以预测结果的系统对开发更高级的推理和规划能力至关重要 [6] - Google展示由Gemini 2.5 Flash、Imagen 3和Veo 3组成的AI trio,可从单张用户照片生成动画3D机器人化身 [7] 网络安全 - 网页开发平台Vercel聘请Talha Tariq为新的安全CTO,强调AI时代正在重新定义安全 [8] - OpenAI应已故民权活动家马丁·路德·金遗产管理机构的要求,暂停了使用其AI模型生成马丁·路德·金视频的功能 [9] - Google DeepMind的People + AI Guidebook更新通过关注可用性、信任和帮助性,隐含地解决了AI安全问题 [10] - 字节跳动拥有1.57亿月活跃用户的“豆包”聊天机器人因其用户友好设计成为安全威胁的主要目标 [11] - 持续关注Kubernetes开发动态对安全专业人员至关重要,因更新常包含安全修复和不安全功能的弃用 [12] 公司动态 - 全球薪酬与合规公司Deel年度经常性收入超过10亿美元,并已连续三年实现盈利 [13] - 电动飞机制造商Archer Aviation在竞标中击败竞争对手Joby Aviation获胜,为电动垂直起降飞行器市场带来发展势头 [14] - Google投资核聚变初创公司,既将其视为未来数据中心的潜在电力供应商,也视为其云计算服务的潜在客户 [15] - Meta宣布将关闭其桌面版Messenger应用程序,将用户引导至主网站或移动端使用消息功能 [16][20] - 美国铸币局将发行印有苹果联合创始人史蒂夫·乔布斯形象的1美元创新系列硬币,以表彰其对技术的贡献 [17][21] 消费者技术 - Apple TV和Peacock宣布推出折扣订阅捆绑包,以每月15美元的合并价格提供两项流媒体服务 [18] - Casio发布“回到未来”主题计算器手表,重新推出这款经典电影中的标志性配件 [19] - WIRED发布针对书虫和科技达人的节日礼品指南,帮助消费者在拥挤的市场中挑选礼物 [22] 创新与初创企业 - “世界模型”概念作为AI下一个主要创新领域获得关注,这类系统能构建对世界运作方式的内在理解 [23] - Gemini CLI为开发者推出新的交互式shell模式,允许在CLI环境中直接运行交互式命令 [24] - Google DeepMind的People + AI Guidebook为初创公司和产品团队负责任地创新生成式AI提供关键资源 [25] - Archer Aviation在竞标中的胜利为整个电动垂直起降飞行器行业提供了重要的创新里程碑 [26] - Google与核聚变初创公司关系的演变,将其既视为未来供应商也视为潜在云客户,代表了一种创新的企业发展策略 [27]
从科研到落地,从端到端到VLA!一个近4000人的智驾社区,大家在这里报团取暖~
自动驾驶之心· 2025-07-11 19:23
自动驾驶社区建设 - 目标在3年内打造万人规模的智能驾驶与具身智能社区,已吸引华为天才少年及多位领域专家加入[2] - 构建了学术+产品+招聘的完整生态链,形成课程+硬件+问答的教研闭环[2] - 社区内容涵盖技术动态分享、入门问答、求职信息及行业前沿讨论[2] 技术课程体系 - 提供超千元价值的自动驾驶技术论文解读免费视频教程[2] - 原创直播课程覆盖自动驾驶9大方向:综述/感知融合/标定/SLAM/决策规划/数据工程等[2] - 自研硬件包括标定板、黑武士、天工开物及具身智能机械臂等设备[2] - 网络公开课包含自动驾驶基础、深度学习、机器学习等十余门课程[2] 学习路线规划 - 整理15个自动驾驶学习方向路线图,包含新人指南/提问技巧/问答精选等模块[3] - 汇总国内外高校著名自动驾驶团队及企业信息[3][4] - 提供自动驾驶数据集、仿真工具、标注工具等资源[3] 行业资源对接 - 与近200家自动驾驶公司建立内推渠道,简历可直达企业[4] - 覆盖小米/地平线/理想/小鹏/英伟达/比亚迪/华为等头部企业资源[6] - 针对创业者/高管/产品经理等角色开放资源对接通道[6] 技术发展趋势 - 2025年技术基调确定为VLA(视觉语言行动)驱动的端到端2.0系统[7] - 关键技术包括视觉大语言模型基座、扩散模型轨迹预测、3DGS生成技术等[7] - 技术迭代周期从2024年下半年开始明显缩短[7] 知识星球内容 - 国内最大自动驾驶技术社区,成员近4000人,含100+行业专家[14] - 每周活跃度居国内前20,日均成本约0.5元[14] - 四大核心板块:学术进展追踪/技术分类汇总/求职资料/问题解答[16] 前沿技术方向 - 重点布局VLA/大模型/扩散模型/具身智能等方向[24] - 视觉语言模型应用涵盖预训练/迁移学习/知识蒸馏等技术路线[27][28][29] - 世界模型研究聚焦3D场景理解与生成、驾驶视频生成等方向[45][46] 数据集资源 - 整理超30个自动驾驶数据集,包含KITTI/Cityscapes/nuScenes等标杆数据集[37] - 语言增强数据集涵盖视觉问答、导航指令、车辆检索等场景[38] - 图像文本数据集规模从百万级(COCO)到百亿级(WebLI)不等[31] 求职与职业发展 - 提供面经覆盖SLAM/计算机视觉/感知融合等方向[4] - 专家建议传统SLAM从业者转向3DGS重建或规控领域[106] - 多模态3D检测方向建议向端到端/大模型/数据闭环转型[108]