Workflow
Genie 3
icon
搜索文档
谈谈2025年人工智能现状及发展趋势分析
36氪· 2025-12-30 17:18
一 “高采纳率,低转化率”悖论 - 企业人工智能领域存在巨大脱节:尽管88%的组织报告在至少一个业务职能中定期使用人工智能(较前一年的78%有所上升),但仅有39%的组织报告其收益增长可归因于人工智能[4] - 超过90%的企业正试图采用人工智能解决方案以保持竞争力,但95%的组织从生成式人工智能投资中获得零回报且陷入无实际可衡量影响的困境[5] - 仅约三分之一的组织已成功开始在全企业范围内扩展人工智能应用,企业用户个人报告称由于使用人工智能每天节省40至60分钟时间[6] - 投资环境正从“无节制的乐观”转向要求提供盈利能力与投资回报率的具体证据[6] 二 企业人工智能采用的主要障碍 - **组织与文化惯性**:成功扩展规模的主要障碍往往是文化和组织方面的,而不是技术方面的[9] - 未能重新设计工作流程:大多数组织将人工智能视为增强工具,而不是变革的催化剂[9] - 从试点到生产的鸿沟:尽管80%的组织进行了试点,但据报道只有约5%的定制企业级AI工具最终投入生产[9] - 影子人工智能:超过90%的受访员工使用个人人工智能工具完成工作任务,尽管只有40%的公司正式购买了订阅服务[9] - 心理安全感:83%的企业领导者表示心理安全感直接影响人工智能项目的成功,22%的领导者曾因害怕失败而犹豫是否要领导人工智能项目[10] - **技术与战略错位**:在许多复杂、涉及整个公司的案例中,现有技术尚未成熟,生成式人工智能工具经常在关键工作流程中失效[11] - **投资偏见**:企业往往倾向于投资销售和市场营销等前台职能部门,而财务和制造等领域的后台自动化通常得到的关注和资源相对较少[13] - **代理治理滞后**:40%的人工智能决策者认为监管滞后是采用人工智能技术的主要挑战,直接阻碍了其规模化部署[14] - **难以衡量影响**:对于结构性变革或小的流程改进,需要数年时间收集数据才能了解其带来的改变[15] 三 成功企业的关键特征 - **战略方向和自上而下的纪律**:成功的组织将人工智能视为战略重点,由最高领导层进行管理,制定自上而下的计划并选择重点领域进行投资[16] - **运营转型和工作流程重新设计**:业绩最佳的组织会彻底改革其内部流程,以最大限度地发挥人工智能固有的速度和能力,目标是实现深度系统集成[17][18] - **文化准备度和心理安全感**:成功很大程度上取决于建立一种组织文化,能够减轻人们对新技术和由此带来的工作变化的抵触和恐惧[19] - **重点实施和外部合作**:成功的公司利用外部专业知识,战略伙伴关系的部署率(66%)大约是内部开发努力(33%)的两倍[20][21] - **衡量财务回报**:成功的采用者专注于将效率提升转化为切实的经济收益,尤其注重通过替代现有的外部成本来实现,例如取消业务流程外包合同和削减内容创作的代理费用[22][23] 四 采用率最高的行业与工作负载 - 科技、销售与市场营销、媒体与娱乐以及电子商务行业的采用率最高[24] - 其他值得关注的行业包括专业服务、金融、医疗保健和电信(客户支持)[25] - **工作负载细分**: - 编程:与代码编写相关的查询从2025年初约占总令牌量的11%增长到最近几周超过50%,是令牌量快速增长的主要驱动力[26] - 角色扮演:在开源模型中,角色扮演的使用量占比超过一半(约52%),在Deepseek的OpenRouter中占比高达80%[26] - **按成本和价值进行工作负载细分**: - 高端工作负载:技术领域在此象限中显著突出,每单位成本最高但保持较高的使用率[33] - 大众市场高用量驱动者:编程、角色扮演和科学聚集于此,编程被标记为“杀手级专业人士”类别[34] - 专业专家:金融、学术、医疗和营销属于此类,用户愿意为特定高风险专业领域的准确性与可靠性支付溢价[35] - 小众工具:翻译、法律和常识问答位于此区域[36] - 目前通过推理优化模型路由的令牌总数占比已超过50%,表明LLM的使用正从单轮请求转向智能推理[37] 五 地域分布特点 - **企业采用**:新兴经济体在企业部署方面正超越西方国家,印度(59%)、阿联酋(58%)和俄罗斯(大型企业占比71%)的实施率领先,显著高于美国(33%)和英国(37%)[38] - **使用方式差异**: - 在高普及率国家(例如新加坡、加拿大),Claude的使用非常广泛,新加坡的人均使用率是其预期人口比例的4.6倍,加拿大为2.9倍[39] - 新兴市场(例如印度、越南):人工智能的应用主要集中在编码和软件开发领域,在印度,编码应用占人工智能总应用量的50%以上[39] - 美国:该软件的使用已深度融入家庭管理、求职和医疗指导等领域[39] - **基础设施与语言**: - 到2025年中期,高收入国家拥有全球77%的数据中心容量,低收入国家仅占不到0.1%[47] - 人工智能交互中使用的语言高度集中在英语(82.87%),其次是简体中文(4.95%)和俄语(2.47%)[47] 六 2025年主要趋势 - **从辅助工具到自主智能的过渡**:智能体人工智能兴起,推理令牌的消耗量同比增长了320倍,这些“智能体”正被部署在高风险环境中[42] - **氛围编码浪潮**:人工智能原生开发工具开启“直觉式编码”时代,例如初创公司Lovable在成立仅八个月后就成为独角兽企业,其约95%的代码都是由人工智能编写的[43] - **地域划分与人工智能主权**:印度和阿联酋等新兴经济体在运营部署速度方面领先全球,引发全球范围内对“主权人工智能”的推动[44] - **“影子人工智能”的使用**:90%的员工表示他们在工作中使用个人人工智能工具,而他们所在的公司中只有40%购买了官方订阅服务[45] - **中国模式的崛起**:中国开发的模型(如DeepSeek、Qwen和Kimi)在某些时期占每周代币总交易量的约13%至30%,在Hugging Face平台上,阿里巴巴的Qwen占每月新增模型衍生品的40%以上[48] - **视频生成从片段到世界模型的演变**:视频生成发展到能够根据状态和用户行为预测未来帧的“世界模型”,新一代模型引入了对话和声音同步、更强大的物理引擎等功能[49] 七 未来预测 - **市场调整与支出增长**:专家预测人工智能市场将在2026年出现回调,但预计2025年全球人工智能支出将接近1.5万亿美元,并在2026年突破2万亿美元[51][52] - **经济贡献**:预计到2030年,人工智能将为全球经济贡献高达15.7万亿美元,在印度等特定地区,预计到2035年人工智能将为国民经济贡献1.7万亿美元[53] - **技术发展**: - 端到端自主科学发现:开放式人工智能代理将能够独立完成一项有意义的科学发现[54] - 实时生成式视频游戏预计到2026年将成为Twitch等平台上最受关注的内容之一[50][54] - 中型模型(参数在150亿到700亿之间)正成为行业标准[59] - **安全与就业影响**: - 关于智能体攻击的全球辩论可能引发联合国首次专门针对人工智能安全的紧急辩论,用于网络攻击的攻击性人工智能能力每五个月就会翻一番[55] - 人工智能预计到2025年将取代8500万个工作岗位,但同时将创造9700万个新的就业岗位,更替可能主要集中在非核心业务活动[61] - **其他预测**: - 人工智能代理独立处理消费者交易,代理结账将占所有在线销售额的5%以上,直接面向人工智能代理的广告支出预计将达到50亿美元[56][57] - 到2028年,人工智能规模化发展的主要制约因素将从芯片供应转向电网容量,预计到2030年领先的超级计算机将需要9吉瓦的电力[60] - 主权人工智能将成为各国政府和企业的首要战略重点[62]
为什么世界模型对行业产生了这么大的影响?
自动驾驶之心· 2025-12-29 17:17
世界模型在自动驾驶领域的愿景与探索 - 世界模型的愿景是理解并改变物理世界,其核心在于以持续技术突破引领生成式AI自动驾驶范式,重塑自动驾驶底层能力 [2] - 自动驾驶领域对世界模型的探索持续进行,主要方向包括视频生成、OCC生成以及Lidar点云生成或视觉与点云的联合生成 [3] - 许多公司基于开源算法搭建云端或车端世界模型,用于长尾数据生成或闭环仿真与评测,部分公司正尝试基于世界模型直接赋能车端驾驶能力 [4] 世界模型的技术定义与学习挑战 - 世界模型的定义尚不清晰,存在“生成即世界模型”与“生成加重建即世界模型”等不同理解,导致新入行者容易混淆 [5] - 对于初学者而言,理解世界模型并完成数据生成、闭环仿真等后续任务非常困难,部分从业者甚至花费半年时间仍难以有效入门 [6] 自动驾驶世界模型课程概述 - 该课程由自动驾驶之心平台联合工业界算法专家Jason推出,旨在从原理到实战帮助学习者掌握自动驾驶世界模型领域,是国内首个《世界模型与自动驾驶小班课》 [6][8] - 讲师Jason拥有C9本科与QS50博士学位,发表多篇CCF-A/B论文,现任国内TOP主机厂算法专家,主持并完成多项自动驾驶感知与端到端算法的产品量产交付 [8] - 课程为离线视频教学,开课时间为1月1日,预计两个半月结课,提供VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日 [20] 课程大纲与核心内容 - **第一章:世界模型介绍** 复盘世界模型与端到端自动驾驶的联系,讲解其发展历史、应用案例、不同技术流派及其在业界解决的问题与所处环节 [11] - **第二章:世界模型的背景知识** 讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等,这些内容是当前世界模型求职面试频率最高的技术关键词 [11][12] - **第三章:通用世界模型探讨** 聚焦通用世界模型及近期热门工作,深入讲解Marble、Genie 3、JEPA、导航世界模型、DriveVLA-W0及特斯拉的世界模型模拟器等模型的核心技术与设计理念 [12] - **第四章:基于视频生成的世界模型** 聚焦视频生成类算法,讲解Wayve的GAIA-1 & GAIA-2、上交的UniScene、商汤的OpenDWM、中科大的InstaDrive等经典与前沿工作,并以商汤开源的OpenDWM进行实战 [13] - **第五章:基于OCC的世界模型** 聚焦OCC生成类算法,涵盖三大论文讲解与一个项目实战,此类方法可扩展至自车轨迹规划,进而实现端到端自动驾驶 [14] - **第六章:世界模型岗位专题** 分享世界模型在工业界的应用现状、行业痛点、期望解决的问题以及相关岗位的面试准备与公司关注点 [15] 课程技术细节与学习收获 - 课程背景知识部分将详细讲解Transformer、CLIP、LLaVA、BEV感知、占用网络、扩散模型、闭环仿真中的NeRF与3DGS,以及其他生成式模型如VAE、GAN等 [17] - 基于OCC的世界模型部分将涵盖清华的OccWorld、复旦的OccLLaMA、华科的HERMES以及西交最新的II-World等工作 [18] - 学完本课程后,学习者预期能达到约1年经验的自动驾驶世界模型算法工程师水平,掌握技术进展,对BEV感知、多模态大模型等关键技术有更深刻理解,并可复现II-World、OpenDWM等主流算法框架 [19] 课程安排与参与要求 - 课程章节按计划逐步解锁:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁 [21] - 学习本课程需要自备GPU,推荐算力在RTX 4090及以上,并需具备一定的自动驾驶领域基础、了解Transformer大模型等基本概念、拥有概率论与线性代数基础以及Python和PyTorch编程能力 [19]
传媒行业点评:头部厂商持续入局世界模型,关注影视、游戏环节应用潜力
中邮证券· 2025-12-29 16:44
行业投资评级 - 行业投资评级为“强于大市”,且评级维持不变 [1] 核心观点 - 头部厂商持续入局世界模型,应关注其在影视、游戏环节的应用潜力 [3] - 世界模型是AGI研究重要方向,海内外头部厂商如Google、Runway、字节跳动均在积极布局 [4] - 世界模型能力的持续演进,有望为影视和游戏行业带来持续赋能 [5] - 在影视领域,世界模型有助于构建遵守物理定律、空间一致的虚拟环境,提升视频生成的时序稳定性与物理遵循能力,推动AI+影视向长视频制作、复杂镜头叙事等更高复杂度领域扩展 [5] - 在游戏领域,世界模型的三维世界生成、交互性能力与游戏制作流程高度契合,有望提升游戏内容生产效率、玩法创新及虚拟世界构建能力 [5] 事件回顾 - 2025年12月17日,腾讯正式发布旗下混元世界模型1.5,该模型首次开源了业界最系统、最全面的实时世界模型框架,涵盖数据、训练、流式推理部署等全链路 [3] 头部厂商布局详情 - **Google**:旗下最新一代世界模型Genie 3可根据文本提示生成动态世界,并在720p分辨率下保持几分钟的一致性 [4] - **Runway**:于2025年12月发布首个世界模型GWM-1,包含GWM Worlds(环境探索)、GWM Avatars(角色对话)、GWM Robotics(机器人操作)三种变体 [4] - **字节跳动**:成立Seed-多模态交互与世界模型团队,并于2025年10月发布3D生成大模型Seed3D 1.0,后续计划推动3D模型在世界模拟器中的规模化应用 [4] - **腾讯**:其混元世界模型支持构建“可行走”的场景地图,并提供元素级独立编辑与物理仿真 [5] - **xAI**:计划布局世界模型方向,并提出在2026年底推出由世界模型驱动的AI生成游戏 [5] 投资建议 - 建议关注具备世界模型开发+场景应用双重能力的公司,例如:昆仑万维 [6] - 建议关注AI+影视制作环节的公司,例如:华策影视、光线传媒、横店影视 [6] - 建议关注大型3D游戏制作公司,例如:完美世界、巨人网络 [6] 行业基本情况 - 行业收盘点位为802.63 [1] - 行业52周最高点位为897.3 [1] - 行业52周最低点位为590.32 [1]
蒸馏、GEO、氛围编程 2025年度“AI十大黑话” 能听懂几个?
36氪· 2025-12-26 17:16
文章核心观点 文章总结了《麻省理工科技评论》评出的2025年度十大AI热词,这些概念正在重塑AI行业格局,反映了技术发展、应用模式、资本动态及社会影响等多个维度的最新趋势 [1] 氛围编程 - 编程方式被重新定义,开发者只需用自然语言向AI表达应用目标、功能需求和整体体验,AI则负责自动生成和迭代代码 [2] - 这种方式由OpenAI联合创始人安德烈·卡帕西提出,被称为“氛围编程”,它代表了一种人机协作的新范式 [2] 推理模型 - “推理”成为AI讨论核心,对应推理模型的崛起,这类大语言模型通过多步拆解与连续推演处理复杂问题 [3] - 自OpenAI发布o1和o3系列后,DeepSeek迅速跟进,主流聊天机器人均已引入推理技术,在数学和编程竞赛中达到顶尖人类专家水平 [3] 世界模型 - AI研究转向构建“世界模型”,旨在让AI理解现实世界的因果关系、物理规律与时间演化,而不仅仅是生成流畅文字 [4] - 谷歌DeepMind的Genie 3、李飞飞团队的Marble以及杨立昆的新研究,都通过预测视频演化或构建虚拟环境来让AI掌握世界运转规律 [4] 超大规模数据中心 - 为满足激增的AI算力需求,科技巨头正以前所未有的规模建设专用“超级数据中心” [5] - 例如,OpenAI与美国政府合作的“星门”项目计划投入5000亿美元,建设全美史上最大规模的数据中心网络 [5] 资本与泡沫 - AI成为资本最拥挤的赛道之一,以OpenAI、Anthropic为代表的公司估值持续攀升,但多数仍处于高投入、尚未稳定盈利的阶段 [6] - 与互联网泡沫时期相比,如今顶尖AI公司收入增长迅猛,且背后有微软、谷歌等资金雄厚的科技巨头提供稳定支撑 [6] 智能体 - “智能体”是AI圈内热门但定义模糊的概念,各家宣传AI能像“智能助手”一样自主完成任务,但行业缺乏统一标准 [7] - 尽管AI尚难在复杂多变环境中稳定可靠工作,“智能体”已成为产品宣传中最热门的标签之一 [7] 蒸馏技术 - DeepSeek发布的R1模型展示了“蒸馏”技术的巧妙,让小模型学习大模型的精髓,以极低成本实现接近顶级模型的性能 [8] - 这表明打造强大AI模型未必只能依赖堆砌算力,高效的算法设计同样能带来新的可能 [8] AI垃圾 - “AI垃圾”特指为博流量而批量产生的劣质AI内容,该词已演变为一种后缀,被用来形容各种缺乏实质的事物,如“工作垃圾”、“社交垃圾” [9] - 这折射出人们对AI时代内容质量与真实性的普遍反思 [9] 物理智能 - AI在现实世界中的行动能力仍是短板,虽然机器人在特定任务上学习更快,自动驾驶模拟更逼真,但不少“智能家庭助手”产品仍需人工远程操控 [10] - 为提升能力,已有机器人公司开始向普通人征集做家务视频,表明让AI真正理解并适应物理世界仍前路漫长 [10] 生成引擎优化 - 传统搜索引擎优化正在让位于“生成引擎优化”,随着AI直接给出答案,信息获取方式发生改变 [11] - 新规则下,内容提供者需要确保其品牌、观点或内容被AI在生成的答案中引用,否则可能从用户视野中消失 [11]
AI“世界模型”来了
财联社· 2025-12-26 11:15
文章核心观点 - 生成式AI驱动的“世界模型”技术正引发全球视频游戏产业的颠覆性变革,该技术能大幅提升内容创作效率、降低开发成本并催生全新的游戏体验,预计将重塑这个价值近1900亿美元的行业 [3][4][9] 技术进展与产品发布 - 由李飞飞联合创办的World Labs公司推出了首款商业产品Marble,这是一个基于生成式3D世界模型的系统,用户仅凭图片、影片或文字提示即可创建空间连贯、高保真的三维世界 [5] - 谷歌DeepMind等领先AI团队也在推进世界模型项目,如Genie 3,认为其将给游戏开发带来彻底性变化 [8] 对游戏开发的影响 - AI工具已用于制作游戏视觉资产,如地形和角色,Game Gears公司CEO表示AI使其游戏开发速度提升了四倍 [9] - 技术将影响Unity和Unreal等传统游戏引擎,被认为到了“该升级的时候”,可能颠覆现有开发模式 [8] - 开发者可减少对昂贵软件和专业技能的依赖,从而生成内容,玩家也将能够自行创造全新的游戏世界 [13] 行业应用与市场前景 - 全球游戏产业今年收入预计接近1900亿美元,世界模型技术被视为该行业的重要推动力 [9] - 除了游戏,xAI、英伟达等公司也希望将世界模型应用于机器人和自动驾驶汽车,但更直接、触手可及的进步将首先出现在游戏行业 [9] - Epic Games与迪士尼已在《堡垒之夜》中推出了由AI驱动的“达斯·维达”角色,作为可互动的非玩家角色,展示了AI在游戏中的实际应用 [10] 行业观点与未来展望 - 专家认为,世界模型将使制作高度个性化的游戏变得相对简单,让游戏产业与今天截然不同 [14] - 乐观者认为AI有助于降低成本、提升创造力,并避免开发人员过度疲劳,对于开发成本常超过10亿美元、耗时数年的3A大作行业是一大利好 [15] - 前育碧副制作人希望世界模型能帮助开发者重新获得“寻找乐趣”的空间,有更多时间尝试新点子和打磨细节 [15]
AI“世界模型”来袭:全球游戏产业或迎颠覆时刻
中金在线· 2025-12-26 08:42
李飞飞表示,这项技术将影响Unity和Epic旗下Unreal等游戏引擎,"这一切都将被颠覆,模拟类游 戏引擎确实到了该升级的时候了。" 据介绍,Marble基于领先的生成式3D世界模型技术构建,使用户"能够仅凭一张图片、一段影片或 一段文字提示,创建空间连贯、高保真且可持续的三维世界"。 谷歌DeepMind、World Labs等领先的AI团队都认为,所谓的"世界模型"可能会重塑价值数十亿美元 的游戏行业。 World Labs由"AI教母"李飞飞联合创办。上月,公司正式推出了其首款商业产品、由生成式AI驱动 的三维世界生成系统Marble。 DeepMind世界模型项目Genie 3的联合负责人Shlomi Fruchter表示:"软件开发,尤其是游戏开发, 正在发生巨大变化,我预计在未来几年,这种变化甚至可能是彻底性的。" "这将赋能创作者和开发者,让他们更快、更好地创造作品,并以此前从未有过的方式进行创 作……我认为它不会取代现有的游戏体验,但我们会看到更多今天还不存在的新型体验。" 除了游戏领域,xAI、英伟达等公司,也希望将世界模型嵌入机器人和自动驾驶汽车中。但更直 接、更触手可及的进步,可能首 ...
LeCun哈萨比斯神仙吵架,马斯克也站队了
量子位· 2025-12-25 08:27
核心观点 - AI领域两位顶尖学者Yann LeCun与Demis Hassabis就“智能的本质”展开激烈论战,核心分歧在于对“通用智能”的定义和理解,这场辩论也指向了实现AGI的不同技术路径——世界模型 [1][2][3][8][30][31][42] 关于“通用智能”的争论 - **Yann LeCun的观点**:认为“通用智能”是胡扯(complete BS),人类智能是高度专业化的,是为了适应现实物理世界而专门进化出的能力,并非真正通用 [3][9][13][31] - 论证1:人类在某些领域(如国际象棋)表现很差,而有些动物更强,证明人类是“专才” [10] - 论证2:人类能理解的问题局限于自身认知范围,“通用”是一种错觉 [11] - 论证3:理论上的图灵完备不等于实际通用,人脑在资源受限下解决现实问题的效率远非最优,是高度优化的结果 [34][35] - 论证4:以视觉为例,人脑能实现的布尔函数在所有可能函数中只占一个无穷小的比例,证明其高度专业化而非通用 [36][37] - **Demis Hassabis的观点**:认为LeCun大错特错,混淆了“通用智能”与“普适智能”的概念,坚信通用智能存在且潜力巨大 [3][15][16][31] - 论证1:大脑是宇宙中已知最精妙复杂的事物,具有极强的通用性,是通用智能可行性的存在性证明 [17][24] - 论证2:从图灵机理论看,只要给予足够时间、内存和数据,人脑及AI基础模型能够学习任何可计算内容,具有通用性核心 [18] - 论证3:人类能发明国际象棋乃至整个现代文明,展现了人脑惊人的通用潜力 [19][20] - 论证4:衡量智能的关键标准是通用性和学习能力,以“深蓝”为例,其虽擅长象棋但不会玩井字游戏,足见其死板,反衬人脑的通用 [22] 争论的实质与共识 - **分歧核心**:双方承认分歧部分在于用词,LeCun反对用“通用”指代“人类水平” [32][33] - **实质差异**:两人谈论的是不同问题,LeCun强调“我们是什么”(智能是高度专业化的产物),Hassabis强调“我们能成为什么”(智能具有通用潜力) [41] - **共同指向**:辩论共同指向如何实现AGI这一更深层议题,答案都聚焦于“世界模型” [42] 实现AGI的路径:世界模型 - **Yann LeCun的路径**:即将创业,新公司名为Advanced Machine Intelligence Labs,目标估值30亿欧元(约247亿人民币),专注于世界模型 [43] - 核心理念:世界模型即认知框架,追求掌握控制理论和认知科学,关注世界的抽象表征而非像素渲染,旨在捕捉用于AI决策的世界状态 [44][45][50] - **Demis Hassabis/谷歌DeepMind的路径**:同样将世界模型作为重点,已推出Genie 3等模型 [46][47] - 核心理念:世界模型即模拟器,指能够理解世界运行机制中因果关系与协同效应的模型,是一种“直观物理学” [47] - 实践形式:通过构建逼真的、可交互的世界(如视频模型Genie, Veo)来检验和理解世界,视为通往AGI的关键一步 [48][49][50] 行业背景与相关动态 - **历史争论**:AI领域的跃迁常伴随类似争吵,如符号主义与连接主义、端到端学习与模块化系统、开源与闭源之争等 [51] - **相关人物动态**:LSTM之父Jürgen Schmidhuber指出其团队在2014年已涉猎与LeCun创业方向高度相似的世界模型技术 [51][53] - Schmidhuber被称为“成熟人工智能之父”,其发明的LSTM在ChatGPT前被称为“最具商业价值的人工智能成就” [53] - 马斯克评价Jürgen Schmidhuber为“一切的发明者” [58]
不装了,LeCun哈萨比斯神仙吵架,马斯克也站队了
36氪· 2025-12-24 15:47
核心观点 - 人工智能领域两位顶尖专家就“智能的本质”展开激烈辩论,图灵奖得主Yann LeCun认为“通用智能”是胡扯,人类智能是高度专业化的产物,而诺贝尔奖得主、谷歌DeepMind CEO Demis Hassabis则认为通用智能不仅存在,且人脑是其存在性证明,双方的核心分歧部分在于对“通用”一词的定义和理解[1][6][8][13] - 尽管对智能本质的哲学观点存在分歧,但双方在实现AGI(通用人工智能)的实践路径上均将“世界模型”视为关键,但对其具体内涵和实践方向的理解存在差异:LeCun倾向于将世界模型视为用于决策的抽象认知框架,而Hassabis则更侧重于将其视为能够模拟和生成世界的“模拟器”[20][21][22] - 这场辩论反映了AI领域长期存在的根本性思辨,如符号主义与连接主义、端到端学习与模块化系统之争,这些辩论共同推动着技术发展方向的定义与演进[22] 主要人物与立场 - **Yann LeCun (Meta AI科学家,图灵奖得主)**:认为“通用智能”概念是“complete BS”(纯粹胡扯),主张人类智能是进化过程中为适应物理世界而形成的、高度专业化的能力,并非真正通用[6][8][14] - **Demis Hassabis (谷歌DeepMind CEO,诺贝尔奖得主)**:强烈反对LeCun的观点,认为其混淆了“通用智能”与“全能智能”的概念,强调人脑在理论上是近似图灵机的通用系统,并以其惊人的成就证明了通用智能的潜力[8][9][10] - **Elon Musk (企业家)**:在争论中表态支持Hassabis,称“Demis is right”,其立场可能受到与Hassabis的长期友谊及曾是DeepMind早期投资者的关系影响[2][4] - **Jürgen Schmidhuber (LSTM之父)**:在争论之外提及,其早期工作与LeCun正在创业的“世界模型”概念高度相似,并长期在AI领域进行“维权”,强调自身贡献[22][24][27] 关于智能本质的辩论要点 - **LeCun的核心论证**: - 人类智能是专业化的:人类在现实世界导航、社交等方面表现出色,但在国际象棋等特定领域表现不佳,甚至不如某些动物,这表明人类是“专才”而非“通才”[6] - 理论完备不等于实际通用:人脑在理论上(配合无限资源)是图灵完备的,但在资源有限的实际问题中效率极低,因此是资源约束下高度优化的专门化系统[14] - 大脑可实现的功能比例极小:以视觉为例,从100万比特输入到1比特输出的所有可能布尔函数中,人脑能实现的只占“一个无穷小的比例”,这证明大脑是高度专门化的[17][18] - **Hassabis的核心论证**: - 大脑具有极强的通用性:大脑是目前宇宙中已知最精妙复杂的事物,只要给予足够时间、内存和数据,就能够学习任何可计算的内容,是近似的图灵机[9] - 人类成就证明通用潜力:人类能发明国际象棋、科学乃至现代文明(如波音747),考虑到大脑本是为狩猎采集进化而来,这些成就已充分展现其惊人的通用潜力[9] - 智能的关键标准是通用性与学习能力:以1997年“深蓝”为例,其虽擅长国际象棋但不会玩简单的井字游戏,体现了非通用程序的局限性,而人类大脑则展示了通用智能的可行性[10] 实现AGI的路径与方法论 - **Hassabis提出的三步方法论**: - **预测为基石**:智能的本质在于预测(如下一个单词或蛋白质结构),这是所有认知活动的基础形式[10] - **引入搜索与规划**:AI需建立世界模型,并在此基础上在巨大组合空间中进行搜索规划以找到最优解[11] - **通向深度强化学习**:结合深度学习(模式匹配)与强化学习(试错与规划),模拟大脑的神经通路与多巴胺奖励系统,实现自主进化[12] - **双方共识与分歧点**: - **共识**:实现AGI需要构建“世界模型”[20] - **分歧**:LeCun认为世界模型应追求掌握控制理论和认知科学,关注用于决策的抽象表征,而非渲染像素;Hassabis则认为世界模型应能理解世界的因果关系与“直观物理学”,并能生成逼真世界以证明其理解[20][21][22] 行业动态与商业布局 - **LeCun的创业计划**:即将从Meta离职,创立名为Advanced Machine Intelligence Labs (AMI Labs)的新公司,计划于明年一月正式亮相,目标估值30亿欧元(约247亿元人民币),专注于世界模型研发[20] - **谷歌DeepMind的进展**:已于2024年8月推出新版世界模型Genie 3,并持续开发如Veo等视频模型,视可交互的世界模型为通往AGI的关键一步[21][22] - **历史技术路线之争**:当前关于智能本质的争论是AI领域长期思辨的延续,历史上包括符号主义与连接主义、端到端学习与模块化系统以及当下的开源与闭源之争,这些辩论持续塑造着行业技术发展方向[22]
不装了!LeCun哈萨比斯神仙吵架,马斯克也站队了
量子位· 2025-12-24 13:14
核心观点 - 两位AI领域顶尖专家就“智能的本质”展开激烈论战,其核心分歧在于对“通用智能”的定义和理解,但双方都认为“世界模型”是实现AGI的关键路径 [3][31][42] 关于智能本质的争论 - **Yann LeCun的观点**:认为“通用智能”是胡扯(complete BS),人类智能是高度专业化的,是为了适应现实物理世界而专门进化出来的能力 [9][13] - LeCun论证:人类在某些领域(如国际象棋)表现很差,而有些动物更强,因此人类是“专才”而非“通用” [10] - LeCun进一步指出:理论上的图灵完备性(如人脑配合无限纸笔)对解决现实问题效率极低,真正的智能必须在有限资源下高效运作,人脑是资源约束下高度优化的结果 [34][35] - LeCun以神经网络为例:理论上两层网络可逼近任何函数,但实践中需要巨大且难以实现的神经元数量,因此我们使用多层网络,这证明了专业化 [36] - LeCun引用爱因斯坦:世界竟然可以被理解是不可思议的,我们能理解的只是所有可能函数中无穷小的比例,无法理解的部分称为“熵” [37][38][39] - **Demis Hassabis的观点**:认为LeCun大错特错,其混淆了“通用智能(general intelligence)”和“普适智能(universal intelligence)” [15][16] - Hassabis认为:大脑是宇宙中已知最精妙复杂的事物,具有极强的通用性,从图灵机理论看,只要给予足够时间、内存和数据,就能学习任何可计算内容,人脑和AI基础模型是近似的图灵机 [17][18] - Hassabis以人类发明国际象棋、科学乃至现代文明(如波音747)为例,认为这展现了人脑惊人的通用潜力,尽管大脑最初是为狩猎采集进化 [19][20] - Hassabis衡量智能的关键标准:通用性(Generality)和学习能力(Learning) [22] - Hassabis以1997年“深蓝”为例:其虽擅长国际象棋但不会玩简单井字游戏,足见其死板,而最吸引他的是作为人类代表的卡斯帕罗夫的大脑 [22][23] - Hassabis坚信:人类大脑是宇宙中已知唯一关于“通用智能可行性”的存在性证明 [24] - **争论的调和与核心**:LeCun后续回应称分歧主要在于“用词”,他反对用“通用”指代“人类水平”,但承认用词分歧后仍坚持人类智能高度专门化的观点 [32][33] - 网友观点:抛开用词,两人本质在谈论不同问题,一个强调“我们是什么”(人类智能的现状),另一个强调“我们能成为什么”(智能的潜力) [41] 实现AGI的路径:世界模型 - 双方都认为“世界模型”是实现AGI的关键下一步 [42] - **Yann LeCun的世界模型路径**:其即将从Meta离职创业,新公司名为Advanced Machine Intelligence Labs(AMI Labs),计划于2025年1月正式亮相,目标估值30亿欧元(约247亿人民币) [43] - LeCun对世界模型的理解:追求的不是渲染精美像素,而是掌握控制理论和认知科学,模型应专注于捕捉能用于AI决策的世界状态的抽象表征,与JEPA研究一脉相承 [44] - LeCun认为关键:了解“世界的结构是什么” [45] - **Demis Hassabis的世界模型路径**:表示世界模型是谷歌DeepMind接下来的重点 [46] - 谷歌DeepMind于2024年8月推出新版世界模型Genie 3 [47] - Hassabis对世界模型的理解:指能够理解世界运行机制中因果关系与协同效应的模型,即一种“直观物理学”——事物如何运动、相互作用及表现 [47] - Hassabis认为检验方式:是否能够构建一个逼真的世界,因为若能生成它,就意味着已理解并内化了系统运作规律,这也解释了Genie、Veo等模型首先以视频模型形式出现 [48][49] - **双方世界模型理念的差异**:LeCun代表“世界模型即认知框架”,Hassabis代表“世界模型即模拟器” [50] 行业背景与相关动态 - AI领域的重大进步常伴随根本性争论,如历史上的符号主义与连接主义、端到端学习与模块化系统、以及当前的开源与闭源之争 [51] - LSTM之父Jürgen Schmidhuber介入,称LeCun即将创业的世界模型与其团队在2014年的工作高度相似 [51][53] - Schmidhuber被称为“成熟人工智能之父”,其发明的LSTM在ChatGPT诞生前曾被称为“最具商业价值的人工智能成就”,但在当前AI时代未获相应奖项认可 [53][54] - 马斯克评价Jürgen Schmidhuber为“一切的发明者” [58] - 马斯克在此次争论中站队Hassabis,称“Demis is right”,部分原因可能是其与Hassabis关系密切(曾是DeepMind早期投资人),且与LeCun素来不和 [5][7]
2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔
量子位· 2025-12-24 08:42
文章核心观点 - 2025年是人工智能从工具转向实用手段的关键一年,标志着AI进入与人类协作、行动和探索的推理与Agent时代 [10][11] - 谷歌通过其在基础模型、产品集成、科学研究及应对全球挑战等多方面的突破,系统性地展示了AI正在演变为可协作、可行动并参与科学发现的智能系统 [3][13] 基础模型能力突破 - 谷歌在2025年于模型推理、多模态理解、生成能力及效率方面取得突破性进展,显著提升了模型性能 [4][14][15] - Gemini系列模型持续迭代:3月发布Gemini 2.5,11月推出迄今最强大的Gemini 3 Pro,12月发布融合专业级推理与Flash级别效率的Gemini 3 Flash [16][17][19] - 模型在多项基准测试中创下纪录:Gemini 3 Pro在LMArena排行榜位居榜首,在MathArena Apex创下23.4%的最新纪录,并在人类终极考试、GPQA Diamond等测试中取得突破性分数 [18][19] - 通过开源Gemma系列模型,使实用的AI技术更易于获取,该系列引入了多模态能力,大幅增加了上下文窗口,并拓展了多语言功能 [21] AI产品的深度集成与创新 - AI已广泛融入谷歌主要产品,推动其从工具转向实用工具,并以全新的强大Agent能力改造产品组合 [5][22][23] - 在软件开发领域,引入能与开发者协作的Agent系统(如Google Antigravity),标志着AI辅助软件开发进入新时代 [23] - 在消费产品中,从Pixel 10的AI功能、搜索的AI模式更新,到Gemini应用和NotebookLM等创新产品,均增加了深度研究等高级功能 [23] - 2025年是生成式媒体变革之年,AI为创意提供全新能力:视频、图像、音频和虚拟世界的生成式模型及工具变得更高效和广泛应用 [24] - 推出突破性的Nano Banana和Nano Banana Pro,在原生图像生成与编辑方面展现前所未有的能力 [24] - 与创意行业合作开发Flow和Music AI Sandbox等工具,并升级Gemini图像编辑功能,引入Veo 3.1、Imagen 4和Flow等新型生成式媒体模型,拓展创意可能性 [25] 推动科学与数学发展 - 2025年是AI科学进步的标志性一年,在生命科学、健康、自然科学和数学领域取得诸多进展 [7][26][27] - 在基因组学领域,利用AI解读复杂数据;AlphaFold迎来问世五周年,该系统已被190多个国家的300多万名研究人员使用 [28] - Gemini的高级思考能力(如Deep Think)在数学和编程领域取得历史性进展,能够理解需要深度抽象推理的问题,并在两项国际竞赛中达到金牌水平 [30][31] - 谷歌实验室进行了一系列前沿实验,例如:用于品牌营销的Pomelli、将提示转化为UI的Stitch、异步编码Agent Jules以及3D视频通信平台Google Beam [29] 推进计算和物理世界研究 - 在量子计算领域取得迈向实际应用的进展,例如Quantum Echoes项目 [12][32] - 谷歌员工Michel Devoret等人因20世纪80年代的基础量子研究共同获得2025年诺贝尔物理学奖 [33] - 推进核心AI基础设施,重点关注硬件突破和能源效率:推出为推理时代打造的新型TPU Ironwood,采用AlphaChip方法设计 [33] - 在机器人技术和视觉理解方面的研究将AI Agent带入物理和虚拟世界,推出了基础性的Gemini Robotics模型、更先进的Gemini Robotics 1.5以及成为通用世界模型新前沿的Genie 3 [33] 应对全球性挑战与机遇 - 利用先进的基础模型和Agent推理来应对全球关键挑战,加深对地球系统的理解,并在气候韧性、公共卫生和教育等领域提供解决方案 [35][36] - 具体应用包括:洪水预报信息覆盖全球150个国家超20亿人口;最先进的天气预报模型WeatherNext 2生成预报速度快8倍,分辨率达1小时,并支持实验性的气旋预测 [36] - 与合作伙伴携手,将AI驱动的科学进展更贴近患者,为疾病管理和疗法研发开辟新途径 [38] - AI被证明是教育领域的强大工具,通过LearnLM和Gemini中的引导式学习,促成新的理解形式并激发学生好奇心 [39] - 将Gemini最强大的翻译能力引入谷歌翻译,提供更智能、自然且准确的翻译,并试点新的语音互译功能 [40] 重视责任与安全及开放生态 - 谷歌始终强调将研究突破与责任和安全相结合,随着模型能力增强,持续改进工具、资源及安全框架以预测并降低风险 [8][42][43] - Gemini 3是谷歌迄今为止最安全的模型,经过了最全面的安全评估 [44] - 探索通往AGI的负责任之路,将准备工作、主动风险评估以及与更广泛的人工智能社区合作置于优先地位 [44] - 认为负责任地推进AI需要全社会协作:2025年与顶尖AI实验室合作成立Agentic AI基金会,支持开放标准以确保Agentic AI拥有负责任且具备互操作性的未来 [45][46] - 在教育、科研及创意领域广泛合作:与高校(如加州大学伯克利分校、耶鲁大学)合作推动前沿研究和AI技能教育;与电影制作人等创意开发者合作探索新叙事方式 [46]