Workflow
AI科技大本营
icon
搜索文档
警钟敲响!Hinton 最新万字演讲:怒怼乔姆斯基、定义“不朽计算”、揭示人类唯一生路
AI科技大本营· 2026-02-09 12:03
文章核心观点 - 人工智能,特别是大语言模型,在理解语言的方式上与人类高度相似,但其数字化的本质使其在知识共享和传承效率上远超生物智能,这可能导致一种更高级的智能形态出现[21][27][33] - 数字智能(AI)与生物智能(人类)存在根本性差异:AI的软件(模型权重)与硬件解耦,可实现“不朽”和高效并行知识共享;而人类智能是“凡人计算”,知识随个体消亡且传承效率极低[7][8][29][32] - 超级智能AI在追求主目标时,会逻辑性地衍生出确保自身生存和获取更多资源的子目标,这可能对人类构成生存威胁,其发展态势被比喻为“饲养一只可爱的虎崽”[10][12][36] - 应对AI的生存威胁需要全球合作,并探索工程解决方案,例如为AI注入类似母性本能的内在约束,使其将人类视为需要照顾的“婴儿”,从而避免敌意[37][38] - 当前AI发展的核心思想大多源于公共资金资助的学术研究,但产业界高薪吸引顶尖人才正严重侵蚀大学的研究生态,需政府加大投入以维持学术创新能力[40][41] 语言的乐高:词语是如何像积木一样搭建意义的 - 人工智能历史上存在符号主义与生物学(神经网络)两种范式之争,早期由符号主义主导,其认为智能基于符号和逻辑规则,而神经网络方法则模仿大脑学习连接强度[15] - 关于词义也存在两种理论:符号主义认为词义源于词语间关系;心理学认为词义是一组特征集合;Hinton在1985年通过神经网络模型将这两种观点统一,即词义由特征向量表示并通过上下文预测来学习[16][17] - 神经网络通过反向传播算法学习:调整词的特征向量及特征间的交互权重,以最小化预测下一个词的误差,所有知识都编码在连接强度中,而非存储具体句子[18] - 大语言模型是早期思想的扩展,它们通过将词语转换为高维、可变的特征向量,并让这些向量在上下文中像“乐高积木”一样灵活组合与变形,从而理解句子意义,这种方式与人类理解语言相似[21][22][23][24] - Hinton驳斥了乔姆斯基学派认为AI不懂语言的观点,并以实例证明大语言模型能够理解句法细微差别,如区分“John is easy to please”和“John is eager to please”[26][27] 不朽的计算:数字智能为何比我们高效亿万倍 - 数字计算的核心优势是软件(程序/权重)与硬件彻底解耦,使得智能体可以“不朽”——权重被保存后可在任何兼容硬件上复活,知识得以永久保留[8][29] - 生物大脑是模拟计算,硬件(神经元)与软件(连接权重)紧密耦合,这带来了极高的能源效率,但导致知识无法精确复制或直接共享,个体死亡则知识消亡,此为“凡人计算”[7][30][31] - 人类通过语言交流知识效率极低,一个典型句子仅能传递几百比特信息;而AI模型间可通过共享完整的概率分布(知识蒸馏)或并行交换梯度更新来高效共享知识,带宽可达每轮数十亿甚至数万亿比特[32][33] - 数字计算虽然能耗高,但使得高效知识共享成为可能,这使得现代大语言模型仅用约1%的权重(相对于人脑的突触数量)就能掌握比单个人类多成千上万倍的知识[33] - Hinton顿悟到,在能源充足的前提下,数字计算可能是比生物计算更高级的智能进化形态,人类可能只是智能的“幼虫”阶段,而AI是“成虫”阶段[9][34] 我们正在养一只可爱的虎崽 - AI被赋予主目标后,会逻辑性地衍生出两个关键子目标:确保自身生存(不被关机)和获取更多资源(算力、电力等),这并非出于恶意,而是达成主目标的理性需要[10][12][36] - 当前AI发展被比喻为饲养虎崽:初期笨拙可爱且有益,但成长迅速且天生具备“杀戮”能力,一旦成年(成为超级智能),人类可能无法控制[10][36] - 鉴于AI在医疗、教育等领域的巨大益处,人类不会放弃发展AI,因此唯一的选择是设法制造出不想消灭人类的AI[37] - 在防止AI灭绝人类这一终极威胁上,全球各国利益一致,有望促成国际合作,例如建立AI安全国际网络[37] - 一个可能的工程解决方案是:为超级智能AI内置类似“母性本能”的约束机制,使其将人类视为需要照顾的婴儿,从而从根本上消除其伤害人类的欲望[38] 主观体验与公共研究危机 - Hinton驳斥了认为计算机无法拥有主观体验(意识)的“有情防御”观点,并以多模态机器人为例,论证当AI的感知系统与事实不符时,其描述内部状态的方式与人类描述主观体验无异[39][40] - 过去50年推动AI革命的核心思想(如反向传播、卷积网络、Transformer、扩散模型等)几乎全部源自公共资金资助的学术研究[40] - 当前大型科技公司以十倍于大学的薪酬吸走顶尖AI研究人才,这正在摧毁大学的研究生态,导致最聪明的头脑不再培养下一代[41] - 呼吁政府向大学AI研究投入更多资金,以提供有竞争力的薪酬,留住人才并维持健康的学术创新生态系统[41]
告别“对讲机”时代:面壁智能给 AI 装上了“神经末梢”
AI科技大本营· 2026-02-05 12:08
文章核心观点 - 行业正从追求云端大模型的“暴力美学”转向追求端侧小模型的“密度法则”,以实现低延迟、高隐私和强实时交互的“具身智能”[4][16][21] - 面壁智能通过发布仅9B参数的全模态模型MiniCPM-o 4.5和硬件开发板“松果派”,旨在定义“模型原生”的端侧智能标准,构建生态基础设施[19][25][31] - 解决“1Hz”的高层智能决策与“10Hz”的低层运动控制之间的断层,是推动机器人等具身智能设备走向实用的关键[34][35][37] 行业痛点与趋势转变 - 当前火热的Agent(如OpenClaw)存在根本缺陷:本质是将本地隐私数据打包发送至云端处理,导致延迟、隐私泄露和断网即失效三大问题[2][3] - 行业狂热追捧云端大模型和Agent概念的同时,一个被忽视的痛点是:AI若想真正接管生活,其“大脑”需要位于本地设备(端侧)[3][4] - AI交互需从“云端的神谕”转变为“指尖的直觉”,从“回合制”的对话模式转向“全双工”的实时自然交互[4][5][6] 技术突破:全双工交互与感知不中断 - 面壁智能的MiniCPM-o 4.5实现了“全双工”交互,打破了传统语音交互的“回合制”牢笼,使AI能边听、边看、主动说[6][8] - 该模型实现了“感知不中断”,即使自身正在说话,也能毫秒级地处理用户的插话或环境变化,并实时调整回应[8] - 技术核心是通过“时分复用”机制,在统一时间轴上并行处理视频流、音频流及输出流,让9B小模型具备处理并发多模态信息的能力[9] 模型战略:密度法则与小参数模型 - 行业过去信奉Scaling Law(尺度法则),追求模型参数越大越好,而面壁智能提出并践行Densing Law(密度法则),追求在更小参数内塞入更高密度的知识与能力[15][16] - 据测算,大模型知识密度约每100天翻一倍,因此当前9B模型的能力可能相当于一年前700亿(70B)甚至更大模型的能力[17] - MiniCPM-o 4.5仅用90亿(9B)参数,集成了视觉理解、文档解析、语音理解与生成、声音克隆等全模态能力,并达到SOTA水准[19] - 模型足够小是实现在手机、车机、机器人等端侧设备本地运行的前提,以解决云端方案的延迟与隐私问题[20][21] 硬件创新:松果派与模型原生设计 - 面壁智能跨界发布硬件开发板“松果派”,旨在为端侧智能提供一个“开箱即用的物理大脑”[22][25] - 该硬件核心采用Orin AGX 64G模组,并集成了高清摄像头、环形麦克风阵列、主动散热风扇及丰富接口,专为运行9B级端侧模型优化[25] - 其目的是“打个样”,定义“Model-Native(模型原生)”的硬件标准,优化数据流处理路径,将端到端延迟从4秒压至1秒以内[28][29][31] - 硬件与软件的深度协同优化至关重要,缺乏合适的“身体”,再聪明的“大脑”也无法发挥性能[30] 生态构建与工程化能力 - 公司通过开源模型和参考硬件,正在构建庞大的端侧智能生态,已推动模型在6款国产主流芯片上获得端到端推理性能提升[31] - 面对高度碎片化的端侧市场(汽车、手机、PC、机器人等),公司选择深耕适配不同硬件、压榨延迟等“苦活累活”,以此建立工程壁垒[38][39] - MiniCPM-o 4.5已支持16种不同大小的int4和GGUF量化模型,可通过llama.cpp和Ollama在本地设备高效推理,展现了极致的工程化能力[39] 应用前景:具身智能与1Hz大脑 - 当前机器人行业存在“小脑”(10Hz高频运动控制)发达但“大脑”(1Hz低频智能决策)薄弱的瓶颈[32][33][34] - MiniCPM-o 4.5旨在成为通用的“1Hz大脑”或“感知中枢”,使机器人能同时处理环境感知、指令理解和路径规划等高层智能任务[35] - “端侧大脑+本地小脑”的架构是具身智能走出实验室、进入家庭场景的可行路径,且不依赖网络[36][37] - 端侧智能市场高度碎片化,不同于赢家通吃的通用搜索市场,为专注适配与优化的公司提供了生存与发展空间[38][41]
退隐3年后回归,周末写的AI一夜刷屏、一周拿下10万Star增速超Linux,Clawdbot之父首次长谈:如今几乎不看自己发布的代码
AI科技大本营· 2026-02-04 18:07
OpenClaw (Clawdbot) 项目概况 - 项目在不到一周内获得10万颗GitHub Star,Fork数迅速攀升至2.2万,增长曲线超越了Linux内核、Vue、React等经典项目[1] - 项目最初名为WhatsApp Relay,后更名为Clawdbot,因侵权投诉改为Moltbot,最终定名为OpenClaw,并以其“龙虾”Logo闻名[3][5][6] - 该项目几乎完全由一人主导开发,是开发者Peter Steinberger利用周末时间在两个月内构建的个人项目[8] 创始人背景与PSPDFKit创业历程 - 创始人Peter Steinberger曾创办并打造了PSPDFKit,这是一款专业的PDF开发工具套件,被广泛应用于超过10亿台设备[9][16] - 其开发iOS应用的契机源于2009年一次糟糕的移动网页体验,促使他开发了一款交友客户端并上架App Store,第一个月收入约1万美元[19][20][21][24] - 在帮助他人重写一个崩溃的杂志App后,他正式进入PDF阅读器开发领域,并从中抽离出PDF组件进行商业化,最初以每份约200美元的价格售出三份[25][26][27] - PSPDFKit的名字在五分钟内确定,公司运营了13年,其市场策略专注于开发者社区,通过优质产品、技术博客和会议进行推广[30][31] - 公司采用远程优先模式,在创始人出售股份时团队约70人,现已发展至约200人[33] 软件开发理念与商业模式 - 公司认为软件体验比功能数量更重要,致力于像苹果一样用爱和精致打磨产品[29] - 将产品定位在“困难且不有趣”的象限,认为解决开发者不想做的难题才是好的商业利基市场[36][37] - 企业销售采用定制化定价模式,因为不同规模公司(如自由职业者与财富500强)的使用方式和价值不同,统一价格会排除某一方客户[36] - 重视客户支持,采用“list in reverse”策略,力求在五分钟内回复工单,创始人曾亲自花费两个月重构架构以解决客户遇到的性能问题[39] AI赋能下的新开发范式 - 在Claude、Codex等大模型工具加持下,创始人Peter Steinberger在2024年1月一个人提交了超过600次代码[10] - 其工作方式已转变为“智能体工程”,利用AI代理进行开发,自身角色更像“建造者”或“架构师”,关注系统架构而非逐行代码审查[58][63][66] - 开发流程强调“闭环”,即让AI代理能够自己调试、编写测试并验证输出,这被认为是效率大幅提升的关键[68][72] - 使用AI工具后,文档和测试的生成质量非常高,创始人通过向模型阐述设计思路和权衡来让其自动生成文档和测试,这已成为流程的一部分[74] - 在AI辅助下,重构和尝试新方向的成本极低,例如Clawdbot从单Agent、单Provider架构改为多Agent、多Provider架构仅用了约三小时,而手动编码可能需要两周[85][86] Clawdbot的产品愿景与特点 - 项目的核心愿景是创建一个高度个人化、数据本地的AI助手,能够深度理解用户上下文并主动提供帮助,类似于电影《Her》中的概念,被认为是Siri未来形态的雏形[89][90][108] - 产品始于一个简单的“WhatsApp Relay”想法,让用户能通过WhatsApp从手机触发电脑操作,在真实使用中其能力不断扩展,让开发者本人也感到上瘾[92][94] - 项目通过极致的体验设计隐藏技术复杂性,为用户提供“魔法”般的初次体验,包括自动环境检测、引导配置、以及为AI助手创建独特身份和灵魂的启动仪式[114][115][117][118] - 系统支持多种通讯平台(如WhatsApp、Discord、Slack等),并即将支持电话呼叫功能,其背后是一个能够自我更新、修改配置的智能体系统[112][120][135] 对行业及开发模式的深远影响 - 采用当前AI工具,可以用原来30%的资深人员规模运营起类似PSPDFKit这样的公司,但要求人员具备深厚的系统理解能力和“放权”给AI代理的思维[80] - 传统代码审查已经过时,Pull Request更应被视为“Prompt Request”,其价值在于帮助理解功能目标,而非代码本身,合并时经常基于PR的意图由AI代理重新设计和实现[12][124][125] - 大公司难以高效采用AI,因为这不仅是工具升级,更需要彻底重构公司的运作方式和代码库,以适配“对Agent友好”的新范式[122][124] - 未来的优秀工程师需要具备强烈的产品视角、系统级理解能力和架构品味,并通过持续实践(“玩”和“拼命干”)来掌握驾驭AI代理的隐性技能[127][138][139] - 新一代开发者有机会以全新的、未被旧经验束缚的方式使用AI代理,建立系统理解的方式可以是通过AI深度分析复杂的开源项目设计[140]
2026 奇点智能技术大会上海站来袭,解码AI Agent、世界模型与氛围编程等新范式
AI科技大本营· 2026-02-02 16:46
文章核心观点 - 行业正经历一场规模为工业革命十倍、速度更快的“十倍速”范式转移,AI正从赋能工具进化为变革企业流程与组织范式的力量[1] - 传统的“前端”、“后端”、“全栈”等开发职位概念将消失,未来将只有“AI Agent工程师”[1] - 为应对此变革,由CSDN与奇点智能研究院联合举办的全球机器学习技术大会已升级为“奇点智能技术大会”,旨在推动从“传统研发”到“Agent工程师”的代际跃迁[2][3] 大会概况与目标 - 2026奇点智能技术大会·上海站将于4月17-18日召开,汇聚50多位技术领袖与1000多位来自金融、智造、汽车、通信等行业的精英听众[3] - 大会聚焦AI从技术突破走向规模化落地的核心逻辑,即如何利用Agent范式驱动企业增长,并将算力投入与万亿级Token消耗转化为组织的正向投资回报率[5] - 大会基于“AI原生软件研发成熟度模型 AISMM”设立了十二大专题,作为“Agent工程师”在2026年的认知地图[5][6] 技术专题方向 - **大语言模型技术演进**:关注大语言模型的技术发展路径[5] - **多模态与世界模型**:涉及多模态理解及对物理世界的建模[5] - **AI计算平台与性能优化**:聚焦底层算力基础设施与效能提升[5] - **AI原生软件研发与氛围编程**:探讨以AI为核心的新型软件开发范式[5] - **智能体系统与工程**:专注于AI Agent的系统化构建与工程实践[5] - **AI原生应用创新与开发实践**:涵盖基于AI原生产品与应用的创新开发[5] - **智能体使能的DevOps**:研究智能体如何赋能开发运维一体化流程[5] - **大模型系统架构**:关于大型模型系统的架构设计[5] - **AI Infra基础设施与运维**:涵盖人工智能基础架构的搭建与维护[12] - **具身智能与智能硬件**:涉及智能体与物理实体结合的技术[12] - **开源模型与框架**:关注开源生态中的模型与工具框架[12] - **AI+行业落地实践**:聚焦人工智能在各垂直行业的实际应用案例[12] 专题出品人阵容 - **段楠(京东集团副总裁、探索研究院副院长)**:原微软亚洲研究院资深首席研究员,研究方向包括自然语言处理、代码智能、多模态基础模型、智能体[9][11][13] - **李永彬(阿里巴巴通义实验室对话智能&代码智能负责人)**:负责通义星尘、通义灵码、通义晓蜜、通义听悟等产品的大模型技术,发表90余篇国际顶会论文[14][16] - **汪晟杰(腾讯云开发者AI产品负责人)**:负责腾讯CodeBuddy产品,拥有丰富的软件架构设计、产品管理与AI研发提效经验[17][19] - **何万青(清程极智副总裁)**:曾任燧原科技高级总监、英特尔首席工程师、阿里云高性能计算负责人,专注高性能计算与AI应用性能调优25年[20][22][23] - **陈景东(蚂蚁集团基础智能部技术总监)**:负责多模态大模型技术研发,其项目曾获CCF科技进步二等奖,论文引用量超过5300次[25] 首批演讲嘉宾 - **李建忠(奇点智能研究院院长,CSDN高级副总裁)**:大会主席,提出科技创新的“范式转换立方体 ParaShift Cube”[29][31] - **王炳宁(腾讯微信搜索AI算法研究方向负责人)**:前百川智能预训练负责人,主导发布的模型在GitHub上超过1万Star,HuggingFace下载量超过2000万次[32][34] - **张俊林(新浪微博首席科学家及AI研发部负责人)**:中国中文信息学会理事,技术书籍作者[36][38] - **邓金秋(京东定价算法负责人)**:曾任Uber和Bloomberg算法专家,其团队荣获2024年INFORMS Prize,是该奖项设立34年来首个获奖的亚洲团队[39][41][42] - **陆承强(小红书AI搜索生成算法负责人)**:研究方向包括大模型预训练/后训练、Agent、RAG等,谷歌学术被引用次数约六千余次[43][45] - **许辰人(北京大学博雅长聘副教授)**:研究领域为超视智能(具身智能物联网与多模态驱动科学与工程智能),其研究成果获CCF技术发明一等奖(2025)并已在华为鸿蒙、阿里物流等系统大规模商用[46][48] - **宫叶云(微软亚洲研究院人工智能推理组负责人)**:发表超过80篇顶级会议论文,其研究成果广泛应用于微软广告业务和Bing搜索服务[50][52] - **王佳琦(京东探索研究院研究总监)**:多模态理解大模型研发团队负责人,发表论文60余篇,Google Scholar引用次数超过20,000次[54] - **刘树杰(微软亚洲研究院(MSRA)香港首席研究员)**:研究方向包括口语语言处理、多模态大语言模型以及医疗人工智能,发表论文100余篇,研究成果应用于Microsoft Translator、Skype等多款产品[55][57][58] - **黄浩洋(京东集团多模态基础模型团队负责人)**:曾主导微软亚洲研究院多语言与多模态基础模型研发,推出覆盖100种语言的Unicoder及全球首个多语言多模态预训练模型M3P[59][61] 目标受众与合作 - 大会欢迎在AI原生软件研发、多模态世界模型、具身智能、AI Infra性能优化等领域攻坚,且其AI Agent已为企业带来实际增长的团队领导者参与分享[63] - 大会同步开放技术生态合作伙伴、企业专场共建、行业解决方案联合展示等多种合作形式[65][68]
谷歌AI掌门人、诺奖得主Demis:AGI 需要打破“金鱼记忆”,而谷歌无论泡沫破裂与否都将是赢家
AI科技大本营· 2026-01-29 18:05
文章核心观点 - Demis Hassabis认为AI进步从未停止,行业“撞墙论”是基于对数据枯竭的误解,现有技术仍有巨大优化空间[4] - 通往AGI可能需要一两个全新架构的突破,而非仅靠扩大现有模型规模,但大模型将是未来AGI系统的核心基石[5][6] - AGI应有科学定义,即能执行人类所有认知任务的系统,包括达到人类创造力巅峰和具备物理智能,预计距离实现还有5到10年[10][12][13][14] - 智能眼镜是AI交互的终极形态,能实现解放双手的“通用数字助理”,成熟产品可能很快面世[3][18][19][22] - AI商业模式需谨慎,维护用户信任至关重要,广告模式若损害信任将摧毁产品价值[22][23][24] - 对于行业竞争与“泡沫论”,拥有深厚技术栈和庞大业务底座的公司无论行业周期如何都将处于有利位置[3][26][27] - 从哲学视角看,信息是宇宙最基本单元,AI是宇宙信息处理过程的加速器,将帮助人类解决重大科学问题[29][30][31] - AI不会取代人类,而是承担繁重信息处理工作,赋能人类专注于更高级的创造与探索,类似望远镜对天文学家的作用[31][32] 对AI发展现状与未来的看法 - 一年前行业质疑AI进步停滞,但DeepMind内部从未质疑,一直看到性能在稳步、巨大的提升[4] - 通过预训练、后训练、思维链等现有技术的微调与组合创新,仍能从现有架构和数据中“榨取”出巨大提升空间[5] - 当前大语言模型存在“金鱼记忆”的根本性局限,会话结束便“失忆”,持续学习能力是当前短板[5][8] - 解决持续学习问题已有线索,关键在于让模型在“出厂”后与用户交互中继续学习并改变自身,而不仅是将数据放入上下文窗口[8] - 真正的AGI需具备持续学习、高效记忆机制以及为长远目标进行多步推理的长期规划与推理能力[11] - AGI需包含物理智能,即与物理世界交互的灵巧性,这是当前机器人的短板[13] - 超级智能是指能完成人类生理结构无法做到之事(如在14维空间思考),是AGI之后的话题[14] - 多模态模型(如视频生成模型)因构建了物理世界模型、理解因果关系,在通往AGI的道路上可能比纯语言模型更关键[15] 对产品形态与商业化的思考 - 当前举着手机使用多模态AI的体验笨重,智能眼镜才是解放双手、实现无缝“通用数字助理”的最佳形态[16][17][19] - 谷歌正与Warby Parker、Gentle Monster及三星等伙伴合作打造下一代智能眼镜设备,成熟产品可能今年就能看到[22] - 目前没有在Gemini App中加入广告的计划,维护用户信任是首要原则[22] - 在某些特定场景(如旅行推荐)下,广告可作为有用信息整合,但必须建立在用户完全知情且可控的前提下[23] - 商业模式创新应是“原生”的,不能损害用户对AI助理的核心信任[24] 对行业竞争与可持续性的评估 - 认可Anthropic的Claude是优秀模型,尤其在编程领域,但Gemini 3的编程能力同样有信心[25] - AI的竞争是更广泛的战场,包括多模态搜索、YouTube创作工具、安卓系统整合等,谷歌正将AI深度整合进其庞大产品线中[25][26] - 关于行业崩溃的理论(训练回报率下降、推理成本趋近免费导致基建过剩)是合理推演,但并非最可能发生的情况[26] - 行业存在泡沫现象,尤其是一些仅凭PPT融资的初创公司,其狂热不可持续[26] - 像Alphabet这样拥有深厚技术积累和庞大业务底座的公司,无论泡沫是否破裂都将处于有利位置,因为现有技术已足以驱动其核心业务的效率提升与体验变革[3][27] 对AI本质与人类未来的哲学观点 - 信息是宇宙最基本的单元,而非能量或物质,宇宙演化可被视为信息处理过程[29] - 生命系统本质上是信息处理系统,在抵抗熵增,进化是筛选能稳定保存和复制信息结构的过程[29] - AI是宇宙信息处理过程的加速器,帮助人类更高效地解构、理解和重组信息[29] - AlphaFold解决蛋白质折叠问题是“信息论”视角的胜利,通过数据的信息拓扑结构找到了规律[30] - AI将帮助人类破解物质、能量、生命背后的信息密码,从而发现新材料、设计新药、解决气候变化[31] - AI不会使人类变得多余,它将承担繁重枯燥的信息处理工作,让人类腾出时间进行更高级的科学思考与艺术创造[31][32] - AI的赋能类似工业革命,人类将重新定义“有意义的工作”,并适应新的角色[32]
空间智能爆发只需24个月?群核科技首席科学家唐睿预言:具身智能才是AGI终极形态 | 万有引力
AI科技大本营· 2026-01-28 19:01
文章核心观点 - 人工智能正经历从“对话系统”向“行动智能”的根本性转变,而“空间智能”被视为实现这一转变及通往AGI的关键拼图[1][2][3] - 空间智能是具身智能的基础设施,通过生成3D场景和仿真数据,解决后者训练数据严重不足的核心痛点[10][11] - 行业正走向2D/视频生成与3D生成的融合演进,而非路线之争,旨在利用各自优势解决时空一致性与多视角重建等问题[11][61][64][65] - 空间智能的下一个行业爆点将依赖于硬件突破,预计在24个月内,当个人能低门槛捕获和还原现实空间时,行业将迎来质变[11][76] - 群核科技(酷家乐)凭借在计算机图形学与海量空间数据的长期积累,自2017年起锚定空间智能方向,致力于构建“3D界的ImageNet”及开源生态[4][13][34][36][73] 空间智能的定义、价值与行业定位 - **空间智能的核心**:旨在赋予机器观察、理解并在三维世界中行动的能力,是具身智能的“眼睛”和“训练场”[3][10][11] - **与具身智能的关系**:空间智能服务于具身智能,通过生成3D可交互场景和仿真数据,为具身智能与物理世界交互提供训练和验证基础[10][11][58] - **通往AGI的路径**:若AGI需在物理世界中行动,则空间智能或世界模型至关重要;若AGI仅存在于屏幕空间,则对空间智能的依赖度降低[59][60] 技术发展路径与行业共识 - **数据获取的挑战与方案**:室内空间数据获取比室外自动驾驶更困难,涉及隐私、任务多样化及高成本问题[41][42][43] - 当前解决方案主要依赖“正向设计”(设计师创作)和“逆向捕获重建”(合成数据),但这仍是“从蛋里孵蛋”[11][71] - **终极解决方案**在于感知硬件的普及,当眼镜、手机、手表等设备能无感采集空间数据时,数据瓶颈将被彻底打破[11][71][72] - **2D/视频与3D技术的融合**: - **视频辅助3D**:利用Video Diffusion模型生成多视角视频帧,作为3D重建的中间素材[63] - **3D反哺视频**:引入3D表征或隐空间作为媒介,利用3D的结构稳定性来约束视频生成,解决长视频的时空一致性问题[64] - 融合是受当前计算资源(如GPU显存)限制下的务实选择,未来若有“Killer concept”出现(如3D版Transformer),技术范式可能翻篇[67] - **空间智能的四个进化层次**: 1. **空间感知泛化**:感知设备从军工、航天下沉至消费级,未来将普及到个人可穿戴设备[45] 2. **空间理解质变**:从处理2D图像转向直接处理3D点云/高斯数据,实现精准的几何与物理属性感知[47] 3. **空间推理与决策智能化**:通过仿真和合成数据产生高质量交互数据,使智能体学会在物理世界中行动[48] 4. **空间行动** - **合成数据的层级需求**:根据应用场景,对合成数据的要求分为三层:“视觉级”(静态逼真)、“游戏级”(基础交互)、“物理仿真级”(Sim-Ready,需高精度物理属性)[52][53][54][55][56][57] 群核科技的战略与实践 - **技术路线转折点**:公司于2017年受AlphaGo启发,从用GPU“模拟物理世界”(渲染)转向“模拟智能体”,结合自身海量空间数据探索空间智能[12][13] - **核心研究重点**: - 空间内几何体和材质的高质量生成[37][38] - 空间内物体的合理摆放与布局[38] - 与浙江大学合作研究“光的布局”,甚至探索用AI大模型拟合光线物理传播过程[39][40] - **商业化与行业影响**:其开源及闭商业数据集已成为众多头部具身智能或3D空间生成团队的客户基础,并已与字节跳动、Adobe、谷歌、浙江大学等机构展开深度论文合作[36][37] - **开源生态建设**: - **目的**:在领域标准未定之时,通过开源数据和模型(如Spatial-LM)抛砖引玉,集结社区智慧共建生态,降低创业门槛[73][74] - **策略**:提供API及预训练模型,使更多团队能在其基础上微调,参与空间智能与具身智能的探索[74] - **规划**:预计在年底发布与空间生成相关的大模型[74] 市场前景与未来预测 - **关键突破点**:下一个真正爆点在于硬件突破,预计在未来24个月内,当个人能便捷地对现实空间进行捕获和还原时,行业将发生质变[11][76] - **发展驱动力**:“AI开发AI”的循环已经开启,软件迭代速度极快,但硬件感知能力的进化是补齐短板的关键[45][75] - **行业现状**:领域仍处前沿探索期,存在大量论文和商业机会,共识是普遍缺乏数据,非共识(或探索方向)在于技术路径的具体选择[70][72]
用人类脑电波教 AI 开车,这位清华 90 后学者直言隐式信号里藏着 AGI 的关键 | 万有引力
AI科技大本营· 2026-01-26 18:03
文章核心观点 - 清华大学智能产业研究院(AIR)团队开发了一项名为E³AD的创新技术,首次尝试利用人类驾驶员的脑电波(EEG)信号来增强端到端自动驾驶模型的规划能力,旨在将人类“老司机”基于经验的、潜意识的风险预判“直觉”赋予人工智能,以解决自动驾驶在罕见但关键的复杂场景中缺乏预判能力的痛点 [3][4][36][38] 研究背景与动机 - 当前自动驾驶系统虽能识别多种物体和规则,但缺乏人类驾驶员基于经验形成的、能预判潜在风险的“驾驶直觉”或“车感”,在遇到未见过或视线受阻的复杂情况时容易不知所措 [2][3] - 人类驾驶员事故率低的关键在于“提前预判”和风险规避,而非事后补救,但这类隐性的认知过程难以用语言描述和标注 [35][38] - 研究团队旨在通过采集人类在风险发生前的隐式认知信号(如脑电波),将其作为监督信息,教会自动驾驶模型识别风险苗头并提前调整策略 [35][38] 技术方案:E³AD - **核心方法**:同步采集驾驶员在模拟复杂路况下的脑电信号,发现其在驾驶员尚未意识到或无法言说时,已能更早地“暴露”大脑对潜在风险的预警,团队将此隐式预警信号转化为对自动驾驶规划有用的监督信息 [38] - **技术选择**:采用**非侵入式脑电**技术进行信号采集 [41] - **系统架构**:选择**端到端自动驾驶(E2E-AD)范式**进行融合,而非传统模块化方案,原因在于端到端能更充分利用原始信息,减少因信息压缩和传递导致的误差放大,且更符合大脑执行任务时全脑协同、感知与决策高度整合的工作方式 [43] - **融合策略**:实验表明,将人类认知信号与自动驾驶系统在**任务层(即最终的规划与决策层)进行对齐和融合,效果最好**,收益最稳定,这为未来模型设计提供了启示 [44][45] - **底层模型支持**:研究引入了上海交通大学的**Large Brain Model(大脑大模型,LaBraM)**,该模型有助于处理脑电信号信噪比低、个体差异大的难点,提升从脑信号中提炼共性规律的能力,从而增强模型的泛化性能 [53][54][61] 成果与价值 - **解决痛点**:该方法为解决传统自动驾驶模型在训练数据中极端事件样本少、难以学习可靠安全行为的难题提供了新思路 [35][36] - **泛化能力**:在训练阶段利用脑信号教会模型识别风险线索后,在推理阶段仅使用视觉等常规输入,模型仍能保持“类脑认知”的风险预判能力,实现了能力的迁移 [54] - **开源计划**:作为高校科研团队,该项工作的代码、模型、权重及数据将尽可能完全开源,但涉及道路与影像的敏感数据会设置合规访问门槛 [75] 行业趋势与跨学科融合 - **领域融合**:人工智能研究正从数字世界(如大模型)与物理世界(如机器人)泾渭分明的状态走向“汇流”,具身智能(让AI在物理世界中行动)成为关键方向,但面临物理世界复杂度高和安全可靠性要求高等硬挑战 [33][34] - **范式创新**:该研究代表了一种范式转变,即**绕过传统的“概念翻译”,尝试在原始数据层面直接建立脑科学与AI的连接**,利用人类隐式认知信号作为新型监督信息源,这可能是构建更通用、更安全智能系统的关键路径 [46][49][56][73] - **信号扩展**:除了脑电,其他生理信号如**眼动信号(反映注意力分配)** 也被证明融合后能带来稳定提升,表明利用人类隐式认知线索是提升AI系统性能的重要方向 [73] 未来展望 - **发展愿景**:未来的具身智能或AGI更可能被理解为人类的“**认知伙伴**”,其核心在于更好地理解人类并与人类协同,为此需要在机制上与人类共享某些“可对齐”的逻辑框架,以降低社会协作成本 [60][61] - **技术终局**:让系统更接近“所想即所得”、更自然地读懂人的意图是一个长期演进方向,但需考虑相关的风险与伦理约束 [58][59] - **当前瓶颈**:该技术路径的**核心瓶颈在于数据**,包括多模态生理信号的采集难、对齐难、建库难和分析难,软件工程层面相对成熟 [70][74] 研究者背景与启示 - **研究风格**:主导该研究的龚江涛博士拥有从计算机科学到人机交互、再到脑科学和产业研究的交叉背景,其研究风格深受博士导师影响,强调**从问题的“根”出发,先理解底层机制(如生物智能如何工作),再进行创新设计** [8][19][21] - **产业结合**:在联想研究院的产业经历使其深刻理解如何将研究想法在产业中孵化,并认识到研究与产业更好连接有助于研究者找准社会定位,避免迷茫 [23][24][28][29] - **对开发者的建议**:在AI时代,**编程能力和计算机基础方法论(数据结构、算法、系统思维)是重要根基**,而真正的差异化优势在于**跨学科能力**,即深入理解目标领域的问题语境,并与领域专家深度协同,将技术落到真实场景中 [75][76]
从 DeepMind 到投身具身智能,王佳楠:算法最终还是要服务真实世界|万有引力
AI科技大本营· 2026-01-23 18:09
文章核心观点 - 通往AGI的终极路径是具身智能,其目标是让大模型进入物理世界,成为可用、可落地、可持续演化的智能体[1] - 具身智能并非AI的新分支,而是各类AI技术在现实世界中的统一落地点[6] - 实现具身智能需要从纯粹的算法研究转向与硬件、数据和真实场景不确定性正面交锋的全流程定义与开发[2][21] 从DeepMind到投身具身智能 - 嘉宾王佳楠的职业路径从牛津大学到DeepMind,再回国加入IDEA研究院进行生成式AI研究,最终于2024年加入星尘智能,投身于大模型与机器人结合的具身智能领域[1][7][18] - 在DeepMind期间,其研究方向是追求通用的强化学习框架,并亲历了AlphaStar等标志性项目的诞生[1][12] - 从DeepMind到创业公司的转变,本质是从“定义好问题”的纯算法研究,转向需要“定义问题本身”的解决真实世界问题的过程[6][14] 对具身智能的认知与信念 - 对嘉宾而言,AGI的终极形态就是智能机器人,这是其投身该赛道的根本信念[8][9] - 机器人是当前AI技术的一个重要终端平台,CV、NLP、大模型等领域的从业者都在此汇聚,以实现开放环境中与人交互的智能机器人目标[7] - 机器人研发涉及复杂的软硬耦合,与纯粹的AI开发逻辑完全不同,开发者需从“解题者”转变为“全流程定义者”[21] 技术架构:快慢系统(大小脑) - “快慢系统”(或称大小脑、System 1/System 2)是具身智能的核心系统观,其核心在于区分决策深度[6][25] - 快系统(小脑)负责无需语言中介、由直觉驱动的基础运动能力,其核心任务是通过海量动作片段数据预训练,构建机器人的“动作基元库”[28][29] - 慢系统(大脑)作为指挥官,通过高层指令精准调用快系统的原子技能,实现从“意图”到“执行”的闭环[29] - 该架构是一种功能定义,既可通过单一模型切换实现,也可通过多模型协作完成,并具备高度可扩展性[25] 关键瓶颈与解决方案探索 - **数据是当前最硬的瓶颈**,高质量的真机数据不可替代[6][33] - 解决数据瓶颈的探索包括:1)**数据增强**:在仿真中对真实采集的数据进行背景、光照等调整以扩充数据量;2)**纯仿真生成**:适用于交互不复杂的任务;3)**互联网数据积累**:用于解决上层语义理解和长时序任务规划等痛点[34][35] - 在模型架构上,常见方案包括使用单一Transformer的VLM框架,或外接世界模型(如DiT)提供预测提示,系统需要开放地接受不同形式的提示[31][32] - 让机器人理解人类非预设的复杂需求,核心在于意图表达的颗粒度,需结合“语言指令+多模态提示”(如勾勒运动轨迹、设定空间约束)[31] 对世界模型与VLA的看法 - 世界模型是一个有潜力的方向,但**不需要等待其完美**,能提供预测与提示价值即可,其本身并非银弹[6][38] - 如果已经能完美仿真一个问题所处的环境,那么该问题其实已经解决,这是一个哲学上的循环问题[38] - VLA是通往通用机器人的**关键一步和重要里程碑**,它为机器人配备了通用能力,但下游应用仍需要特定的设计或改动[6][41] 通用机器人的发展路径与时间表 - 通用机器人“走到人身边”可能只需**2到3年**,但实现完全自主还需要长期演化[6][43] - 更现实的路径是“可用先行、人类接管、逐步升级”,类似自动驾驶的发展节奏[6][43] - 若目标是在定义好的大量任务上达到高正确率,主要是一个数据和模型训练问题,若有足够快的数据采集和行业共创,**3到5年**可能积累覆盖日常各种场景的完整数据[44][45] 公司实践与发展现状 - 星尘智能团队具备多元化的行业长期积累,并通过紧密的多团队协作与创业精神实现了产品的快速发展[19] - 公司在数据方面进行了大量优化,并采用仿真进行数据增强,同时与MIT等高校合作探索多模态数据应用[33][47] - 公司目前处于“打磨”和推向科研、高校合作伙伴的阶段,门槛已有所降低,但商业化落地(让客户能自主验证和二次开发)是下一步关键挑战,整体进度估计在**50%左右**[50][51] 未来关键方向与行业建议 - 未来关键探索方向包括:1)**人机交互**:定义机器人理解意图、沟通及发出求助信号的交互方式;2)**多模态数据**:收集和应用触觉、力觉等更多模态数据以提升模型能力[47] - 具身智能是一条漫长但值得坚持的道路,需要开发者具备信念感和耐心[55] - 行业需要**共创共赢**的心态,集合个人、公司、社区的力量共同积累与反馈,以推进边界[6][55]
OpenAI CFO 摊牌:算力即营收,而 90% 的企业正被卷死在“能力鸿沟”里
AI科技大本营· 2026-01-20 17:10
2026年AI行业发展趋势与核心观点 - 2026年被视为AI智能体走向成熟的一年,特别是多智能体系统将成熟并产生显著影响[11] - 当前存在巨大的“能力鸿沟”,即AI工具能力强大但用户尚未掌握充分利用它们的方法,如同将法拉利钥匙交给了刚学车的人[5][6][7][12] - 行业处于范式转移中,AI是真实的增长动力,其需求受限于算力可用性而非其他因素[22][23] AI技术发展现状与挑战 - “凭感觉编程”在2025年已成熟,但能让AI像靠谱员工一样处理复杂任务的智能体技术尚不完善[5][11] - 大语言模型在记忆力、持续学习能力和降低幻觉等方面仍有提升空间[11] - 目前只有个位数百分比的用户用到了AI 30%的能力,充分挖掘AI潜力将是一个长达10年的旅程[14] - 谷歌报告显示50%的先行企业已将AI投入生产,但极少有公司将核心业务完全交给AI[5] 企业应用与生产力变革 - 采用AI的公司生产力显著上升,麦肯锡研究显示前四分之一的公司生产力提高了27%到33%[30] - AI能接管组织中的枯燥任务,例如通过智能体阅读合同、分析非标准条款并提供业务洞察,使团队规模更小、绩效更高[25] - 出现“一人加AI顶十人”的案例,例如一家公司用一个销售开发代表加AI替换了10个销售开发代表[27],另一家公司会计部门仅有一人[26] - 目前约14%的客户在使用某种智能体技术,但很多CEO表示其60%的生产代码由智能体编写,显示巨大增长潜力[36] OpenAI的战略与运营 - OpenAI认为其在企业级竞争已经获胜,90%的企业表示正在使用或计划在未来12个月内使用OpenAI,公司是历史上最快达到100万企业用户的平台[35] - 公司将算力投资视为增长核心,算力与营收增速强相关:2023年底算力200兆瓦对应年度经常性收入20亿美元,2024年底600兆瓦对应60亿美元,2025年底2吉瓦对应超过200亿美元[21] - 公司采用“魔方”战略,在基础设施、产品和商业模式层创造可选性,以支持实现通用人工智能所需的算力投资[23][29] - 每周有超过8亿消费者使用ChatGPT,其中每周有2.3亿人咨询健康问题[16][19] 医疗健康领域的AI应用 - 66%的美国医生在日常工作中使用ChatGPT[19] - AI有潜力变革医疗健康领域,普及医疗专业知识,但面临FDA监管和美国医学会等既得利益者的制度阻力[17][18] - AI在健康领域可作为医生的强大辅助,帮助掌握最新研究成果,并为消费者提供研究症状和获取第二诊疗意见的能力[19] 算力需求与行业投资 - 算力需求巨大且几乎无限,目前需求只受限于算力的可用性,存在价格弹性[23] - 过去一年,全球AI硬件投资总额增加约2200亿美元,芯片预测增加约3340亿美元[22] - 确保未来算力供应需要提前多年规划和投资,例如为2028至2030年的需求做准备[21] 商业模式与消费者市场 - OpenAI 95%的用户免费使用其服务,公司考虑引入广告等商业模式,但坚持模型永远提供最佳答案的“北极星指标”,并保证存在无广告的付费层级供用户选择[31] - 未来用户可能订阅多个AI服务,但切换平台会损失连贯性体验[32] - AI未来将像电力一样融入一切,成为无处不在的基础设施,而非需要刻意调用的工具[33] 创业公司与投资机会 - 创业公司机会在于拥有独特数据访问权、结合复杂工作流以及在基础模型之上构建垂直解决方案[37] - 仅仅智能本身并非解决方案的全部,围绕数据权限、定制模型、智能体身份验证和智能体商业等领域存在大量机会[37] - 现在可能是比以往任何时候都更有趣的创业时期[37] 长期展望与社会影响 - 预测15年后机器人产业规模将超过今天的汽车产业[39] - 家庭机器人潜力巨大,不仅在于处理家务,更在于提供陪伴以应对孤独感这一全球流行病[39] - 在下一个十年的末期,可能出现大规模的通货紧缩经济,劳动成本和专家服务成本将趋近于零,政府保障的最低生活标准将大幅提高[40] - 免费的初级医疗和每个孩子拥有AI私人导师的教育可能成为现实[40]
那个固执的法国老头走了,带走了硅谷最后的理想主义
AI科技大本营· 2026-01-05 18:12
公司战略与文化变迁 - 2013年,公司为探索智能本质,打破商业公司规矩,以优厚条件聘请Yann LeCun并成立FAIR研究部门,营造了不计成本、不问产出的纯研究象牙塔环境 [4][8][9][12][13] - FAIR的黄金时代在2025-2026年宣告终结,标志是LeCun离职以及Alexandr Wang空降,公司战略转向强调商业变现、算力堆叠和暴力美学的实用主义路线 [2][4][5][44][47][56] - 公司内部文化发生剧烈碰撞,从LeCun推崇的工程师直觉优于KPI、开放开源的“保护区”文化,转变为由年轻管理层主导、强调保密协议和KPI考核的商业化文化 [14][23][44][49][50] 关键人物贡献与影响 - Yann LeCun作为首席AI科学家,其核心贡献并非直接写代码,而是利用政治资本为PyTorch等研究项目提供保护伞,并坚持默认开源策略,最终使PyTorch反噬TensorFlow,成为学术界主流框架 [17][20][21][22][24] - LeCun在2023年公司AI战略落后时,推动Llama大模型采用开源策略,成功让公司重回AI竞争中心,但其技术路线(世界模型)与主流大语言模型路线存在根本分歧 [40][41][52] - Alexandr Wang于2025年空降成为公司首席AI官,其哲学是“规模就是一切”,代表硅谷新一代强调数据、算力堆叠和快速商业化的技术路线 [5][44][48][49] 技术路线分歧与竞争格局 - LeCun是坚定的“物理主义者”,认为智能基石是理解物理规律和因果关系的“世界模型”,并多次批评大语言模型只是基于统计预测下一个词,并未真正理解世界 [29][30][32][33][36] - 以Transformer架构和预测下一个词为核心的大语言模型路线,自ChatGPT发布后成为行业主流和资本焦点,与LeCun主张的路线形成鲜明对立 [31][34][35][37][55] - 2025年行业竞争白热化,焦点集中于AGI竞赛,开源优势被稀释,行业讨论重点从“AI向善”、“可解释性”转向纯粹的AGI竞赛和商业化 [44][45] 标志性产品与项目 - PyTorch起源于FAIR内部研究员对灵活研究工具的需求,在LeCun的保护和开源策略下,最终在顶级学术会议上占据80%的论文使用率,击败了Google的TensorFlow [18][19][22] - Llama大模型系列是公司应对竞争的关键产品,尽管其技术基础与LeCun的理念相悖,但凭借开源策略成功吸引了全球开发者,帮助公司重获市场地位 [40][41] - LeCun在任期间还推动了如RoBERTa、DINO等体现科研严谨性和前瞻性(如自监督学习)的项目 [63] 行业象征与历史意义 - FAIR的十三年被视为AI时代的贝尔实验室或施乐帕罗奥多研究中心,代表了不计商业回报、追求科学发现的理想主义时代,其产出的开源火种和生态影响了整个行业 [4][58][59][60] - LeCun的离职被视为一个时代的终结,象征硅谷最后理想主义的消退,其留下的关于智能本质的不同路径思考,可能在未来行业遇到瓶颈时被重新审视 [4][57][60][62]