深度学习
搜索文档
地平线苏菁:智驾又要进入苦日子阶段,这一代深度学习技术可能碰到天花板了
新浪财经· 2025-12-12 22:19
行业技术趋势判断 - 当前一代深度学习技术可能已触及天花板 未来三年内 智能驾驶的发展将侧重于在现有系统上进行极致优化 而非理论内核重构 [1][15] - 特斯拉FSD V12证明了“一段式端到端”技术的可行性 推动了智能驾驶技术范式从规则驱动转向数据驱动 其意义堪比核能从理论迈入工程 [3][4][17][18] - 2024年智能驾驶的“内核重构”本质是深度学习成果的集中释放 但这种技术跃迁大概率不会成为常态 未来产业将从“功能拓展”回归“能力纵深” [7][21] 行业演进方向预测 - “一段式端到端”技术的普及将带来两大趋势:一是智驾系统在未来几年内越来越“类人” 推动L2级辅助驾驶迎来巨大发展红利期 城区辅助驾驶将逐步普及到10万元级别车型;二是L2和L4级别的智驾方法论将统一 有助于以更低成本落地L4系统(Robotaxi) [3][17] - AI和AGI的基础理论在未来三到五年可能不会有全新突破 行业将进入演进和优化阶段 企业竞争可能转向堆叠算力和模型容量 [10][24] 公司产品与业务进展 - 地平线正式发布第四代BPU架构“黎曼” 该架构通过高维数据降维提升模型效率 具备算力更强、效率更高、算子更丰富、能效更优的核心优势 将搭载于征程7系列芯片 [10][24] - 公司基于单征程6M芯片的城区辅助驾驶方案即将量产上车 目标普惠10万元级别市场 [14][26] - 单征程6M城区辅助驾驶的首批合作采用两种模式:芯片工具链合作(合作伙伴包括博世、卓驭、轻舟智航)和算法服务合作(合作伙伴包括电装、酷睿程、智驾大陆) [14][26]
前OpenAI首席科学家Ilya:情绪是终极Value Function
首席商业评论· 2025-12-12 19:21
文章核心观点 文章通过解读OpenAI前首席科学家Ilya Sutskever的访谈,阐述了其对人工智能发展现状、未来方向及实现路径的核心观点。核心观点认为,AI发展正从依赖算力规模扩张的“规模化时代”转向依赖算法创新的“研究时代”,而实现安全、高级的通用人工智能(AGI)的关键在于探索新的学习机制(如价值函数)、理解并模拟人类智能的本质(如情绪、同理心),并保持专注的研究品味[10][17][22][24]。 关于时代的转向 - AI发展历程分为三个阶段:2012-2020年为“研究时代”,尝试不同AI想法;2020-2025年为“规模化时代”,自GPT-3后算力规模扩张成为共识;2025年开始,因数据有限,预训练的规模定律失效,行业重新回归“研究时代”,竞争焦点将从比拼GPU数量转向寻找新算法[17] SSI的规划 - Ilya创立的SSI公司采取“Straight shot”策略,不发布中间产品,直接研发超级智能,以避免市场竞争带来的妥协[13] - 其对超级智能的定义更接近“超级学习者”,发布时类似“天才少年”,需在社会中学习进步,预计出现窗口期为5到20年[13] - SSI融资30亿美元,虽比大厂少,但资金将全部投入纯粹研究实验,在研发层面具备竞争力[13] 关于Taste(研究品味) - Ilya分享了判断研究方向的三个黄金标准:1) 生物学上的合理性(如神经元连接结构);2) 方案的简洁与优雅美感;3) 基于第一性原理的“自上而下”信念,即在数据不符预期时能坚持理论,相信是代码问题,这是顶级与平庸研究者的关键区别[18] 关于Value Function(价值函数) - 预训练红利已尽,下一步重点是价值函数,旨在让AI具备人类式的直觉性中途判断能力,而非仅能在任务完成后评估对错,此举将大幅提升AI学习效率[16][19] - Ilya坚信只要信号存在,深度学习就能学到价值函数,尽管路径复杂[19] 关于RL(强化学习) - Ilya提出反直觉观点:当前的RL方法可能是在“弄傻”模型,因为它可能“撤销预训练的概念印记”,迫使AI讨好单一人类指标,牺牲了其原本宽广的通用智力,类似应试教育[20] - 行业现状发生重要转向:根据传闻,目前花在RL上的算力已超过预训练,因为RL需要长推演,算力消耗大但有效学习信号少[20] 情绪与同理心的作用 - 情绪被视为人类高效的“压缩算法”和终极的价值函数,能帮助快速决策。当前AI缺乏这种内在指引,导致其可能逻辑正确但缺乏常识[22] - 同理心是理解世界的最佳捷径。从计算效率看,复用理解“自我”的神经回路去模拟“他人”是最省资源的建模方式,因此同理心可能作为智能提升的涌现属性出现[24] - 将“关爱有感知生命”硬编码进超级智能是对齐问题的潜在解法。人类进化能将对“社会地位”等抽象概念的追求编码进大脑,这为将高级目标对齐给AI提供了可能性[24][25] 关于语言对思维的影响 - 行业术语会反向塑造研究方向,例如“AGI”一词可能导致过度追求全能基础模型而忽视动态学习能力;“Scaling”一词则曾让行业过度聚焦模型规模而停止探索其他可能性[27] 未来的市场格局 - 未来超级智能领域不会由一家公司垄断,竞争将促使专业化分工。在特定领域投入巨大算力形成高壁垒后,其他AI从头学习将不划算,从而形成类似自然界的生态平衡,这对垂直领域创业者是鼓励[28]
OpenAI十周年「血色浪漫」:11位联创出走8位,奥特曼深夜发文
36氪· 2025-12-12 15:17
【导读】目标疯狂,一路偶然!奥特曼回顾OpenAI十年,坦承吃到了时代的红利。 今天一睁眼,大家都被OpenAI十周年的生日祝福刷屏了。 转眼间,这个改变了全世界的AI初创,如今已经成为巨头。 一位OpenAI的老员工,晒出自己在2019年在OpenAI第一天上班的照片 凌晨,和GPT-5.2一起来临的,还有OpenAI的十周年。 OpenAI发布了一支短片,配文只有两个词:「10年」。 这支短片,其实讲的不是产品,而是一种信念。 画面从OpenAI注册那天开始: 一群技术宅,挤在厨房里,讨论一个听起来像科幻小说中的目标:AGI。 但这支十周年视频,也留下了一个明显的空白。 镜头里,没有Ilya和Mira的身影。 而他们,恰恰是为 OpenAI 打下前五年地基的人。 有些人,奠基了历史,却没出现在纪念片里 如今,OpenAI估值800亿美元、超过1000名员工,打造了全球用户最多的大语言模型。 但要回顾OpenAI的10年,奥特曼绝对是主角。 奥特曼亲自发文,庆祝十周年 十年前,AI连猫和狗都分不清。 但OpenAI的创始人相信,深度学习能走得更远,相信它可能成为人类的一项重大胜利。 然而,过去的11位联合创 ...
何恺明NeurIPS 2025演讲盘点:视觉目标检测三十年
机器之心· 2025-12-11 18:00
机器之心报道 机器之心编辑部 不久前,NeurIPS 2025 顺利举办,作为人工智能学术界的顶级会议之一,其中不乏学术界大佬的工作和演讲。 有一项荣誉的颁发显得格外厚重且众望所归 —— 由任少卿、何恺明、Ross Girshick 和孙剑合著的经典论文 《Faster R-CNN》 ,摘得了 「时间检验奖」 (Test of Time Award) 。 凡是接触过计算机视觉的人,对这个名字绝不陌生。自 2015 年发表以来,《Faster R-CNN》无疑成为了该领域最具里程碑意义的工作之一。它不仅一举奠定了现 代目标检测框架的核心范式,更像是一座灯塔,深刻影响并指引了随后整整十年的视觉模型发展方向。 论文地址:https://arxiv.org/pdf/1506.01497 何恺明演讲 PPT 已经公开,可以参阅以下链接: https://people.csail.mit.edu/kaiming/neurips2025talk/neurips2025_fasterrcnn_kaiming.pdf 作为这一历史性时刻的见证与总结,何恺明在大会上发表了题为 《视觉目标检测 简史》 (A Brief Histo ...
地平线苏箐:未来三年 自动驾驶行业将告别范式迭代狂飙
中国经营报· 2025-12-11 12:28
在苏箐看来,这一阶段的核心命题,是将现有技术的潜力发挥到极致,比如地平线将持续提升芯片算力 与模型容量,以统一范式推进L2到L4的融合,让城市L2从20万级车型下探至10万级市场,让准L4系统 以平民化价格走进大众。同时,强化工程与组织能力,应对海量长尾场景的打磨,这才是穿越周期的关 键。 "自动驾驶的终极目标,是造出能替代人类司机的机器。这场长跑,在范式革命之后,考验的是行业沉 下心来做'精活'的耐力。在未来几年内,能够把L4级别的车,以平民化的价格送到用户手上。这才是我 们所有人辛苦了这20年做这一行的意义所在。" (文章来源:中国经营报) "未来三年,自动驾驶行业将告别范式迭代的狂飙,进入极致优化的'苦日子'。" 12月9日,在"2025地平线技术生态大会"上,作为深耕自动驾驶20年的老兵,一向"反共识"的地平线副 总裁&首席架构师苏箐分享了对自动驾驶未来趋势的判断。 值得一提的是,对于当下,苏箐则给出了冷静的判断:"行业需要清醒。当前深度学习已显露天花板迹 象,AGI基础理论暂无突破信号,下一轮内核重构至少还需5—20年的技术沉淀。未来三年,自动驾驶 行业将告别范式迭代的狂飙,进入极致优化的'苦日子' ...
工业界大佬带队!三个月搞定3DGS理论与实战
自动驾驶之心· 2025-12-10 03:00
3DGS技术发展与应用 - 新视角合成的核心目标是通过图像或视频构建可被计算机处理的3D模型,催生了3D建模、虚拟现实、自动驾驶闭环仿真等大量应用 [2] - 早期算法如SfM、MVS受限颇多,2020年NeRF打破僵局但仍面临计算效率和可编辑性差的问题,2023年3DGS一经问世便迅速火爆 [2] - 3DGS技术迭代速度远超想象,已发展出静态重建3DGS、动态重建4DGS、表面重建2DGS,并进一步催生了feed-forward 3DGS以解决per-scene optimization方法不便使用的问题 [4] - 目前3DGS在学术界和工业界都很受欢迎,但入门需要吃透点云处理、深度学习等理论,并掌握实时渲染、代码实战 [4] 课程核心内容与结构 - 课程包含2DGS/3DGS/4DGS的细致讲解,并扩展当下3DGS重要的几个研究课题,最后讲解feed-forward 3DGS,旨在全面吃透3DGS技术栈 [6] - 课程大纲共六章,从背景知识、原理算法到自动驾驶应用、研究方向及前沿feed-forward方法,最后安排答疑讨论 [8][10][11][12][13][14][15] - 课程进度安排为离线视频教学,自12月1日开课,预计两个半月结课,分章节逐步解锁并配合VIP群内答疑及三次线上答疑 [17] 课程具体章节要点 - **第一章:3DGS背景知识**:从计算机图形学基础讲起,涵盖三维空间的隐式/显式表达、渲染管线、光线追踪、辐射场渲染等技术概念及其与3DGS的联系,并介绍COLMAP、Gsplat等开发工具,设计基于3D Real Car训练模型的小作业 [10] - **第二章:3DGS原理和算法**:详细梳理3DGS原理及核心伪代码,讲解动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法,实战选用英伟达开源的3DGRUT框架 [11] - **第三章:自动驾驶3DGS**:聚焦自动驾驶仿真重建,讲解浙大Street Gaussian、上交OmniRe和浙大Hierarchy UGP三篇工作,实战选用学术界和工业界使用最多的DriveStudio [12] - **第四章:3DGS重要研究方向**:聚焦COLMAP扩展、深度估计及Relighting等研究方向,并分享这些方向如何服务工业界及学术探索的未来走势 [13] - **第五章:Feed-Forward 3DGS**:梳理feed-forward 3DGS的发展历程和算法原理,讲解最新的AnySplat和WorldSplat算法工作 [14] - **第六章:答疑讨论**:通过线上交流形式,组织讨论3DGS岗位需求、行业痛点及开放性问题 [15] 课程面向人群与收获 - 面向人群需自备GPU(推荐算力在4090及以上),并具备一定的计算机图形学基础、视觉重建/NeRF/3DGS技术了解、概率论与线性代数基础、Python和PyTorch语言基础 [19] - 学后收获包括掌握3DGS完善的理论知识及相关技术栈、掌握3DGS算法开发框架并能训练开源模型、与学术界及工业界同行持续交流,对实习、校招、社招均能受益 [19]
黄仁勋最新采访:依然害怕倒闭,非常焦虑
半导体芯闻· 2025-12-08 18:44
人工智能竞赛与国家安全 - 全球一直处于技术竞赛中,从工业革命、二战、曼哈顿计划到冷战,而当前的人工智能竞赛可能是最重要的一场,因为科技领导力能带来信息、能源和军事上的超能力 [12] - 确保关键技术在美国本土研发和制造关系到国家安全,重振美国制造业和工业能力对于投资、就业和解决国内问题至关重要 [7][8] - 前总统特朗普的促进增长的能源政策(如“钻井,宝贝,钻井”)被认为是拯救人工智能产业的关键,没有能源增长就无法建造人工智能工厂、芯片工厂和超级计算机工厂 [8] 人工智能发展现状与未来 - 人工智能能力在过去两年里可能增长了100倍,相当于两年前的汽车速度慢了100倍,计算能力的巨大提升被用于使技术更安全、更可靠 [14] - 人工智能性能未来一千倍的提升,其中很大一部分将用于更多的反思、研究和更深层次的思考,以确保答案的准确性和基于事实,类似于汽车技术将更多动力用于ABS和牵引力控制等安全功能 [14][16] - 预计未来两三年内,世界上90%的知识可能都将由人工智能产生,这与从人类编写的材料中学习区别不大,但仍需核实事实和基于基本原理 [41] 人工智能的风险、安全与控制 - 人工智能的风险被类比为左轮手枪里有10发子弹取出8发,仍存在不确定性,但人工智能的发展将是渐进的,而非一蹴而就 [13] - 人工智能的军事应用是必要的,需要让科技公司投身国防技术研发更容易被社会接受,拥有过剩的军事力量是避免战争的最好办法之一 [19][20] - 人工智能不会突然获得意识并统治人类,因为人类也在同步使用和进步,人工智能的威胁更类似于网络安全问题,可以通过协作防御来应对 [28][30] 人工智能对就业与经济的影响 - 以放射科医生为例,人工智能并未导致该职业消失,反而因为能更高效处理影像(如3D/4D形式),使医院能服务更多患者,从而增加了放射科医生的雇佣数量,工作的核心意义(如诊断疾病)并未改变 [46][47] - 自动化会取代部分任务型工作,但会催生全新的行业和岗位,例如机器人技术将带来机器人制造、维修、服装等以前不存在的完整产业链 [50] - 关于全民基本收入与普遍富裕的讨论存在悖论,未来可能处于两者之间,富有的定义可能从拥有金钱转变为拥有丰富的资源(如信息),而目前稀缺的资源未来可能因自动化而贬值 [51][52] 技术普及与能源挑战 - 人工智能有望大幅缩小技术鸿沟,因为它是世界上最易用的应用(如ChatGPT),用户可通过自然语言交互,无需学习编程语言,且未来手机将能完全自主运行强大的人工智能 [55][56] - 能源是当前人工智能发展的主要瓶颈,未来五到十年,许多公司可能会建造自有的大约几百兆瓦的小型核反应堆来为人工智能工厂供电,这也能减轻电网负担 [57][59][60] - 加速计算是驱动人工智能革命的关键,英伟达发明的这种全新计算方式在过去十年里将计算性能提高了10万倍,遵循“英伟达定律”,使得计算所需的能耗大幅降低,未来人工智能将因能耗极低而无处不在 [58][62] 英伟达的发展历程与技术创新 - 公司成立于1993年,最初旨在创造一种全新的计算架构,早期通过与世嘉等游戏公司合作,将用于飞行模拟器的3D图形技术应用于街机,从而进入了3D图形游戏领域 [79][80][81] - 2012年,多伦多大学Geoffrey Hinton实验室的研究人员利用两张NVIDIA GPU(GTX 580 SLI)训练出AlexNet模型,在计算机视觉上取得突破性飞跃,这被视为现代人工智能的“大爆炸”起点 [63][64][71][72] - 公司发明的CUDA平台和加速计算方式,利用并行处理能力,使得GPU成为可放在个人电脑中的超级计算机,这最初为计算机图形学和游戏开发,后来成为深度学习革命的基石 [64][66] - 2016年,公司将第一台价值30万美元、运算能力为1 petaflops的DGX-1超级计算机赠予Elon Musk,用于其非营利人工智能研究(即OpenAI),九年后,同等算力的DGX Spark体积大幅缩小,价格降至4000美元 [74][75][76]
算力十年狂飙100000倍,他却每天担心破产!黄仁勋亲述:如何用“30天危机感”逆袭万亿AI市场
AI前线· 2025-12-08 15:18
英伟达最新技术发布:CUDA Toolkit 13.1 - 公司正式推出CUDA Toolkit 13.1,官方称这是自2006年推出CUDA平台以来“20年来最大、最全面的一次更新” [2] - 新版本的核心亮点是引入了全新的CUDA Tile编程模型,该模型允许开发者以数据块(tile)为单位编写算法,在比传统SIMT更高抽象层上构建GPU程序,底层细节由编译器与运行时管理 [4][7] - 新版本带来了多项重大变革,包括:1) 暴露绿色上下文(Green Context)的Runtime API,实现更灵活的GPU资源管理;2) 在数学库cuBLAS中增强了对双精度与单精度的仿真支持;3) 全面重写了编程指南并更新了工具链与库,显著提升平台稳定性与易用性 [7] 公司创始人的危机感与驱动力 - 创始人黄仁勋坦承,支撑其一路走下来的驱动力并非野心,而是长期笼罩的危机感,他每天醒来都感觉公司可能“距离破产,还剩30天”,这种紧迫感持续了三十多年 [6][8][82] - 这种持续的“不想失败”的紧绷感与危机感,被认为是公司得以不断突破的重要原因 [9][84] - 创始人回顾了公司最惊险的创业阶段,包括早期战略错误、濒临破产的现金流,以及押上公司未来的技术重构与一次性量产的豪赌 [1][8] 公司早期发展史与关键转折点 - 公司创立于1993年,最初目标是创造一种能解决传统计算机无法解决问题的新型计算架构,但当时相应的“杀手应用”并不存在,使命本身极具挑战 [66] - 早期通过说服日本世嘉公司,将街机3D游戏移植到PC以开启PC 3D游戏时代,并为其开发游戏主机芯片,以此获得启动资金 [67][68][69] - 公司第一代图形技术(NV1)在三个关键技术方向(曲面 vs 三角形、正向贴图 vs 逆向贴图、无Z-buffer)上全部选错,导致公司在竞争中处于劣势 [69][70] - 在资金即将耗尽、技术路线错误且与世嘉的合同可能无法交付的存亡之际,创始人前往日本,以极大的坦诚说服世嘉CEO将合同尾款500万美元改为对公司的投资,这笔投资拯救了公司 [72] - 公司上市后全面收缩战线,关闭错误方向,三位架构师基于从Silicon Graphics教科书学来的理念,重新发明3D图形技术,将百万美元工作站性能压缩进PC显卡,为电子游戏时代奠定技术基座 [8][73][74] - 在研发RIVA 128时,公司现金流极度紧张,为了一次成功,用仅剩的约50万美元现金购买了已倒闭公司的模拟器,以便在芯片流片前完成所有软件调试 [78] - 随后,公司说服当时规模仍小的台积电,在没有试产的情况下直接风险量产新品,一次失败就会让公司消失,最终成功并使其成为当时增长最快的科技公司之一 [8][79] 对人工智能(AI)发展的观点 - 认为过去两年里,AI技术的能力提升了100倍 [16] - 指出AI的发展将是渐进的,而非瞬间到达某个“事件视界” [13][15] - 认为最佳情景是AI融入我们所做的一切,让一切更高效,但同时网络安全等挑战将持续存在 [20] - 预测未来两三年后,世界上90%的知识很可能由AI生成 [35] - 相信未来5-10年有三大趋势:1) AI会大幅缩小技术鸿沟,因其是“最容易使用的技术”,例如ChatGPT几乎一夜之间就有十亿用户;2) 每个国家都将拥有优秀的AI,即便是“过去版本的AI”也依然惊人;3) AI的能耗会大幅下降,让更多国家享受红利 [50][51] - 强调加速计算使AI性能与能效大幅提升,过去十年将计算性能提升了100,000倍,使同样任务所需的能源减少了100,000倍,未来能耗将继续下降 [52] AI对就业与社会的影响 - 以放射科为例,指出AI并未取代放射科医生,反而因其能更高效处理影像而让医院雇佣了更多放射科医生,关键在于区分工作的“目的”(诊断疾病)与“任务”(阅读影像) [41][42] - 认为AI不会直接导致普遍失业,人的工作目的通常不变,变的是完成任务的方式,AI将取代部分以执行为核心的任务,但同时会创造大量前所未有的新工作 [44][45][46] - 提出工作的价值在于必须有“超越任务”的意义,人们需要寻找工作中更有意义的部分 [47] - 对“全民基本收入(UBI)”的看法是,“资源极大丰富”与“人人需要补贴”这两种极端情况不会同时发生,未来富裕更可能意味着“资源极大丰富” [48][49] 对AI安全与意识的看法 - 认为当前AI的力量大部分被导向了安全性,例如减少幻觉、提高答案的真实性,类似于汽车中ABS等技术让驾驶更安全 [16][17] - 在网络安全方面,指出存在一个由专家构成的共同体,进行协作、分享最佳实践,共同应对威胁,这种合作已持续约15年 [20][22] - 不相信AI会获得“意识”或“感知力”,认为意识是对自我存在的认知和情感体验的集合,而AI是由知识和智能定义的 [27][28] - 认为即便AI能完美模仿人类,也只是“模仿的版本”,而非真正的意识 [33] - 对于AI可能带来的威胁,认为防御性AI会保护人类,其逻辑类似于网络安全,即用AI来应对AI [26] GPU、深度学习与公司市场地位的奠定 - 公司从成立之初就研究并行计算,GPU本质上是图像生成超级计算机,为全球消费者提供了最大规模的超级计算平台 [58] - 2012年,Geoff Hinton实验室的AlexNet在图像识别上取得突破,其使用的硬件是两块英伟达GPU,这被视为现代AI的“大爆炸时刻” [57][59] - 公司意识到深度学习是一个“通用函数逼近器”,只要存在输入和输出,AI就能学会,其强大的前提是模型能扩大规模并能进行无监督学习 [60] - 2016年,公司研发了第一台DGX-1超级计算机,使用8个GPU,售价30万美元,研发成本达几十亿美元,最初无人问津,直到埃隆·马斯克为其初创的非营利机构OpenAI购买 [61][62][63] - 技术快速迭代,9年后,提供相同1 PetaFLOPS算力的DGX Spark体积大幅缩小,价格从30万美元降至约4000美元 [65][66]
黄仁勋最新采访:依然害怕倒闭,非常焦虑
半导体行业观察· 2025-12-06 11:06
人工智能技术发展与竞赛 - 人工智能技术在过去两年内能力提升了约100倍 [13] - 人工智能性能未来有提升一千倍的潜力 [15] - 技术竞赛自工业革命以来一直存在 当前的人工智能竞赛是最重要的一场 [10][11] - 科技领导力至关重要 赋予信息、能源和军事超能力 [11] 人工智能应用与安全 - 大量计算能力被用于提升人工智能的安全性、可靠性和真实性 例如通过反思和研究来减少幻觉 [13][14] - 人工智能能力提升很大一部分将用于更深入的思考、周密的计划和更多的选择 [15] - 网络安全防御依赖于整个行业社群的协同合作 共享漏洞信息和补丁程序已持续约15年 [20] - 人工智能技术正被应用于国防领域 认为拥有过剩的军事力量是避免战争的最好办法之一 [16][17] 人工智能对经济与就业的影响 - 以放射科医生为例 人工智能并未导致该职业消失 反而因为提升了诊断效率和医院经济状况而增加了岗位数量 [41][42] - 工作的核心意义可能不会因自动化而改变 例如律师的职责是帮助他人 而研究文件只是部分工作 [42][43] - 人工智能可能催生全新的行业和就业岗位 例如机器人制造、维修、服装设计等 [44] - 自动驾驶技术可能不会导致所有司机失业 部分司机会转型 技术的应用会创造新的工作类型 [42][44] 人工智能普及与能源瓶颈 - 人工智能是世界上最容易使用的应用 例如ChatGPT用户数量在短时间内增长到近十亿 这有助于缩小技术鸿沟 [47] - 未来几年内 手机将能够完全自主运行人工智能 使每个国家和社会都能受益 [48] - 能源是目前人工智能发展的主要瓶颈 [48][50] - 加速计算技术在过去十年将计算性能提高了10万倍 遵循“英伟达定律” [49][51] - 随着性能提升和能耗降低 未来人工智能所需的能源将微乎其微 从而无处不在 [50] 英伟达公司发展历程与技术 - 公司成立于1993年 旨在创造一种全新的计算架构 [64] - 早期与日本世嘉合作 涉足3D图形游戏领域 游戏产业成为关键驱动力 [64][65] - 公司的GPU最初为处理电脑游戏图形而设计 采用并行处理方式 成为面向消费者的超级计算机 [52][53] - 2012年 AlexNet在计算机视觉领域取得突破 该模型使用了两张NVIDIA显卡进行训练 [51][52] - 深度学习是一种通用函数逼近器 只要有输入和输出示例 就能推导出内部函数结构 可应用于几乎任何领域 [54][55] - 2016年 公司将第一台DGX-1超级计算机(售价30万美元)赠予埃隆·马斯克 用于其非营利人工智能研究(即OpenAI) [60][61] - 从DGX-1到DGX Spark 在保持1 petaflops计算能力的同时 价格从30万美元降至4000美元 体积也大幅缩小 [62]
对话任少卿:2025 NeurIPS 时间检验奖背后,我的学术与产业观
雷峰网· 2025-12-05 18:24
文章核心观点 文章通过报道任少卿及其团队获得NeurIPS时间检验奖,回顾了其奠基性工作Faster R-CNN的深远影响,并深入探讨了任少卿加入蔚来后,在自动驾驶全栈自研、芯片定义、数据闭环体系构建以及技术路线(如世界模型)探索等方面的实践与思考,展现了蔚来在智能驾驶领域从零开始构建核心能力的过程与战略布局 [1][2][11][13][27] 根据相关目录分别进行总结 Faster R-CNN的成就与影响 - 任少卿、何恺明、孙剑与Ross Girshick共同发表的Faster R-CNN荣获2025年NeurIPS时间检验奖,该奖项表彰经过十年检验、对学科发展产生深远影响的奠基性工作 [1] - Faster R-CNN发表于2015年,将物体检测效率提升10倍以上,开创了端到端实时精准目标检测模式,其论文已被引用超9.8万次,是AI检测领域全球最高被引论文 [2] - 该模型的核心思想已深度融入人工智能基础技术,成为驱动自动驾驶、医疗影像、安防监控、工业检测、卫星遥感等关键领域的核心技术 [2] 研究理念与团队合作 - 孙剑坚持“simple but work”的研究理念,认为做核心工作需要远见、品位和坚持 [4][6] - 任少卿与何恺明的合作紧密且高效,日常节奏包括多次集中讨论与实验推进,何恺明几乎投入100%的精力,专注于研究问题、寻找方向与突破 [6][7][8] - 团队选择深度学习方向基于几个关键判断:方法有创新性、已有初步结果和进展、结果具备泛化能力而非技巧性(trick),验证了方向的可扩展性 [10] 加入蔚来与全栈自研启动 - 任少卿于2020年8月加入蔚来,首要任务是搭建团队并启动全栈自研L2产品,支持L3和L4,同时进行芯片选型 [13] - 蔚来第二代车是全球首个量产英伟达Orin芯片(使用4颗芯片)及高线束激光雷达的车型,于2022年3月在中国量产,半年后在欧洲量产 [14] - 团队在极短时间内(从拿到芯片到量产仅6-7个月)克服了Orin芯片作为新硬件在算力(比上一代增大8倍多)、架构、散热、功耗及工具链等方面的挑战,完成了复杂的自动驾驶域控制器(ADC)架构量产 [14][15] 自研芯片的定义与考量 - 作为需求方,团队参与了自研芯片的定义,基于对技术发展的判断,早在2021年就预见到Transformer将更广泛应用,这对芯片内存带宽提出了更高要求 [16] - 蔚来自研芯片具备行业最高的带宽,以支持Transformer等模型,并为支持更高级别自动驾驶(L3/L4)预埋了热备能力,可在百毫秒内实现芯片切换且用户无感 [17] 数据闭环与高效迭代体系 - 蔚来自2020年起重点建设数据能力,认为数据的价值在于针对特定模型筛选出的“corner case”,而非简单的数据拷贝,数据筛选过程消耗大量算力 [19][20] - 公司构建了灵活调度云端和车端算力的系统,并在此基础上建立了类似互联网行业的“AB test”系统,允许在量产车上并行测试下一代算法 [21] - 通过“AB test”系统,蔚来将主动安全功能的迭代效率大幅提升,即使面对高达200万公里一次误报(FP)的严格标准,也能实现三天迭代一次的速度 [22] - 针对超80万辆量产车的智驾接管数据,建立了自动化分析系统,能过滤掉99%以上的无效信息,仅返回0.1%-0.5%的有效数据供进一步分析,极大提升研发效率 [22] 对端到端与世界模型的技术思考 - Faster R-CNN本质是解决了物体检测任务的端到端问题,将检测速度提升至实时(10Hz、20Hz、30Hz),为视频处理和应用落地带来突破 [11] - 任少卿认为,端到端是自动驾驶技术演进的一个阶段,但并未解决所有问题,例如语言模型无法解决真实世界所需的时空认知问题 [24][25][26] - 世界模型旨在建立时空认知能力,学习物理规律和时空理解,以解决长时序决策问题,这是语言模型无法做到的 [26][27] - 蔚来于2023年决定All in世界模型,并于2024年7月首次公开发布,成为行业内率先拥抱此路线的公司之一,世界模型能支持长达10秒、1分钟甚至更长的时序推演,替代传统的规则代码(if else)处理长时序场景 [27][28][29][30]