Workflow
ImageNet
icon
搜索文档
李飞飞:高校学生应追逐AI“北极星”问题
虎嗅· 2025-07-08 16:15
行业趋势与技术创新 - 数据驱动方法成为AI发展的关键转折点,ImageNet项目通过构建包含10亿张图片的全球视觉分类体系,开创了计算机视觉领域的数据范式转变[4][5][6] - 2012年AlexNet突破性成果将CNN算法与GPU并行计算结合,识别错误率从30%显著降低,标志着深度学习时代的开启[7][8] - 生成式AI技术实现从图像描述到图像生成的跨越,扩散模型等创新推动内容创作进入新阶段[10][11][12] 3D空间智能与AGI发展 - 空间智能被视为AGI的核心组件,3D世界建模涉及5.4亿年进化形成的复杂能力,需解决3D结构理解、物理规则模拟等挑战[13][14][16] - World Labs聚焦空间智能基础模型开发,应用场景覆盖建筑设计、机器人技术、元宇宙内容生成等领域[20][21][23] - 3D建模技术难度远超语言模型,涉及多维数据处理、传感器融合及物理规律约束,目前行业缺乏高质量训练数据集[17][19] 企业战略与人才发展 - 跨学科研究成为学术界差异化方向,科学发现、小数据学习、理论可解释性等方向存在突破机会[34][35][36] - 初创企业需专注"北极星"问题,通过技术精英团队实现突破,World Labs核心成员包括NERF论文作者等顶尖人才[14][15][33] - 人才招聘强调思想无畏特质,工程、产品、3D建模等领域需兼具技术实力与解决复杂问题勇气[31][32][33] 技术生态与商业模式 - 开源策略需匹配商业目标,Meta等平台型企业通过开源构建生态,而技术商业化公司可采用混合授权模式[42][43] - 硬件与软件融合将推动元宇宙发展,3D内容创作工具链完善是突破瓶颈的关键[21][23] - 行业呈现多元化技术路线,视觉智能与语言模型在架构设计、数据需求等方面存在显著差异[18][19][22]
李飞飞最新对话
投资界· 2025-07-04 20:05
李飞飞对AGI与空间智能的核心观点 - 空间智能是实现通用人工智能(AGI)不可或缺的组成部分 没有空间智能 AGI就不完整 [1][4][29][33] - 3D世界建模是人工智能领域最基础且最具挑战性的问题之一 包括理解三维世界 生成三维世界 推理三维世界和在三维世界中行动 [7][8][33] - 创建超越平面像素 跨越语言障碍 真正捕捉三维世界结构和空间智能的世界模型是当前AI研究的终极目标之一 [9][33] ImageNet项目的历史意义 - ImageNet项目始于2007年 旨在通过互联网下载十亿张图片并创建视觉分类体系 为机器学习提供数据基础 [17][18] - 该项目包含14,197,122张图片和21,841个synsets索引 为计算机视觉研究建立了标准化数据集 [20] - 2012年AlexNet在ImageNet挑战赛中取得突破性进展 识别错误率从30%大幅下降 标志着数据 GPU和神经网络首次成功结合 [22][23][24] 计算机视觉的发展历程 - 从物体识别(如ImageNet解决的"识别猫或椅子")发展到场景描述 再扩展到三维世界理解 是计算机视觉研究的自然演进 [25][26][30] - 2015年左右 图像字幕生成技术取得重大突破 为后来的生成式AI发展奠定了基础 [27] - 视觉智能的进化历史长达5.4亿年 远比语言进化(3-5亿年)更复杂 这解释了为什么空间智能研究更具挑战性 [32][33] 空间智能研究的挑战 - 空间智能面临数据严重缺失的问题 与语言数据不同 三维世界的信息主要存在于人类大脑中 难以直接获取 [36] - 3D建模的数学复杂度远高于一维语言处理 需要将2D投影反向推导为3D结构 并遵守物理规律 [34][35] - 人类视觉皮层处理数据的神经元数量远超语言处理区域 这暗示了空间智能模型的架构可能需要与LLMs完全不同 [37][38] World Labs的研究方向 - 公司专注于解决空间智能这一AI领域最困难的问题 正在构建能够输出3D世界的基础模型 [31][40][41] - 研究团队由多位顶尖专家组成 包括Pulsar创造者 Justin Johnson和Nerf作者等 [34] - 应用场景涵盖设计 建筑 游戏开发 机器人学习以及元宇宙内容生成等多个领域 [41][42][44] 行业研究方法论 - 数据驱动方法需要与高质量数据并重 避免"输入垃圾输出垃圾"的问题 [73] - 鼓励跨学科研究 特别是在科学发现领域与AI的结合 [60] - 小数据研究和理论突破是学术界在资源受限情况下的重要方向 [61][62]
李飞飞曝创业招人标准!总结AI 大牛学生经验,告诫博士们不要做堆算力项目
AI前线· 2025-07-03 16:26
AI发展瓶颈与空间智能 - 当前AI繁荣存在根本性局限,语言大模型无法理解物理世界的复杂性,空间智能是AGI缺失的关键拼图[1][11] - 视觉智能进化历时5.4亿年,远超语言能力的50万年进化周期,三维世界理解是AI根本问题[11] - World Labs聚焦空间智能连续谱,涵盖从生成到重建的全场景应用,包括元宇宙内容创作和机器人学习[16][17] ImageNet的历史突破 - ImageNet项目始于18年前,当时AI领域数据稀缺,计算机视觉算法几乎不可行[2] - 2009年开源数据集并发起ImageNet挑战赛,初始错误率30%,2012年AlexNet通过卷积神经网络和双GPU并联实现突破性进展[3][4][5] - 该突破标志着数据、GPU和神经网络首次联合发挥作用,被行业称为"AlexNet时刻"[5] 计算机视觉发展路径 - 从单一物体识别(ImageNet)到场景描述(2015年图像生成文字说明),再到三维世界建模的技术演进[7][8][9] - 生成式AI实现图像描述的反向过程,扩散模型使文本生成图像成为可能[8][9] - 视觉处理面临三维结构、投影病态问题和物理规律约束等核心挑战[14][15] World Labs技术方向 - 团队集结可区分渲染框架创建者、神经风格迁移专家和NeRF论文作者等顶尖人才[14] - 开发区别于LLMs的新型架构,解决三维空间组合爆炸问题,需构建结构性先验[16] - 应用场景覆盖3D艺术创作、工业设计、机器人学习和元宇宙内容生成[17][19] 行业生态与学术建议 - AI发展需要多元开源策略共存,Meta通过开源繁荣生态,部分公司依赖闭源创造营收[29][30] - 博士生应选择产业界难以解决的基础性问题,如跨学科AI、表示学习和小样本学习等方向[26][27] - 学术界在理论层面存在模型可解释性、因果关系等未解难题,具有突破潜力[27]
李飞飞最新YC现场访谈:从ImageNet到空间智能,追逐AI的北极星
创业邦· 2025-07-02 17:49
ImageNet与深度学习革命 - ImageNet通过提供大规模高质量标记数据集(80000+次引用)为神经网络成功奠定基础 开创数据驱动范式转变[8][9] - 项目历时18年孵化 初期算法错误率达30% 直到2012年AlexNet结合GPU算力实现突破性进展[11][14][16] - 采用开源策略和挑战赛形式推动社区共建 加速计算机视觉从物体识别向场景描述演进[12][17][19] 空间智能与World Labs布局 - 三维世界理解被定义为AI下一前沿 进化史长达5.4亿年 远超语言进化维度[24][25] - World Labs聚焦构建3D世界模型 团队集结NERF作者等顶尖人才 解决组合复杂度更高的空间智能问题[25][27][28] - 应用场景覆盖元宇宙内容生成 机器人学习 工业设计等 需突破硬件与内容创作双重瓶颈[30][32] 人工智能发展路径 - 视觉智能发展轨迹清晰:物体识别→场景叙事→空间智能 每阶段需5-10年技术积累[17][19][22] - 语言模型与视觉模型存在本质差异 前者依赖序列数据 后者需处理不适定的3D→2D投影问题[27][28] - AGI定义存在争议 但空间智能被视为实现通用智能不可或缺的组成部分[23][44] 创新方法论 - "智识上的无畏"被反复强调为突破性创新的核心特质 贯穿从学术研究到创业全过程[6][37][42] - 数据质量优先于数据规模 需采用混合方法获取高质量3D空间数据[47][48] - 跨学科研究与小数据理论被视为学术界可突破的潜在方向[41][42] 行业生态观察 - 开源策略应根据商业模型差异化选择 Meta等平台型企业更倾向全面开源[46] - 学术机构在计算资源劣势下 需聚焦工业界尚未关注的底层理论问题[41][42] - 硬件迭代与生成模型结合将推动元宇宙等场景落地[30][32]
李飞飞最新访谈:没有空间智能,AGI就不完整
量子位· 2025-07-02 17:33
李飞飞对AGI与空间智能的核心观点 - 空间智能是通用人工智能(AGI)不可或缺的组成部分 没有空间智能 AGI就不完整 [1][4][29] - 3D世界建模是实现AGI的关键 包括理解三维世界 生成三维世界 推理三维世界和在三维世界中做事 [7][29] - 目标是创建超越平面像素 跨越语言障碍 能够真正捕捉三维世界结构和空间智能的世界模型 [8][29] - 视觉智能的进化历史长达5.4亿年 远比语言进化(3-5亿年)更复杂 是智能发展的基础 [27] ImageNet项目的历史意义 - 2009年创建的ImageNet解决了AI领域的关键数据问题 为现代计算机视觉搭建了数据骨架 [11][13] - 项目构想源于机器学习需要范式转变 通过下载十亿张图片创建视觉分类体系来训练算法 [13][14] - 2012年AlexNet突破性进展 将卷积神经网络 GPU和深度学习首次结合 错误率从30%大幅下降 [15][17][19] - ImageNet开源策略和挑战赛机制推动了整个AI社区的发展 [15] 计算机视觉的发展历程 - 从物体识别(ImageNet)到场景描述(2015年图像字幕技术)再到3D世界建模的演进 [19][20][22][24] - 自然语言与视觉信号的融合让智能体能够讲述世界的故事 [22] - 生成式AI的发展使得从文字生成图像成为可能 展现了AI的惊人进步 [22] 空间智能的挑战与机遇 - 3D建模面临数据缺失问题 互联网缺乏空间智能数据 信息主要存在于人类大脑中 [9][33][49] - 3D世界比语言(一维)复杂得多 涉及物理规律 投射转换等多重数学难题 [30][31] - World Labs正在构建3D基础模型 应用场景包括设计 建筑 游戏开发和机器人等领域 [35] - 元宇宙是重要应用方向 需要硬件和软件的融合以及内容生成的世界模型 [35][36][37] 人才培养与团队建设 - 思想上的无畏精神是成功人士的核心特质 也是招聘的重要标准 [41][42] - World Labs正在招募工程 产品 3D和生成模型领域的人才 [43] - 跨学科AI和小数据领域是学术界值得关注的方向 [44][45] - 研究生阶段应被强烈好奇心引领 专注于解决根本性问题 [47][48]
AI自动化背后:凡是可量化的,皆不能幸免
36氪· 2025-06-24 09:41
AI对劳动力市场的冲击 - AI正在迅速冲击几乎所有劳动领域,包括创意工作、数据分析、金融分析、法律、医学等专业领域 [1][3] - 43%的AI交互已属于直接执行任务的自动化形式,而非协助思考 [5] - 自动驾驶可能取代数百万网约车、公交和卡车司机 [5] AI技术发展现状与争议 - OpenAI和Anthropic认为通用人工智能(AGI)可能1-2年内实现,而Meta专家认为当前模型缺乏物理世界理解和战略前瞻性 [3] - 2012年卷积神经网络突破终结AI寒冬,确立数据+指标+算力的成功模式 [8] - 当前AI模型仅在其训练数据范围内发挥作用 [3] 自动化影响评估框架 - 自动化风险取决于任务可量化程度,被法律/税法/合规协议规范化的环境最易被取代 [5] - 判断力曾被认为是人类最后优势领域,但AI正快速侵蚀这一领域 [5][6] - 测量成本降低使更多领域变得可量化,加速自动化进程 [9][11] 难以自动化的领域 - 涉及奈特不确定性的任务如创业、政策制定、艺术创作等难以量化 [15] - 隐私/伦理受限领域、要求透明推理的领域、人类偏好参与的领域发展滞后 [14] - 极端物理研究、地幔探索、活脑细胞研究等测量困难的科学领域 [14] 企业应对策略 - 领导者需识别易受自动化影响的业务环节,规划向智能价值链上游迁移 [4] - 应重视无法量化的技能如信任、品味、经验等无形因素 [16] - 支持ROI模糊的创新项目,鼓励团队探索未知,保留战略模糊性 [1][16] AI技术演进模式 - 成功AI系统需要三大要素:任务环境数据、明确奖励机制、充足计算能力 [9] - 合成数据生成和传感器普及正加速AI应用落地 [9] - 测量成本降低形成正反馈循环,使自动化范围持续扩大 [11][12] 人类独特优势 - 人类前额叶皮层支持开放式反事实规划,在不确定性中保持优势 [13] - AI将可预测任务常规化,释放人类脑力处理更高级问题 [13] - 创造性突破依赖设想全新反事实世界的能力 [15]
李飞飞自曝详细创业经历:五年前因眼睛受伤,坚定要做世界模型
量子位· 2025-06-09 17:27
文章核心观点 - 李飞飞因角膜损伤暂时失去立体视觉的经历,促使她认识到空间智能对AI系统的重要性,并坚定了构建世界模型(LWM)的决心 [1][2][3] - 世界模型是AI发展的下一里程碑,其核心在于让AI获得类似生物的空间认知能力,真正理解三维物理世界 [15][23][24] - 当前AI系统在语言处理方面取得突破,但在空间智能方面仍存在明显不足,这是未来需要重点攻克的方向 [10][20][29] 构建能真正理解物理世界的AI模型 - 李飞飞早在大语言模型(LLM)兴起前就意识到构建世界模型的重要性,这与她的学术经历和生病经历有关 [6][7] - 她创建的ImageNet收录超过1000万张精确标注图片,彻底改变了计算机视觉和深度学习的研究格局 [8] - 数据驱动范式所爆发的能量远超李飞飞最初想象,但当前AI仍缺乏对物理世界的理解 [9][10] - 语言对三维物理世界的表征存在天然缺陷,真正的通用智能必须建立在对物理空间结构和物体组合关系的理解上 [12][14][15] 创立World Labs的契机 - 李飞飞与a16z合伙人Martin Casado在关于LLM的学术聚会上达成共识,认为世界模型是当前AI缺失的关键部分 [17][19][21] - Martin指出语言对物理空间的转译低效且失真,自动驾驶行业投入上千亿美元仍未能完美解决二维导航问题 [20] - 李飞飞表示世界模型才是智能的下一里程碑,一旦取得突破将创造无限虚拟宇宙,应用于建筑设计、材料合成等领域 [22][24] 技术突破与团队优势 - 实现世界模型需要集结产业级的算力、数据和人才密度,World Labs组建了全球顶尖的跨学科团队 [25][34][35] - 技术突破点在于让AI从单目视觉输入中重建完整三维场景理解,这是机器人精准抓取和虚拟宇宙生成的基础 [39][40] - World Labs团队在计算机视觉领域有深厚积累,包括神经辐射场(NeRF)技术和高斯泼溅表示法等创新成果 [31][32][33]
成就GPU奇迹的AlexNet,开源了
半导体行业观察· 2025-03-22 11:17
AlexNet的历史意义与技术突破 - AlexNet是2012年由Geoffrey Hinton团队开发的革命性图像识别神经网络,开启了深度学习时代[2][3][4] - 该模型首次将深度神经网络、大数据集(ImageNet)和GPU计算三大要素结合,取得突破性成果[7][9][12] - 在ImageNet竞赛中,AlexNet以显著优势超越传统算法,使神经网络成为计算机视觉领域主流方法[8][12][13] 深度学习发展历程 - 神经网络起源于1957年Frank Rosenblatt的感知器,但70年代被AI界放弃[5] - 80年代Hinton团队重新发现反向传播算法,奠定深度学习基础[6] - 2000年代GPU和大型数据集(如ImageNet)的出现解决了神经网络训练瓶颈[7][9] 关键技术要素 - ImageNet数据集包含数百万分类图像,规模远超此前数据集[8] - NVIDIA的CUDA平台使GPU能够高效进行神经网络矩阵运算[9][12] - 模型训练在配备两张NVIDIA显卡的家用电脑上完成,耗时一年[12] 行业影响 - AlexNet之后几乎所有计算机视觉研究都转向神经网络方法[13] - 该技术路线直接催生了后续ChatGPT等突破性AI应用[13] - 原始代码已由计算机历史博物馆开源发布,具有重要历史价值[14] 核心团队 - Geoffrey Hinton作为导师提供学术指导,被誉为深度学习之父[3][6] - Alex Krizhevsky负责GPU代码优化和模型训练实现[11][12] - Ilya Sutskever提出关键创意并参与开发,后共同创立OpenAI[11][13]
李飞飞,带出一个学生军团
投资界· 2024-12-06 15:16
具身智能初创公司穹彻智能 - 穹彻智能完成数亿元人民币Pre-A+轮融资 红杉中国领投 老股东Prosperity7 Ventures、小苗朗程及璞跃中国加注 成立一年内完成第三轮融资 [3] - 公司由上海交通大学两位青年教授王世全和卢策吾联合创立 卢策吾师从AI教母李飞飞 [3] - 团队已发布穹彻具身大脑(Noematrix Brain) 建立数据采集、模型训练、部署验证全流程产品体系 获得单场景百套订单 [4] - 产品在零售运营、物流拣选、食材处理、家庭服务和科研教育领域探索应用场景 [4] - 红杉中国评价团队拥有具身领域最接近系统级的综合能力 创始人卢策吾是国内该领域最资深科学家 [4] 李飞飞及其学术影响力 - 李飞飞被誉为"AI教母" 主导斯坦福大学人工智能学科研究 带出的学生成为全球AI界中流砥柱 [3] - 2018年带领团队将机器学习与机械臂结合 进入具身智能领域 2023年公布NOIR系统等多项成果 [6] - 2023年创立World Labs 聚焦空间智能 已筹集超2.3亿美元(约16亿元人民币) 获英伟达、AMD等巨头投资 [6] - 对学生要求既要懂技术也要理解场景 培养出大批兼具研究能力和创业精神的人才 [11] 李飞飞学生创业军团 - 非夕科技由王世全等斯坦福博士创立 成立6年成为独角兽 获美团、金沙江创投等投资 [4] - 前阿里自动驾驶负责人王刚创立清洁机器人公司新生纪智能 获高瓴、光速等机构投资 [11] - 英伟达GEAR实验室由李飞飞弟子范麟熙和朱玉可领导 二人曾参与开发机器人训练框架SURREAL [11] - Pika创始人郭文景、旷视科技前首席科学家孙剑、蔚来智能驾驶研发副总裁任少卿等均与李飞飞有学术渊源 [11] - 学生广泛进入特斯拉、微软、英伟达、谷歌等企业从事AI研究 包括OpenAI创始成员Andrej Karpathy等 [11]