Workflow
世界模型
icon
搜索文档
LeCun离职前的吐槽太猛了
量子位· 2025-12-21 13:45
文章核心观点 - 人工智能领域知名学者Yann LeCun在离职Meta前,公开批评当前以大语言模型为主导的AI发展路线,认为其无法通往通用人工智能,并宣布将创办一家专注于开源世界模型研究的新公司[1][2][4][8] LeCun对当前AI发展路径的批判 - 严厉批评仅通过扩展大语言模型和合成数据训练来实现超级智能的路径,认为这“完全是胡说八道”且“根本行不通”[2] - 认为大语言模型擅长处理离散的文本数据,但在处理高维、连续且嘈杂的现实世界数据如图像或视频时表现“完全糟糕”[29] - 断言仅靠训练文本数据,AI永远不可能达到人类智能水平[31] - 指出当前AI领域最难的问题是达到狗的智能水平,而非人类的智能水平[7][88] LeCun的创业计划与新公司AMI - 宣布将创办新公司Advanced Machine Intelligence,专注于世界模型的研究,并坚持开源路线[8][9][10] - 新公司AMI的终极目标是成为未来智能系统的主要供应商之一,不仅做研究,还会推出围绕世界模型和规划能力的实际产品[19] - 创业动机源于对Meta转向封闭和短期项目导向的不满,认为公开发表成果是做出有价值贡献的唯一途径[3][14][15][17] 世界模型的理论与优势 - 主张构建智能系统的正确方式是世界模型,其核心是预测和规划,让机器像婴儿一样通过观察世界来构建内在的可预测模型[20][35][37] - 世界模型的关键是在抽象的表示空间中进行预测,而非直接生成像素,这能消除不可预测的细节和噪声,实现更长期可靠的预测[38][41][42][43] - 提出通过联合嵌入预测架构在抽象表示空间中进行预测,并认为“LeJEPA+SIGReg”是训练抽象表示非常有前途的技术集合[44][77] - 通过数据对比强调现实世界数据的丰富性:LLM训练所需的约30万亿tokens文本数据,其信息量仅相当于约15000小时的视频,而这只是一个4岁孩子一生中接收的视觉信息总量,仅相当于YouTube半小时的上传量[32][33] 对Meta现状及FAIR未来的评价 - 指出Meta在领导层变更后正变得更加封闭,从开源先锋转向封闭,且FAIR更倾向于短期项目和为内部实验室提供支持[3][11][24] - 透露其离职后,FAIR将由Rob Fergus领导,内部减少了对论文发表的重视,标志着Meta长达十年的“学院派”研究黄金时代结束[24][26] - 澄清自己在Meta的继任者并非“亚历山大王”,后者职责更偏向整体运营管理[23] 对AGI及智能发展的看法 - 认为AGI的概念本身无意义,人类智能是高度专业化的,实现机器在人类擅长领域超越人类需要一个渐进的过程,而非突发事件[80][82][83] - 预测未来几年世界模型和规划能力可能取得概念性突破,为实现人类水平AI铺平道路,但仍需大量新的理论创新[84][85] - 强调实现狗的智能水平是比实现人类智能更难的挑战,因为那需要具备大量的基础理论,而在此基础上增加语言能力则相对容易[88][89] - 认为单靠LLM或单靠世界模型都无法实现真正的人类智能,需要多种研究的结合与长时间积累[90] LeCun的职业生涯与理念 - 其职业生涯的核心目标是提升人类智能,认为智能是世界上最稀缺的资源,因此拒绝退休并选择继续创业贡献[91][94][95] - 始终坚持开源的技术路径,认为科学的进步源于开放交流中思想的叠加延伸,如果不公开发表就算不上真正的研究[15][103] - 回顾职业生涯有遗憾,如曾想到反向传播算法的核心思路但未及发表,但认为好的想法是集体智慧的产物[99][102]
王晓刚和他的“世界模型”:一人管十狗,先让四足机器人上街干活|智能涌现专访
36氪· 2025-12-21 12:38
公司核心发布与产品 - 大晓机器人发布“具身超级大脑模组A1”和“开悟”世界模型3.0,前者是一个可搭载于不同品牌机器人本体的AI大脑,赋予机器狗“空间智能”和“自主决策”能力[2] - “开悟”世界模型3.0在AI模型中建立了物理世界的运行规律,使机器人能更快学会任务并适应新环境,其能力可应用于四足狗、双足人形等多样构型的机器人本体[2] - 公司发布的模组集成了传感器、通信、计算等能力,并包含全景相机以提升视野和事件检测能力[32][33] 技术路径与行业趋势 - 行业技术正从VLA模型向世界模型升级,VLA模型依赖海量“画面—指令—动作”配对数据,但难以理解物理规律,导致泛化能力差,当前具身智能的真机数据量困在10万小时量级,而自动驾驶数据可达数百万小时[3] - 世界模型让机器人从“死记硬背例题”转向“掌握通用公式”,能大幅降低对特定场景和海量真机数据的依赖[4] - 世界模型成为近期大热技术趋势,特斯拉等智能驾驶和具身智能公司也展示了相关布局[6] - 公司认为世界模型、端到端、强化学习是同一条技术链路在不同阶段的延伸,核心是让模型理解并预测真实世界的演化以用于决策与控制[12][13] 技术优势与验证 - 世界模型解决了VLA的短板,VLA偏短序动作学习且缺少对物理世界的结构化理解,世界模型则学会了环境与交互的规律,支持预测、推理、规划,并能在不同任务和场景中泛化[17][18] - 公司强调世界模型必须与下游验证形成闭环,此前在智能驾驶领域,公司将世界模型用于上汽智己的算法业务,攻克“过环岛”、“大车加塞”等高危场景,通过实车检验和校准模型[7][16] - 公司将同样的方法论用于具身智能,选择用“机器狗上街”作为商业化第一站,在真实任务执行中验证和迭代世界模型能力[7] - 公司推出的具身世界模型与Sora等生成式世界模型有本质区别,Sora是视频生成“黑盒”,不理解物理关系和因果规律,而具身世界模型旨在让机器人在真实世界里推理、规划和决策[21][22][23] 世界模型核心能力与架构 - 公司的具身世界模型具备三块多模块能力:多模态理解(理解世界深层属性)、多模态生成(生成可训练的数据和场景)、多模态预测(预测不同动作轨迹)[24] - 世界模型架构分为三个层次,对应不同数据采集:最底层是描述世界物理规律的文本数据;第二层是以人为中心采集的人类与物理世界交互的数据;第三层是配合不同本体的真机动作数据[26] - 公司强调主要数据“以人为中心”采集,因为人自己做动作的数据更容易规模化,可先训练一个有物理常识的大脑再迁移到不同机器人上,而“以机器为中心”采集效率低且数据难以跨本体复用[27][28] - 采用此方法后,对真机数据的需求可减少,真机部分数据可从万小时级别进一步压缩,很多情况下只需将现有真机数据用于校准[29] 商业化战略与路线图 - 公司商业化路线图明确:先用四足机器狗切入道路巡查等城市治理场景;2-3年后通过轮式双臂机器人拓展到无人物流仓;未来再考虑双足人形与更复杂的家庭场景[8][31] - 公司选择机器狗形态作为首发,因其技术更成熟、稳定性更高,能更快进入真实场景[34] - 商业模式上,公司倾向于直接进入场景服务客户,而非将世界模型卖给本体厂商,因为公司更熟悉场景客户需求,且能利用既有资源摊薄进入成本[38] - 公司业务先聚焦To B市场,如智慧城市、园区管理、文旅导览等领域,以驱动产业链成熟,未来会考虑出海,借助现有海外资源和团队顺势推进[41][42][43] 生态合作与竞争优势 - 公司采取软硬一体策略,但不同于苹果的封闭生态,会选择性地自研关键部分,并与生态合作伙伴协作,目标是交付可用的产品方案,降低成本并提升稳定性和安全性[36][37] - 公司认为当前与具身本体公司之间竞争不是主要问题,策略是以场景为导向寻找增量市场,不去争夺存量市场,找到场景后本体厂商反而愿意配合[40] - 公司并非从零开始,商汤科技过去11年的积累为其提供了可复用资源,例如“方舟”视觉平台在城市事件检测的落地应用有助于快速切入安防、巡检场景,海外市场布局也为机器人出海提供了通道[9]
Alex Wang“没资格接替我”!Yann LeCun揭露Meta AI“内斗”真相,直言AGI是“彻头彻尾的胡扯”
AI前线· 2025-12-20 13:32
文章核心观点 - 图灵奖得主Yann LeCun严厉批评当前硅谷主流的人工智能发展路径,认为仅靠扩大语言模型规模、使用更多合成数据的路径行不通,是一条“死胡同”[2] - LeCun认为,实现真正智能的关键障碍是让机器具备“狗的智能水平”,这比达到人类水平更困难,核心在于获得对现实世界的理解、预测和行动能力,而非仅仅生成流畅文本[3] - 为此,LeCun通过其新创公司AMI(先进机器智能)推动构建“世界模型”,该模型在抽象表征空间中对世界运行规律进行建模和预测,旨在为机器提供接近真实认知的基础能力[3] 对当前AI发展路径的批评 - 批评业界对大语言模型规模化的执念,认为这条路径“完全是胡扯”,无法通向超级智能[2] - 指出大语言模型架构需要海量数据模仿人类行为,且可靠性有限,其构建的智能体系统并不理想[9] - 认为仅靠文本训练永远不可能达到人类水平的智能,因为文本是“记忆型”数据,冗余度低,而现实世界的视频等数据在结构上更丰富,更有学习价值[20][21] - 认为大语言模型并不真正理解世界的基本规律,它们只是被微调到给出“看起来正确”的答案,这是复述而非理解[28] “世界模型”技术路线 - 核心思路是在抽象表征空间中对世界运行规律进行建模和预测,而非在像素或文本层面进行输出[3] - 关键技术是JEPA(联合嵌入预测架构),其思想是学习一个抽象的表征空间,滤除输入中大量无法预测的细节(包括噪声),然后在此空间内进行预测[11] - 强调世界模型不需要是现实的逐像素模拟器,而是在抽象表征空间中,只模拟与任务相关的那部分现实[24] - 认为构建世界模型的正确方法是训练能够学习抽象表征的模型,并介绍了Barlow Twins、VICReg、SigReg(Lojic-JEPA)等相关方法[18] 创业公司AMI(先进机器智能)的规划 - 公司最终目标是推出实际产品,产品将围绕世界模型和规划等核心技术展开,其雄心是成为未来智能系统的主要供应商之一[9] - 公司计划以开放的方式进行上游研究,认为公开发表成果是取得突破的必要途径[7][8] - 公司是一家全球性企业,在巴黎、纽约等地设有办公室,选择在硅谷之外启动部分业务是为了避免陷入硅谷的“技术单一化”竞争环境[55] 对AI发展现状与未来的判断 - 认为达到“狗水平智能”是AI发展中最难的部分,一旦实现,绝大多数核心要素就已具备[37] - 最乐观估计,在5到10年内,或许能看到接近人类或至少接近“狗水平”的智能系统,但历史表明可能会出现新瓶颈,可能需要20年或更久才能突破[35][36] - 不认同“通用智能”的概念,认为应以“人类水平智能”为讨论目标,且这个过程将是渐进的,而非突发事件[33][34] - 认为当前AI在游戏等领域的应用进步缓慢,部分原因在于创作者需要“可控性”,而非完全的AI自由演化[30] 对AI安全与架构的看法 - 认为安全必须与发展同步进行,而不是先停下来等待“绝对安全”[41] - 主张转向以目标驱动为核心的AI架构,该系统拥有世界模型、规划能力,并受到一套硬性约束的限制,从设计层面确保安全[42][43] - 批评当前通过微调或过滤来限制大语言模型输出的方法成本高昂、低效且不可规模化,本质上是“暴力搜索”[43][44] 对行业与其他公司的评价 - 指出硅谷因竞争极端激烈,导致几乎所有大公司(如OpenAI、Meta、Google、Anthropic)都在做同样的事情,形成了“技术单一化”[55][56] - 认为这种同质化竞争容易被来自完全不同方向的技术突破所颠覆[57] - 评价其他构建世界模型的公司:认为Physical Intelligence的方向仍是“生成像素”的思路;认可Wayve公司在自动驾驶领域构建世界模型的方法(在表示空间预测),但指出其表示空间通过重建训练获得是错误的;提及Sandbox AQ的“大型定量模型”概念与自身主张一致[52][53][54] 个人职业与Meta相关 - 解释离开Meta创业的原因:看到AI投资热潮让长期研究型创业成为可能,且认为许多实验室正转向封闭,因此选择在外部推进自己的研究方向[6] - 澄清Alex Wang在Meta的角色是统管所有AI相关的研发与产品整体运作,而非接替其科研职责,其职责涵盖FAIR(基础研究)、TBD Lab(前沿模型)、AI基础设施和产品部门[46] - 指出Meta的FAIR实验室正被推向更短期、更偏应用的研究方向,公司整体正在变得更“封闭”[48]
对话小马智行王皓俊:Robotaxi正进入1到1000的阶段
华尔街见闻· 2025-12-20 13:31
行业范式转移与商业化拐点 - 全球智驾行业在2025年正经历从实验室研发到商业化落地的范式转移,行业开始关注财务报表上的硬碰硬表现[2] - 商业化拐点已至,百度萝卜快跑在2025年二季度于武汉实现收支平衡,小马智行在11月宣布其第七代Robotaxi在广州实现单位经济模型(UE)转正[2] - 行业已从0到1的探索阶段,进入1到100、1到1000的规模化扩张阶段,清晰的商业化时间表浮现:2025年底冲击千辆级车队,2026年提升至3000辆,2030年迈向10万辆规模[2] 小马智行的商业化突破与成本控制 - 小马智行第七代Robotaxi在广州实现UE转正,意味着在剔除总研发投入后,单车收入已能覆盖硬件折旧与运营开支,实现了区域市场的商业闭环[4] - 实现UE转正的具体运营数据为:车辆日均23单,日均营收约为299元,接近行业公认能形成正向循环的24单阈值[4] - 成本大幅下降是关键:第七代车自动驾驶套件BOM成本相比第六代骤降70%,通过采用自研域控制器及规模化车规级固态雷达,将激光雷达成本压低了68%[5] - 运营费用显著优化:凭借优异安全记录,Robotaxi商保年费比传统出租车低50%,远程协助员与车辆比值已达1:20并计划压向1:30,地面维护人效也达到近20辆车/人[6] 商业模式转型与生态构建 - 公司从重资产自营模式转向轻资产的生态赋能模式,构建了“主机厂生产-资产公司持有-流量平台分发-小马提供AI司机”的价值链[7] - 在新的轻资产模式下,公司收入来源转变为车辆销售收入、技术授权费(License)以及每笔订单的服务分成[7][15] - 公司明确不做垂直运营,而是赋能给当地有资源、有意愿的合作伙伴,该模式将支持其2026年车队扩容至3000台的目标[7][18] 竞争格局与行业动态 - 2025年Robotaxi赛道竞争激烈,成为科技巨头、出行平台与主机厂共同卷入的行业混战[8] - 国际竞争者方面:Waymo周订单突破45万单,2025年至今出行量超1400万次,但其新车型成本是中国同类车型的4到5倍以上,特斯拉则通过纯视觉方案和百万辆规模野心加速入场[8] - 国内竞争者方面:百度萝卜快跑周订单已超25万单,累计服务单量突破1700万次,小鹏汽车宣布2026年量产纯视觉Robotaxi,哈啰计划在2027年铺开5万辆规模[9][10] - 行业逻辑质变,从技术竞赛演变为资本、供应链与运营人效的综合竞争,技术公司需与主机厂、平台深度捆绑[11] 市场前景与运营重要性 - 瑞银分析预测Robotaxi市场规模:到2030年,中国一线城市部分部署规模为80亿美元,中国全国部署可达1830亿美元,计入除美国外的海外市场则达3940亿美元[12] - 随着硬件成本下降,运营费用(维保、保险、补能)在单车成本结构中的占比将从目前的48%左右升至55%,运营效率成为竞争核心[12] - 规模效应的“黄金节点”被定在10万台,达到此阈值后强大的网络效应将产生质变,对应中国一线城市出行市场5%~10%的份额[12] 技术路线与战略认知 - 公司认为L4的核心是安全性需比人类司机高很多,这必须依靠强化学习和生成式的“世界模型”,而非模仿学习[13][20] - 公司指出L3因仍需人类司机在场,无法节省人力成本,故其UE不可能转正,但L3的成功可能为未来搭载L4功能的私家车铺路[16] - 公司认为车企进入L4赛道是好事,但强调L4是强监管行业,需要系统本身积累安全里程来获取牌照,这为现有玩家留下了窗口期[21] - 在数据方面,公司认为L4的关键不在于数据量优势,而在于是否有好的生成式数据架构,模仿学习路径对L4不奏效[22][23] 海外市场拓展策略 - 海外市场处于早期拓展阶段,预计明年允许示范运营的总量约为小几百辆,达到千辆规模才有商业化机会[18] - 市场优先级上,中国和美国是最大市场,其次是欧盟,日本、韩国、澳大利亚等高人力成本、高出行需求国家也是优先选择[18] - 中东市场被视为独特机会,虽然出行需求不是最大,但政策推动力最强,预计明年可能进入示范运营阶段,是产生可持续收入的市场[6][18] - 在海外市场,公司将坚持轻资产模式,赋能当地合作伙伴,而非亲自进行垂直运营[18]
「一脑多形」圆桌:世界模型、空间智能在具身智能出现了哪些具体进展?丨GAIR 2025
雷峰网· 2025-12-20 12:07
文章核心观点 - 具身智能领域仍处于技术路线发散探索阶段,尚未收敛,这为创新提供了机会,但最终目标是实现通用泛化智能,而非回归传统工业自动化 [3][4] - 世界模型在自动驾驶等特定场景已开始应用,主要用于生成海量合成数据以覆盖长尾场景和进行闭环测试,但其与具身智能的结合仍处于早期探索阶段,定义和技术范式尚未统一 [10][11][12][14] - 空间智能是机器人感知和理解环境的关键,其发展建立在SLAM等技术基础上,并引入AI以增强对语义和复杂空间关系的理解,但目前仍面临数据模态不足等挑战 [20][21][22][23] - 具身智能的落地应用面临技术、成本与商业化现实的巨大鸿沟,需在追求通用智能的“星辰大海”与解决工业自动化等迫切需求的“脚踏实地”之间找到平衡 [25][26][27][30] - 数据是驱动技术发展的关键,其获取方式(真机、仿真、生成)的有效性取决于具体任务,业界正在探索不同数据源的最优组合比例 [34][35][38] 具身智能技术发展现状 - 技术路线仍处于发散探索阶段,尚未收敛,高校与产业界需更好分工合作,高校应聚焦交互、人机协同、世界模型等核心问题突破 [3][4] - 单体机器人研究倾向于采用端到端技术路线以降低系统复合误差和延迟,决策层共识是放大视觉语言模型的能力 [5] - 群体机器人的基础是打造柔性、弹性、分布式、灵活的群体架构 [5] - 端到端是一种工程范式,强化学习是一种具体解法,黑箱是一种模式,三者概念不同,不应等同 [6][7] - 实际研究中采用多种解法,包括大量使用强化学习,并以解决问题为唯一目标 [8][9] 世界模型在自动驾驶领域的应用与挑战 - 世界模型在自动驾驶领域主要用于生成海量合成数据以覆盖数据飞轮积累的corner case和之前布局不到的场景 [11] - 与传统方案相比,世界模型能实现闭环测试,将决策链路放在模型内进行优化,这是最大的不同 [11] - 自动驾驶场景相对简单,且早有“闭环仿真器”概念,生成式AI能力的提升使生成的数据真假难辨,提供了大量有价值的训练样本 [12] - 世界模型的定义尚未统一,例如李飞飞侧重像素级重建,而LeCun认为潜在空间表达也算世界模型 [12] - 自动驾驶领域世界模型的状态表征主流仍是视频生成,同时结合雷达、点云等多模态数据以增强信息量和安全性 [13] - 将世界模型与视觉语言动作模型结合,旨在解决离线数据集无法通过模仿学习获得长程思维和未来预测能力的问题 [15][16] - 世界模型有助于解决长程任务的理解和预测难题,能赋能后续的策略学习 [17] 空间智能的定义与发展 - 空间智能定义尚不清晰,其发展部分源于SLAM技术的延续和演进,现在更多采用基于学习的方法 [20] - 空间智能不仅关注空间几何,还增加了对语义信息的关注,包括物体类别、用途、交互方式等 [21] - 机器人目前处理复杂空间关系(如“第一排左边数第四个瓶子”)的能力仍不成熟,这是空间智能需要解决的问题 [22] - 大模型因训练数据源于语言模态而存在空间关系上的“幻觉”,需构建专门数据集与传统SLAM的强空间能力对齐 [23] - 当前视觉语言模型中的视觉多为2D,3D模态较为欠缺,需补足3D信息以解决空间智能问题 [23] 具身智能的落地应用与商业化挑战 - 无人机应用生态中,航拍、农业植保等易落地应用占比可能不到1%,更多高空作业场景(如灭火、清洗、载人)尚未实现 [26] - 应用未普及的最大卡点之一是“不够智能”,依赖规则编写导致开发成本高,难以算过经济账,AI发展带来了解决希望 [27] - 通过AI与大模型结合改进决策能力,被视为实现通用泛化解决问题能力的关键希望 [29] - 产业界存在迫切需求,希望尽快将机器人用于工业自动化,这与技术创业者的通用智能愿景存在差距 [30] - 人形机器人硬件在负载能力、高负载平衡性、运动稳定性及灵巧手方案等方面仍有诸多挑战,离真正“干活”的应用落地尚有距离 [30] - 中美创业环境存在差异,例如Scale AI估值达140亿美元,而国内创业公司估值多在几亿人民币量级,需同时面对宏大愿景与短期商业化的矛盾 [31] - 创业者认为最终成功做成事情比估值高低更重要,并指出中国投资人对技术的耐心因DeepSeek等案例而有所增加 [31][32] 数据获取策略与有效性 - 机器人数据获取主要有真机采集、仿真和视频生成模型三种方式,其有效性需根据具体任务判断,并非真机数据一定最合理 [34][38] - 数据可视为金字塔结构:底层是大量、低成本的互联网或视频数据,用于预训练;中层是合成数据,用于提高任务泛化性;顶层是真机或遥操数据 [34] - 业界正在探索不同数据源的有效比例,例如一种说法是70%的网络视频数据、20%的合成数据和10%的真机数据 [35] - 合成数据是否有效,关键在于其是否针对特定任务有价值,且其表达形式不一定是视频,也可能是潜在的抽象表征 [35][36][37] - 对于足式机器人的基本运动控制任务,可能在纯仿真环境中无需真实数据即可完成,高度依赖任务形式本身 [38]
世界模型工作正在呈现爆发式增长
自动驾驶之心· 2025-12-20 10:16
文章核心观点 - 世界模型并非端到端自动驾驶本身,而是实现端到端自动驾驶的一种途径,当前行业研究主要聚焦于生成和重建两大领域,并广泛应用于闭环仿真以应对Corner Case成本过高的问题 [2] - 行业正经历风格转换,世界模型相关研究呈现爆发式增长,为应对此趋势,推出了聚焦通用世界模型、视频生成、OCC生成等算法的进阶实战课程 [2] 课程内容与结构 - **第一章:世界模型介绍** 涵盖世界模型与端到端自动驾驶的联系、发展历史、应用案例,并介绍纯仿真、仿真+规划、生成传感器输入、生成感知结果等不同流派及其在行业中的应用环节和解决的问题 [5] - **第二章:世界模型的背景知识** 讲解世界模型的基础技术栈,包括场景表征、Transformer、BEV感知等,为后续学习奠定基础,这些内容是当前世界模型求职面试的高频技术关键词 [5][6] - **第三章:通用世界模型探讨** 聚焦通用世界模型及近期热门工作,详细解析李飞飞团队Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器等模型的核心技术与设计理念 [6] - **第四章:基于视频生成的世界模型** 聚焦视频生成类世界模型算法,讲解Wayve的GAIA-1 & GAIA-2、上海交大CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive等经典与前沿工作,并以商汤开源的OpenDWM进行实战展开 [7] - **第五章:基于OCC的世界模型** 聚焦OCC生成类世界模型算法,讲解三大论文并进行一个项目实战,此类方法可扩展至自车轨迹规划,进而实现端到端自动驾驶 [8] - **第六章:世界模型岗位专题** 基于前五章算法基础,分享工业界应用经验,探讨行业痛点、世界模型需解决的问题,以及相关岗位面试准备与公司关注重点 [9] 课程技术覆盖与学习目标 - **技术覆盖** 课程内容涉及Transformer、视觉Transformer、CLIP、LLaVA、BEV感知、占用网络、扩散模型、闭环仿真、NeRF、3DGS、VAE、GAN、Next Token Prediction等多种生成式模型与关键技术 [11] - **核心算法案例** 课程涵盖清华OccWorld、复旦OccLLaMA、华科ICCV'25的HERMES、西交II-World等具体算法工作 [12] - **学习目标** 学员学完后预期能达到约1年经验的世界模型自动驾驶算法工程师水平,掌握世界模型技术进展,深刻理解BEV感知、多模态大模型等关键技术,能够复现II-World、OpenDWM等主流算法框架,并应用于实际项目设计 [13] 课程安排与面向人群 - **课程安排** 课程于1月1日开课,预计两个半月结课,采用离线视频教学,辅以VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日,各章节按计划从12月10日至次年3月1日逐步解锁 [14][15] - **面向人群** 课程面向具备一定自动驾驶领域基础、熟悉Transformer大模型、扩散模型、BEV感知等基本概念,拥有概率论与线性代数基础,以及Python和PyTorch编程能力的学员,学习需自备算力在4090及以上的GPU [13]
让人工智能“睁眼看世界” 走在国际科技变革最前沿 上海量子城市建设画卷正从复兴岛展开
解放日报· 2025-12-20 08:59
上海量子城市与复兴岛全球创客岛启动 - 上海复兴岛于12月18日启动全球创客岛暨2025上海量子城市年度大会 [1] - 复兴岛将建设智能基础设施,计划按每平方公里10万个的标准分步实施全岛智能感知设施布设 [1] - 复兴岛旨在提升时空智能体能力,构建新质产业线上线下一体的实训场 [1] 人工智能“世界模型”与城市训练场 - 人工智能技术加速迭代,上海正通过构建“世界模型”和提供训练场来捕捉前沿科技变革 [3] - 上海于2024年12月在复兴岛开启“上海量子城市时空创新基地”,被认为走在国际科技变革前沿 [3] - 为弥补AI模型缺乏真实物理世界接触的局限,上海已搭建多个训练场,包括今年2月启用的全国首个异构人形机器人训练场,以及7月发放的首批智能网联汽车示范运营牌照 [3] - 顶尖科学家如斯坦福大学教授李飞飞将“空间智能”视为AI下一个前沿,图灵奖得主杨立昆也宣布将成立专注“世界模型”的新公司 [5] 量子城市时空创新基地的成果与应用 - 基地开启一年来,已发布1个时空数智底板、1个专业语料库、10个应用场景等多项成果 [6] - 量子城市时空数据共享平台1.0版实现了基础地图、三维模型等8类数据的汇集共享 [6] - 建成了全国首个规划和自然资源领域专业语料库,形成“1+4+X”语料体系 [6] - 应用场景包括沪派江南、耕地巡查执法、苏河安全、数字气象等 [6] - 在杨浦区大学路800米范围建立了“悟空”城市空间智能监测评估垂类模型的“米料”级试点区,用于人流动态研判与疏导 [6] - 通过构建四维“时光盒子”数据集,模型可清晰呈现人流实时密度、活动轨迹、进店转化率等指标 [7] - 在曹杨新村构建了三维数字孪生社区“美好生活掌中宝” [7] - 上海市气象信息与技术支持中心将百米分钟级大气实况分析产品与10米太格网耦合,使天气变量成为可计算的城市基础设施 [7] 复兴岛创客生态与人才战略 - 复兴岛向全球创客发出邀请,旨在通过加大人才投资形成“人才红利”以赢得科技革命战略主动 [8][9] - 杨浦区通过“三箭齐发”策略打造全链条创新策源地、强链接创业加速厂、高效率科技转化港、有温度科创朋友圈 [9] - 创造“低成本”创业环境:盘活30万平方米存量工业厂房、2500间创客公寓,并发放新质秀带创新券、算力券、模型券、语料券 [9] - 厚植“快创新”丰沃土壤:联合企业组建科创载体开发平台,招募顶尖孵化器伙伴,支持技术攻关与转化,提供全生命周期科技金融及项目申报服务 [9] - 构建“开放式”创客生态:建设复兴岛创客学院和高校创新联盟,支持共性技术平台,提供落户、导师、实训等服务,探索打造OPC(一人创业公司)社群,支持举办国际峰会、大赛等活动 [9] - 目前已有12家国内外知名孵化器、首批14家创新创业企业正式入驻复兴岛 [10]
前Meta首席AI科学家再创业,AI新公司估值直指30亿欧元
华尔街见闻· 2025-12-19 22:27
公司融资与估值 - 公司正寻求5亿欧元融资 融资完成后 公司正式推出前的估值将达到约30亿欧元 [1] - 公司命名为“先进机器智能实验室” 计划于明年1月公布详细信息 [1] - 这是人工智能领域又一笔高额融资案例 此前OpenAI联合创始人Ilya Sutskever为其成立仅一年的公司Safe Superintelligence筹集20亿美元 估值达320亿美元 [1] 公司技术与战略 - 公司将专注于构建新一代超级智能AI系统 核心是开发能模拟并理解物理世界运行的“世界模型” [2] - 该技术基础源自LeCun在Meta期间主导的研究 致力于构建能通过视频与空间数据学习 并具备持续记忆、复杂推理及规划能力的新型AI架构 [2] - 公司将与Meta建立“合作关系” Meta可获取相关技术并进行商业化应用 以保持其在AI基础设施领域的技术生态延伸 [2] 公司管理层与人事 - 公司已任命法国健康科技初创公司Nabla的联合创始人兼原首席执行官Alexandre LeBrun担任首席执行官 [1] - LeCun将出任公司执行主席 [1] - Nabla已与公司建立战略研究合作伙伴关系 其原首席执行官LeBrun将继续担任Nabla的董事长兼首席人工智能科学家 [3] 行业背景与动态 - LeCun离开Meta的时机正值Meta重新调整AI战略 力图在开发更先进AI系统的竞争中与OpenAI及谷歌直接对抗 [4] - Meta已将战略重心从其人工智能研究院FAIR的长期探索性工作中转移 并于今年10月从AI研究团队裁减约600名员工 旨在降低成本并加速产品化 [4] - LeCun的离职是Meta近期高层变动的延续 今年5月 其AI研究副总裁Joelle Pineau也已离职并加入加拿大AI初创公司Cohere [4]
王晓刚和他的「世界模型」:一人管十狗,先让四足机器人上街干活丨36氪专访
36氪· 2025-12-19 18:31
文章核心观点 - 世界模型是具身智能领域解决主流技术VLA模型瓶颈的关键技术升级,其核心在于让AI理解并预测物理世界的运行规律,从而大幅降低对特定场景海量真机数据的依赖,并实现跨任务、跨场景的泛化能力[4][8][9][10] - 大晓机器人(商汤科技关联公司)发布了“开悟”世界模型3.0及“具身超级大脑模组A1”,旨在通过“世界模型+下游验证闭环”的方法论,率先在四足机器狗等成熟硬件上实现商业化落地,并规划了从城市治理向无人物流仓、家庭场景拓展的路线图[5][7][8][14][16] - 公司强调世界模型的有效性必须通过真实场景的闭环验证来建立,并分享了其以人为中心的数据采集方法论,以及通过To B场景驱动产业链成熟的商业化策略[14][15][38][40][56][58] 技术演进:从VLA到世界模型 - 过去一年,具身智能主流技术VLA模型遇到本质瓶颈:VLA依赖海量“画面—指令—动作”配对数据,像一个“超级模仿者”,但难以真正理解物理规律,导致换环境或对象后成功率下降[9] - VLA模型需要堆叠大量数据才能完成更多任务,但当前数据量难以为继:自动驾驶可积累数百万小时数据,而具身智能因需人工遥控采集,数据量仍困在10万小时量级[9] - 世界模型让机器人大脑从“死记硬背例题”转向“掌握通用公式”,通过理解物理世界的运行规律,支持预测、推理和规划,从而降低对特定场景、海量真机数据的依赖,并实现任务泛化[8][10][27][28] - 行业变化在于,开始把“模型能否在物理世界里闭环生效”作为第一性问题,而不仅是做演示动作[24] 大晓机器人的世界模型解决方案 - 公司发布“开悟”世界模型3.0:该模型在AI中建立物理世界运行规律,使机器人具备理解世界、预测后续状态的能力,可应用于四足狗、双足人形等多样构型本体[8] - 模型能力演示:只需输入文字描述、选择相机机位和机器人本体,世界模型即可生成以机器人为第一视角的动作画面,这些生成的画面与决策可教会机器人与物理世界交互[10][11] - 具身世界模型包含三大核心能力:1) 多模态理解(理解视频内容、相机位姿、3D轨迹、力学属性等);2) 多模态生成(生成可训练的数据和场景,可替换背景、本体等);3) 多模态预测(预测不同动作轨迹)[34] - 与生成式世界模型(如Sora)的区别:Sora是视频生成“黑盒”,不理解物体间的物理关系和因果规律;具身世界模型旨在让机器人在真实世界里进行推理、规划与决策[32][33] 世界模型的数据与方法论 - 世界模型架构与数据分为三层:1) 底层为描述世界物理规律的文本数据;2) 中层为以人为中心采集的人类与物理世界交互数据(如第一视角视频、动作捕捉);3) 上层为配合不同本体的真机动作数据[38] - 强调以人为中心采集数据的原因:以机器人为中心采集效率低,且不同构型本体数据难以复用;先采集人体数据训练出有物理常识的大脑,再迁移到不同机器人上,更容易实现规模化[39][40] - 世界模型可减少对真机数据的需求:自动驾驶真实数据可达数百万小时,机器人真机数据仅1万到10万小时;通过先用人体和环境数据做大盘,再用少量真机数据校准,可进一步压低真机数据需求[41] - 物理规律的覆盖有场景边界:世界模型无法无条件穷尽所有物理知识,公司策略是从道路场景开始,中期拓展至无人物流仓,未来再扩展至家庭场景[42][43] 商业化路径与战略 - 首款商业化载体选择四足机器狗:因硬件技术更成熟、稳定性更高,能更快进入真实场景验证世界模型能力并迭代[7][49] - 具体落地场景:作为机器狗“城管”进行街面巡查(如识别车辆违停、排查违规无人机),目前正与徐汇公安探讨城市治理新方案[6][7] - 商业化路线图:先用四足机器狗开拓增量市场;2-3年后通过轮式双臂机器人拓展至无人物流仓;后续再考虑双足人形与更复杂的家庭场景[16][43] - 商业模式:采取软硬一体策略,但会选择性自研关键部分并与生态伙伴合作,目标是交付可用的产品方案以降低成本、提升稳定性和安全性[50][51] - 市场切入策略:直接进入场景(To B),而非将世界模型卖给本体厂商,因公司更熟悉城市、文旅等场景客户需求,且可利用商汤既有资源摊薄进入成本[52][53] - 竞争策略:以场景为导向,优先寻找增量市场(如城市治理新方案),避免争夺已稳定的存量市场(如电力巡检),从而与本体厂商形成合作而非竞争关系[55] - 市场选择:先做To B市场,因To C市场对可靠性、安全性和耐久性要求极高,在无明确大规模应用场景驱动前,产业链缺乏动力投入巨大成本攻克工程难关;To B场景(智慧城市、园区管理等)能明确机器狗作为“数字员工”的价值,并容忍逐步迭代[56][57][58]
最近收到了很多同学关于自驾方向选择的咨询......
自动驾驶之心· 2025-12-19 17:25
自动驾驶领域研究方向与人才需求 - 行业收到大量来自计算机、车辆、自动化和机械方向学生的咨询,显示该领域人才需求旺盛且背景多元 [2] - 对于计算机与自动化背景的学生,行业建议主攻深度学习方向,包括视觉语言模型、端到端自动驾驶和世界模型等前沿领域,这些方向被认为从入门到就业乃至深造均有广阔空间 [2] - 对于机械与车辆工程背景的学生,行业建议可从传统规划与控制、3D高斯泼溅等方向入手,这些方向对算力要求相对较低且更易入门 [2] - 行业指出,新人研究者需要经历大量实践与试错才能形成有价值的创新想法,方法论提升的关键在于广泛阅读论文和积极交流 [2] 前沿与细分技术赛道 - 行业关注的前沿研究方向包括视觉语言模型、端到端自动驾驶、强化学习、3D高斯泼溅和世界模型 [2] - 行业认为开集目标检测、占用网络、小样本/零样本学习等是相对竞争不那么激烈的细分赛道 [2] - 行业提供的论文辅导服务覆盖了广泛的技术方向,包括但不限于端到端、视觉语言模型、世界模型、强化学习、3D目标检测、多传感器融合、3D高斯泼溅、鸟瞰图感知、占用网络、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、流匹配、点云感知、毫米波雷达、单目感知以及车道线/在线高精地图 [3] 学术成果与发表支持服务 - 行业提供的论文辅导服务声称具有很高的中稿率,并已有成果被计算机视觉、人工智能、机器人、自然语言处理等领域的顶级会议和期刊收录,例如CVPR、AAAI、ECCV、CoRL、ICLR、IROS、ICRA、ACL [7] - 服务支持发表的论文级别多样,涵盖自动驾驶顶会/顶刊、中国计算机学会推荐的A/B/C类会议期刊、科学引文索引的一至四区期刊、中科院分区的一至四区期刊、以及工程索引和中文核心期刊 [10] - 服务内容全面,包括论文选题、全流程指导以及实验指导 [6] - 服务范围不仅限于学术论文发表,还扩展至毕业设计论文、申请博士以及竞赛支持 [10] - 服务提供针对不同论文级别的差异化定价 [8]