世界模型
搜索文档
中国AI走出差异化务实之路
中国青年报· 2025-12-10 15:28
"美国靠资本市场优势赌AGI,中国则在性价比和产业应用中找机会。" "如果大模型不能实现AGI(通用人工智能),那么当前美国大模型公司在算力上的海量投入,大概率 短期内是算不过账来的,这可能是当下最大的泡沫。"上海未来产业基金总经理、上海未来启点社区理 事长魏凡杰的判断,道出了当前AI领域的争议核心。 当全球AI投资经历了3年多的"狂热"后,"泡沫论"的声音最近在美国此起彼伏。11月9日高盛发布研报 称:AI领域出现了类似于互联网泡沫破裂前的五项危险征兆,甚至泡沫程度更高。北京大学新结构经 济学研究院院长林毅夫日前在第十届复旦首席经济学家论坛上表示,"十五五"期间,美国很可能出现人 工智能泡沫的破灭,且可能像2008年美国房地产市场泡沫那样,给美国带来金融危机甚至全世界的经济 危机。 11月29日,清华大学FIT楼,在2025年中国人工智能大会暨全国人工智能学院院长(系主任)年会上海 未来启点社区分论坛:觉醒之境——AI的下一代基础方程研讨会上,30余位来自学术界、产业界、投 资界的专业人士多角度勾勒出中国AI"挤泡沫、练内功、出实绩"的发展图景——不赌虚无缥缈的概念, 而是聚焦底层创新、产业适配和性价比提升 ...
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了
量子位· 2025-12-10 12:26
2025年AI行业发展主旋律 - 2025年AI行业的主线故事围绕开源与性能的双线竞速展开,开源模型与闭源旗舰在推理效率、训练范式和成本结构上展开竞争 [1] - 世界模型从论文概念发展为真实产品与公司战场,李飞飞与Yann LeCun分别押注不同路线,将“通向AGI的路”指向世界模型之争 [1] - 具身智能机器人和搭载的模型实现爆发式迭代,AI玩具、AI手机、AI PC、智能座舱等终端设备全面铺开,成为AI能力落地现实世界的关键试验田 [1] - 2025年被称为“Agent元年”,AI Agent实现了从“被动应答”到“主动规划执行”的质变,能够独立完成复杂任务,从概念验证步入规模化商业应用起点,引发制造、金融、办公、生活等各行业变革 [1] - 互联网正在进入Agent互联网时代 [2] - 在医疗、气象、工业等行业,AI与既有系统深度结合,逐步演化为关键基础设施的一部分,形成从云到端、由软入硬的紧密共生网络 [3] 2025人工智能年度领航企业 - 该榜单汇聚了技术领先、长期投入、产品落地与产业口碑等多重维度,代表了中国AI生态最具代表性的一批力量 [12] - 这些企业在2025年扮演了“造浪者”与“稳舵者”的双重角色,不断向产业输出新范式、新工具、新样板 [14] - 上榜企业包括但不限于:岩心科技、Rokid、阿里云、百川智能、百度、百融云创、出门问问、滴滴自动驾驶、飞书、粉笔、高德、格灵深瞳、光轮智能、国星宇航、好未来、哈啰、后摩智能、华为、火山引擎、阶跃星辰、京东科技、金山办公、九章云极、科大讯飞、快手、昆仑万维、浪潮信息、联汇科技、联想集团、零一万物、理想汽车、潞晨科技、蚂蚁集团、美团、面壁智能、摩尔线程、群核科技、趣丸科技、荣耀、商汤科技、生数科技、声网、深演智能、是石科技、腾讯、网易有道、未来医生、文远知行、无问芯穹、小满科技等 [16] 2025人工智能年度潜力创业公司 - 该榜单中的公司凭借硬核技术与自研基础模型脱颖而出,或踩准前沿方向快速突围,或深扎垂直场景将AI能力在细分领域发挥到极致 [18] - 这些公司在过去一年里算法与工程持续迭代、用户与收入稳步增长,获得资本与产业伙伴的双重验证 [19] - 上榜公司包括但不限于:PPIO、MetaGPT、BetterYeah、DeepWisdom、Dexmal、原力灵机、VAST、爱诗科技、戴盟机器人、北京人形机器人创新中心、海新智能、汇智智能、DILIGINE、加速进化、德警光学、九识智能、极峰科技、秘塔科技、灵心巧手、穹彻智能、趋境科技、商汤绝影、魔珐科技、深势科技、太初元碁等 [22] 2025人工智能年度杰出产品 - 年度杰出产品展现了从云到端、从屏幕到现实世界的完整应用链路,一端是深入日常沟通、搜索、创作的智能助手与国民级应用,另一端是嵌入企业工作流的智能协同平台和多维数据工具 [24] - 这些产品有的已触达千万用户,有的深藏系统幕后,共同勾勒出下一代应用的轮廓 [24] - 上榜产品包括但不限于:BetterYeah AI、百川智能的Baichuan-M2、蚂蚁集团的Agent开发平台、联想集团的ima.copilot、月之暗面的Kimi、腾讯的Kiro Agent、MiniMax的Linker Hand灵巧手、灵心巧手的OmAgent、小满科技的OKKI AiReach、联汇科技的Pi终端智能平台、PPIO的Agent沙箱、美图的RoboNeo、Dexmal的原力灵机、天工超级智能体、中国电信的AI视频创作平台、出门问问的TicNote Agents、昆仑万维的Skywork Super、字节跳动的The Real AI Engineer、VAST的Tripo AI、生数科技的Vidu、金山办公的WPS灵犀、RockAI的Yan 2.0 Preview、智谱的Z.ai、阿里云的自炼大模型服务与应用开发平台、百度的慧播星与网盘、中关村科金的得助大模型平台、高通的第五代骁龙8至尊版移动平台、字节跳动的豆包、飞书的多维表格、长猪AI、粉笔的AI系统班、后摩智能的漫界M50、阶跃星辰的阶跃AI、九章云极的九章智算云、快手的可灵AI、联想的个人超级智能体、蚂蚁集团的灵光、国星宇航的零碳太空计算中心、美团的龙猫LongCat、蚂蚁集团的百宝箱Tbox、秘塔科技的AI搜索、360集团的纳米蜂群智能体、阿里巴巴的千问APP、逐际动力的全自由度人形机器人、荣耀的MagicOS 10、云知声的山海大模型、商汤科技的大装置与小浣熊、声网的对话式AI引擎、深演智能的Deep Agent Neo、腾讯的混元3D、网易有道的词典、文远知行的Robotaxi GXR、无问芯穹的AI云、科大讯飞的星火APP与长智文、高德的小昌老师、猿力科技的小猿AI学习机、腾讯的元宝、浪潮信息的元脑SD200、知乎的直答、卓世科技的璇玑-智企、云徘科技的xGOS.AI企业运营超级智能体、上海人工智能实验室的『书生』科学多模态大模型Intern-S1等 [27][28][29] 2025人工智能年度杰出解决方案 - AI正通过一整套解决方案在系统深处重写行业运行方式,榜单涵盖了各个领域内的多个方向,将前沿算法装进成熟产品形态,扎进真实业务流程 [30][31] - 这些面向具体场景的解决方案加速了大模型、Agent、世界模型与具身智能在千行百业的深度融合 [31] - 上榜解决方案包括但不限于:亚马逊云科技的Amazon Bedrock、京东集团的JoyInside AgentCore时身智能、趋境科技的KLLM变革级大模型推理引擎系统、阿里商旅与飞猪的AI解决方案、阿里云的无影AgentBay、快手的超级员工Kwali、滴滴自动驾驶的L4技术方案4.0、百度的PaddleOCR-VL多模态文档解析、优必选的Walker S2工业人形机器人、九识智能的无人驾驶多场景配送解决方案、好未来的九章爱学多模态智能学伴解决方案、联想集团的联想混合式人工智能优势集、蚂蚁数科的Agentar企业级智能体解决方案、零一万物的哈萨克斯坦AlemLLM语言模型、趣丸科技的趣丸千音、商汤科技的日日新大模型等 [33] 2025人工智能年度焦点人物 - 该榜单人物包括押注艰难方向的创业者、大体量平台的掌舵者、以产品和业务增长证明路线的实践者、以科学研究和开放协作拉高技术上限的研究者,以及在科研、产业与资本之间搭桥的串联者 [35] - 他们为AI发展写下最具辨识度的注脚 [36] - 上榜人物包括但不限于:PPIO的姚欣、百川智能的王小川、百度的李彦宏、北京智源人工智能研究院的王仲远、出门问问的李志飞、阶跃星辰的姜大昕、九章云极DataCanvas的方磊、昆仑万维的方汉、联汇科技的赵天成、理想汽车的李想、潞晨科技的尤洋、零一万物的李开复、摩尔线程的张建中、清华大学的吴翼、清华大学智能产业研究院的张亚勤、穹彻智能的卢策吾、上海人工智能实验室的周伯文、商汤科技的王晓刚、生数科技的骆怡航、是石科技的闫博文、太初元碁的乔梁、文远知行WeRide的韩旭、无问芯穹的夏立雪、小马智行的彭军、小宿科技的杜知恒、北京大学及银河通用的周剑、优必选的周剑、月之暗面的黄伟、云知声的黄伟、字树科技的王兴兴、浙江大学及蚂蚁集团的赵俊博、智平方的郭彦东、智谱的张鹏、智象未来的梅涛、智元机器人的彭志辉、中关村科金的喻友平、卓世科技的層静、逐际动力的张巍、自变量机器人的王潜等 [38][39][40][41][42][43][44][45][46][47][48][49][50][51][52][53][54][55][56][57][58][59][60][61][62][63][64][65][66][67][68][69][70][71][72][73][74][75][76][77][78][79][80][81][82][83][84][85][86][87][88][89][90][91][92][93][94][95][96][97][98][99][100][101][102][103][104][105][106][107][108][109]
安向京:无人驾驶终端具身移动 是充满想象力的新赛道
新浪财经· 2025-12-10 10:37
公司概况与战略定位 - 行深智能成立于2017年,已有八年历史,公司聚焦于L4级末端无人物流赛道 [2] - 公司提出“认知创新”作为其核心能力,认为无人驾驶不仅是替代司机,而是实现“运力载具的信息化共享”和“空间转移平台的管理” [27] - 公司的愿景是将无人驾驶能力覆盖并赋能所有终端移动或具身移动应用,包括快递、生鲜、烟草、预制菜等城配体系,以及环卫、安防、煤气巡检等 [1][27] 产品与技术路径 - 公司产品目前主要处于末端低速城配场景,速度限制在40公里以下 [11][12] - 公司发展遵循从低速到高速、从运货到运人、从有限场景到随机场景的路径 [11] - 公司已有一款名为“袋鼠”的无人车与机器人协同产品雏形,正在进行测试,预计明年可实现规模化测试和商用 [7][8][9][10] - 对于高速场景,公司有实验但尚未推出产品 [13] 行业场景与市场理解 - 物流领域分为干线物流(城市间高速公路)、支线物流(城市内及卫星城)和末端物流(城配及最后一公里) [4] - 无人驾驶的难度与场景丰富度相关:干线难度小于支线,支线难度小于末端 [10] - 末端场景包含大量非结构化环境,如背街小巷、上下楼梯、无地图区域等,对数据量和算法挑战更大 [10] - 商用车(无人驾驶)与乘用车(辅助驾驶)的核心区别在于:商用车强调解决问题(安全送达货物),乘用车强调驾驶感受与人机交互 [21] 核心技术壁垒与研发重点 - 无人驾驶能力的核心是数据、算力、算法,其中数据来源于场景 [10] - 公司认为技术壁垒在于能否有效地将场景拓展中获取的数据转化为自身能力 [14] - 因果推理和数据闭环对于无人驾驶非常重要,机器可以利用未来数据优化算法,这是人类不具备的优势 [22] - 强化学习在商用车领域的奖惩机制更强调安全第一 [22] - 高精地图并非必不可少,应与L2的轻地图方案结合,根据场景(有无普通地图)灵活使用 [15] - 在无GPS信号等极限场景(如分拣中心),依赖识别、感知和高精地图等辅助手段 [16][18] 技术发展趋势与未来展望 - 随着算力提升,VRM(视觉关系模型)、VRA(视觉关系对齐)等技术将大规模应用于无人驾驶 [23] - 世界模型技术可通过仿真虚拟场景来训练算法,大幅提升开发和生产效率,带来安全与性能的质变 [23] - 未来三到五年,技术突破点在于利用世界模型实现“左右互搏”式的仿真训练,减少对实车采集数据的依赖 [23] - 训练模型时,数据的质量和分布(足够宽、足够广)比单纯的数量更重要 [24][26]
澳门大学首个世界模型驱动的视觉定位框架!
自动驾驶之心· 2025-12-10 08:04
文章核心观点 - 澳门大学研究团队提出全新框架ThinkDeeper,首次将世界模型引入自动驾驶视觉定位,旨在解决现有模型在复杂交互场景中因缺乏时空前瞻性而导致的指令理解模糊问题,使自动驾驶系统能像人类一样“预判”未来,从而精准理解乘客意图 [5][11][22] 现有自动驾驶视觉定位模型的局限性 - **空间感知不足**:普通模型缺乏3D深度感知,难以区分背景板与交互对象,例如可能将广告牌上的汽车误认为真车 [8] - **时间推演缺失**:现有模型仅基于当前帧图像“看图说话”,缺乏对未来状态的推演能力,无法从根本上消除指向未来的指令歧义 [10] - **落地可行性低**:通用多模态大模型参数量动辄百亿,推理延迟高,难以满足车载芯片的算力限制和自动驾驶毫秒级响应的实时性要求 [10] ThinkDeeper框架的核心创新 - **核心思想**:引入“三思而后行”理念,在行动前先思考未来 [5][12] - **空间感知世界模型**:该模型让系统在决策前完成两步关键操作 [14] - **去粗取精**:结合语音指令,从复杂街景中提取与任务强相关的关键潜变量状态,过滤无关信息 [14] - **推演未来**:基于提取的关键信息,快速预测未来画面,生成“未来状态链”,获得前瞻性线索 [14] - **信息融合与定位**:通过超图解码器,将时空推演线索与视觉、深度信息融合,从而在模糊指令下精准定位目标 [15] DrivePilot数据集 - **创建目的**:为解决传统自动驾驶数据集场景单一、标注缺乏深层语义理解的问题 [18] - **构建方法**:利用Qwen2-VL大模型的场景理解能力,结合检索增强生成和思维链技术,构建自动化高质量数据生产流水线 [18] - **数据特点**:包含数万个复杂场景,提供多达14个维度的详尽语义标注,涵盖天气、情绪上下文、交通规则、驾驶意图等多方面信息 [19] 实验性能与结果 - **基准测试表现**:在Talk2Car等六大主流基准测试中,ThinkDeeper超越了所有现有方案,登顶榜首 [20][26] - **处理复杂场景优势**:在DrivePilot数据集的长文本、多智能体和模糊指令等极端案例场景中,表现大幅领先MiniGPT-v2、Qwen2.5-VL等通用大模型 [26] - **效率与实时性**:模型在保持高性能的同时,在A40 GPU上的推理速度达到39毫秒,完全满足车载芯片的实时性要求 [26]
随到随学!端到端与VLA自动驾驶小班课正式结课
自动驾驶之心· 2025-12-10 03:00
行业技术发展趋势 - 2023年是端到端自动驾驶量产的元年,2024年将是其量产的大年,目前头部新势力和主机厂均已实现端到端量产 [1] - 工业界存在两种主要技术范式:一段式(如UniAD,从传感器输入直接建模自车轨迹)和二段式(基于感知结果进一步输出自车及他车轨迹) [1] - 自2023年以来,一段式端到端技术发展迅速,衍生出基于感知、世界模型、扩散模型及视觉语言模型(VLA)等多种方法 [3] - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力端到端自动驾驶的自研与量产 [3] - 基于视觉语言模型(VLA)的端到端方法被认为是目前该领域的皇冠,上限高且难度大,因此业内招聘需求也最为旺盛 [12] 课程核心内容与结构 - 课程旨在系统讲解端到端与VLA自动驾驶,内容涵盖BEV感知、视觉语言模型、扩散模型、强化学习等前沿技术栈 [5] - 第一章介绍端到端算法的发展历史、概念起源、从模块化到端到端的演进,以及一段式、二段式和VLA范式的优缺点与适用场景 [8] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习及BEV感知,这些被认为是未来两年求职面试的高频技术关键词 [8][9] - 第三章聚焦二段式端到端,解析其定义、出现原因,并讲解经典算法PLUTO、CVPR'25的CarPlanner及最新的Plan-R1等工作 [9] - 第四章作为课程精华,深入讲解一段式端到端的各个子领域:基于感知的UniAD、基于世界模型、基于扩散模型以及基于VLA的方法 [10] - 第五章设置RLHF微调大作业,进行实战演练,内容包括预训练与强化学习模块搭建,该技能可迁移至VLA相关算法 [11][13] 关键技术详解与实战案例 - 基于感知的一段式方法将讲解奠基之作UniAD、地平线VAD以及CVPR'24的PARA-Drive [12] - 基于世界模型的方法将讲解AAAI'25的Drive-OccWorld和复旦团队的OccLLaMA,世界模型技术方向热门,应用广泛,包括场景生成、端到端驾驶和闭环仿真 [12] - 基于扩散模型的方法将讲解业内应用广泛的DiffusionDrive、Diffusion Planner和吉大的DiffE2E,并配有Diffusion Planner实战,扩散模型用于多模轨迹预测以更好适应环境不确定性 [12] - 基于VLA的方法将讲解小米的ORION、慕尼黑工大的OpenDriveVLA以及最新的ReCogDrive,并以小米ORION(截至2025年7月已开源推理和评测模块)作为实战案例 [12] - 课程第二章将详细拆解多项基础技术:从Transformer扩展到视觉Transformer,讲解CLIP和LLaVA;详解BEV感知在3D检测、车道线、OCC、轨迹预测与规划中的应用;讲解扩散模型理论;以及VLM相关的强化学习技术如RLHF和GRPO [11] 课程目标与受众要求 - 该课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地 [14] - 期望学员学完后能达到具备1年左右经验的端到端自动驾驶算法工程师水平 [16] - 学员需自备GPU,推荐算力在RTX 4090及以上;需具备一定的自动驾驶领域基础,熟悉基本模块;了解transformer大模型、强化学习、BEV感知等基本概念;具备概率论、线性代数基础及Python和PyTorch编程能力 [16] - 课程收获包括:掌握涵盖一段式、两段式、世界模型、扩散模型等的端到端技术框架;对BEV感知、多模态大模型、强化学习、扩散模型等关键技术有更深刻理解;可复现扩散模型、VLA等主流算法框架;能够将所学应用于实际项目设计 [16]
世界模型自动驾驶小班课!特斯拉世界模型、视频&OCC生成速通
自动驾驶之心· 2025-12-10 03:00
课程核心定位 - 课程为自动驾驶领域首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地,并助力学员深入理解端到端自动驾驶 [11] - 课程聚焦于通用世界模型、视频生成、OCC生成等世界模型算法,涵盖特斯拉世界模型、李飞飞团队Marble等前沿工作 [1] - 课程由工业界专家授课,内容基于讲师丰富的端到端算法研发和量产实战经验 [3] 讲师背景 - 讲师Jason拥有C9本科和QS50高校的博士学位,已发表多篇CCF-A/B类论文 [3] - 现任国内顶级主机厂算法专家,从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持完成多项自动驾驶感知和端到端算法的产品量产交付 [3] 课程大纲与内容结构 - **第一章:世界模型介绍** 复盘世界模型与端到端自动驾驶的联系,讲解其发展历史、应用案例、不同技术流派(如纯仿真、仿真+Planning、生成传感器输入等)及其在业界解决的问题和所处环节,并介绍相关数据集与评测 [6] - **第二章:世界模型的背景知识** 讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等,这些内容是当前世界模型求职面试频率最高的技术关键词 [6][7] - **第三章:通用世界模型探讨** 聚焦通用世界模型及近期热门工作,详细讲解李飞飞团队的Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器 [7] - **第四章:基于视频生成的世界模型** 聚焦视频生成类世界模型算法,讲解Wayve的GAIA-1 & GAIA-2、上海交通大学的UniScene、商汤的OpenDWM、中科大的InstaDrive等经典与前沿工作,并以商汤开源的OpenDWM进行实战 [8] - **第五章:基于OCC的世界模型** 聚焦OCC生成类世界模型算法,包含三大论文讲解和一个项目实战,此类方法可扩展至自车轨迹规划,进而实现端到端 [9] - **第六章:世界模型岗位专题** 基于前五章算法基础,分享工业界应用经验、行业痛点、期望解决的问题,以及相关岗位面试准备与公司关注重点 [10] 关键技术覆盖与学后收获 - **关键技术覆盖** 课程将详细讲解Transformer、视觉Transformer、CLIP、LLaVA、BEV感知、占用网络、扩散模型、闭环仿真、NeRF、3DGS、VAE、GAN及Next Token Prediction等生成式模型 [12] - **核心算法掌握** 学员将掌握世界模型技术进展,涵盖视频生成、OCC生成等方法,并对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解 [14] - **实战能力目标** 学员学完后能够复现II-World、OpenDWM等主流算法框架,能够将所学应用到项目中,设计自己的世界模型,达到约1年经验的自动驾驶算法工程师水平 [14] - **职业发展受益** 课程内容对实习、校招、社招均有助益 [14] 课程进度与安排 - 课程于1月1日开课,预计两个半月结课,采用离线视频教学,并提供VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日 [15] - 各章节解锁时间安排如下:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁 [16] 面向人群与先修要求 - **面向人群** 课程面向具备一定自动驾驶领域基础,熟悉基本模块的学员 [14] - **先修知识要求** 学员需了解transformer大模型、扩散模型、BEV感知等基本概念,具备一定的概率论、线性代数基础,以及Python和PyTorch编程能力 [14] - **硬件要求** 学员需要自备GPU,推荐算力在RTX 4090及以上 [14]
端到端落地小班课:核心算法&实战讲解(7个project)
自动驾驶之心· 2025-12-10 03:00
行业招聘与技能需求趋势 - 自动驾驶行业招聘需求正发生变化,两年前热门的感知岗位需求进一步收缩,当前需求较高的方向集中在端到端、VLA(视觉语言动作模型)、世界模型等领域 [2] - 头部玩家已验证端到端技术路径可行,其他车企正跟进投入资源,从模型优化、场景优化、数据优化到下游的规划兜底方案 [2] - 市场对候选人的技术要求更广,涉及导航信息引入、强化学习调优、轨迹建模与优化等具体量产经验,但目前候选人往往只精通部分领域 [2] 端到端自动驾驶技术核心 - 端到端系统正成为主流,其核心在于合并感知任务并使规控(规划与控制)算法学习化,取代传统的感知、地图、规控等多模块分立系统 [7] - 技术框架主要分为两段式与一段式:两段式框架涉及感知与PNC(规划、导航与控制)的信息传递;一段式框架可实现信息无损传递,性能通常更优,具体方案包括基于VLA和基于扩散模型的方法 [8][9] - 导航信息是关键要素,起引导、选路、选道作用,其在地图中的编码与嵌入方式是发挥效力的重点 [10] - 纯模仿学习存在局限,需结合强化学习以处理人类驾驶风格差异和罕见场景,使系统学习因果关系并实现泛化 [11] - 量产落地需规划兜底方案,通过时空联合规划等后处理逻辑对模型输出轨迹进行平滑优化,以保证稳定可靠 [13] 量产实践与课程内容映射 - 面向量产的端到端实战涉及多个核心算法,包括:一段式/两段式端到端、导航信息量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等 [2] - 量产经验分享涵盖数据、模型、场景、规则等多视角,旨在提供解决实际问题的工具与策略,以快速提升系统能力边界 [14] - 相关实战课程设计为期三个月,从任务概述、算法框架、RL算法、轨迹优化到兜底方案与经验分享,层层展开 [2][7][8][9][10][11][12][13][14]
Khosla 继 OpenAI 后的最大赌注,General Intuition 凭 38 亿个游戏高光片段做世界模型
海外独角兽· 2025-12-09 20:05
公司概况与融资 - 公司General Intuition是一家专注构建世界模型的公益性初创公司,其战略目标是成为“原子到原子”时代的智能标准,而非重新发明LLM [4] - 2024年10月,公司完成了高达1.34亿美元的种子轮融资,由硅谷传奇投资人Vinod Khosla领投,这是其自2019年首次投资OpenAI以来开出的最大单笔种子轮投资 [2][5] - 投资人Vinod Khosla的投资逻辑类似当年下注OpenAI,是基于第一性原理推演出的变革性技术路径,他看重的是公司宏大的终极愿景和战略推演能力 [6] 核心数据资产 - 公司从游戏高光片段剪辑平台Medal分拆而来,拥有超过38亿个游戏短视频片段,构成了其无法复制的独特数据集 [2][7] - 该数据集与Twitch或YouTube的流媒体直播有本质区别,它通过“回溯录制机制”天然经过了人类筛选,剔除了99%的无意义垃圾时间,只保留了代表“人类高光行为”的片段,被描述为人类在模拟环境中的“情景记忆” [11][12] - 数据不仅包含视频画面,还通过底层技术同步记录了玩家在每一帧下的具体操作输入,形成了数十亿小时的“人类操作(因)”与“屏幕反馈(果)”的完美配对数据 [13] - 公司对数据进行了标准化和隐私处理,雇佣了数千名标注员将不同游戏中的操作映射为标准化的动作空间,并规避了原始按键日志的隐私风险 [14] - 据CEO估计,公司拥有的带动作标签的视频数据集规模,比目前互联网上其他同类数据集高出1-2个数量级 [14] 技术路径与演示 - 公司的技术目标是构建真正的世界模型,其预测目标是在连续的物理空间中进行“下一个动作/状态预测”,这与LLM的“下一个词预测”形成本质区别 [31][32] - 技术演示显示,其训练的AI智能体在一款射击游戏中基于纯视觉输入进行实时对战,不依赖游戏底层代码或API,仅通过“看到”的屏幕像素来理解环境并生成操作 [20][21] - 智能体通过大规模模仿学习,表现出了拟人化特征,如准星移动带有自然平滑曲线,并复刻了人类玩家查看计分板、无聊切刀等“坏习惯”或“无意义动作” [23] - 模型展现出对“物体恒存性”的理解,即使在目标被烟雾或墙壁完全遮挡(部分可观测)的情况下,仍能根据其消失前的轨迹推测并锁定位置 [25] - 模型在生成画面时表现出物理一致性,例如在爆炸场景中生成原版游戏可能没有的镜头晃动,表明其正在学习跨越虚拟与现实的通用物理法则 [26][27] 与LLM的互补关系 - 公司认为其空间智能技术与LLM是互补而非竞争关系:LLM擅长处理被文本高度压缩后的符号逻辑,而公司模型旨在处理被文本压缩掉的、高维的时空信息,掌握人类的直觉与物理常识 [28][29] - 在未来AI架构中,LLM扮演“指挥官”角色,负责高层语义理解和任务规划;而公司的世界模型则是“执行者”,负责处理毫秒级的视觉输入和物理动作控制 [30] - 这种分工解决了LLM落地物理世界时推理延迟过高和缺乏物理直觉导致动作失败的两个致命问题 [30] 商业化路线图 - **第一阶段:游戏产业**。为游戏开发者提供API,用基于视觉的通用AI替换传统的硬编码逻辑或行为树,使游戏角色行为更自然。核心价值是充当“智能替补”,在非高峰时段生成与真人无异的AI对手,以提升玩家留存率 [34][36][37] - **第二阶段:模拟环境(如自动驾驶)**。利用虚拟世界(如模拟驾驶游戏)的低成本数据对现实世界模型进行预训练。例如,玩《欧洲卡车模拟》的玩家数量远超Waymo的实际路测车队,且能获取现实中稀缺的“负样本”(如车祸数据)。公司认为,模型在模拟中学到通用驾驶直觉后,现实自动驾驶公司可能只需原本1%或10%的真实路测数据进行微调即可达到同等安全性 [37][38][39] - **第三阶段:机器人与物理世界**。终极愿景是实现“Atoms to Atoms”闭环,驱动物理世界中的原子交互。公司设想在2030年,其模型能够驱动全球约80%的原子级物理交互(如抓取、移动、避障),成为智能的“金标准” [3][5][40] 创始团队与公司文化 - CEO Pim de Witte是技术产品型领袖,拥有深厚的游戏社区(Medal.tv创始人)、GPU编程和基础设施经验,并通过系统性学习深入理解深度学习与模型原理 [41][42] - 核心研究团队由在世界模型领域有开创性贡献的学者组成,包括GAIA(自动驾驶生成模型)核心负责人、DIAMOND论文作者等,他们因看重公司独一无二的数据集潜力而加入 [44][46] - 公司追求高“人才密度”,并致力于复兴AI领域的“开放研究文化”,例如与开放科学实验室Kyutai合作,认为其数据护城河允许其通过开放协作吸引顶尖人才 [44][47] 行业背景与机遇 - 公司崛起得益于“算力硬件的红利”,消费级GPU算力的指数级爆发使其技术路线在经济上可行。2024年的Diamond论文证明了复杂世界模型可在单张消费级显卡上以10 FPS或更高帧率运行 [17] - 这使得公司可采用“端侧推理”策略,将计算任务下放到用户本地设备(如玩家电脑),从而消除云端推理成本并解决延迟问题,这与LLM公司面临高昂云端推理成本的情况形成对比 [19] - 公司将其技术路径定位为AI发展的第三阶段(Atoms to Atoms),即机器人在物理世界中执行任务,而LLM主导的第一阶段(Bits to Bits,如文本生成)已趋于商品化 [4][5]
世界模型与自动驾驶小班课正式推出!特斯拉世界模型、视频OCC生成一网打尽~
自动驾驶之心· 2025-12-09 15:59
课程核心内容与定位 - 课程名称为《世界模型与自动驾驶小班课》,是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地,并助力学员真正理解端到端自动驾驶 [2][10] - 课程由“自动驾驶之心”公众号联合工业界大佬推出,是继《端到端与VLA自动驾驶小班课》后进一步推出的课程,聚焦于通用世界模型、视频生成、OCC生成等世界模型算法 [2] - 课程讲师Jason拥有C9本科和QS50 PhD背景,发表多篇CCF-A/B论文,现任国内TOP主机厂算法专家,主持并完成多项自动驾驶感知和端到端算法的产品量产交付,具备丰富的研发和实战经验 [2] 课程大纲与章节详解 - **第一章:世界模型介绍** 复盘世界模型与端到端自动驾驶的联系,讲解其发展历史、当下应用案例,并介绍纯仿真、仿真+Planning、生成传感器输入、生成感知结果等不同流派,以及它们在业界的应用、解决的问题、所处环节、相关数据集和评测 [5] - **第二章:世界模型的背景知识** 讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等,为后续章节奠定基础,其内容是当下世界模型求职面试频率最高的技术关键词 [5][6] - **第三章:通用世界模型探讨** 聚焦通用世界模型和近期热门工作,涵盖李飞飞团队的Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及业界广泛讨论的VLA+世界模型算法DriveVLA-W0和特斯拉ICCV上分享的世界模型模拟器 [6] - **第四章:基于视频生成的世界模型** 聚焦视频生成类世界模型算法,从Wayve的GAIA-1 & GAIA-2开始,扩展到上交CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive,兼顾经典与前沿进展,并以商汤开源的OpenDWM进行实战 [7] - **第五章:基于OCC的世界模型** 聚焦OCC生成类世界模型算法,包含三大论文讲解和一个项目实战,此类方法不局限于OCC生成,可较易扩展为自车轨迹规划,从而进一步实现端到端 [8] - **第六章:世界模型岗位专题** 基于前五章算法基础,分享工业界应用经验,探讨行业痛点、期望解决的问题,以及如何准备相关岗位面试和公司真正关注的内容 [9] 课程技术深度与学后收获 - 课程将详细讲解Transformer、视觉Transformer、CLIP、LLAVA、BEV感知、占用网络(Occupancy Network)、扩散模型、闭环仿真、NeRF、3DGS、VAE、GAN及Next Token Prediction等关键技术概念 [11] - 课程涵盖OCC生成类世界模型的多个前沿工作,包括清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES以及西交最新的II-World [12] - 学员学完本课程后,预期能够达到1年左右世界模型自动驾驶算法工程师水平,掌握世界模型技术进展(涵盖视频生成、OCC生成等方法),对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解,并可复现II-World、OpenDWM等主流算法框架,能够将所学应用到项目设计中,对实习、校招、社招均有助益 [13] 课程安排与面向人群 - 课程开课时间为1月1号,预计两个半月结课,采用离线视频教学,辅以VIP群内答疑和三次线上答疑 [14] - 章节解锁时间安排如下:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁 [14] - 面向人群需自备GPU(推荐算力在4090及以上),具备一定的自动驾驶领域基础,熟悉自动驾驶基本模块,了解transformer大模型、扩散模型、BEV感知等技术的基本概念,具备一定的概率论、线性代数基础以及Python和PyTorch语言基础 [13]
3个月斩获5亿元!华为重投的具身智能机器人创企,又完成新一轮融资!
Robot猎场备忘录· 2025-12-09 08:03
公司融资情况 - 公司于2025年12月8日完成2亿元A2轮融资,由达晨财智领投,老股东华控基金联合领投,多家知名机构跟投[2] - 公司在2025年内密集完成多轮融资,包括Pre-A轮、Pre-A+轮、A1轮及A2轮,A系列累计融资额达5亿元[3] - 公司自成立以来累计完成7轮融资,早期融资包括2024年9月的近5000万天使及天使+轮,以及2023年3月的数千万元种子轮[5] - 公司是华为投资的第二家具身智能领域创企,另一家千寻智能已完成5轮累计近14亿元融资[5] 公司定位与核心团队 - 公司于2023年1月在北京注册成立,定位为物理AI公司,专注世界模型驱动的物理世界通用智能,是国内第一家专注「世界模型 x 具身大脑」方向的科技公司[5] - 核心团队兼具业内领先的研究能力和大规模的产业落地经验,是少有的同时具备计算机视觉和大模型经验的创始团队[7] - 创始人兼CEO黄冠为清华大学人工智能方向博士,国家级创新领军人才,拥有超过十年AI技术和产业经验[10] - 首席科学家朱政为中科院自动化所博士、清华博士后,拥有超过70篇视觉和AI方向顶会论文,连续四年入选全球前2%顶尖科学家榜单[10] - 其他核心高管包括来自百度、阿里云、地平线等公司的资深工程、产品及算法负责人[10] 技术路线与产品布局 - 公司采取全栈自研策略,同时布局“本体+大脑”,产品包括世界模型平台GigaWorld、具身基础模型GigaBrain、通用具身本体Maker等物理AI全栈软硬件产品[8] - 软件层面,世界模型平台GigaWorld应用于驾驶和具身两个方向,已发表DriveDreamer、EmbodiedDreamer等多个代表性成果[11] - 2025年12月2日,公司发布并开源具身世界模型GigaWorld-0,全球范围内首次实现世界模型生成数据在VLA训练中占比达90%,并使具身VLA大模型性能飙升300%[11] - GigaWorld-0是业内首个采用FP8精度端到端训练的世界模型,在三大泛化维度上均实现近300%的性能提升[11] - 2025年7月,公司发布全球首个主要依靠世界模型生成数据驱动的端到端VLA具身基础模型GigaBrain-0 Preview[12] - 2025年10月底,与湖北人形机器人创新中心联合发布GigaBrain-0,为国内首个利用世界模型生成数据实现真机泛化的VLA基础模型[12] - 2025年10月31日,公司正式开源三大AI基础设施框架:GigaDatasets、GigaModels和GigaTrain[13] - 硬件层面,2025年11月26日公司推出首款轮式仿生机器人Maker H01,采用双臂+移动底盘形态,全身拥有二十余个自由度[14] - Maker H01搭配GigaBrain和GigaWorld工具链,旨在快速在家庭、商业服务、轻工业等开放场景中以更低成本、更高成功率落地[14] 业务与商业化进展 - 公司已和多个行业头部客户达成签约和量产合作,包括全球多个头部主机厂、多地人形机器人创新中心和实训场、多个具身方向头部工业/服务/家庭场景公司等[18] 行业背景与公司优势 - 在具身智能领域,双系统架构技术路径VLA模型已成为主流,但仍存在数据、黑盒风险、泛化能力等问题[19] - 业内人士认为,未来机器人通用大模型的架构演进方向之一是将“世界模型”引入决策推理流程[20] - 英伟达、谷歌DeepMind以及李飞飞的World Labs等头部科技公司和创企都在加速布局世界模型方向[20] - 公司是国内第一家专注世界模型方向的创企,并在世界模型和VLA大模型方向都处于领先水平[21] - 强大的AI能力是现阶段人形机器人商业化的核心壁垒,自研机器人大模型、构建技术闭环才能掌握主动权[21] - 具备强大AI能力且同时涉及本体的初创公司已成为资本市场青睐的对象,公司在2025年接连完成大额融资并取得商业化突破[22] - 公司采取具身智能大模型和人形机器人本体同时涉及的路线,在软硬件上全栈推进,是其被资本青睐的重要原因[22]