世界模型
搜索文档
英伟达2025年技术图鉴,强的可怕......
自动驾驶之心· 2025-12-06 11:04
英伟达公司发展里程碑与战略定位 - 公司于1993年成立,已完成从图形芯片到AI巨头的演进,市值在2025年10月底达到5万亿美元,是3年前的11倍 [2] - 发展关键节点包括:1999年推出GeForce 256,2006年CUDA问世,2012年支持AlexNet,2020年开始发布高端计算GPU,2021年开始发布端侧芯片(ORIN/Thor)[2] - 公司是AI基础设施的第一巨头,但其野心不局限于硬件,2025年在自动驾驶、具身智能、大模型和世界模型等最热AI赛道上产出了多篇重量级工作 [2] Cosmos系列世界基础模型平台 - 该系列从2025年1月开始布局,是面向物理AI的世界基础模型平台,衍生出Cosmos-Transfer1、Cosmos-Reason1、Cosmos-Predict2.5等工作,为下游自动驾驶和具身智能奠定基座 [5] - **Cosmos-Predict2.5**:新一代物理AI视频世界基础模型,基于流匹配架构统一了文本、图像、视频到世界的生成能力,并引入物理AI专用VLM——Cosmos-Reason1进行文本嵌入与细粒度控制 [17] - Cosmos-Predict2.5构建了包含2亿精选视频片段的大规模训练数据集,并针对机器人、自动驾驶等五大领域进行专项数据整理 [17] - 其控制网络变体Cosmos-Transfer2.5支持多模态控制信号输入,模型规模减小3.5倍的同时实现更高生成质量,支持长达120秒的长视频连贯生成 [17] - 模型支持多摄像头同步视频生成(如自动驾驶7视角),并实现基于相机轨迹的视角重渲染 [17] - 采用基于VLM奖励模型的强化学习对生成质量进行对齐优化,并使用时步蒸馏技术将推理步数大幅减少至4步 [17] - 全面开源2B与14B规模的预训练与后训练模型,在PAI-Bench等物理AI基准测试中取得领先性能 [17] - **Cosmos-Transfer1**:基于扩散模型的多模态可控世界生成框架,通过自适应空间-时间控制权重机制,根据不同模态输入生成高质量世界仿真视频 [37] - Cosmos-Transfer1构建了面向自动驾驶的高质量数据集RDS-HQ,包含360小时的高清地图、3D检测框与LiDAR同步标注 [37] - 通过基于NVIDIA GB200 NVL72系统的并行推理策略,在64块GPU上实现5秒720p视频的实时生成 [37] - **Cosmos-Reason1**:旨在赋予多模态大语言模型“物理常识”与“具身推理”能力,通过定义层次化的物理常识本体与二维具身推理本体,采用“监督微调+强化学习”的两阶段训练范式 [32] - Cosmos-Reason1构建了包含约4M视频-文本对的训练数据集,以及包含604个问题的物理常识推理基准和涵盖6个数据集、610个问题的具身推理基准 [32] - 实验表明,经过物理AI SFT后,模型在物理常识和具身推理基准上的性能较基线VLM提升超过10%,进一步的物理AI RL训练能在多数任务上再带来超过5%的性能提升 [33] Nemotron系列AI智能体模型 - Nemotron系列是公司为代理式AI时代打造的“数字大脑”,通过提供开放、高效、精准的模型和工具,让企业能够快速构建专业AI智能体 [5] - **Nemotron Nano V2 VL**:一个高效的12B视觉语言模型,通过混合Mamba-Transformer架构、多阶段训练策略和高效推理优化,在文档理解、长视频推理等多模态任务中实现了SOTA性能 [12] - 该模型将上下文长度从16K扩展至128K,支持长视频、多页文档等复杂场景理解 [12] - 集成Efficient Video Sampling技术提升视频处理吞吐量,支持FP8与FP4量化,适用于资源受限环境 [12] - 在OCRBench v2、MMMU、ChartQA、Video-MME等45个多模态基准测试中表现优异 [12] - 公开发布包含超过800万样本的Nemotron VLM Dataset V2,以及NVPDFTex等标注工具 [12] - **Nemotron Nano 2**:面向推理任务的高效混合架构语言模型,结合Mamba-2层与自注意力层,在保持高精度的同时,实现了最高达6倍的推理吞吐量提升,并支持128k长上下文推理 [26] - 采用FP8混合精度训练配方与分阶段课程学习策略,在20T token上完成预训练 [26] - 通过基于Minitron的轻量级剪枝与蒸馏策略,将12B模型压缩至9B,使其能够在单张NVIDIA A10G GPU(22GB显存)上以128k上下文进行推理 [26] - **Nemotron-H系列**:采用创新的混合Mamba-Transformer架构,用计算和内存需求恒定的Mamba层替代绝大部分自注意力层,在保证高精度的前提下,实现了高达3倍的推理速度提升 [27][28] - 在65k输入、1k输出场景下,吞吐量达同类Transformer的2-3倍 [29] - 提出模型压缩范式MiniPuzzle,将56B模型压缩为47B模型,仅用极少量(63B)token进行蒸馏便恢复精度,并在长上下文推理中实现额外20%的加速 [31] - 为56B大模型成功实施了以FP8精度为主的层wise混合精度预训练方案,在长达20万亿token的训练中稳定 [31] - 基于该骨干网络构建的VLM模型在多项视觉语言基准(如MMMU, MathVista)上达到SOTA水平 [31] 具身智能与机器人系列 - 公司正在深入布局具身智能,主要工作包括GR00T N1和Isaac Lab,一手具身VLA,一手仿真平台 [5] - **GR00T N1**:一个面向通用人形机器人的开放式视觉-语言-动作基础模型,采用双系统架构,通过构建“数据金字塔”进行大规模预训练 [35] - 双系统VLA架构将视觉语言模型作为慢速推理模块,与基于扩散Transformer的快速动作生成模块端到端联合训练 [35] - 数据金字塔训练策略构建了从海量人类视频、仿真与神经生成数据到真实机器人轨迹的异构数据体系 [35] - 使用单一模型权重支持从单臂机械臂到双手机巧人形机器人等多种机器人形态,在低数据场景下表现出卓越的样本效率 [35] - 公开发布了GROOT-N1-2B模型检查点、训练数据集及仿真基准 [35] - **Isaac Lab**:一个GPU加速的多模态机器人学习仿真框架,集高保真物理、照片级渲染与模块化环境设计于一体 [6] - 提出了统一且可扩展的仿真范式,将GPU并行物理、实时射线追踪渲染与通用场景描述深度集成 [6] - 设计了全面的多模态传感器仿真套件,涵盖基于物理的传感器、基于渲染的相机以及基于Warp的几何传感器 [6] - 实现了从数据生成到策略部署的端到端学习工作流支持,内置了强化学习、模仿学习等多种学习范式 [6] - 通过模块化的“管理器”架构与底层Tensor API,在保持高性能GPU原生计算的同时,为研究者提供了灵活控制 [6] 自动驾驶系列 - 2025年11月发布的Alpamayo-R1在自驾行业引起轰动,是公司在自驾VLA上的重要尝试 [5] - **Alpamayo-R1**:一种融合因果推理与轨迹规划的视觉-语言-动作模型,旨在解决端到端自动驾驶在长尾安全关键场景中的性能瓶颈 [13] - 提出了Chain of Causation数据集,通过人机协同标注流程构建具有因果关联的结构化推理轨迹 [13] - 设计了模块化推理VLA架构,以物理AI预训练的Cosmos-Reason为骨干,结合基于流匹配的轨迹解码器,实现99ms延迟的实时轨迹生成 [16] - 提出了多阶段训练策略,包括动作模态注入、基于CoC的监督微调以及基于大推理模型反馈的强化学习后训练 [16] - 在闭环仿真与实车测试中,相比仅预测轨迹的基线模型,Alpamayo-R1在挑战性场景中规划准确率提升最高达12%,脱轨率降低35%,近距离接触率降低25%,推理质量与推理-动作一致性分别提升45%与37% [16] 高效训练与底层技术 - **NVFP4**:一种新型4位浮点格式的高效训练方法,通过混合精度、随机哈达玛变换、二维权重缩放与随机舍入等关键技术,成功在120亿参数模型上进行了长达10万亿token的稳定训练 [19] - 在120亿参数的混合Mamba-Transformer模型上,使用NVFP4格式完成10万亿token预训练,其验证损失与FP8基线全程紧密吻合(相对误差<1.5%),下游任务准确率可比拟 [19] - 对比实验证明,NVFP4在达到相同训练损失时,所需的训练token数比MXFP4少约36% [19] - 相关工作已在NVIDIA Blackwell GPU上通过Transformer Engine获得全面支持 [19] 数字人与动画生成 - **Audio2Face-3D**:一个基于深度学习的端到端音频驱动三维面部动画系统,能够从单一语音输入实时生成高保真、口型同步且带情感表达的全脸动画 [21] - 提出了双网络架构设计:基于回归的轻量级网络支持低延迟单帧推理;基于扩散模型的高质量网络以流式方式生成连续30帧动画,支持多身份条件生成 [21] - 构建了基于专业演员多情感语音捕获的4D面部数据集,并采用语音转换、文本转语音对齐与静默数据插入三种增强方法提升数据多样性 [21] - 开发了可重定向的混合形状求解器,可将生成的面部顶点运动转化为标准的ARKit混合形状权重,支持将动画无缝重定向至不同角色模型 [21] - 系统支持在线流式音频输入并实时生成动画,推理延迟低,并提供丰富的后处理参数面板 [21]
对话任少卿:2025 NeurIPS 时间检验奖背后,我的学术与产业观
雷峰网· 2025-12-05 18:24
文章核心观点 文章通过报道任少卿及其团队获得NeurIPS时间检验奖,回顾了其奠基性工作Faster R-CNN的深远影响,并深入探讨了任少卿加入蔚来后,在自动驾驶全栈自研、芯片定义、数据闭环体系构建以及技术路线(如世界模型)探索等方面的实践与思考,展现了蔚来在智能驾驶领域从零开始构建核心能力的过程与战略布局 [1][2][11][13][27] 根据相关目录分别进行总结 Faster R-CNN的成就与影响 - 任少卿、何恺明、孙剑与Ross Girshick共同发表的Faster R-CNN荣获2025年NeurIPS时间检验奖,该奖项表彰经过十年检验、对学科发展产生深远影响的奠基性工作 [1] - Faster R-CNN发表于2015年,将物体检测效率提升10倍以上,开创了端到端实时精准目标检测模式,其论文已被引用超9.8万次,是AI检测领域全球最高被引论文 [2] - 该模型的核心思想已深度融入人工智能基础技术,成为驱动自动驾驶、医疗影像、安防监控、工业检测、卫星遥感等关键领域的核心技术 [2] 研究理念与团队合作 - 孙剑坚持“simple but work”的研究理念,认为做核心工作需要远见、品位和坚持 [4][6] - 任少卿与何恺明的合作紧密且高效,日常节奏包括多次集中讨论与实验推进,何恺明几乎投入100%的精力,专注于研究问题、寻找方向与突破 [6][7][8] - 团队选择深度学习方向基于几个关键判断:方法有创新性、已有初步结果和进展、结果具备泛化能力而非技巧性(trick),验证了方向的可扩展性 [10] 加入蔚来与全栈自研启动 - 任少卿于2020年8月加入蔚来,首要任务是搭建团队并启动全栈自研L2产品,支持L3和L4,同时进行芯片选型 [13] - 蔚来第二代车是全球首个量产英伟达Orin芯片(使用4颗芯片)及高线束激光雷达的车型,于2022年3月在中国量产,半年后在欧洲量产 [14] - 团队在极短时间内(从拿到芯片到量产仅6-7个月)克服了Orin芯片作为新硬件在算力(比上一代增大8倍多)、架构、散热、功耗及工具链等方面的挑战,完成了复杂的自动驾驶域控制器(ADC)架构量产 [14][15] 自研芯片的定义与考量 - 作为需求方,团队参与了自研芯片的定义,基于对技术发展的判断,早在2021年就预见到Transformer将更广泛应用,这对芯片内存带宽提出了更高要求 [16] - 蔚来自研芯片具备行业最高的带宽,以支持Transformer等模型,并为支持更高级别自动驾驶(L3/L4)预埋了热备能力,可在百毫秒内实现芯片切换且用户无感 [17] 数据闭环与高效迭代体系 - 蔚来自2020年起重点建设数据能力,认为数据的价值在于针对特定模型筛选出的“corner case”,而非简单的数据拷贝,数据筛选过程消耗大量算力 [19][20] - 公司构建了灵活调度云端和车端算力的系统,并在此基础上建立了类似互联网行业的“AB test”系统,允许在量产车上并行测试下一代算法 [21] - 通过“AB test”系统,蔚来将主动安全功能的迭代效率大幅提升,即使面对高达200万公里一次误报(FP)的严格标准,也能实现三天迭代一次的速度 [22] - 针对超80万辆量产车的智驾接管数据,建立了自动化分析系统,能过滤掉99%以上的无效信息,仅返回0.1%-0.5%的有效数据供进一步分析,极大提升研发效率 [22] 对端到端与世界模型的技术思考 - Faster R-CNN本质是解决了物体检测任务的端到端问题,将检测速度提升至实时(10Hz、20Hz、30Hz),为视频处理和应用落地带来突破 [11] - 任少卿认为,端到端是自动驾驶技术演进的一个阶段,但并未解决所有问题,例如语言模型无法解决真实世界所需的时空认知问题 [24][25][26] - 世界模型旨在建立时空认知能力,学习物理规律和时空理解,以解决长时序决策问题,这是语言模型无法做到的 [26][27] - 蔚来于2023年决定All in世界模型,并于2024年7月首次公开发布,成为行业内率先拥抱此路线的公司之一,世界模型能支持长达10秒、1分钟甚至更长的时序推演,替代传统的规则代码(if else)处理长时序场景 [27][28][29][30]
大晓机器人将于12月18日正式对外亮相,商汤王晓刚出任董事长
新浪财经· 2025-12-05 08:42
公司动态 - 大晓机器人将于12月18日正式对外亮相并开源“开悟”世界模型3.0(Kairos 3.0)[1] - 公司称该模型是首个国内开源且已实现商业应用的世界模型[1] - 公司将同步发布具身超级大脑模组A1,搭载纯视觉无图端到端VLA具身智能模型,具备自主导航能力[1] - 商汤科技联合创始人、执行董事王晓刚将出任大晓机器人董事长[1] - 世界级AI科学家陶大程将担任大晓机器人首席科学家[1] 产品与技术 - 大晓机器人将开源“开悟”世界模型3.0(Kairos 3.0)[1] - 具身超级大脑模组A1搭载纯视觉无图端到端VLA具身智能模型[1] - 该具身智能模型具备自主导航能力[1]
另辟蹊径赴欧洲创办新AI公司,杨立昆:硅谷不是AGI的土壤
36氪· 2025-12-05 08:04
今年11月,杨立昆通过一则LinkedIn帖子宣布,他将于今年底离开Meta,专注于创建自己的公司。在当 日举行的AI-Pulse大会上,杨立昆谈及发展AI新方法时表示:"硅谷完全被生成式模型所催眠,所以你 必须在硅谷之外,在巴黎做这类工作。" 身为法国公民,杨立昆此前推动Meta于2015年在巴黎设立了Facebook AI Research(FAIR)实验室,并 在2023年催生了Meta的旗舰大语言模型Llama。他长期以来一直支持欧洲的AI人才和初创企业,因此外 界对他回国开展项目寄予厚望。 杨立昆透露,他的初创公司将是一个"全球实体",并将在世界各地设立研究机构,"尤其是在欧洲,那 里有大量的人才,他们可能没有意识到自己的全部潜力,为其提供合适的环境至关重要。"据两位知情 人士透露,杨立昆的新公司将在全球设立多个基地,其中一处位于巴黎。 杨立昆认为,当前基于文本的大语言模型"缺少一个重要的东西"以达到人类级别的智能。"我们最好的 AI系统可以通过律师资格考试、写诗、编写代码,"杨立昆说,表达了他对专注于语言模型的不满,"但 我们仍然没有一个能做五岁孩子能做的事情的机器人。我们缺少一些重要的东西。有些 ...
端到端时代下的自动驾驶感知
自动驾驶之心· 2025-12-05 08:03
自动驾驶技术范式转变:从模块化到端到端 - 行业技术热点已从BEV感知迅速转向端到端自动驾驶方案 [4] - 端到端并非新技术,早期因效果不佳而让位于模块化架构,但随Transformer与BEV发展正强势回归 [9] - 主流方案正将规划模块神经网络化,形成一段式或两段式端到端架构 [9] 端到端架构下的感知范式革命 - 传统感知-规划框架中,感知需提供全量、精确的场景信息供规划使用,因模块化设计使其无法获知规划具体需求 [11] - 端到端最大意义在于实现“规划导向”的感知,即从全量感知转向可学习的按需感知 [14] - 当前多数端到端方案仍沿用传统思路,将人为定义的感知任务作为辅助监督,这被视为感知模块的“手工特征算子”,可能限制模型上限 [13][14] - 感知模块需自我革新,摒弃对人为定义感知任务的依赖,转向可学习的隐式场景理解 [14] 导航引导的稀疏场景表征 - 提出“导航引导感知”概念,模仿人类驾驶员根据导航意图关注场景不同部分,而非进行全量感知 [17] - 基于BEV特征设计场景令牌学习器模块,引入导航信息并预测BEV注意力,将场景压缩为16个场景查询 [18][19] - 规划解码器仅与这16个查询交互即可输出轨迹,实现了对感知信息的极致压缩与高效利用 [19] - 该方案使模型在训练效率和推理速度上成倍提升,并大幅超越现有方案性能 [19] 世界模型作为隐式监督新方向 - 为减少对人为定义感知任务的依赖,引入基于BEV特征的自监督世界模型,通过预测未来帧特征增强场景理解 [20] - 设计在稀疏查询上做轨迹规划,在稠密BEV上做世界模型的方案,兼顾推理效率与训练一致性 [20] - 随着世界模型研究成熟,其有望完全替代人为感知任务,成为隐式场景表征最可靠的监督方式 [21] SSR方案性能与影响 - SSR框架仅用16个自监督可学习的查询作为场景稀疏表征,替代了传统方案中成百上千个人为监督的查询 [22] - 在nuScenes数据集开环测试中,SSR的3秒平均L2误差为0.75米,平均碰撞率为0.15%,推理速度达19.6 FPS,多项指标超越对比方案 [24] - 在Carla仿真闭环测试中,SSR的驾驶得分达78.9,路线完成率达95.5%,综合得分0.83,表现优异 [26] - 消融实验表明,使用16个场景查询在性能与效率间取得最佳平衡 [27] - 可视化显示场景查询能根据不同导航指令自适应关注与驾驶意图相关的区域,证明了可学习感知模块的有效性 [28] - 该方案被视为端到端感知的“AlexNet时刻”,标志着可学习感知模块首次大幅超越人为定义感知模块,可能引导行业新方向 [29]
字节端侧AI进展交流
2025-12-04 23:36
公司:字节跳动 * **AI战略重心与组织架构** * 公司AI战略聚焦三大方向:通用型AGI、具身智能和世界模型[1] * 研发由四大团队负责:C团队(基础模型孵化)、Follow团队(垂直行业应用)、Stone团队(AI工具链)、Cici团队(海外豆包产品)[2] * C团队和Follow团队承担了80%的产品及模型研发工作,人员规模分别超过1200人和1000人[2] * 公司AI战略核心思路是B端导向,90%以上的AI token消耗来自B端业务,C端流量主要用于吸引B端客户渗透产品矩阵[7] * **资本开支与算力布局** * 2024年资本开支预计约500亿元,2025年大幅提升至1600亿元,2026年初步规划达2200亿元[5] * 2025年资本开支中,900亿元用于购买GPU,700亿元用于共建AIDC及超算中心[1][5] * 2026年规划中,约70%(约1540亿元)用于购买GPU,其余30%用于共建超算中心[6] * GPU采购中,NVIDIA占比约75%,国内厂商占比约25%[1][6] * 现有总算力为1475亿FLOPS,相当于110万张H100D GPU的算力,其中H20型号已突破30万张[1][7] * **B端业务与火山引擎** * 公司整体收入主要来源于B端业务,通过提供AI解决方案、定制开发及私有化部署等服务获取收入[1][7] * 火山引擎2025年预计收入超过500亿元,侧重提供多元化AI处理解决方案及算力服务,以差异化优势与阿里云竞争[1][8] * **AI手机战略与进展** * 推出AI手机的战略目的是拓展硬件生态,通过AIOS 1.1.0通用型Agent平台掌控移动操作系统流量入口[1][10][11] * 公司与中兴、努比亚合作,计划2026年Q1末或Q2初推出量产机,目标出货量百万级别[1][14] * 预计2026年全球AI手机市场规模达8000万台,公司目标占据5%份额,即销售突破500万台[3][15] * 工程机使用骁龙8至尊版特供版芯片,算力400 TOPS;量产机预计算力达800 TOPS,可运行7B模型[3][25] * 工程机预备了3万台,70%分配给开发者渠道,C端预约量超出预期40%[13] * 计划通过语音控制和对话方式改变用户习惯,并渗透到衣食住行领域,高德地图已加入其生态系统[3][24] * **技术挑战与用户反馈** * FLO事业群面临主要技术问题:语义理解能力不足(单轮指令识别率低,多轮对话连贯性差,此类问题占比约60%)、触控物理触控失败率达24%、跨应用操作成功率低于50%、端侧模型延迟较大(用户侧达2-3秒)[16] * 用户反馈问题集中在:语义理解与多轮对话、跨应用操作(复杂任务如出行、住酒店、点外卖尤为明显)、端侧延迟、硬件资源占用(内存、耗电、发热)、数据隐私、个性化程度不高[18] * 线上存在3400多个P0级bug,团队每两天发布一个补丁版本进行热更新[18] * 技术问题基本可通过迭代解决,但部分特殊用户需求因硬件限制难以满足[19] * **应对第三方APP调用的技术方案** * 主流方法是模拟用户物理点击(类似按键精灵加RPA),通过视觉理解捕捉屏幕事件反馈,无需APP授权[20][21] * 其他方案包括:与公司直接合作获取底层授权、使用豆包录制视频重现用户行为、云端部署花生壳代理IP切换访问[23] * 未安装相应APP时,可通过浏览器激活方式(如WebDriver或Chrome V8引擎)实现自动化操作[22] * **未来展望与行业影响** * 系统级AI助手有潜力重塑移动端流量入口,终极目标是使用户无需安装APP即可获得服务,可能颠覆现有智能终端和操作系统格局[27] * AI手机可能改变互联网平台竞争格局,但目前各大公司均处于试水阶段,未来取决于技术突破与合作竞争[28] * 公司推动超级APP策略,旨在通过其内容生态(抖音、头条、TikTok等)构建统一管理的超级APP,通过语音交互满足用户需求[29] 行业:AI手机与算力服务 * **AI手机市场预期** * 字节跳动预计2026年全球AI手机市场规模将达到8000万台[3][15] * **云计算竞争格局** * 阿里云在SaaS和PaaS领域表现出色,生态系统成熟;火山引擎作为后起之秀,侧重AI处理解决方案及算力服务,寻求差异化竞争[8] * **技术发展趋势** * 端侧与云端协同推理是AI手机的重要技术路径,但面临延迟、资源占用等挑战[16][25][26] * 模拟点击、RPA、浏览器自动化等技术是解决跨应用操作和第三方调用限制的关键方向[20][21][22]
我们身处波涛汹涌的中心|加入拾象
海外独角兽· 2025-12-04 19:41
公司定位与团队背景 - 公司定位为专注于人工智能和基础模型研究的投资研究实验室(Investment Research Lab),既是基金也是研究实验室[5] - 团队由科技投资人、物理学博士和AI研究员组成,平均年龄低于30岁,强调高信任度、低自我和高人才密度的团队文化[5][6] - 公司在管资产规模超过15亿美元,包括5亿美元的长线基金,采用一二级市场联动投资策略[5] - 公司过去投资并见证了6家投资组合公司从数十亿、数百亿美元成长为千亿美元级别的企业[5] 投资理念与策略 - 投资理念受OpenAI、Anthropic和DeepMind启发,旨在成为投资领域的前沿研究实验室,关注全球最重要的技术变化[8] - 投资策略聚焦于少数关键机会,愿意在每一轮对优质公司持续加注,放弃多数琐碎机会[8] - 注重信息质量,拥有市场上最丰富、质量和密度最高的信息源,以提高投资胜率[8] - 强调长期关系建设,致力于与创始人和研究人员建立信任,投资AI原生时代的最佳创始人[8] 品牌建设与认知输出 - 坚持开源认知,通过内容输出为AI生态做贡献并构建品牌影响力[9] - 品牌代表公司与创始人之间的信任和审美观,吸引志同道合者[9] - 公司通过海外独角兽和AI讨论社群持续输出观点,影响中美两地华人创业者和AI从业者[6] 招聘需求与岗位要求 - 招聘岗位包括AI投资研究员和品牌策划(AI Narrative Specialist),工作地点覆盖硅谷、香港、北京和上海[12][15] - AI投资研究员需具备AI研究、工程或产品经验,熟悉技术趋势如Continual Learning、Proactive Agent等[12][13] - 品牌策划需熟悉硅谷AI内容,具备品牌叙事打造能力和创新表达方式经验[15] - 招聘不限资历和工作年限,对全职和实习生均开放,优秀实习生有转正机会[15][16] 行业关注领域 - 公司重点关注LLM新范式、强化学习、AI Agent、代码代理等前沿技术领域[19][21][23][25][27] - 技术趋势包括OpenAI o1、自玩强化学习、AI机器人、AI4S等方向[12]
第八届GAIR全球人工智能与机器人大会,议程正式公布
雷峰网· 2025-12-04 18:04
" 教育被重塑,产业范式被改写,世界模型浮出水面,算力体系重 新洗牌…… " 作者丨 杨依婷 编辑丨包永刚 在AI技术奔涌向前的时间洪流里,那些深刻的变革,往往以微弱的火光开场,最终点燃时代的烈焰。 九年前,一群跨越迷雾、坚守信念的科学家,点亮了GAIR这盏灯;九年后,我们早已置身于一个汹涌澎湃 的大模型纪元,面前,是愈加深邃的智能文明地平线。 2025年,人类与人工智能的对话正在被重新书写: 教育被重塑,产业范式被改写,世界模型浮出水面, 算力体系重新洗牌 …… 2025年12月12日-13日 , 第八届GAIR全球人工智能与机器人大会 将落地 深圳·博林天瑞喜来登酒店 , 以全新的议题格局和更深的行业纵深,搭建一座更加深刻的思想会场。 GAIR 2025,即将揭幕。 为答谢忠实读者, 大会提供了20张免费门票,扫码下方【二维码】报名获得。 数量有限,先到先得! 扫码报名参会 ↑↑↑ 重磅!大家翘首以盼的 GAIR 2025 大会议程 来啦!快快码住↓↓↓ 重磅!GAIR 2025 大会议程揭晓! 12月12日 上午 Al之道:教育的重新定义 | 专场主席:杨士强,清华大学教授,CCF会士, | | --- ...
世界太小,不够世界模型们用了
36氪· 2025-12-04 17:29
文章核心观点 - AI行业对“世界模型”的定义和技术路径存在显著分歧,但普遍认为其是超越大语言模型、通往通用人工智能的必经之路 [1][2] - “世界模型”概念正经历严重的通货膨胀,其外延被无限扩大,成为一个涵盖环境理解与模拟上下游技术的宽泛“筐” [2][3][18][19] - 世界模型的兴起背后交织着资本焦虑、技术瓶颈和对AGI的渴望,并被视为一场“反LLM中心主义”的运动 [20][22] 概念起源与演变 - “世界模型”的思想最早可追溯至1943年认知科学家Kenneth Craik提出的“心智模型”,即大脑通过构建外部世界的微缩模型来进行预测 [4] - 2018年Jürgen Schmidhuber等人的论文《Recurrent World Models Facilitate Policy Evolution》首次系统定义了神经网络世界模型的框架 [4] - 近两年,随着大语言模型的爆发和对AGI的渴望,该概念迅速繁殖,衍生出众多抽象定义,如“自主智能”、“空间智能”、“压缩即智能”等 [5] 主要技术流派:表征派 - 以杨立昆为代表,主张世界模型是一个在潜在空间运作、预测“抽象状态”的“大脑”,而非生成具体画面 [7] - 其定义的世界模型需同时输入四个变量来预测下一时刻的世界状态,追求逻辑上的因果推演,而非视觉逼真 [12] - 提出的I-JEPA和V-JEPA模型摒弃了生成式AI“预测每一个像素”的做法,以避免浪费算力在不可预测的噪音细节上 [12] 主要技术流派:生成派 - 与表征派的核心区别在于旨在重建和模拟视觉世界,认为“我若无法创造,便不能理解” [13] - OpenAI的Sora被视为世界模拟器,其通过在海量视频数据上预测下一帧像素,试图涌现出对物理规律的理解 [13] - 生成派进一步衍生出互动式生成视频,如谷歌DeepMind的Genie 3,支持生成720p分辨率、24fps帧率的实时互动画面,理解动作与环境的因果关系 [14] 主要技术流派:3D空间智能 - 以李飞飞为代表,主张通过构建持久、高精度的3D环境来实现“空间智能” [16] - World Labs发布的Marble采用类似“3D高斯泼溅”的技术,将世界表征为成千上万个高斯体,以生成符合物理规律的3D世界 [16] - 该路线旨在生成可下载、高精度且物理准确的3D空间,区别于Sora的视频流和Genie 3的实时生成 [16] 行业现状与驱动因素 - 当前各技术路线的成果均未达到理想的世界模型状态,但概念已广泛挂钩于具身智能、自动驾驶、游戏视频、多模态模型、3D模型乃至视觉信息压缩等领域 [18] - 热潮背后存在巨大泡沫,部分源于创投圈需要新叙事来突破大语言模型竞争已定的格局,将“视频生成”等工具概念提升至AGI高度以吸引投资 [20] - 科研人员大规模下场创业,使得学术上的“定义之争”蔓延至商业世界,不同定义直接关联数十亿级别的算力投入和产业链方向 [21] - 行业对大语言模型产生集体性技术焦虑,认为其存在“离身”的先天缺陷,且性能提升的边际效益递减,因此转向对物理现实的模拟与交互被视为关键 [23]
碾压π0.5,复旦团队首创「世界模型+具身训练+强化学习」闭环框架
机器之心· 2025-12-04 16:18
文章核心观点 - 研究团队提出ProphRL框架,通过将大规模预训练的世界模型Prophet作为视频级模拟器,并结合专为流式动作头设计的在线强化学习算法FA-GRPO与FlowScale,在虚拟环境中优化VLA策略,显著提升了机器人操作任务的成功率[4] - 该方法解决了当前VLA策略主要依赖模仿学习导致的分布偏移和长时序任务失败问题,以及直接在真实机器人上进行强化学习成本高昂、难以规模化的瓶颈[3][4][12] - 实验结果表明,ProphRL在多个公开基准上为各类VLA模型带来5–17%的成功率提升,在真实机器人实验中进一步取得24–30%的大幅度成功率提升[8] 研究背景与问题 - 当前大多数Vision-Language-Action策略仍主要依赖模仿学习,实质上是按示范轨迹复刻,在分布发生偏移、任务形式变化或操作时域拉长时,极易出现误差累积并导致任务失败[3][11] - 在真实机器人上开展在线强化学习成本高昂,并行执行受限,伴随大量重置与标注开销,难以规模化[12] - 基于传统物理引擎的强化学习难以同时兼顾逼真度、场景多样性与工程可用性,而现有数据驱动世界模型泛化能力有限,尚未形成能够真正支撑强化学习的通用模拟器[13][14] ProphRL技术框架 - Prophet世界模型采用视频扩散模型结构,通过双重动作条件(末端执行器位姿增量和动作帧)和FramePack历史记忆机制,学习从动作序列到未来操作视频的映射[17] - 研究团队提出光流引导的评估协议,通过对比真实视频与生成视频的光流一致性,以外观无关的方式评估末端轨迹和接触行为是否对齐[22] - FA-GRPO算法在动作层面而非流步层面构造PPO比例,使信用分配更贴近真实环境反馈;FlowScale利用噪声调度平衡各流步对整体梯度的贡献,提升训练稳定性[23][27] - 奖励模型基于视觉-语言模型,以任务文本和整段执行视频为输入,输出标量得分作为轨迹优势,替代手工设计的几何距离[26] 实验验证结果 - 在世界模型能力评估中,Prophet在AgiBot、DROID、LIBERO和BRIDGE等多数据集上,视觉逼真度和动作一致性均超越Nvidia的Cosmos与上海智元的Genie-envisioner[31][32][34] - 在仿真环境强化学习效果上,ProphRL为VLA-Adapter-0.5B模型带来最高25个百分点的成功率提升,为Pi0.5-3B模型带来最高16.7个百分点的成功率提升,为OpenVLA-OFT-7B模型带来最高19.4个百分点的成功率提升[37] - 在真实机器人验证中,基于UR30e机械臂的四个桌面操作任务显示,ProphRL相比纯监督微调在所有任务平均成功率上带来约24–30%的提升,其中Pi0.5-3B模型提升幅度最大,达到30个百分点[38]