世界模型
搜索文档
前Meta首席AI科学家再创业,AI新公司估值直指30亿欧元
华尔街见闻· 2025-12-19 22:27
Meta首席人工智能科学家、图灵奖得主Yann LeCun正为其新创立的AI公司寻求5亿欧元融资,此举将使 这家人工智能公司在正式推出之前估值达到约30亿欧元。 据英国金融时报援引知情人士透露,即将于年底离开Meta的LeCun已任命法国健康科技初创公司Nabla 创始人Alexandre LeBrun担任新公司首席执行官。该企业命名为"先进机器智能实验室"(Advanced Machine Intelligence Labs),计划于明年1月公布详细信息,LeCun将出任执行主席。 这是今年人工智能领域又一笔备受关注的高额融资案例。此前,OpenAI联合创始人Ilya Sutskever于4月 为其成立仅一年、尚未推出产品的AI公司Safe Superintelligence成功筹集20亿美元,估值高达320亿美 元。 瞄准超级智能AI系统 Nabla联合创始人出任CEO Nabla联合创始人Delphine Groll在一份声明中表示,经董事会批准的过渡计划中,公司联合创始人兼首 席执行官Alex LeBrun将卸任现职,并出任AMI Labs的首席执行官。 与此同时,Nabla已与AMI Labs建立战 ...
LeCun创业首轮估值247亿!Alexandre当CEO
量子位· 2025-12-19 09:01
这家名为 Advanced Machine Intelligence Labs (AMI Labs)的新公司,计划于明年一月正式亮相,目标估值 30亿欧元 (约247亿人 民币)。 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI LeCun在Meta的Last Day还没来,新公司又被曝出更多细节。 前脚LeCun本人在播客当中宣布了新公司名称,现在融资和估值目标就被《金融时报》曝光了。 AMI Labs的研究方向,就是LeCun一直主推的"世界模型",而且将走开源路线,老东家Meta也将与其保持合作。 另外,曝料也透露了AMI Labs的 CEO人选并非LeCun本人 ,而是他的一位老部下。 LeCun不当CEO 新公司AMI Labs定于2026年1月在巴黎正式启动,在Meta逐渐转向封闭生态的背景下,LeCun选择了他在学术界一贯坚持的开源路线。 而且在技术层面,AMI Labs选择了比主流的LLM更具挑战性的道路—— 死磕"世界模型" 。 因为在LeCun看来,基于自回归机制的LLM存在根本性的逻辑缺陷,它们只是在统计概率上预测下一个字符,并不真正理解物理世界的运行规 律。 为此,新公司将通过 ...
中国下一批千亿公司
投资界· 2025-12-17 11:08
文章核心观点 - 具身智能是当前贝塔最高的投资赛道,但其核心“大脑”部分的技术范式尚未收敛,仍处于探索突破阶段[3][4] - 中国在具身智能大脑的研发上存在独特的技术路径(如类脑计算),并有望实现领先,但国内在资金和数据投入上与国外差距正在拉大[8][14][24] - 解决数据稀缺和计算效率问题是具身大脑落地的关键,不同公司通过类脑解耦、世界模型预训练及自动化数据处理等不同方式应对挑战[12][14][16][17] - 具身大脑的成熟将实现本体无关和场景泛化,其技术范式有望在2年内初步收敛,并将催生比语言大模型更大的市场和更多的巨头公司[20][21][26][27] 行业现状与挑战 - 具身智能是过去几年最热、贝塔最高的投资方向,但“大脑”部分远未成熟,其“DeepSeek、ChatGPT时刻”尚未到来[3][4] - 国内与国外在具身大脑领域的差距不是在缩小,而是在变大,主要原因是国外企业获得更多资金用于数据Scaling,每周有上十万小时的数据持续回流[8] - 国内在大脑的投入远远不够,而技术范式已从去年年底、今年年初开始向视频预训练切换,特斯拉Optimus团队、Figure的Go-Big项目都在进行相关实践[8] - 具身智能的数据非常少,现有数据量仅对应3-5岁小孩的水平,远未达到成年人的能力预期[14][15] 公司技术路径与方案 千诀科技 - 公司孵化于清华类脑中心,致力于打造一个可让所有机器人使用的“缸中之脑”,该大脑不分形态,可持续学习、自我演化和分化分区[4] - 技术核心是类脑计算与解耦,模仿人脑分区独立优化与演化的机制,而非端到端模型,这种方式可将样本效率提高至少一万倍[5][16] - 已完成第三代模型的预训练,并在7大类、20多小类机器人形态上完成适配,与头部公司合作,预计明年将有10万台设备接入其大脑[4] - 已实现“四个跨”的自主智能泛化:跨场景、跨物体、跨任务、跨形态,机器人可在无人类指令下仅凭出厂设置和通识预训练工作[25] - 认为中长期解决方案是“类脑大模型+类脑芯片”,以解决端侧部署的功耗与性价比矛盾,中国在此技术路线上全球领先[24] 流形空间 - 公司聚焦于构建世界模型驱动的具身大脑,技术孵化自清华大学电子系的FIB实验室,团队是国内最早研究世界模型的工业界团队之一[6][7] - 已开发出对标李飞飞RT-M的、可单图生成可交互空间的基础世界模型,并应用于机器人大脑和无人机[6] - 技术范式区别于VLA,其通过空间智能的世界模型预训练再部署到机器人,认为VLA路线因通信带宽低、泛化性差,不适合作为大脑基座[6][7] - 拥有全栈自动化数据处理能力,内部有超过100个计算机视觉算子自动化处理视频标签,无需人工,旨在将数据变为公司资产[12][13] - 认为世界模型应是数据驱动的黑盒模型,以避免人为先验知识限制其能力上限,坚信机器智能最终将超越人类(ASI)[19] 关键技术范式探讨 - **世界模型的定位**:世界模型应是对世界的极致压缩,是机器人的Foundation Model,而不仅是环境模型[11] - **世界模型的类型**:主要分为两种范式,一种是构建人能看见的、输出视频的显空间世界模型;另一种是构建编码高维世界知识的隐空间世界模型,后者可能更具发展潜力[9][10] - **白盒与黑盒之争**:对于世界模型是否可解释存在分歧,一方认为基于因果推理的模型应是白盒;另一方则认为数据驱动的视觉模型必然是黑盒,其能力上限不应被人为理解所限制[18][19] - **实现路径**:要实现通用机器人,需要两个阶段:首先是世界模型预训练提供通识教育(0-60分能力),其次是结合具体场景的软硬一体后训练进行过拟合,兜底性能下界[21][22] 发展预期与落地展望 - 技术范式收敛时间预计在2年以内,前提是数据利用范式和管线得到提升[26] - 若追求处理更复杂的功能,具身大脑可能永远不会收敛到端到端范式,而是收敛到一个持续学习、动态变化的分区结构,类似于人脑[27] - 具身智能是比语言大模型更大的方向,未来将出现更多的创业公司和千亿级公司[27]
多家企业押注VLA背后:智驾路线要趋于融合?
每日经济新闻· 2025-12-16 20:21
"我跟王兴兴观点最不一样的地方在于,他认为模型架构更重要,但我认为模型的关键是要与整个具身 智能系统适配。在此基础上,数据是起决定意义的。"郎咸朋认为,"VLA就是自动驾驶最好的模型方 案。" 近几年,辅助驾驶行业经历了多次"技术底座"的范式迁移——从企业普遍把激光雷达+高精地图奉为"黄 金组合",到引入BEV(鸟瞰图)+Transformer摆脱高精度地图,再到端到端将辅助驾驶带入AI(人工 智能)时代,企业普遍按照这个路径来推进辅助驾驶功能。 进入2025年,行业在辅助驾驶的发展方向上出现了VLA与世界模型的"分歧",而理想与小鹏就是选择 VLA方案的代表。 两技术派别"各执一词" 据记者了解,VLA被业内视为端到端方案的"智能增强版"。其名称中的V代表视觉感知(Vision),A代 表动作执行(Action),而中间的L则是大语言模型(Language Model)。V负责实时感知环境,A负责 输出具体控制指令,L则像"中台"一样,把感知信息转译为可供A执行的规划与决策。 清华大学车辆与运载学院助理研究员颜宏伟表示:"VLA是多模态大模型驱动的智能体架构,其核心突 破在于引入思维链,通过语言模型实现对环 ...
倒计时3周离职,LeCun最后警告:硅谷已陷入集体幻觉
36氪· 2025-12-16 15:11
对当前主流AI发展路径的批判 - 核心观点认为大语言模型路线是死路,无法通往人类水平的人工智能,硅谷对不断“堆大”LLM的痴迷是一条死路 [1][3] - 指出当前基于LLM的AI智能体在可靠性、数据效率、多模态处理上远远不足 [12] - 批评行业存在危险的“羊群效应”,科技巨头几乎都在做同一件事即疯狂堆叠LLM,形成了“单一的文化” [26][28] - 明确表示所谓的ASI路线——不断训练LLM、用更多合成数据、雇几千人做后训练、折腾RL新技巧——完全是胡说八道且永远不可能成功 [1][28] 提出的替代技术路线:“世界模型” - 主张“世界模型”才是实现人类水平AI的“正确方法”,其能够预测动作后果并用于规划,是智能的重要组成部分 [12][14] - “世界模型”在抽象表征空间中进行预测,而非像素级输出,旨在处理高维、连续和嘈杂的模态数据,这是LLM完全做不到的 [3][14][23] - 其技术基础是联合嵌入预测架构,旨在学习一个抽象的表示空间以消除输入的不可预测细节 [16] - 近20年来一直确信构建智能系统的正确途径是通过某种形式的“无监督学习”,JEPA的发展克服了早期孪生网络的模型坍塌问题 [17] 关于数据与智能的对比 - 训练一个性能不错的LLM需要互联网上约30万亿Token的文本数据,这仅相当于约15,000小时的视频 [21][22] - 一个4岁孩子醒着时看到的视觉信息大约是16,000小时,现实世界数据的结构比文本丰富得多,仅靠文本训练永远无法达到人类水平的AI [22] - 合成数据有用,但LLM并不真正理解通过经验习得的基本概念,只是被微调出来给出正确答案,更像是“反刍”而非真懂 [25] 创业公司AMI的创立与目标 - 决定在Meta外部创办Advanced Machine Intelligence,专注于“世界模型”并计划延续开放研究的传统 [4][5] - 创办AMI的动因之一是为了摆脱硅谷的单一文化,该公司是全球性的,总部将设在巴黎,并在纽约等地设立办公室 [30] - AMI的目标不仅是研究,还会打造与世界模型、规划相关的实际产品,并成为智能系统的核心供应商 [9] - 认为投资者现在愿意为这类基础研究创业公司买单是一种新现象,这在以往是不可能的 [4] 对AI行业现状与Meta的评论 - 指出行业风向正在转变,越来越多实验室选择闭源,这种趋势不利于真正突破性的研究 [4] - 透露Meta AI重组后重心完全放在了LLM,FAIR正被推向“更短期的项目”,较少强调发表论文,更多专注于协助GenAI Lab进行LLM研究,这是其选择出来创业的部分原因 [39][41] - 认为即使在硅谷的各家公司内部,也有不少人心里很清楚LLM这条路走不通 [28] - 点评了一些大模型公司,例如指出Ilya创立的SSI甚至包括他们的投资人都不知道这家公司要做什么 [41] 对AGI概念与发展时间线的看法 - 认为“通用人工智能”这个概念完全没有意义,完全是胡扯,因为人类智能是超级专业化的 [31] - 乐观预测如果在JEPA、世界模型、规划等方向未来两年取得重大进展,可能在5-10年内看到接近人类或狗智能水平的AI,但这已是极度乐观 [33] - 更现实的预测是,由于历史上多次出现未预见的障碍,实现超越可能需要20年甚至更久 [33] - 认为最难的部分不是从狗到人类,而是达到狗的水平,从灵长类动物到人类主要缺的是“语言” [35][36] 对研究文化与人才培养的建议 - 强调真正的研究需要发表论文,没有别的办法,这是目前很多行业正在遗忘的事情 [11] - 建议年轻人学习“保质期长”的知识以及能“学会如何学习”的东西,因为技术演变太快 [43] - 具体建议深入学习数学、电气工程、机械工程、物理学等基础学科,计算机科学只需学到能熟练编程的程度,这些基础能让人在AI快速变化中站稳脚跟 [45][46] - 认为“世界模型”所在的地方类似于大脑的前额叶皮层,而LLM在语言编码/解码上表现不错,或许能充当大脑的韦尼克区和布罗卡区 [36][38]
世界模型和VLA正在逐渐走向融合统一
自动驾驶之心· 2025-12-11 11:35
文章核心观点 - 自动驾驶领域的技术路线正在融合,视觉语言模型与世界模型的结合是通往更强通用具身智能的关键方向 [3][4] - 自动驾驶之心知识星球是一个综合性的技术社区,旨在为行业人士提供学习、交流和求职的平台,已汇聚超过4000名成员 [10][28] 技术发展趋势 - 视觉语言模型与世界模型正走向融合统一,前者负责抽象推理,后者负责物理感知,结合是通往通用具身智能的答案 [3][4] - 学术界已有多个探索VLA与WM融合的工作,例如VLA-RFT、WorldVLA、Unified Vision-Language-Action Model以及DriveVLA-W0 [4] - 未来L4级自动驾驶的训练链路将是视觉语言模型、强化学习和世界模型三者的结合 [5] - 行业内的技术路线争论多与宣传口径有关,实际技术发展多有相互参考,未来结合形式仍需探索 [7] 知识星球社区概况 - 社区是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自动驾驶社区 [10] - 社区成员超过4000人,目标在未来2年内发展到近万人规模 [10] - 社区成员背景多元,来自上海交大、北京大学、CMU、清华大学、蔚小理、地平线、华为等国内外顶尖高校和头部公司 [28] - 社区整理了近40个技术方向的学习路线,并邀请了数十位活跃在一线的产业界和学术界嘉宾进行分享和答疑 [12][16] 社区内容与资源 - 社区汇总了超过40个开源项目、近60个自动驾驶相关数据集以及行业主流仿真平台 [29] - 技术方向覆盖全面,包括但不限于:自动驾驶感知、规划控制、仿真、端到端学习、VLA、世界模型、多模态大模型、BEV感知、3D目标检测等 [17][29][36][39] - 提供“自动驾驶100问”系列实战内容,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测、规划控制面试、BEV感知、相机标定等主题 [17] - 社区内部有专属学习视频教程,涵盖世界模型、自动驾驶大模型、Transformer、3D目标检测、毫米波感知等主题 [98] - 不定期举办线上直播分享,目前已超过一百场,由行业专家分享最新研究成果 [101] 社区提供的服务与支持 - 为初学者提供全栈方向的学习课程和完备的入门技术栈路线图 [18][24] - 为从业者提供产业体系、项目方案以及最新的学术与工业应用进展 [26][32] - 建立了与多家自动驾驶公司的岗位内推机制,可协助成员投递简历 [22] - 社区内部有活跃的问答交流,成员可就技术入门、学习路线、就业跳槽、研究方向选择等各类问题进行提问并获得解答 [13][32][103]
赛道分化加剧,2026年人工智能最强风口来袭
36氪· 2025-12-03 16:57
文章核心观点 - 2026年将成为人工智能发展的关键分水岭,AI将从“AI+”的修补模式,演进为AI原生重构系统底层逻辑、物理AI打通虚拟与现实、多模态技术融合以及世界模型实现规律预判的深度变革阶段 [1] AI原生引发系统应用底层革命 - AI原生意味着以AI为系统设计的底层逻辑与能力中枢,驱动从技术架构、业务流程、组织角色到价值创造方式的全方位重塑,是AI未来发展的关键方向 [3] - AI原生架构与传统“AI+”架构存在根本差异:设计起点从现有业务流程转向AI能力边界;数据流向从业务系统抽取数据给AI模型,转变为数据实时流入AI中枢驱动业务;系统角色从“辅助工具”转变为“决策引擎”;迭代速度从月级提升至天级 [4] - 真正的AI原生系统具备三个显著特征:以自然语言交互为基础,实现GUI与LUI混合;具备自主学习和适应能力,能根据上下文和环境变化调整输出;具备基于大语言模型和知识库自主完成任务的能力,实现端到端闭环 [4][5] - AI原生开发平台趋势明确,低代码/无代码工具催生大量“一人公司”模式,巨头正将AI智能体深度嵌入办公套件实现端到端闭环 [8] - AI原生应用大规模普及的前提是具备完善的工具和框架体系,如部署管理大模型的Hub平台、自动化微调工具、知识图谱管理工具等,产品化工具的积累是其快速普及的关键 [8] - 在办公场景,AI原生应用可将知识工作者的重复劳动时间减少40%以上,2026年AI原生是To C端最确定的增量市场,其核心竞争力在于对用户习惯的重构 [8] - AI原生应用的技术架构、工具产品及方法论将在1~2年内演进并达到可大规模复用的成熟度,之后全面爆发,短期内“AI原生应用”与“传统应用+AI”将共存 [9] 物理AI向现实世界全面渗透 - 2026年的AI将以物理实体形态渗透到城市、工厂、医院、家庭等场景,实现从“感知”到“行动”的跨越,即物理AI [10] - AI发展经历三阶段:感知AI(理解图像、文字、声音)、生成式AI(创造文本、图像、声音),现在正进入物理AI时代,AI能够进行推理、计划和行动 [10][11] - 物理AI的技术基础建立在三个关键组件之上:世界模型(构建对三维空间及物理定律的理解)、物理仿真引擎(实时计算复杂物理交互)、具身智能控制器(生成具体控制指令) [11][12] - 物理AI成为主流趋势的原因:一是机器人、无人系统等智能设备的物理交互需求驱动,要求AI具备在真实环境中稳定、泛化的感知、理解与执行能力;二是AI技术演进加速赋能物理实体 [14] - IDC预测,到2026年,AI模型、视觉系统及边缘计算的进步将使机器人可实现的应用场景数量增加3倍,并在制造、物流、医疗、服务等多个领域广泛部署 [14] 多模态将成为AI基础能力 - 2025年,多模态大模型以强大的跨模态理解和推理能力,成为推动产业智能化升级和社会数字化转型的中坚力量 [15] - 多模态大模型能同时处理文本、图像、音频、视频、3D模型等多种数据类型,实现信息的深度融合与推理 [15] - 其能力体系围绕“跨模态理解”与“跨模态生成”两大核心构建:理解方面包括语义匹配、文档智能解析、多模态内容深层解读;生成方面可实现文本、图像、音频、视频等不同模态内容的相互生成 [15][16] - 多模态大模型还展现出多模态思维链和上下文学习等高级认知能力,为构建更接近人类认知方式的AI系统奠定了基础 [16] - 原生多模态技术路线成为重要进化方向,即在训练之初就将多种模态数据嵌入同一个共享的向量表示空间,实现不同模态间的自然对齐与无缝切换,无需文本中转 [16] - 2026年,多模态大模型将以前所未有的速度重塑各行各业,已在文物保护、安防、智能驾驶、内容创作、工业质检、政务服务等领域展现出巨大价值,正从实验探索迈向实际应用 [17] - 技术案例如Sora 2在视频与音频生成上实现物理逼真、镜头控制、音效同步等突破;Nano Banana Pro在图像生成与编辑方面支持多图融合、4K输出等 [17] 世界模型引爆AI新一轮增长 - 世界模型让AI从“数据驱动”转向“规律驱动”,通过构建虚拟世界模型模拟物理规则实现前瞻性决策,是2026年最具颠覆性和挑战性的领域 [19][21] - 世界模型的价值在于“泛化能力”,能够将已知场景的认知迁移到未知场景,例如让自动驾驶系统在未见过道路上基于物理规律理解安全行驶 [22] - 世界模型是一种能够对现实世界环境进行仿真,并基于多模态输入数据生成视频、预测未来状态的生成式AI模型,是AI系统对现实世界的“内在理解”和“心理模拟” [22] - 与大语言模型相比,世界模型的主要数据是感知数据、模拟数据和遥测数据;架构是编码器加潜在动态的混合架构;目标是预测环境状态以支持决策;训练范式是自监督或强化学习;应用集中于机器人、控制、模拟等领域;认知基础是物理性和因果性 [24] - 世界模型具有三大核心特点:内在表征与预测,能将高维观测数据编码为低维潜在状态并预测未来状态;物理认知与因果关系,能理解和模拟重力、摩擦力等物理规律;反事实推理能力,能进行假设性思考 [24][25] - 技术层面关键包括因果推理、场景重建时空一致性、多模数据物理规则描述等,全球主流模型有谷歌Genie3、英伟达COSMOS,国内有华为盘古、蔚来NWM等 [25] - 在自动驾驶领域,世界模型可生成高动态、高不确定性场景解决长尾问题,通过闭环反馈机制降低成本、提升效率,案例如蘑菇车联MogoMind实现实时数字孪生与深度理解服务 [25] - 在具身智能中,世界模型能提供大规模高质量合成数据解决数据缺口,并重塑开发范式,未来将构建“物理+心智”双轨建模架构 [26]
基于“车路云一体化”数据 奔驰联合苏州汤元等启动世界模型开发应用
新华财经· 2025-12-02 21:19
合作项目启动 - 梅赛德斯-奔驰(中国)投资有限公司、清华大学-梅赛德斯奔驰可持续交通研究院、苏州汤元科技有限公司以及先导(苏州)数字产业投资有限公司四方于12月1日共同启动“基于‘车路云一体化’数据的世界模型联合开发与应用”合作计划 [1] 合作目标与意义 - 世界模型被视为物理AI在智能驾驶领域实现跃升的关键基础设施 [1] - 该技术旨在通过学习真实物理世界的大规模交互数据,构建对交通环境的统一理解,使车辆具备场景结构化认知、未来预测能力及在未知情境中符合物理逻辑的自主决策能力 [1] - 该技术对于提升自动驾驶的可靠性、安全冗余以及罕见场景处理能力有重要价值 [1] - 此次合作标志着世界模型迈入产业级共建的新阶段,将为车路云一体化的智能交通体系带来示范效应 [2] 技术路径与数据基础 - 数据是驱动世界模型演进的核心燃料,车路云一体化数据以其天然的BEV(鸟瞰图)、无遮挡的多视角信息,为智能驾驶理解三维物理空间提供了关键支撑 [1] - 各方将依托车、路、云端的协同优势,推动世界模型的体系化建设,构建从数据采集、物理世界重建、模型训练到系统验证的完整闭环 [1] - 合作旨在使智能驾驶从“经验叠加”迈向基于场景理解与因果逻辑的“认知驱动” [1] 各方分工 - 梅赛德斯-奔驰提出世界模型的目标方向和应用场景,以智能驾驶更稳健、更安全的行为决策为目标牵引 [2] - 清华大学-梅赛德斯奔驰可持续交通研究院提供技术路线、方法论与科学验证 [2] - 先导(苏州)数字产业投资有限公司依托苏州的网联化道路、路侧基础设施、运营的苏州市智能网联云控平台、智能网联可信数据空间等城市资源,提供高质量的智能网联交通数据,支持在真实环境中开展验证与示范 [2] - 苏州汤元科技有限公司提供真实道路场景的重建能力,为模型训练提供高质量、带有4D数据结构的数据基础,并承担核心技术研发工作,包括物理世界的全要素重建、数据生成和闭环仿真等工作 [2]
世界模型,是否正在逼近自己的「ChatGPT时刻」?
新浪财经· 2025-12-02 19:22
世界模型的定义与前景 - 世界模型本质是预测模型,给定当前状态及动作序列,预测下一个状态 [3] - 世界模型可理解为AI对环境状态的预测和判断,从简单游戏世界逐渐走向高质量状态模拟 [3] - 终极目标是对世界进行1:1建模,可能达到原子级别,但实际需根据不同任务目的进行建模 [3] - 三大应用前景包括:为自动驾驶、具身智能等多模态任务提供更多数据、建立模型与世界的结合替代传统模拟器、以及最终成为端到端系统的一部分 [3] 世界模型的构建与数据挑战 - 构建面临核心悖论:先有模型还是先有数据,自动驾驶公司积累上亿公里数据但99%为晴天道路数据,缺乏危险场景数据 [5] - 可行路径为先用常见数据训练垂类模型,再生成更多极端案例数据,通过迭代增强世界模型 [5] - 有公司构建世界模型时数据采集成本达千万级,研究团队难以承担,需通过特定高质量数据提升模型效果 [5] - 提出循环过程:先有0.1版本模型生成0.1版本数据,再进一步训练模型,采用生成数据与真实数据混合模式 [5] 技术实现路径与架构分歧 - 技术路径存在分歧,有研究团队偏向融入物理信息保持视觉模型与物理世界一致性如重力 [6] - 模型构建与需求相关,面向影视游戏方向视频生成更合适,面向通用任务可能不需严格保持物理规律 [6] - 随着生成能力增强,模型最终形态可能是纯生成式,无需重建 [6] - 架构存在扩散模型与自回归模型之争,扩散模型从随机噪声还原内容更接近物理世界生成方式 [7] - 观察到技术融合趋势,包括OpenAI正探索将不同架构在特定阶段统一,如使用token化扩散 [7] - 已有扩散和自回归结合工作,扩散擅长捕捉现实世界分布,自回归补足时序与逻辑连贯性 [7] 发展时间表与商业化前景 - 世界模型的ChatGPT时刻可能需要三年左右出现,目前最困难是缺乏高质量长视频数据 [8] - 视频生成时长大多在5到10秒,大厂演示仅达一分钟量级,因此ChatGPT时刻可能需更长时间 [8] - 世界模型可能是现在及未来十年新的爆发方向,随着语言模型发展成熟需开拓新研究方向 [8] - 存在ToB和ToC商业化挑战,如ToB端按token收费时如何定义视频生成数据价值,ToC端如何提升token [8] - 未来需训练强化学习Agent并将视觉-语言-动作技术进化为世界-语言-动作技术 [8]
鹏城实验室出品,一座“世界模型”融资数亿元
36氪· 2025-12-02 11:56
Meta的AI战略与人才布局 - 在过去一年中,Meta为吸引来自OpenAI、Anthropic等头部公司的人才,开出了高达1亿美元的跳槽奖金[1] - 为收购天才少年汪涛创办的Scale AI并使其团队加入,Meta耗资148亿美元[1] - 公司邀请前Y Combinator合伙人丹尼尔·格罗斯及其风险投资基金NFDG的合伙人纳特·弗里德曼加入,以组建Meta的首只产业基金(CVC)[1] 技术路线转向:“世界模型” - Meta首席科学家杨立昆(图灵奖得主)宣布将于年底离职,并认为当前大语言模型对物理世界理解能力很差,是“死路一条”,主张发展“世界模型”技术路线[2] - “世界模型”旨在使AI能够预测一系列行动对世界产生的影响,具备人类级别的物理空间理解能力[5] - 知名华人科学家李飞飞同样认为,人工智能下一个十年的主要方向应是具备空间智能的“世界模型”[5] 当前AI模型的局限性 - 大语言模型仅能推理下一个最符合逻辑的词元或像素,缺乏对三维世界的真正理解,例如在给定门、桌子、人肩宽数据时,会忽略组合宽度等物理规律[4] - 视觉—语言—动作模型(VLA)存在两大缺陷:视觉输入压缩至语言token空间会丢失几何信息;模型泛化能力有限,对环境变化极度敏感[6] - 这些缺陷导致AI在物理空间中能力不足,使通用人工智能(AGI)的实现看似“无底洞”,并引发市场对“大模型烧钱”的焦虑,Meta股价曾在相关言论后暴跌12.6%,市值蒸发近2400亿美元[7] 中国公司的解决方案:拓元智慧的VWA模型 - 拓元智慧完成数亿元Pre-A轮系列融资,投资方包括东方精工、星宸科技、德韬资本、石溪资本、粤科创业等战略及产业投资方[2] - 公司提出VWA(Vision-World-Action)模型架构,区别于VLA,可直接在物理空间进行推理与决策,避免视觉信息压缩带来的信息丢失[10][11] - 核心物理自回归模型(PAR)在机器人操作基准ManiSkill的PushCube任务上实现100%成功率,且无需动作预训练[11] - 模型采用Tweedie Framework提升控制准确性,并引入Eon计算机制增强效率与长序列建模能力[12] - 依托新架构与海量真实预训练数据,模型适配所需数据极少(可仅需一条示例),参数更新规模极小(约4000个参数),能实现新环境在线快速适配[13] 投资方背景与战略协同 - 投资方东方精工聚焦高端智能装备制造,正布局“人工智能+具身智能机器人”全产业链生态[13] - 投资方星宸科技是视觉AI SoC芯片全球出货量第一的企业,为智能机器人等领域提供解决方案[14] - 德韬资本作为金牌家居产业投资平台,聚焦泛家居产业链、人工智能、机器人等领域[15] - 石溪资本由集成电路存储龙头企业发起,在半导体、人工智能领域有广泛布局[15]