Workflow
世界模型
icon
搜索文档
极佳视界获新一轮亿元级 A1 轮融资,CEO:“物理世界 ChatGPT 时刻”将在 2 至 3 年内到来
AI前线· 2025-11-05 13:09
作者 | 华卫 近日 ,极佳视界宣布,公司已完成新一轮亿元级 A1 轮融资, 本轮融资由华为哈勃、华控基金联合投资 。这是极佳视界继今年 8 月底的 Pre-A、Pre- A+ 两轮数亿元融资后,在两个月来完成的第三轮融资。此前 8 月底,极佳视界宣布完成 Pre-A&Pre-A+ 连续两轮数亿元融资。 成立于 2023 年的极佳视界,聚焦物理 AI,专注于"世界模型驱动的物理世界通用智能"。其产品包括世界模型平台 GigaWorld(驾驶和具身)、具身基 础模型 GigaBrain、通用具身本体 Maker 等物理 AI 全栈软硬件产品。 极佳视界核心团队紧密依托清华大学自动化系智能视觉实验室,成员来自清华、中科院等知名院校顶尖研究人员,以及百度、微软、地平线等知名企业 高管,累计发表顶级 AI 论文 200 余篇,获数十项全球 AI 竞赛冠军,发布多个具有全球影响力的物理 AI 技术成果。 公司创始人 &CEO 黄冠博士是清华大学自动化系博士,同时拥有微软、三星、地平线等知名企业研究工作经历,多次带领百人研发团队;并拥有 Physical AI 方向丰富的连续创业经验,作为核心高管累计主导或参与融资超 1 ...
谷歌Dreamer大神离职,自曝错过Transformer
36氪· 2025-11-05 10:20
刚刚,「Dreamer」大神Danijar Hafner,宣布离开他曾工作近十年的谷歌。 离职前Danijar担任Google DeepMind旧金山分部的资深研究科学家(Staff Research Scientist)。 他的研究目标是「构建能够理解世界并与世界互动的通用智能体」。 作为谷歌世界模型大牛,Danijar曾主导/联合主导了Dreamer系列(Dreamer、DreamerV3、Dreamer4 等)的开发。 Danijar Hafner 他在推文中写道:「今天是我在DeepMind的最后一天」。 回顾了在Google和DeepMind将近10年的工作经历,Danijar认为「一个重要的篇章走到了终点」。 Danijar在谷歌的早期经历,多是以研究员的身份参与谷歌研究院、DeepMind、Brain Team等团队的工作。 从他的教育经历中,也能清晰看出他的职业发展轨迹。 | Researcher 研究员 | Google (google.com) | | 2023 - Present | | --- | --- | --- | --- | | 谷歌 (google.com) | | | 20 ...
理想郎咸朋:VLA 加强化学习将成为车企真正的护城河
晚点LatePost· 2025-11-04 16:03
公司战略与技术路线 - 公司认为无法在竞争对手已建立的规则方案战场上取胜,必须开辟新战场,通过技术代际提升实现超越 [13][14][16] - 公司自动驾驶发展遵循明确时间节点:2021年确认技术方案,2023年拿到入场券,2025年成为顶级公司,2027年实现L4常态化运营 [41] - 公司战略从跟随转向引领,2023年底至2024年初资源充足后,目标变为在智能化上显著超越华为 [16] - 技术路线经历三次重大演变:从规则方案到端到端模型,再到当前的视觉-语言-行动模型,每次转变都是为了建立新竞争优势 [5][16][18] 视觉-语言-行动模型技术 - VLA模型旨在让自动驾驶系统具备类似人类的思考推理能力,而非单纯模仿驾驶行为,项目代号为“斯芬克斯” [5][21] - 公司认为VLA结合强化学习将形成新的护城河,并演化成未来企业走向人工智能的护城河 [6] - 针对外界对VLA多模态对齐、数据训练、模型幻觉和芯片适配的质疑,公司回应称已具备相关能力积累,现有数据量达十几亿公里 [21][24][39] - VLA车端模型参数量为40亿,云端模型目标为320亿,公司认为驾驶任务不需要像GPT-3那样1750亿的超大模型 [37] 组织架构与团队管理 - 公司近期将智驾团队重组为11个二级部门,部门负责人直接向研发高级副总裁汇报,旨在打造更扁平、高效的AI组织 [8][9] - 团队发展已历经三代骨干更替,核心管理者和技术负责人均从内部培养成长 [52] - 公司宣布取消大规模封闭研发模式,转向各部门发挥业务专长共同协作,体现对员工的关怀和管理思路转变 [10] - 团队规模控制在千人左右,坚持精兵策略,认为数据闭环和强化训练闭环成熟后无需数千人团队 [60][61] 数据与算力基础设施 - 公司认为自动驾驶的本质是高效运营数据闭环,其能力公式为有效驾驶区域 = 算法能力 × 有效数据量 × 数据闭环效率 [42][58][59] - 公司累计数据量从2021年前不到1亿公里,发展到如今十几亿公里,并有意识采集高质量数据而非盲目追求数据量 [39] - 公司当前云端算力为100亿亿次浮点运算的训练算力加30亿亿次浮点运算的推理算力,去年投入约10亿元人民币达到80亿亿次浮点运算算力 [33][36] - 算力投入不设上限,未来训练与推理算力预计各占一半,最终将收敛到合理数值 [33][34][35] 技术演进与行业竞争 - 端到端模型在2023年量产落地,解决了跟随慢车不绕行、复杂路口看不懂红绿灯等长尾问题,使公司跻身智驾第一梯队 [12][16][19] - 公司认为端到端模仿学习存在天花板,今年春节后资源加速向VLA倾斜,目标是实现L4级自动驾驶 [19][20] - 针对特斯拉FSD进入中国,公司认为双方目前差距尚未拉开,但VLA强化闭环实现自我迭代后将形成代际差别,有望在中国市场超越特斯拉 [44] - 公司观察到特斯拉最新FSD版本也已引入语言模块和多模态任务,与VLA理念高度一致,双方技术路径方向一致但实现细节不同 [44][45] 研发历程与关键节点 - 公司智驾自研起步于2021年的“卫城”项目,团队不足100人,用90天交付基础辅助驾驶功能,完成从0到1的突破 [11][49][51] - 研发过程中曾经历高强度封闭开发,例如为交付端到端1000万片段版本,核心团队持续两三个月每天早晨8点开晨会 [12] - 2019年资源极度匮乏时期,团队曾使用碰撞测试报废车辆安装价值300多万元的激光雷达进行技术预研 [54] - 从2021年交付基础辅助驾驶到2023年实现城市导航辅助驾驶,公司通过连续封闭开发完成了关键功能追赶 [10][15]
对话郎咸朋:VLA 技术论战、团队换血与不被看好时的自我证明
晚点Auto· 2025-11-04 11:58
技术战略与路线选择 - 公司认为无法通过模仿领先者(如华为)的方式实现超越,必须开辟新的技术战场,因此选择研发下一代技术如“端到端”和VLA(视觉-语言-行动模型)以实现代际提升[3][13][16][17] - 2023年底公司决定从规则方案转向“端到端”架构,使智驾能力进入第一梯队;2024年初进一步选择VLA路径,目标是让系统具备类似人类的推理能力,而非单纯行为模仿,以争取成为没有争议的行业第一[3][16][19] - VLA被视为实现L4级自动驾驶的关键路径,其核心优势在于无监督训练和更高的迭代效率,预计最晚明年初用户可体验到显著提升;公司认为反对声音恰恰验证了VLA方向的正确性[3][18][23][24] 组织架构与团队演进 - 2024年9月公司对智驾团队进行重组,将原有4-5个二级部门拆分为11个部门,负责人直接向研发高级副总裁汇报,旨在打造更扁平的AI组织以提升决策效率和适应性[6][7][8] - 团队自2018年成立以来已更换三代骨干,早期成员多因资源投入分歧离职;当前核心管理层强调从内部培养,二级部门负责人均具备业务和技术背景,而非纯管理出身[8][46][47][49] - 公司取消大规模封闭研发模式,转向各部门发挥专长共同协作,反映其从追赶者到领先者的角色转变,同时注重员工关怀与可持续能力建设而非单纯压榨工时[8][9] 研发历程与关键节点 - 自研起步阶段(2019年)资源极度匮乏,团队曾使用碰撞测试报废车辆安装激光雷达进行预研,单个激光雷达成本达60-80万元,总投入约300余万元[3][50] - 2021年启动首个全栈自研项目“卫城”,团队不足100人,通过连续封闭开发(如每天全员到岗、凌晨加班)在90天内交付基础ADAS,并于同年12月交付高速NOA,奠定自研基础[10][44][45][46] - 数据积累从2021年前不足1亿公里快速增长至近年每年数亿公里,2023年有意控制数据采集量,聚焦高质量数据,当前保有量约十几亿公里,为模型训练提供支撑[34][35] 技术能力与资源投入 - 公司构建以数据闭环为核心的护城河,2023年“端到端”方案上线时通过“超级对齐”解决安全性问题,但过程痛苦,需核心团队持续数月每日早晨8点晨会[11][12] - 云端算力投入巨大,2023年约8 EFLOPS(对应10亿元人民币量级),当前训练算力达10 EFLOPS,推理算力3 EFLOPS,未来计划提升至32B参数模型,且投入不设上限[31][32][33] - VLA车端模型参数量为4B,通过工程优化部署至非大模型定制芯片;自研芯片将按AI需求设计,支持多芯片并联扩展算力,以应对存储带宽限制[23][33] 竞争对标与行业展望 - 公司认为与特斯拉FSD当前差距未拉开,但VLA加强化闭环实现自我迭代后,将形成代际优势,并有望凭借本土数据环境在中国市场超越特斯拉[39] - 针对特斯拉FSD V14,公司认可其表现(如修复95%犹豫变道问题),但指出其技术框架已包含Language模块,与VLA理念一致,双方路径趋同但实现细节不同[39][40] - 实现L4的最大挑战并非技术,而是大规模商业化落地,包括用户教育、法律法规和公众接受度;公司计划先聚焦国内市场,已设立创新业务部探索海外适配[40][41] 业务理念与领导力 - 公司坚持LSA(理想战略分析法)框架:认知决定战略、战略决定业务、业务决定组织与资源,强调在高峰时不膨胀、低谷时不放弃的长期执行力[52][53][54][62] - 研发高级副总裁将工作时间分配调整为50%管理、30%战略规划、20%技术业务,反映其从技术专家向业务管理者的转型,并深入参与L4商业化战略设计[58] - 公司培养人才注重全面业务理解,核心负责人需经历多岗位锻炼;校招生管理强调战略目标传达而非经验灌输,给予资源空间自主发挥[49][60]
从DriveVLA-W0出发:探讨世界模型如何放大VLA的扩展定律(中科院)
自动驾驶之心· 2025-11-04 08:03
戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>直播和内容获取转到 → 自动驾驶之心知识星球 点击按钮预约直播 在自动驾驶领域,通过大规模数据来扩展视觉-语言-动作模型,为构建更通用的驾驶智能提供了一条充满前景的道路。然而,VLA模型一直面临" 监督缺失 "的问 题:其庞大的模型能力仅由稀疏、低维的动作信号进行监督,导致其大部分表征潜力未能得到充分利用。 为解决此问题,中科院和华为引望的团队提出了 DriveVLA-W0, 一种利用世界模型来预测未来图像的训练范式。 为验证DriveVLA-W0的通用性,本文在两种主流 VLA架构上展开验证:针对采用离散视觉token的VLA模型,设计自回归世界模型;针对基于连续视觉特征的VLA模型,设计扩散世界模型。基于世界建模学习到的 丰富表征,本文进一步引入轻量级动作专家(action expert),以解决实时部署中的推理耗时问题。 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 DriveVLA-W0: 利用世界模型放大VLA的 拓展定律 时间:11.4 / 19:30-20:30 直播简介 VLA模型是通向通用自动驾驶的希望路 径,却受限于"监督赤字": ...
极佳视界完成新一轮亿元级A1轮融资 华为哈勃和华控基金联合领投
证券时报网· 2025-11-03 19:36
融资信息 - 极佳视界完成新一轮亿元级A1轮融资,投资方为华为哈勃与华控基金联合投资 [1] - 此前在8月底,公司已完成Pre-A及Pre-A+连续两轮数亿元融资 [1] 公司业务与技术定位 - 公司成立于2023年,聚焦物理AI,专注于“世界模型驱动的物理世界通用智能” [1] - 产品包括世界模型平台GigaWorld、具身基础模型GigaBrain、通用具身本体Maker等物理AI全栈软硬件产品 [1] - 世界模型技术价值已在当前阶段展现,对高维高质量数据稀缺、传统仿真器Sim2Real Gap问题产生改善,并提升强化学习训练效果 [1] 行业趋势与战略合作 - 世界模型被公司及行业认为是具身智能关键且热门的方向,华为将其列为未来智能世界2035年十大技术趋势之首 [1] - 华为不仅进行投资,还从多个业务线与极佳视界推进战略合作 [1] 技术展望与发展规划 - 公司预测“物理世界ChatGPT时刻”将在2至3年内到来 [2] - 世界模型、VLA、强化学习三者协同,目标是在100种常见任务中,于90%的场景下达到95%的成功率 [2] - 未来公司将推进物理AI智能模型研发迭代,加速通用具身人形本体研发,并打造标杆场景商业化应用落地 [2]
詹锟兼任理想美国硅谷研发中心负责人并将直播讨论世界模型与VLA
理想TOP2· 2025-11-03 15:33
动驾! H 线上直播 特斯拉FSD v14畅聊,有哪些技术值得国内关注? 中 * 世界模型和VLA未来发展方向探讨,是否有可能走 向融合统一? * 数据和算力的高需求导致学术界越来越难以参与智 驾的游戏,学术界还有哪些机会? FSD v14 藏了 VLA 吗? 谁在定义自动驾驶下一代方案: WA vs VLA 詹锟 北航自动化硕士,理想汽车 VLA团队高级总监,兼任理 想汽车美国硅谷研发中心的负 责人 连线嘉宾 圆桌正当时 江岸青 早稻田大学博士,博世中央 研究院高级算法科学家, vla/闭环算法 研究team leader 许凌云 中国科学院博士,卡内基梅 隆机器人研究所博士后。现 任长安汽车泊车团队负责人 张志鹏 上海交通大学人工智能学 院PI,博士生导师 主持人 Gloria 自动驾驶之心联创 刘斯坦 知乎大V,深度流光联合创 始人 & CTO | 19:30 扫描二维码免费观看 ...
华为哈勃+华控基金联合领投极佳视界A1轮,引领物理AI终局路线
36氪· 2025-11-03 13:12
行业趋势与巨头布局 - 世界模型在具身智能领域快速升温,谷歌、OpenAI、特斯拉、英伟达等科技巨头已密集布局[3] - 业内人士判断世界模型将缓解具身智能在数据稀缺与泛化困难上的瓶颈,并可能成为2026年的核心技术趋势[3] - 华为将世界模型列为未来智能世界2035年十大技术趋势之首,这构成了其投资相关公司的底层逻辑[8] 公司融资与市场认可 - 极佳视界在近两个月内连续完成三轮融资,包括由华为哈勃、华控基金联合投资的亿元级A1轮融资,以及此前8月底完成的Pre-A&Pre-A+连续两轮数亿元融资[3] - 2个月完成3轮融资体现了资本市场对公司团队实力、技术路线和业务推进的认可,也折射出投资方对“物理世界通用智能”关键转折点的判断[4] - 公司成立于2023年,专注于世界模型驱动的物理世界通用智能,产品包括世界模型平台GigaWorld、具身基础模型GigaBrain等全栈软硬件产品[4] 世界模型的技术价值与定义 - 世界模型是在数字世界里建模物理世界和运行规律,让AI在动手前先在“脑内”搭建物理沙盒进行预测,从而在陌生环境中少试错、更稳健[7] - 公司认为世界模型的技术价值已在当前阶段展现,能在高维高质量数据稀缺、传统仿真器Sim2Real Gap两大问题上产生改善,并提升强化学习训练效果[6] - 世界模型将主要解决泛化性,与VLA(解决作业复杂性)、强化学习(解决准确率和可靠性)协同,目标是在100种常见任务中90%的场景下达到95%的成功率[9] 公司技术优势与团队背景 - 公司核心团队紧密依托清华大学自动化系智能视觉实验室,成员来自顶尖院校和知名企业,累计发表顶级AI论文200余篇,获数十项全球AI竞赛冠军[10] - 创始人兼CEO黄冠博士为清华大学自动化系博士,拥有微软、三星、地平线等企业研究经历,并主导或参与融资累计超10亿元[11] - 公司具身世界模型是系统性解决方案,能从少量真实数据中学习并生成大量高保真合成数据,以极低成本填补数据缺口,并显著提升生成数据的真实性与可用性[11] 产品性能与商业应用 - 公司产品GigaBrain-0在对比中展现出更优异的性能提升潜力,其训练数据来源更丰富,在纹理、光照、视角变化下表现更鲁棒、泛化性更好[13][14] - GigaBrain-0架构更深,关键子模块引入更深层建模使操作表现更精细,并拥有大小双版本模型,小模型可达大模型约90%效果且可在端侧Orin实现实时推理[14] - 公司已与多地人形机器人创新中心、实训场、科研院校及全球汽车行业巨头等达成深度合作,共同探索物理AI在驾驶、工业、服务、家庭等场景的落地[15]
美团新独立APP,点不了菜只能点AI
猿大侠· 2025-11-03 12:11
模型发布与性能 - 美团最新开源多模态大模型LongCat-Flash-Omni,支持文本、图像、音频、视频全模态输入,在Omni-Bench和WorldSense等基准测试中达到开源SOTA水平,性能可与闭源模型Gemini-2.5-Pro相媲美 [2] - 模型采用MoE架构,总参数量达560B,激活参数仅27B,实现“大总参小激活”,在保持庞大知识容量的同时具备极高的推理效率 [4] - 该模型是当前主流旗舰模型参数规模下,首个实现全模态实时交互的开源模型,交互体验丝滑,响应延迟极低 [8][28] 技术架构与创新 - 模型采用完全端到端的统一架构ScMoE,并创新性地使用分块式音视频特征交织策略,实现低延迟的实时语音生成与视觉响应 [40] - 通过渐进式早期多模融合训练和模态解耦并行(MDP)训练方案,有效提升多模态训练效率,模型上下文窗口扩展至128K tokens,支持超8分钟的音视频交互 [40][42] - 技术路径清晰:先打通底层速度实现即时响应,再深耕复杂场景的专业能力,最后向全模态拓展,解决了多模态融合难、实时交互性能受限等行业痛点 [38][39] 战略布局与投资逻辑 - 公司战略核心是软硬件“两条腿走路”,通过构建“世界模型”和投资“具身智能”,实现数字世界与物理世界的深度连接 [45][47] - 投资脉络清晰:2018-2020年聚焦消费领域以巩固本地生活护城河;2021年后科技投资占比显著提升,重点投向自动驾驶、AI芯片、具身机器人等核心基础设施 [54][55] - 目标是构建覆盖“低空—地面—社区”的立体化智能服务网络,将技术能力注入零售场景,关键词是autonomy(无人化),以实现系统效率跃迁 [57][61][62]
美团新独立APP,点不了菜只能点AI
量子位· 2025-11-03 11:12
LongCat-Flash-Omni模型技术特点 - 最新开源多模态模型LongCat-Flash-Omni在综合性全模态基准测试(如Omni-Bench, WorldSense)上超越Qwen3-Omni、Gemini-2.5-Flash,达到开源SOTA水准,并能与闭源Gemini-2.5-Pro相媲美[2] - 模型支持文本、图像、音频、视频等全模态能力,各项单项能力均位居开源模型前列,实现“全模态不降智”[3] - 采用MoE架构,总参数560B,激活参数仅27B,通过“大总参小激活”设计在保持庞大知识容量的同时实现极高推理效率,是首个在主流旗舰模型性能标准和参数规模下实现全模态实时交互的开源模型[4][8] 模型应用与交互体验 - 模型已在LongCat APP和Web端上线,支持文字/语音输入、语音通话,Web端还支持上传图片和文件,视频通话功能正在开发中[9][10] - 实测显示模型具备快速响应能力,从输入指令到生成第一个token的时间间隔短暂,交互过程丝滑,能即时处理复杂多模态任务[7][25][26] - 模型在聊天问答、语音识别、物理世界规则理解(如六边形小球弹跳问题)及嘈杂环境下的语音识别等场景中表现稳定,能准确接住并回答脑筋急转弯式推理题[17][24][27] 美团AI战略发展路径 - 公司迭代模型的逻辑清晰:速度优先(实现模型响应、语音识别、实时生成的丝滑体验),专业深耕(优化复杂逻辑推理、物理仿真等能力),全面拓展(向全模态路线推进)[29][31] - 通过投资和自研结合,公司布局“世界模型”与“具身智能”,目标是连接数字世界和物理世界,软件端构建能深度理解现实并交互的“世界模型”,硬件端围绕“具身智能”加速落地[42][44][47][48] - 公司投资脉络从早期聚焦消费领域转向加码科技投资,重点布局自动驾驶、AI芯片、具身机器人等未来核心基础设施,构建覆盖“低空—地面—社区”的立体化服务网络[53][54][57][61] 多模态技术突破与架构创新 - 模型在架构层面重构多模态融合底层逻辑,采用完全端到端的统一架构ScMoE,能同时接收文本、音频、图像、视频及任意组合的多模态输入[36][38] - 通过分块式音视频特征交织策略实现流式音视频处理,使音频与视频特征按时间片段同步输入LLM,支持低延迟实时语音生成与视觉响应,上下文窗口扩展至128K tokens,支持超8分钟音视频交互[38] - 训练上采用渐进式早期多模融合训练和模态解耦并行(MDP)方案,提升多模态训练效率,确保系统长期稳定运行,解决参数大但推理慢的行业痛点[38][39]