世界模型
搜索文档
华为哈勃+华控基金联合领投极佳视界A1轮,引领物理AI终局路线
36氪· 2025-11-03 13:12
行业趋势与巨头布局 - 世界模型在具身智能领域快速升温,谷歌、OpenAI、特斯拉、英伟达等科技巨头已密集布局[3] - 业内人士判断世界模型将缓解具身智能在数据稀缺与泛化困难上的瓶颈,并可能成为2026年的核心技术趋势[3] - 华为将世界模型列为未来智能世界2035年十大技术趋势之首,这构成了其投资相关公司的底层逻辑[8] 公司融资与市场认可 - 极佳视界在近两个月内连续完成三轮融资,包括由华为哈勃、华控基金联合投资的亿元级A1轮融资,以及此前8月底完成的Pre-A&Pre-A+连续两轮数亿元融资[3] - 2个月完成3轮融资体现了资本市场对公司团队实力、技术路线和业务推进的认可,也折射出投资方对“物理世界通用智能”关键转折点的判断[4] - 公司成立于2023年,专注于世界模型驱动的物理世界通用智能,产品包括世界模型平台GigaWorld、具身基础模型GigaBrain等全栈软硬件产品[4] 世界模型的技术价值与定义 - 世界模型是在数字世界里建模物理世界和运行规律,让AI在动手前先在“脑内”搭建物理沙盒进行预测,从而在陌生环境中少试错、更稳健[7] - 公司认为世界模型的技术价值已在当前阶段展现,能在高维高质量数据稀缺、传统仿真器Sim2Real Gap两大问题上产生改善,并提升强化学习训练效果[6] - 世界模型将主要解决泛化性,与VLA(解决作业复杂性)、强化学习(解决准确率和可靠性)协同,目标是在100种常见任务中90%的场景下达到95%的成功率[9] 公司技术优势与团队背景 - 公司核心团队紧密依托清华大学自动化系智能视觉实验室,成员来自顶尖院校和知名企业,累计发表顶级AI论文200余篇,获数十项全球AI竞赛冠军[10] - 创始人兼CEO黄冠博士为清华大学自动化系博士,拥有微软、三星、地平线等企业研究经历,并主导或参与融资累计超10亿元[11] - 公司具身世界模型是系统性解决方案,能从少量真实数据中学习并生成大量高保真合成数据,以极低成本填补数据缺口,并显著提升生成数据的真实性与可用性[11] 产品性能与商业应用 - 公司产品GigaBrain-0在对比中展现出更优异的性能提升潜力,其训练数据来源更丰富,在纹理、光照、视角变化下表现更鲁棒、泛化性更好[13][14] - GigaBrain-0架构更深,关键子模块引入更深层建模使操作表现更精细,并拥有大小双版本模型,小模型可达大模型约90%效果且可在端侧Orin实现实时推理[14] - 公司已与多地人形机器人创新中心、实训场、科研院校及全球汽车行业巨头等达成深度合作,共同探索物理AI在驾驶、工业、服务、家庭等场景的落地[15]
美团新独立APP,点不了菜只能点AI
猿大侠· 2025-11-03 12:11
模型发布与性能 - 美团最新开源多模态大模型LongCat-Flash-Omni,支持文本、图像、音频、视频全模态输入,在Omni-Bench和WorldSense等基准测试中达到开源SOTA水平,性能可与闭源模型Gemini-2.5-Pro相媲美 [2] - 模型采用MoE架构,总参数量达560B,激活参数仅27B,实现“大总参小激活”,在保持庞大知识容量的同时具备极高的推理效率 [4] - 该模型是当前主流旗舰模型参数规模下,首个实现全模态实时交互的开源模型,交互体验丝滑,响应延迟极低 [8][28] 技术架构与创新 - 模型采用完全端到端的统一架构ScMoE,并创新性地使用分块式音视频特征交织策略,实现低延迟的实时语音生成与视觉响应 [40] - 通过渐进式早期多模融合训练和模态解耦并行(MDP)训练方案,有效提升多模态训练效率,模型上下文窗口扩展至128K tokens,支持超8分钟的音视频交互 [40][42] - 技术路径清晰:先打通底层速度实现即时响应,再深耕复杂场景的专业能力,最后向全模态拓展,解决了多模态融合难、实时交互性能受限等行业痛点 [38][39] 战略布局与投资逻辑 - 公司战略核心是软硬件“两条腿走路”,通过构建“世界模型”和投资“具身智能”,实现数字世界与物理世界的深度连接 [45][47] - 投资脉络清晰:2018-2020年聚焦消费领域以巩固本地生活护城河;2021年后科技投资占比显著提升,重点投向自动驾驶、AI芯片、具身机器人等核心基础设施 [54][55] - 目标是构建覆盖“低空—地面—社区”的立体化智能服务网络,将技术能力注入零售场景,关键词是autonomy(无人化),以实现系统效率跃迁 [57][61][62]
美团新独立APP,点不了菜只能点AI
量子位· 2025-11-03 11:12
LongCat-Flash-Omni模型技术特点 - 最新开源多模态模型LongCat-Flash-Omni在综合性全模态基准测试(如Omni-Bench, WorldSense)上超越Qwen3-Omni、Gemini-2.5-Flash,达到开源SOTA水准,并能与闭源Gemini-2.5-Pro相媲美[2] - 模型支持文本、图像、音频、视频等全模态能力,各项单项能力均位居开源模型前列,实现“全模态不降智”[3] - 采用MoE架构,总参数560B,激活参数仅27B,通过“大总参小激活”设计在保持庞大知识容量的同时实现极高推理效率,是首个在主流旗舰模型性能标准和参数规模下实现全模态实时交互的开源模型[4][8] 模型应用与交互体验 - 模型已在LongCat APP和Web端上线,支持文字/语音输入、语音通话,Web端还支持上传图片和文件,视频通话功能正在开发中[9][10] - 实测显示模型具备快速响应能力,从输入指令到生成第一个token的时间间隔短暂,交互过程丝滑,能即时处理复杂多模态任务[7][25][26] - 模型在聊天问答、语音识别、物理世界规则理解(如六边形小球弹跳问题)及嘈杂环境下的语音识别等场景中表现稳定,能准确接住并回答脑筋急转弯式推理题[17][24][27] 美团AI战略发展路径 - 公司迭代模型的逻辑清晰:速度优先(实现模型响应、语音识别、实时生成的丝滑体验),专业深耕(优化复杂逻辑推理、物理仿真等能力),全面拓展(向全模态路线推进)[29][31] - 通过投资和自研结合,公司布局“世界模型”与“具身智能”,目标是连接数字世界和物理世界,软件端构建能深度理解现实并交互的“世界模型”,硬件端围绕“具身智能”加速落地[42][44][47][48] - 公司投资脉络从早期聚焦消费领域转向加码科技投资,重点布局自动驾驶、AI芯片、具身机器人等未来核心基础设施,构建覆盖“低空—地面—社区”的立体化服务网络[53][54][57][61] 多模态技术突破与架构创新 - 模型在架构层面重构多模态融合底层逻辑,采用完全端到端的统一架构ScMoE,能同时接收文本、音频、图像、视频及任意组合的多模态输入[36][38] - 通过分块式音视频特征交织策略实现流式音视频处理,使音频与视频特征按时间片段同步输入LLM,支持低延迟实时语音生成与视觉响应,上下文窗口扩展至128K tokens,支持超8分钟音视频交互[38] - 训练上采用渐进式早期多模融合训练和模态解耦并行(MDP)方案,提升多模态训练效率,确保系统长期稳定运行,解决参数大但推理慢的行业痛点[38][39]
智驾软硬件持续迭代,robotaxi未来已来
2025-11-03 10:35
智驾软硬件持续迭代,robotaxi 未来已来 20251102 当前智驾行业内主要车企的技术路线和进展如何? 目前智驾行业内的技术路线主要分为三类。第一类是端到端算法,这一方向自 特斯拉在 2021 年 AI Day 之后开始受到广泛关注。目前采用端到端算法并实 现量产上车的企业包括 Momenta、特斯拉和极氪等。端到端算法分为一段式 和两段式,目前量产应用的大多是两段式,一段式预计将在今年继续推进相关 工作。其优势在于通过较小算力即可实现城市 OA 功能。 第二类是 VLA(Vision Language Action)模型,代表企业有理想和小鹏。VLA 模型 结合语言模型对环境进行语义级别分析,并将这些信息传递给后续决策模块, 实现控车。然而,VLA 模型依赖语言模型的训练开发,需要大量资源。此外, VLA 对算力要求高,最低需求在 500 TOPS 以上,同时推理速度相对较慢,例 如理想目前能实现的推理速度约为 10 帧左右。 第三类是世界模型,这条技术 路线与 VLA 不冲突,可以结合使用。世界模型能够理解当前环境并预测未来几 秒内场景变化。例如华为、Momenta、地平线等公司正在开发这种方案。 ...
2025大脑具身智能落地的关键
搜狐财经· 2025-11-02 08:45
文章核心观点 - 具身智能正成为科技领域新焦点,其核心载体是人形机器人,而机器人的“大脑”系统是决定行业发展速度的关键 [1] - 机器人大脑以AI大模型为核心,需整合传感器数据、物理规律和硬件限制,技术研发难度高于通用大模型 [2] - 行业技术路线呈现多元化探索,包括大脑+小脑分层、端到端VLA和世界模型等,目前尚未形成统一标准 [2][3] - 全球参与者分为三类:专业机器人大脑公司、通用大模型企业和机器人本体自研厂商,形成差异化竞争格局 [4][5] - 当前限制人形机器人规模化应用的核心瓶颈是模型本身而非数据,技术临界点预计在未来1-5年内到来 [5] - 机器人大脑研发面临数据获取难、训练复杂度高、通用泛化能力不足等核心挑战 [6] - 尽管存在挑战,特斯拉Optimus、Figure AI等企业的技术突破正推动行业从“机械执行”向“自主思考”迈进 [7] 机器人大脑的定义和能力 - 人形机器人由大脑、小脑和肢体三部分构成:大脑作为决策中枢基于AI大模型进行自主判断,小脑专注运动控制精准性,肢体负责环境感知和执行动作 [1][14] - 大脑系统需具备实时交互能力,能通过语言、手势等方式与人类进行多轮任务级交互,快速理解并执行指令 [15] - 需要强大的多模态感知能力,整合视觉、听觉、触觉等多种感官信息,实现对环境的全面理解 [16] - 必须具备自主可靠决策能力,能够理解复杂任务并将其分解为可执行的子任务序列 [19] - 应具备涌现和泛化能力,能够在未见过的新环境中适应未知情况,展现出创新性解决方案 [19] - 与通用大模型有本质区别,机器人大脑必须解决物理世界的现实问题,考虑硬件限制和动力学规律 [2][19] 人形机器人大模型技术路线 - 大脑+小脑分层路线是相对成熟的主流方向,大脑由多模态大模型担任任务规划和流程理解,小脑专注于运动控制的精准执行 [2][20] - 端到端VLA技术路线采用单一模型直接从感知到动作,灵活性强但目前更适合短时间简单任务,复杂长程任务仍有局限 [3][20] - 世界模型路线是最前沿探索方向,旨在建立对物理世界的认知地图,通过预测未来状态优化动作,但因物理规则复杂仍处于早期阶段 [3][20] - 类脑智能通过对人脑生物结构进行直接模拟,未来有望成为代替大模型的新技术路线 [20][22] - 脑机接口技术建立人脑与外部设备连接通路,未来可能实现“人+机”混合智能的解决方案 [22] 行业竞争格局 - 专业机器人大脑公司包括北京通用人工智能研究院(通研院)、美国的Physical Intelligence和Skild AI等,专注为机器人公司进行AI赋能 [4][25] - 通用大模型企业如谷歌、OpenAI、字节跳动等尝试将自身大模型能力延伸至机器人领域,拥有海量数据和成熟架构但对物理世界理解需加强 [4][25] - 机器人企业自主研发以特斯拉为代表,Optimus采用与自动驾驶同源的单一基础模型架构,实现从感知到行动的端到端自主决策 [5][25] - 国内智元机器人已实现通用具身机器人量产,并推出自己的基座模型,能通过人类操作视频快速学习新技能 [5] 研发瓶颈与挑战 - 模型本身是限制人形机器人规模化应用的最大阻碍,行业发展阶段类似ChatGPT发布前1-3年,临界点预计在未来1-5年内到来 [5][27] - 数据获取困难,机器人大脑需要的是与物理世界交互的“行为数据”,采集成本高且不同机器人硬件导致数据格式不统一 [6][28] - 真实数据被称为“黄金数据”但采集成本高,仿真数据虽能大规模生成但难以还原真实世界的复杂物理交互 [6][28] - 训练难度大,机器人与物体的物理接触会让问题复杂度呈指数级上升,需要同时考虑重力、摩擦力等多重参数 [6][29] - 通用泛化能力不足,如何让模型在未见过的场景中自主应对问题仍是行业需要突破的核心难题 [6][29] 代表性厂商技术进展 - 特斯拉Optimus采用与FSD自动驾驶同源的单一基础模型架构,整合xAI的Grok模型提升逻辑推理能力,复杂指令准确率达92%以上 [32][33] - Figure AI自主研发Helix模型,是全球首个能对整个人形机器人上半身进行高频率连续控制的VLA模型,实现多机器人协同作业效率提升4倍以上 [34][36] - Physical Intelligence聚焦家用场景,其π0.5模型能让机器人在陌生厨房自主完成清理,并能从其他机器人那里学习动作经验 [4] - 通研院推出“通智大脑”系统,联合多家机器人企业成立联盟,推动技术与硬件的适配 [4]
智源研究院王仲远:世界模型的关键是真正预测下一个状态
经济观察网· 2025-11-01 18:51
世界模型成为AI新焦点 - 2025年“世界模型”成为AI领域最受关注的词汇之一 其核心是让AI理解世界运作规律 实现从识别生成到想象预测的跨越 [2] - 随着大模型红利减弱 行业正寻找新增长点 世界模型被视为重要方向 [2] 智源研究院Emu3.5模型技术突破 - 智源研究院发布悟界·Emu3.5多模态世界大模型 采用自回归架构统一了图像 文本与视频的生成和理解 能够预测下一个状态 [2] - 模型基于超过10万亿token的多模态数据训练 视频数据累计时长达790年 参数规模为340亿 [3] - 通过“离散扩散自适应”推理方法 图像生成速度提升近20倍 同时保持高质量输出 [3] - 模型在三个维度实现突破 理解高层级人类意图并生成多步骤行动路径 动态模拟物理世界 提供泛化交互能力 [3] 世界模型的核心价值与应用 - 世界模型核心是对因果与物理规律的理解 而非简单的视频生成 [3] - Emu3.5不限定用途 既可支撑具身智能 也能生成多模态训练数据 展示了中国科研团队的原创路线 [4] - 未来AI的发展方向是理解世界本身并在其中行动 [4] 行业巨头布局世界模型 - DeepMind推出可生成交互式3D世界的Genie 3 OpenAI强化Sora的物理一致性 [2] - 英伟达 华为 百度等公司正从机器人与自动驾驶场景切入 让AI从看懂迈向参与 [2]
从视频生成工具到“世界模型”距离有多远?
中国经营报· 2025-10-31 17:49
行业竞争格局 - OpenAI推出的第二代Sora在登陆苹果应用商店后5天内下载量超过100万次,增速超过ChatGPT [1] - 视频生成模型赛道已聚集谷歌、Meta等科技巨头以及Runway、Luma AI、Midjourney等创业公司 [1] - 国内市场已有阿里、腾讯、字节、快手、百度等企业推出数十款视频大模型产品,美团也开源了其首款视频生成模型LongCat-Video [1] - 视频生成模型的主战场正从“拼参数”的通用模型竞赛转向“拼落地”的垂直生态竞争 [7] 技术应用与影响 - AI视频工具使能进行较高质量内容创作的人群从可能只有10%的专业人员提升至可能90%的人 [2] - 使用Sora等产品未来制作影视、游戏、动漫的效率将会呈现几何倍数增长 [2] - AI视频正在成为社交网络的新名片,相关特效广受欢迎,满足了消费者在数字社交中的个性化等心理需求 [2] - 抖音AI短剧排行榜中的《兴安岭诡事》等作品播放量破亿次,AI短剧正在快速崛起 [3] - 视频生成技术发展迅速,表现在内容生态重塑、社交逻辑重构、内容消费体验升级等方面 [6] 技术演进与市场前景 - Sora2的推出标志着视频生成技术正在进入全民可用的成熟阶段,将给视频相关领域带来深远影响 [4] - 通用大模型正在加速从技术提供商向应用平台服务商转变,社交是撬动大众市场的驱动力 [5] - 多模态生成大模型正迎来系统性可用窗口,生数科技旗下Vidu称用户在30秒内可完成多个镜头切换 [6] - 全球AI视频生成市场规模去年达6.15亿美元,预计今年达7.17亿美元,2032年达25.63亿美元,年均复合增速20% [8] 技术挑战与发展方向 - 美团开源的LongCat-Video模型是其探索“世界模型”的第一步,意图是深耕自家田地而非与通用大模型硬碰硬 [6] - 视频生成模型正探索垂直场景的专用模型,在电商广告、短视频制作等领域已有初步试水 [6] - 要成为真正的“世界模型”需跨越诸多关卡,包括对复杂物理规律的精准模拟、前后逻辑及画面的一致性等 [7] - 成功关键在于技术能否与自身商业场景深度耦合,实现闭环价值,而非单纯技术领先 [7]
DeepMind一篇论文终结十年之争,GPT-5推理靠世界模型
36氪· 2025-10-31 16:22
GPT-5的推理能力突破 - GPT-5展现出惊艳的推理能力,逻辑水平堪比专家,网友评价如同与博士讨论问题[1] - 其核心突破不在于参数规模扩大,而在于智能体内部形成了“世界模型”[1] - 这种推理能力表现为多步逻辑处理能力,如解数学习题和规划流程[5] 世界模型的理论基础 - 世界模型是AI脑中的预测地图,能够对事件发展进行预测(如球桌边缘滚动→掉落预测)[3][4] - 学术框架中存在目标、策略、世界模型的三角推导关系:已知世界模型和目标可推导最优策略,已知策略和世界模型可反推目标[7] - 最新研究补齐三角关系最后一角:通过智能体策略和目标可恢复其世界模型,证明世界模型是通用智能的必要条件[9] 世界模型的实验验证 - 研究人员搭建虚拟迷你世界(含X/Y状态概率跳转)验证世界模型存在性[10][11] - 实验数据显示任务复杂度与模型精度正相关:任务越复杂,世界模型误差迅速下降[12][14] - 在复合目标实验(需状态间来回跳转)中,世界模型仍能被稳定恢复[15] 世界模型的技术意义 - 世界模型解释了“涌现能力”现象:非魔法而是模型清晰化的自然结果[17] - 模型为破解AI黑箱提供新途径,未来可能通过抽取世界模型解释AI行为[17] - 智能体强度与模型精度正相关,GPT-5的推理能力提升直接源于世界模型优化[16] 行业影响与未来展望 - 世界模型既是通向通用智能的通行证,也可能因模型与人类认知差异成为不确定性源头[17] - 该突破改变对AI能力的理解范式,从数据模仿转向内在认知构建[4][9] - 研究成果为AI安全性研究提供理论支撑,使模型可解释性具备实现基础[17]
L4大方向有了:理想自动驾驶团队,在全球AI顶会上揭幕新范式
机器之心· 2025-10-31 12:11
AI 正在进入下半场,最先进化的会是辅助驾驶? 最近,有关 AI 大模型进入瓶颈的讨论越来越多。强化学习之父 Rich Sutton 发表的前瞻论文《体验时代》指出,人工智能正在从依赖人类生成数据向体验 式学习的范式转变。 OpenAI 前研究员姚顺雨则直言不讳地表示 AI 正在进入「下半场」。他认为,需要为现实世界的任务开发新的 AI 评估或配置。更重要的是,要实现超越人 类的智能,AI 就必须超越模仿人类,依赖一种可随智能体改进而扩展的新数据源。 机器之心报道 作者:泽南 在自动驾驶领域,AI 范式转变的趋势同样也已显现。 上周刚刚结束的全球计算机视觉学术顶会 ICCV 2025 上,理想汽车自动驾驶高级算法专家詹锟在研讨会上发表了以《世界模型:让我们从数据闭环走向训 练闭环》(World Model: Evolving from Data Closed-loop to Training Closed-loop)为主题的演讲。 詹琨在 ICCV 2025 具身智能研讨会(Learning to See: Advancing Spatial Understanding for Embodied Intell ...
极佳视界联合湖北人形机器人创新中心,打造具身智能 “超级大脑”!“全市场唯一两百亿规模”机器人ETF(562500) 早盘稳步上行
新浪财经· 2025-10-31 10:27
麦高证券表示,国产人形机器人本体厂有望在量产阶段获得竞争优势,建议关注国产本体厂和相关供应 链。2025年为人形机器人商业化落地元年,国内市场是人形机器人早期落地最佳市场,且国内人形机器 人产业具备完善供应链和丰富高质量劳动力,机器人量产后,国产厂商有望在国际竞争中获得优势,建 议关注国产人形机器人本体厂及其相关供应链。 机器人ETF(562500) 是全市场唯一规模超两百亿的机器人主题ETF,成分股覆盖人形机器人、工业机器 人、服务机器人等多个细分领域,帮助投资者一键布局机器人上中下游产业链。场外联接(华夏中证机 器人ETF发起式联接A:018344;华夏中证机器人ETF发起式联接C:018345)。 今日截至9:58,机器人ETF(562500) 早盘震荡上行,现报1.036元,涨0.68%。分时图上,价格沿分时均 线震荡攀升,短线呈现技术性反弹格局。持仓股中上涨家数达61只,仅12只下跌,结构性表现明显,其 中东杰智能、埃斯顿、瀚川智能等多股涨幅超4%,石头科技出现-10%调整。成交保持活跃,开盘不足 半小时成交额近3亿元,显示资金参与度较高。 消息方面,在湖北武汉东湖高新区,极佳视界与湖北人形机器人创 ...