Workflow
世界模型
icon
搜索文档
2025年几家自动驾驶公司的采访总结
自动驾驶之心· 2026-01-22 17:07
核心观点 - 自动驾驶行业在核心算法层面已形成共识,即采用端到端(End-to-End)作为基础架构,并引入世界模型(World Model)作为关键基础设施 [6][7][10] - 行业在顶层认知上出现路线分歧,主要围绕是否在端到端模型中引入语言模型(即VLA与WA/反VLA之争),这本质上是计算效率与推理能力(快思考 vs 慢思考)的不同权衡 [7][11] - 未来三年是现有深度学习范式的“极致优化期”,核心在于通过海量数据驱动能力自然生长,而非理论重构 [7] - 行业竞争已超越单纯算法模型之争,研发基建、数据仿真、算力芯片、工程化能力及用户体验等非技术因素成为决定成败的关键变量 [13] 核心技术路线 端到端 (End-to-End) - 是自动驾驶的底层基座,替代了传统的模块化方案,直接从传感器输入映射到控制输出 [1][10] - 一段式端到端(One-Stage E2E)已被验证可行(如特斯拉FSD V12),统一了L2和L4的开发范式 [7] - 其局限性主要是“模仿学习”,能力上限受限于训练数据,缺乏逻辑推理 [12] 世界模型 (World Model) - 是核心算法演进中的关键基础设施,扮演“中间加速器”的角色 [7][10] - 主要作用分为两方面: - **对内(训练)**:作为“超级模拟器”,生成大量合成数据以解决长尾问题,并让端到端模型在虚拟环境中通过强化学习反复试错迭代,实现从“数据闭环”到“训练闭环”的演进 [2][8][11][18] - **对外(推理)**:作为“预测机”,帮助车辆理解物理规律和因果关系,直接指导动作生成 [9][11] - 3DGS(3D Gaussian Splatting)是构建高保真仿真环境的重要技术 [3] 视觉-语言-动作模型 (VLA) 与 世界-动作模型 (WA) - **VLA派(理想、英伟达)**:认为需要引入大语言模型赋予车辆逻辑推理(Chain of Thought)和解释能力,以处理复杂、罕见的长尾场景(System 2,慢思考) [9][11][12] - **WA/反VLA派(华为、小鹏)**:认为驾驶主要是直觉反应,引入语言环节会增加延迟和算力负担,主张直接从世界模型理解映射到动作(System 1,快思考) [9][11] - **务实派(小米)**:当前主推“端到端+世界模型+强化学习”解决直觉问题,内部预研VLA以备复杂推理需求,追求“智能密度”最大化 [9][11] 主要公司技术选择对比 | 公司 | 核心技术路线选择 | 核心逻辑与观点 | 世界模型/仿真工具的角色 | | :--- | :--- | :--- | :--- | | **理想汽车** | VLA (Vision-Language-Action) | 认知驱动,认为需从“模仿”进化到“自己学会”,单纯数据闭环不够,必须走向训练闭环 [9] | 利用《World4Drive》等模型构建可探索的虚拟世界,进行策略优化,是训练闭环的核心 [9] | | **英伟达 (NVIDIA)** | 物理AI + VLA (Alpamayo) | 强调AI的可解释性与推理能力,不仅要会开,还要能解释决策,并强调“Test time Scaling”(让AI多思考一会儿) [9] | 使用Omniverse & Cosmos生成合成数据和进行物理模拟,训练车辆学习物理定律 [9] | | **小米汽车** | 端到端 + 世界模型 + 强化学习 (预研VLA) | 智能密度最大化,当前方案优先解决“直觉”(System 1)问题,VLA类似“看悬疑片”(System 2),仅用于极复杂场景,不制造技术焦虑 [9][17] | 使用高保真模拟器进行强化学习训练,解决实车难以覆盖的长尾场景 [9] | | **地平线** | 一段式端到端 (One-Stage) | 范式统一,认为FSD V12证明了端到端的可行性,未来三年是“极致优化期”,旨在统一L2与L4的开发范式 [9] | 未详细展开,主要强调通过统一范式和低成本部署打通壁垒 [9] | | **华为 / 小鹏** | WA (World Action) / 反VLA | 去语言化,认为驾驶主要是直觉反应,不需要经过语言环节,以降低延迟和算力负担 [9] | 利用世界模型理解环境演变,直接指导动作生成 [9] | 非核心技术关键因素 研发基建与工程效率 - 基建(以数据为核心的研发效能)决定迭代速度,好的基建能大幅提升研发效率,例如小米能在一年内实现“追三代”的技术跨越,核心在于云端基建的复用和自动化率提升 [3][18] - 基建的好坏取决于发现问题后,能否迅速从海量数据中挖掘出类似场景,并形成高质量标注数据进行训练 [18] - 强化工程能力和组织能力被视为公司的“工业母机”,是应对技术范式变化的确定性方法 [18] 仿真与合成数据 - 仿真成为解决长尾问题(Corner Case)的核心,单纯依赖真实路测数据已无法满足需求 [14] - 合成数据价值极高,例如在小米的训练数据中,仿真数据占比约为20%,但节省了数倍的人力成本 [18] - 英伟达通过Cosmos世界模型生成符合物理定律的合成数据来训练自动驾驶模型 [18] - 理想汽车等公司强调从“数据闭环”走向“训练闭环”,让AI在虚拟世界中进行强化学习,自我探索最优策略 [18] 算力规模与芯片适配 - 智驾是算力和硬件的“暴力美学”,计算机工业的本质就是“玩命堆算力” [15][18] - 英伟达发布Rubin平台以应对每年增长5倍的AI推理需求,旨在将推理成本降低至原来的1/10 [18] - 算法上车面临巨大的“部署偏差”,从一颗芯片迁移到另一颗芯片通常需要6-10个月解决算子支持、计算精度对齐等问题,这种高昂的迁移成本构成了芯片厂商的护城河 [18] - 随着AI进行长序思考(System 2),车载芯片的“显存”面临巨大挑战 [18] 商业化成本与泛化能力 - 技术再先进也需考虑成本,智驾系统的目标是将L4级体验以极低的部署成本普及到10万元级别车型 [18] - 新一代端到端技术通过数据驱动,在一个复杂城市验证后,能大概率泛化到整个国家,极大地降低了扩张成本 [18] 用户体验与安全冗余 - 技术先进性不等于体验更好,必须在收益和风险之间取得平衡,避免为了“显摆技术”而制造焦虑 [17] - 安全机制至关重要,即便是激进的端到端方案也需要安全兜底,例如英伟达的方案中包含了一个经典的规则驱动AV栈作为安全护栏,在端到端模型信心不足时回退 [19]
最近咨询世界模型岗位的同学越来越多了......
自动驾驶之心· 2026-01-22 08:51
行业人才需求与招聘趋势 - 算法岗位春招及跳槽方向集中在世界模型(生成+重建)、端到端、VLA三大领域,需求旺盛[2] - 端到端岗位招聘要求高,更青睐有实际量产经验的人才[2] - VLA岗位需要求职者同时具备大模型和端到端背景[2] - 世界模型方向在2025年因特斯拉在ICCV的分享而受到行业关注并开始爆发,当前是入局的合适时机[2] 课程核心内容与结构 - 课程由自动驾驶之心联合工业界专家开设,聚焦通用世界模型、视频生成、OCC生成等算法,涵盖特斯拉世界模型及李飞飞团队Marble等案例[2] - 课程大纲分为六章:世界模型介绍、背景知识、通用世界模型探讨、基于视频生成的世界模型、基于OCC的世界模型、世界模型岗位专题[5] - 第一章概述自动驾驶世界模型,复盘其与端到端自动驾驶的联系,讲解发展历史、应用案例、不同流派(纯仿真、仿真+Planning、生成传感器输入、生成感知结果)及其解决的问题和环节,并介绍学术界与工业界动态、相关数据集与评测[7] - 第二章讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等,为后续学习奠定基础,这些内容是当前求职面试频率最高的技术关键词[7][8] - 第三章探讨通用世界模型及近期热门工作,详细讲解李飞飞团队的Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器[8] - 第四章聚焦视频生成类世界模型算法,从Wayve的GAIA-1 & GAIA-2讲起,扩展至上交的UniScene、商汤的OpenDWM、中科大的InstaDrive,并以商汤开源的OpenDWM进行实战[9] - 第五章聚焦OCC生成类世界模型,讲解三大论文并进行一个项目实战,此类方法可扩展至自车轨迹规划以实现端到端[10] - 第六章基于前五章算法基础,分享世界模型在工业界的应用现状、行业痛点、期望解决的问题,以及相关岗位的面试准备和公司关注点[11] 课程技术深度与覆盖范围 - 课程背景知识部分将复习Transformer并扩展至视觉Transformer,讲解CLIP和LLAVA,详细介绍BEV感知和占用网络,讲解扩散模型理论,梳理闭环仿真、NeRF和3DGS的核心概念,并讲解其他生成式模型如VAE、GAN及Next Token Prediction[13] - 课程将涵盖清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES、西交最新的II-World等具体研究工作[14] - 课程实战部分选取商汤开源的OpenDWM和II-World等主流算法框架进行复现[9][14][15] 课程目标与学员收获 - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端在工业界的落地,帮助学员真正理解端到端[12] - 期望学员学完后能达到1年左右世界模型自动驾驶算法工程师水平[15] - 学员将掌握世界模型技术进展,涵盖视频生成、OCC生成等方法[15] - 学员将对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解[15] - 学员能够复现II-World、OpenDWM等主流算法框架,并将所学应用到项目中,学会设计自己的世界模型[15] - 课程对实习、校招、社招均有助益[15] 讲师背景与课程安排 - 讲师Jason拥有C9本科和QS50 PhD学历,已发表2篇CCF-A论文及若干CCF-B论文,现任国内TOP主机厂算法专家,从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持完成多项自动驾驶感知和端到端算法的产品量产交付[4] - 课程于1月1日开课,预计两个半月结课,采用离线视频教学,提供VIP群内答疑及三次线上答疑,答疑服务截止2026年12月31日[16] - 各章节解锁时间安排如下:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁[17] 学员入学要求 - 学员需自备GPU,推荐算力在4090及以上[15] - 需具备一定的自动驾驶领域基础,熟悉自动驾驶基本模块[15] - 需了解transformer大模型、扩散模型、BEV感知等技术的基本概念[15] - 需具备一定的概率论和线性代数基础,熟悉常用数学运算[15] - 需具备一定的Python和PyTorch语言基础[15]
死磕机器人大脑的北大副教授,和我们聊了聊具身领域最大的「偏见」
36氪· 2026-01-21 22:33
文章核心观点 - 具身智能行业将出现“软硬分化”趋势,即模型大脑研发与机器人本体制造将由不同公司专业化分工,而非当前主流的“软硬一体”全栈模式 [5][7][13] - 纯模型公司(如智在无界)的价值正被市场重新认识,其核心在于通过大规模、低成本的人类视频数据训练出通用的机器人大脑,为不同硬件本体提供“开箱即用”的基础能力,从而降低行业总成本 [8][9][10][13] - 当前具身智能技术远未成熟,泛化能力是核心瓶颈,而数据规模(预计需达到100万小时)和训练范式是突破的关键,预计质变将在2027年左右发生 [35][40][41] 行业现状与趋势 - **当前主流模式**:获得高估值的具身创业公司(如智元机器人、银河通用、星动纪元、星海图)普遍追求“软硬一体”的全栈模式 [7] - **市场认知变化**:一级市场开始重新定价纯模型公司,例如2026年1月,机器人模型初创企业Skild AI完成14亿美元C轮融资,估值翻三倍至超140亿美元 [8] - **分化驱动因素**:技术栈过长,模型与硬件研发是两套能力体系,一家公司难以两头做深,“为了全栈而全栈”导致部分公司无法真实落地 [13][14] - **经济账考量**:企业自研一个具身模型年开销高达数千万甚至上亿元,而外采一台机器人“大脑”的一次性成本仅需几万到十万元 [13][27] 公司(智在无界)战略与业务 - **公司定位**:专注于研发跨品牌、跨形态的具身智能模型(机器人大脑),不涉足硬件制造 [8][9] - **融资情况**:已于近日完成数千万元天使轮融资,由拉卡拉旗下考拉基金领投 [8] - **核心产品**: - **Being-H系列**:灵巧手操作模型,最新版本Being-H0.5可控制30种不同机器人,并能在英伟达Orin-NX等小型芯片上实时运行 [9][55] - **Being-M系列**:适用于双足机器人移动和操作的多模态模型,正在研发中 [9][48] - **商业模式**:向硬件厂商收取一次性License费用(几万至十万元/台),并提供按数据量收费的后训练服务Being-Dex,未来可能采用SaaS年包模式 [27] 技术路径与数据 - **核心数据方案**:采用“人类动作视频”方案,通过头戴摄像头录制第一视角手部动作视频,数据规模大、成本低,能完整记录复杂操作 [10][11] - **数据规模**:已积累超3万小时预训练数据,自称是全球规模最大的具身智能模型预训练数据集,目标在2027年达到100万小时数据量级 [10][41][43] - **技术细节**:建立自动化数据处理工作流,将不同来源的视频统一至3D空间,形成“视频-文字描述-动作”数据对;在后训练阶段探索融入触觉等多模态信息 [46][47] - **训练框架**:采用“预训练-后训练”双层框架,预训练让模型模仿人类,后训练将信息与物理空间对齐并适配不同本体 [45][46] 模型能力与进展 - **Being-H0.5模型表现**:预训练融合了30种不同构型本体的真机数据,实现了跨本体的大规模数据融合,可同时部署于5个不同本体 [54] - **泛化能力案例**:用宇树G1采集的数据训练出的模型,首次上机即能让PND的Adam-U成功执行同一快递扫码分拣任务 [54] - **能力质变判断**:模型能力产生质变不会是循序渐进的过程,可能需要方法或模型层面的变化 [53] - **当前局限性**:行业缺乏稳定好用的高自由度灵巧手及触觉反馈,模型泛化能力仍不足,真实工业场景落地多停留在演示或短周期概念验证阶段 [35][36][37] 行业挑战与乱象 - **落地难度**:现阶段的具身智能远远未达到可以落地真干活的水平,核心卡点在泛化性 [35] - **演示(Demo)陷阱**:部分Demo可能存在技巧,如未说明是遥操作控制,误导外界对机器人实际能力的判断 [59] - **套壳现象**:市场上有公司套壳其他模型(如PI 0.5),仅在后训练添加数据,而非真正自研 [58] - **“世界模型”争议**:该概念定义混乱,若仅用于生成训练数据可行,但若用于直接控制机器人则极其复杂且消耗算力,短期内难度很大 [61][62][63]
魔都美术馆迎来首个官方AI讲解员
第一财经· 2026-01-21 20:44
豆包AI导览合作案例 - 字节跳动旗下豆包与上海浦东美术馆达成合作,成为两项国际大展的官方AI讲解员,通过独家数据合作和定向搜索优化提升识别与讲解准确性[3] - 在实际观展中,用户可让豆包从艺术风格、历史背景、创作技法与文化意义等多个维度解读作品,旨在通过共情式提问和启发式对话,调动用户已有感受,形成更有参与感的理解过程[5] - 博物馆场景运用AI讲解的最大挑战是保证内容准确性,模型需能区分外观高度相似的文物、理解小众展品,并在观众移动观展时保持稳定识别,相关视频讲解功能主要基于Seed1.8模型的视频理解能力[5] 多模态大模型技术发展 - 多模态大模型的“感知-推理-动作”能力在真实世界场景的闭环验证与数据反哺,是AI能力的场景化落地与技术迭代的关键驱动[3] - 字节跳动于2025年12月发布通用Agent模型Seed1.8,核心定位是打通“感知-推理-动作”全链路,可直接执行复杂任务,聚焦真实世界多模态交互与任务执行[6] - 多模态代表着模型应用进入更深领域,因许多输入内容带有视觉因素,且处理任务需调用工具,工具返回结果也常是视觉化的,因此需要视觉化理解能力[6] - 行业普遍认为多模态是步入AGI的必经之路,智谱创始人唐杰表示2025年是“适应年”,而多模态感统将成为2026年的热点和重点,是完成人机GUI交互与AI进入物理世界的关键[7] 世界模型的技术趋势与行业动态 - 多模态是世界模型的核心技术基座与信息输入输出载体,世界模型则是多模态能力的高阶进化形态[8] - 2026年1月以来,行业内关于多模态与世界模型的动态增多,例如中科院自动化研究所与CreateAI提出NeoVerse,爱诗科技发布支持1080P分辨率的通用实时世界模型PixVerse R1[8] - 字节跳动暂未对外明确发布独立世界模型研发路线,但正尝试将世界理解能力融入通用大模型与多模态生态,通过感知、推理、动作的能力叠加,逐步构建“世界建模-交互-执行”的闭环[8] - 智源研究院院长王仲远表示,大语言模型技术路线已相对收敛,但多模态与世界模型暂未统一,未来可能组成“多模态世界大模型”这一统称[9] AI向理解物理世界规律演进 - 行业对世界模型讨论增多的原因,在创新奇智CTO张发恩看来,是明确了物理AI的大方向,其主战场具身智能快速发展,但多模态数据采集成本高、周期长,因此希望先做世界模型来自动产出多模态数据,用于训练VLA模型[10] - 世界模型的核心是要理解物理世界规律,如重力、摩擦力、易碎材料等,Google DeepMind CEO德米斯·哈萨比斯曾表示世界模型是打开AGI之门的钥匙,旨在让AI理解物理世界的底层规律、因果关系并进行长期规划[10] - 当前人工智能正从功能模仿转向理解物理世界规律,这一根本转变意味着AI发展路径日益清晰,即真正融入实体世界,解决系统性挑战[10] - 世界模型对“预测世界下一状态”的核心诉求,正倒逼多模态技术从早期的跨模态识别、生成,向更复杂的时空一致性整合、因果逻辑对齐演进[11] 多模态模型的技术现状与挑战 - 多模态模型理解与生成逐渐实现一体化是2026年的一个明显趋势,例如谷歌的Gemini 3展示了强大的图片编辑能力[11] - 多模态与世界模型均面临技术成熟度不够、成本高昂、商业化应用率较低等问题,限制多模态发展的主要原因在于技术路线没有收敛,许多模型仍分为多模态理解与多模态生成,且模型记忆问题未得到很好解决[11]
AI视频迎来了它的DeepSeek时刻
经济观察报· 2026-01-21 15:15
文章核心观点 - 爱诗科技发布的通用实时世界模型PixVerse R1,标志着AI视频行业进入了一个新阶段,实现了用户与生成视频的实时交互,开创了“正在发生的现在”的实时生成新纪元,被业内称为“AI视频的DeepSeek时刻” [1][2][9][14] PixVerse R1的技术突破与产品特性 - 模型改变了视频生成逻辑,无需输入提示词也可自动生成视频,用户指令可实时改变画面,实现“言出法随”的效果 [2] - 模型采用Omni原生多模态架构,将文字、图片、音频、视频在同一架构中训练,视为统一的Token流 [5] - 采用自回归流式生成并具备“长期记忆”,能记住此前输入的信息,而不仅是上一帧 [6] - 采用瞬时响应引擎,将传统扩散模型所需的50+采样步数压缩至1-4步,计算效率提升数百倍,实现真正的实时生成 [6] - 模型可将视频生成转变为无限、连续和互动的视觉流,代表了视听媒体创建、体验和共享的重大演变 [6] - 目前每个模板体验限制为5分钟,主要受限于算力消耗,理论上可实现无限生成视频 [5] 行业影响与潜在应用 - 模型对长镜头和长片意义重大,开启了视频创作的新阶段,未来迭代版本可能成为里程碑式产品 [8] - 与传统视频记录“过去”不同,该模型生成的是“正在发生的现在”,是一个可交互的数字生命体,使用户从旁观者变为参与者,实现“共创” [9] - 实时生成能力与世界模型的结合,使AI原生游戏和互动电影成为可能,故事线可由AI与用户共同即兴创作 [10] - 新型互动系统有望在互动媒体、实时VR/XR、创意教育、模拟规划等多个新领域开启应用,这些领域目前仍是“无人区” [11] - 产品上线后,已有影视公司和多家游戏公司寻求合作,探讨产品与内容结合的可能性 [3][10] 公司战略合作与市场认可 - 产品发布6天后,中国儒意以1420万美元战略投资爱诗科技,双方宣布进行版权共享,建立涵盖影视、游戏、流媒体等多方面的战略合作伙伴关系 [3][8] - 中国儒意认为爱诗科技的多模态AI大模型技术在影视行业中具有巨大潜力,双方将共同创建针对专业影视领域的人工智能工具 [8] - 此次合作类似于国外迪士尼与OpenAI的合作,标志着国内影视巨头与AI科技公司强强联手,开启“AI+内容”的下一代互动体验 [3] 爱诗科技的公司实力与背景 - 公司成立于2023年,已在全球AI视频赛道位居前列,截至2025年第三季度,全球用户突破1亿,月活用户超1600万 [13] - 公司产品入选硅谷风投a16z的“全球Top50生成式AI消费级移动应用”榜单 [13] - 2024年11月启动商业化后,不到一年时间月收入增长超过10倍,年度经常性收入达到4000万美元 [13] - 公司自研的PixVerse模型在两年内迭代五个大版本,其V1版本在2023年10月(公司成立6个月后)推出,率先发布业内可生成4K质量视频的AI模型,时间早于Sora [13] - 创始人兼CEO王长虎拥有20年计算机视觉与AI领域经验,曾是字节跳动视觉技术负责人,主导过抖音、TikTok等技术研发 [14]
AI视频迎来了它的DeepSeek时刻
经济观察网· 2026-01-21 14:39
产品技术突破 - 爱诗科技发布全球首个通用实时世界模型PixVerse R1,支持HD画质,改变了视频生成逻辑,用户无需输入提示词也可自动生成视频,实现“言出法随”的实时交互效果[1] - 模型采用Omni原生多模态架构,将文字、图片、音频、视频在同一架构内训练,并采用自回归流式生成与“长期记忆”技术,能记住此前输入的信息[3][4] - 模型采用瞬时响应引擎,将传统扩散模型所需的50+采样步数压缩至1-4步,计算效率提升数百倍,实现人眼可感知的“即时”响应,是真实时生成,而非“先渲染、后播放”的伪实时[4] - 该产品可将视频生成转变为无限、连续和互动的视觉流,标志着视听媒体创建、体验和共享的重大演变[4] - 目前每个模板体验限制为5分钟,主要受限于算力消耗,若无算力困扰理论上可无限生成视频[3] 战略合作与投资 - 产品上线6天后,中国儒意对爱诗科技进行1420万美元的战略投资,双方宣布进行版权共享,并建立涵盖影视、游戏、流媒体等多方面的战略合作伙伴关系[2][5] - 中国儒意是港股上市公司,旗下儒意影业出品电影累计票房超400亿元,并拥有多部著名电视剧版权[6] - 双方将共同创建针对专业影视领域的人工智能工具,推动影视创作方式变革[6] 市场地位与公司表现 - 爱诗科技成立于2023年,已在全球AI视频赛道位居前列,其PixVerse模型在两年内迭代五个大版本[9][10] - 截至2025年第三季度,公司全球用户已突破1亿,月活用户超1600万,产品入选a16z“全球Top50生成式AI消费级移动应用”榜单[9] - 2024年11月启动商业化后,不到一年时间月收入增长超过10倍,年度经常性收入达到4000万美元[9] - 公司在2023年10月(成立仅6个月后)推出PixVerse V1,率先发布业内可生成4K质量视频的AI视频模型,时间早于Sora模型发布[10] 行业影响与应用前景 - PixVerse R1实现了“正在发生的现在”的实时生成,与传统“记录过去的成品”视频有根本区别,用户从旁观者变为可随时干预内容走向的参与者,实现“共创”[6] - 该技术使视频的生产与消费边界消融,用户在观看的同时也能即时生成、编辑和再创作内容[7] - 实时生成能力与世界模型能力的结合,是当前国内外巨头角逐但尚未出现成熟产品的领域,爱诗科技是全球领先者[7] - 该技术能使AI原生游戏和互动电影成为可能,故事线可由AI与玩家共同即兴创作,虚拟社区的角色和环境可根据用户互动持续演化[7] - 产品发布后,已有多家游戏公司联系爱诗科技探讨合作可能性,其潜力还覆盖互动媒体、实时VR/XR、创意教育、模拟培训等多个新领域[8] - 有知名AI创作者认为,该产品对长镜头和长片意义重大,虽当前画质和可控性尚未达到正式创作要求,但未来迭代版本将是里程碑式产品[6] 创始人与愿景 - 爱诗科技创始人兼CEO王长虎有20年计算机视觉与AI领域经验,曾是字节跳动视觉技术负责人,主导过抖音、TikTok等技术研发[11] - 王长虎表示,PixVerse R1开创了“正在发生的现在”的实时生成新纪元,使叙事能“所想即所现”,智能化媒体应实时响应用户意图,让每个人成为动态叙事的创作者[11]
鸣鸣很忙今起招股,发售价不高于236.6港元;奈飞提出以全现金方式收购华纳兄弟
搜狐财经· 2026-01-21 10:06
资本市场与融资活动 - 湖南鸣鸣很忙商业连锁股份有限公司于1月20日启动全球发售,计划发售1410.11万股,其中国际发售约1269.09万股,香港公开发售约141.02万股,发售价区间为每股229.60-236.60港元,预计于1月28日在港交所主板上市,以发售价中位数233.10港元计算,预计全球发售所得款项净额约31.24亿港元 [2] - 杭州AI公司宇泛智能完成Pre-IPO+轮融资,金额折合人民币5.13亿元,由温州苍南县山海实业集团与马来西亚Crewstone International联合投资,老股东博将资本继续加码,资金将用于机器人本体、多模态大模型、通用机器人“大小脑”等核心能力建设及东南亚等海外市场拓展 [2] - AI陪伴公司自然选择完成新一轮超3000万美元融资,投资方包括阿里巴巴、蚂蚁集团、启明创投、五源资本、创世伙伴创投、云时资本等机构 [3] - 王腾新公司“今日宜休”完成总规模数千万元的种子轮融资,投资方包括高瓴创投、云九资本,公司计划于今年下半年发布系列软硬件产品并计划出海 [4] 行业并购与战略动态 - 美国流媒体平台奈飞将对华纳兄弟旗下资产的收购方案调整为全现金出价,总额维持在827亿美元不变,提出每股27.75美元的全现金报价,已获得华纳兄弟探索董事会一致支持,此举旨在阻止竞争对手派拉蒙的竞购 [2] 科技产品与市场发布 - 智能无人机品牌博坦Potensic推出融合AI短片、AI夜景等智能功能的轻量化ATOM系列无人机,并发布“Atom 2 + PTD-1带屏遥控器”产品体验方案,产品销往全球100多个国家和地区 [4] - 特斯拉中国官网在线商店上架Tesla Bot摆件(生肖盲盒版),定价199元,将于1月21日开售,该产品由40多个独立零件组成,配备20个关节点,高度还原第二代人形机器人,产品尺寸为5.5cm×18.2cm,净重约25克 [5]
魔都美术馆迎来首个官方AI讲解员
第一财经资讯· 2026-01-20 21:17
豆包AI导览合作案例 - 字节跳动旗下豆包与上海浦东美术馆达成合作,成为两项国际大展的官方AI讲解员,通过独家数据合作和定向搜索优化提升讲解准确性 [1] - 在实际观展中,用户可让豆包从艺术风格、历史背景、创作技法与文化意义等多个维度对作品进行解读,并通过共情式提问和启发式对话增强用户参与感 [3] - 豆包相关视频讲解功能主要基于Seed1.8模型的视频理解能力,在博物馆场景中应用的最大挑战是保证内容准确性,需能区分外观高度相似的文物、理解小众展品,并在观众移动时保持稳定识别 [3] 多模态技术发展现状与趋势 - 多模态代表着模型应用进入更深领域,因许多输入内容(如车内、质检、餐饮场景)和工具返回结果带有视觉因素,模型需具备视觉化理解能力 [5] - 行业普遍认为多模态是步入AGI的必经之路,2025年是“适应年”,而多模态感统将成为2026年的热点和重点,是完成人机GUI交互与AI进入物理世界的关键 [6] - 多模态领域一个明显趋势是模型理解与生成逐渐实现一体化,例如谷歌的Gemini3展示了强大的图片编辑能力 [11] 世界模型的技术定位与行业动态 - 世界模型是多模态能力的高阶进化形态,其核心是要理解物理世界规律(如重力、摩擦力),旨在让AI理解物理世界的底层规律、因果关系,并进行长期规划和模拟推演 [10] - 当前人工智能正从功能模仿转向理解物理世界规律,发展路径日益清晰,即真正融入实体世界,解决系统性挑战 [10] - 今年以来行业内关于多模态与世界模型的动态增多,例如1月5日中科院与CreateAI提出NeoVerse,1月13日爱诗科技发布支持1080P分辨率的通用实时世界模型PixVerse R1 [8] 字节跳动的技术布局与战略 - Seed1.8是字节跳动于2025年12月发布的通用Agent模型,核心定位是打通“感知-推理-动作”全链路,可直接执行复杂任务,聚焦真实世界多模态交互与任务执行 [4] - 公司暂未对外明确发布独立世界模型研发路线,但正尝试将世界理解能力融入通用大模型(Seed系列)与多模态生态,通过感知、推理、动作的能力叠加,逐步构建“世界建模-交互-执行”的闭环 [8] - 公司Seed多模态交互与世界模型团队致力于研发具备人类水平的多模态理解与交互能力的模型,并推动多模态助手类产品的探索和研发 [8]
机器人专用芯片是伪命题?英特尔宋继强:市场太小,目前难盈利
凤凰网· 2026-01-20 21:07
核心观点 - 英特尔认为,具身智能(Embodied AI)从演示走向真实应用的核心挑战是“可靠性”,当前基于视觉语言模型(VLA)的机器人动作生成准确率仅约百分之六七十,需通过建立“三重系统”架构等工程方法提升其可靠性与安全性,预计还需2-3年时间才能达到工业级应用要求的99%以上准确率 [1][3][11] 行业挑战与瓶颈 - **VLA能力天花板**:当前视觉语言模型(VLA)存在显著幻觉问题,对视觉环境变化敏感,泛化能力弱,动作生成准确率仅约百分之六七十,且不具备对场景三维关系、因果关系的本质理解 [1][8] - **数据孤岛问题**:具身智能所需场景理解、任务规划和机器人本体三类数据差异极大,行业缺乏统一数据标准,难点包括数据完整性定义不明、操作精度频率无统一要求、机器人本体无公认最优方案等,导致行业处于各自探索的“百花齐放”阶段 [8][9] - **量产与成本悬崖**:目前展会机器人多为手工制作原型机,零部件未达车规或工业级标准,一致性差,整体价格下降需依赖特斯拉等具备强大工业化量产能力的大厂入局来压硬件成本 [9] - **工作负载未定型**:机器人专用芯片(ASIC)研发面临挑战,核心原因是市场规模尚小且工作负载未定型,难以明确是针对VLA还是未来世界模型进行优化,预计需待行业形成标准化工作负载后,专用芯片才会出现,研发周期约10-18个月 [6] 技术解决方案与框架 - **三重系统架构**:英特尔提出可信赖具身智能系统应由三层构成:负责决策规划的主系统(Primary System)、轻量高可靠监控的安全系统(Safety System)、以及引导进入可靠降级状态的后备系统(Fallback System),该“PMDF”框架已写入行业白皮书 [3][4] - **神经符号AI方法**:主系统核心采用神经符号AI,结合神经网络泛化能力与符号逻辑的可靠性、可解释性,旨在“抬高机器人下限”,避免因幻觉产生灾难性后果 [3] - **融合与解耦**:发展路径强调新老技术融合(前沿AI模型与传统控制、安全工程结合)与软硬件能力解耦(上层感知规划模块适配不同机器人本体以降低开发成本) [12] 发展路径与时间表 - **短期(1-2年)**:在物流分拣、工厂搬运、标准件组装等用工成本高、环境相对可控的半结构化场景实现小规模部署 [11] - **中期(3年左右)**:随着智能能力可靠性提升及行业安全框架形成共识,在上述场景中扩大应用规模 [11] - **长期**:取决于量产一致性和成本控制的突破,需大型车企等具备工业化生产能力的企业入局推动 [11] - **总体预测**:将VLA准确率从当前百分之六七十提升至工业级要求的99%以上,并整合为可靠解决方案,预计还需2-3年时间 [11] 英特尔的市场定位与机会 - **工业控制隐形冠军**:英特尔在传统工业自动化领域占据“绝对优势”,大部分高精度、高频率运动控制的工控产品和工控板基于其CPU开发 [6] - **三大优势迁移**:技术迁移(工业运动控制经验迁移至机器人动作控制层)、资源调度优化(保障毫秒级任务不被干扰)、多系统融合能力(实现隔离监控与快速安全响应) [6] - **硬件部署策略**:将酷睿Ultra等集成AI算力的芯片视为“稳定的硬件底座”,算力不足可额外配置AI算力卡,预判未来主流部署模式为“机器人终端+边缘服务器”,在低延迟前提下将大模型部署于边缘形成异构计算资源池 [7] - **独特定位**:不做最激进的颠覆者,而是做最可靠的整合者,利用数十年工业领域“隐性知识”为AI提供经物理世界锤炼的底层保障 [12]
华为哈勃押注,成立仅半年融资三连跳,这家公司凭什么成为“世界模型黑马”?
搜狐财经· 2026-01-20 19:29
公司概况与融资 - 公司流形空间(Manifold AI)由商汤科技早期核心成员武伟博士创立,旨在通过世界模型让AI不仅能“看见”更能“推演”物理世界 [1][5] - 公司成立于2025年5月,在成立后7个月内以“倍速模式”快速完成三轮融资,累计融资额超3亿元人民币 [3][4][5] - 天使+轮融资由梅花创投、君联资本、华为哈勃联合投资,老股东英诺基金继续加注,华为哈勃的入场被视为强烈的产业信号 [1][5][6] 技术路径与核心产品 - 公司避开主流视觉-语言模型路线,独创World Model Action路径,其自研的WorldScape世界模型通过海量第一人称视角视频预训练,使AI能根据单张图片预测物体运动与物理交互 [6][7] - 公司已完成室外-室内-空域的全域具身模型布局,包括面向自动驾驶的DriveScape、物理信息可控的RoboScape以及全球首个无人机专属世界模型AirScape,这些场景模型均基于同一基座WorldScape迭代 [10] - 公司实测表明,其模型在zero-shot泛化能力上已显著超过包括pi0.5在内的经典VLA模型,相关成果即将面向社区开放 [10] 团队管理与发展战略 - 创始人武伟博士曾主导商汤“开悟”世界模型研发,团队由工业界资深人士与年轻天才组成,注重人才密度而非数量,并采用“数据驱动”和“强化学习”式的管理方法 [5] - 公司发展战略务实,概括为“攀登高峰,沿途下蛋”,即致力于打造通用具身世界模型基座,同时将RoboScape、AirScape等子领域模型提前产品化与商业化以产生营收 [13] - 公司已率先接入NVIDIA Jetson Thor用于端侧部署,华为的加入有望为未来国产化芯片与机器人大脑的集成路线铺平道路,加速规模化落地 [6] 市场愿景与行业定位 - 公司的长期目标是推动Physical AI Agent发展,并让“自研+赋能”的机器人总量超过市场的10% [11][12] - 行业认为世界模型指向了AI长期缺失的“物理直觉”或“物理常识的暗物质”,是智能体走进真实世界的关键,未来三年将看到其从实验室走向仓库、工厂和家庭 [10][13][14] - 资本市场对“物理AI”及世界模型赛道极度渴求,担心错过“下一个GPT时刻”,连续融资反映了对该技术路径的期待 [5][14]