世界模型
搜索文档
美团LongCat团队发布并开源LongCat-Video视频生成模型
新浪财经· 2025-10-27 13:24
公司技术发布 - 美团LongCat团队于10月27日发布并开源视频生成模型LongCat-Video [1] - 该模型在文生视频和图生视频基础任务上达到开源SOTA水平 [1] - 模型通过原生视频续写任务预训练,实现分钟级长视频的连贯生成 [1] - 模型优势在于保障跨帧时序一致性与物理运动合理性,在长视频生成领域具备显著优势 [1] 公司战略方向 - 发布视频生成模型是公司探索“世界模型”的第一步 [1] - 未来LongCat模型将凭借精准重构真实世界运行状态的能力,融入自动驾驶、具身智能等深度交互业务场景 [1] - 该技术旨在成为公司更好连接“比特世界”和“原子世界”的技术基础 [1]
美团开源LongCat-Video支持高效长视频生成,迈出“世界模型”探索第一步
经济观察网· 2025-10-27 12:01
公司技术发布 - 美团LongCat团队于10月27日发布并开源LongCat-Video视频生成模型 [2] - 该模型是一个基于Diffusion Transformer架构的多功能统一视频生成基座,原生支持文生视频、图生视频和视频续写三大核心任务 [5] - 模型依托视频续写任务预训练,可稳定输出5分钟级别的长视频且无质量损失,保障跨帧时序一致性与物理运动合理性 [2][5] 技术性能与优势 - 模型在文生视频、图生视频基础任务上的综合性能达到开源领域最先进水平 [2][9] - 通过结合块稀疏注意力与条件token缓存机制,模型在处理93帧及以上长序列时能兼顾效率与生成质量稳定 [5] - 针对高分辨率、高帧率视频生成,模型通过三重优化将视频推理速度提升至10.1倍 [6] - 该136亿参数的模型在文本对齐度、运动连贯性等关键指标上展现显著优势 [9] 战略定位与未来应用 - 此次发布的视频生成模型被视为公司探索“世界模型”的第一步 [2] - “世界模型”被业界视作通往下一代智能的核心引擎,旨在让AI理解、预测和重构真实世界 [2] - 未来,该模型计划融入公司持续投入的自动驾驶、具身智能等深度交互业务场景,以更好地连接数字世界与物理世界 [2]
视频推理速度提升至10.1倍!美团 LongCat-Video正式发布并开源
新浪科技· 2025-10-27 10:36
技术发布与成就 - 美团LongCat团队发布并开源了LongCat-Video视频生成模型 [1] - 该模型在文生视频和图生视频基础任务上达到开源SOTA(最先进水平) [1] - 通过原生视频续写任务预训练,实现分钟级长视频连贯生成,保障跨帧时序一致性与物理运动合理性 [1] 技术战略与行业意义 - 视频生成模型被视为构建“世界模型”的关键路径,通过压缩几何、语义、物理等多种形式知识,使人工智能能在数字空间模拟真实世界运行 [1] - 此次发布的模型是公司探索“世界模型”的第一步 [1] - “世界模型”因让人工智能理解、预测和重构真实世界,被业界视作通往下一代智能的核心引擎 [1] 未来应用与业务整合 - LongCat模型未来将融入公司持续投入的自动驾驶、具身智能等深度交互业务场景 [1] - 该技术旨在成为公司更好连接“比特世界”和“原子世界”的技术基础 [1]
精读DeepSeek OCR论文,我远远看到了「世界模型」的轮廓
钛媒体APP· 2025-10-27 10:34
技术性能对比 - DeepSeek OCR模型参数为30亿,在数学公式展开案例中未能识别出“极坐标”,且表格结构识别错误[2] - 参数规模仅9亿的PaddleOCR-VL模型在相同案例中表现优于DeepSeek OCR[2] - 在OCR模型综合性能排名中,DeepSeek-OCR-Gundam-M模型总体得分86.46,低于PaddleOCR-VL的92.56分[2] 技术创新与核心价值 - DeepSeek OCR的核心是DeepEncoder编码器,使用视觉Token对输入上下文信息进行编码,实现了9-10倍文本压缩下96%以上的OCR解码精度,10-12倍压缩下约90%的精度,20倍压缩下仍保持约60%的精度[10] - 该技术实现了连续可调的压缩率,可在压缩率和识别精度之间进行平滑权衡[11] - 模型提出类生物遗忘机制的压缩策略,近期上下文保持高分辨率,远期上下文逐步降低分辨率,模拟人类记忆的自然衰减[12] - 研究探索了解码N个文本Token需要多少个视觉Token的核心问题,证明了AI可以仅用100个视觉Token高精度解压缩出包含1000个文本Token的原文内容,且无需文本分词过程[17] 战略意义与行业影响 - DeepSeek OCR的深层价值在于探索“连续视觉表征压缩”,其研究方向隐隐指向终极追求——“世界模型”[6] - 该技术将大模型的前沿焦点从离散的语言Token重新转向连续视觉表征的视觉Token[6] - 论文证明了AI的主要信息入口可以从语言转向视觉,这种转变效率更高且更符合生物特性[20] - Vision→Text的任务空间完全包含了Text→Text的任务空间,任何文本都可以无损渲染成图像,这种不对称性暗示了将所有输入统一为视觉模态的激进方向[21] - 这一范式为解决长上下文建模中的效率瓶颈、记忆机制设计与多模态融合等核心问题提供了全新思路[22] 实际应用价值 - DeepSeek-OCR具备大规模预训练数据生产能力,可作为大语言模型训练过程中不可或缺的助手,每天可生成数千万页级别的训练数据,显著提升了多模态数据构建效率[15]
LeCun怒揭机器人最大骗局,坦白Llama与我无瓜
36氪· 2025-10-26 17:22
人形机器人行业现状与挑战 - 行业面临从特定任务训练到通用智能的鸿沟,家用机器人实现叠衣服、倒水等任务仍需AI领域取得一系列突破[1] - 行业秘密在于公司尚不知晓如何让机器人变得足够聪明以达到实用级别[21] - 人形机器人拥有40个自由度,可能产生的位姿组合数量超过宇宙原子总数,该问题无法通过编程解决,唯一途径是神经网络[25] 技术路径分歧:世界模型与LLM - Meta首席AI科学家Yann LeCun认为突破核心在于打造可规划的世界模型架构,以学习理解和预测物理世界系统[1] - LeCun指出大语言模型是一条死胡同,仅靠文本训练无法实现人类水平智能,智能源于视觉、听觉、触觉等多模态经验[15] - 四岁儿童通过视觉接收的数据量已相当于所有公开文本训练的最大规模LLM的数据量[15] - LeCun预测未来3-5年内,世界模型会成为AI架构的主流模型,届时头脑清醒的人都不会再用生成式LLM的路子[20] 主要公司动态与战略 - **特斯拉**:公司内部对于如何快速实现通用人形机器人已有非常明确的思路[1];正建设年产百万台Optimus机器人的生产线,目标2026年初推出具备量产意向的V3原型机[26];其神经世界模拟器能够基于当前状态与后续动作直接合成未来状态,该架构将无缝迁移至Optimus机器人[28][31] - **Figure AI**:公司CEO宣称明年就能实现通过语音指令让人形机器人在陌生环境完成各类通用工作[23];强调其机器人所有操作都由神经网络驱动,否认某些公开演示仅为戏剧表演或预设程序[25] - **1X Technologies**:公司发布自研世界模型,该模型允许从相同初始条件出发并行部署不同策略进行直接对比[35][37];公司CEO坦言让机器人进入家庭存在理想与现实的落差,现实环境复杂得离谱[37] 世界模型技术架构 - 世界模型定义为给到时刻t的世界状态及智能体可能动作,以预测动作执行后的环境[16] - 系统配备世界模型后可进行规划,设想连续动作并预测结果,结合代价函数评估任务完成情况,运用优化方法搜索最优动作序列[18] - 环境动力学模型完全通过自监督学习,机器人无需针对特定任务反复训练,能从模拟数据或真实操作中学习动作-结果关系,零样本完成新任务[18][19] - 1X世界模型包含视觉编码器、动作编码器、核心网络及视频与状态价值解码器,通过对成功标签进行监督学习生成的状态价值预测可量化评估输入动作质量[35]
从世界模型到VLA再到强化,具身大小脑算法原来是这样的!
具身智能之心· 2025-10-26 12:02
具身智能技术框架 - 行业将具身智能技术框架类比为人类的大脑和小脑,大脑负责思考感知(语义理解和任务规划),小脑负责执行(高精度的运动执行)[3] - 细分领域包含仿真、VLA、Diffusion Policy、VLN、世界模型、强化学习等多个子模块[5] - VLA和世界模型目前是自动驾驶和具身智能领域的两大技术路线[5] 核心技术演进路径 - 第一阶段技术研究聚焦于抓取位姿检测,通过点云或图像预测末端执行器姿态,但策略多为单步决策,缺乏对任务上下文和动作序列的建模[7] - 第二阶段进入行为克隆阶段,机器人借助专家演示数据学习端到端映射,但暴露出泛化能力弱、误差累积等问题[7] - 第三阶段以2023年兴起的Diffusion Policy为代表,通过扩散模型生成整个动作轨迹,提升策略稳定性与泛化能力;2024年进入VLA模型阶段,融合视觉、语言与动作生成,支持零样本或小样本快速泛化[8] - 第四阶段自2025年以来,行业探索VLA与强化学习、世界模型、触觉感知等模块的融合,以弥补现有模型在反馈、预测和多模态感知方面的局限[9] 当前技术热点与方向 - VLA目前主要研究热点为端到端和分层两种方案,并分别基于大模型和Diffusion技术拓展,VLA+RL方案正成为学者探索方向[5] - Diffusion Policy作为动作模块,负责学习具体动作和执行,主要方向包括状态扩散、动作空间扩散、三维空间扩散等[6] - 仿真技术关注sim2real和real2sim2real,以解决真机泛化差的问题,该方案已获多家具身公司认可[6] - VLN更关注目标导航,与移动操作相关联,map-free方案利于任务泛化[6] - VLA与强化学习结合提升机器人在长时任务中的试错与自我改进能力;与世界模型结合引入环境动态预测,使机器人具备“想象未来”的能力;与触觉信息结合拓展多模态融合的感知边界[10] 行业应用与市场前景 - 技术发展推动人形机器人、机械臂、四足机器人等产品落地,服务于工业、家居、餐饮、医疗康复等领域[10] - 相关产品和融资络绎不绝,岗位呈现爆发式增长,吸引大量人员转入具身智能领域[10] - 随着产业界重视,行业从“论文”走向“部署”,对工程与系统能力需求激增[14]
Tesla终于分享点东西了,世界模型和闭环评测都强的可怕......
自动驾驶之心· 2025-10-26 00:03
特斯拉FSD技术架构 - 采用单一大型模型处理自动驾驶任务,利用海量数据和长上下文输入[5] - 神经网络计算时间为固定值,不受环境影响,系统运行频率高达36Hz,直接输出控制动作[5] - 工程能力强大,实现了从感知到动作的端到端输出[5] 端到端自动驾驶的驱动因素 - 人类驾驶行为难以用单一评价函数精确描述,规则优化方法存在局限性[8] - 传统模块化架构中感知、预测与规划间的接口定义存在信息损失问题[8] - 端到端架构具备更好的可扩展性,更有利于解决长尾场景问题[8] - 神经网络固定计算时间相比传统规划控制求解器能有效降低系统延迟[8] - 遵循Sutton的"苦涩教训"哲学,强调依赖算力与数据而非过多人工预设[8] 端到端技术面临的核心挑战 - 存在维度灾难问题,即高维输入到低维监督信号导致学习信号不充分[20][21] - 模型可解释性与安全保障是重大挑战,需确保网络真正理解驾驶而非仅拟合捷径[21][23] - 系统评估是三大挑战中最困难的部分,无法直接用损失函数衡量实际表现[36][39] 特斯拉的解决方案与技术亮点 - 通过丰富数据产生有效梯度破解维度灾难,利用各种触发机制和小型神经网络挖掘数据[23][25] - 采用思维链推理过程,融合3D高斯重建、语言理解等多模态信息进行决策[27][33] - 3D高斯重建技术具有速度快、支持动态物体、无需点云初始化、新视角合成效果好等优势[30][31] - 构建基于世界模型的模拟器,通过动作生成后续视频,支持大规模强化学习训练[41][44] - 评估体系强调闭环测试的重要性,需覆盖驾驶行为的多模态性,并平衡评估数据集[39] 技术通用性与应用拓展 - 整套FSD技术架构完全适用于人形机器人领域[46] - 可通过视频数据训练世界模型,并利用仿真环境进行强化学习训练,实现技术闭环[46]
VLA/世界模型/WA/端到端是宣传分歧, 不是技术路线分歧
理想TOP2· 2025-10-25 13:21
自动驾驶技术路线定义与共识 - VLA/世界模型/端到端等技术路线缺乏公认的排他性定义,其共同点是要求模型具备生成与真实世界一致的道路视频数据的能力,并以视觉信息为输入最终控制车辆行动 [1][2] - 技术路线之间的核心区别在于语言是否参与、参与深度以及架构形式,例如语言相关的token是当前LLM的text token还是潜在的photon token [2] - 不同企业宣传的VLA细节可能存在巨大差异,未来VLA与VLA之间的区别可能大于VLA与传统方法的区别 [2][3] 头部车企技术路线共性分析 - 头部智驾车企在自动驾驶探索上共同性大于差异性,内核是宣传分歧而非技术路线分歧 [1] - 理想汽车与特斯拉均认为扩散模型有利于自动驾驶,3D高斯泼溅生成世界模型优于神经辐射场,且世界模型用于评估很重要 [12] - 两家公司均认为将人类价值观编入代码极其困难,并且在输出层面,理想汽车认为输出轨迹优于直接输出油门方向盘电信号 [5][12] 语言在自动驾驶中的作用与潜力 - 语言在自动驾驶中的作用主要体现在长推理、用户交互价值观对齐以及理解世界 [1] - 对“预测下一个token”的理解分歧影响对LLM潜力的判断,越认为其不只是概率分布的人越认可语言可以理解世界 [1][12] - OpenAI联合创始人Ilya Sutskever认为,足够好的下一个token预测意味着模型理解了token产生的潜在现实,这使其可能推断出超越已有数据范围的高智慧行为 [13][15][17] 端到端架构的具体实现探讨 - 端到端缺乏公认的排他性定义,传感器信号进、输出轨迹亦可称为端到端,在此定义下理想汽车的VLA架构符合端到端特征 [5][7] - 有观点认为特斯拉端到端模型实际输出的是轨迹而非油门方向盘电信号,依据包括跨车型适配的冗余设计问题及特斯拉高管在公开场合的模糊回应 [5][6] - 特斯拉技术负责人Ashok Elluswamy在ICCV 2025上表示,端到端的核心前提是梯度必须端到端流动,输出形式是经验性问题,这进一步支持了端到端定义的宽泛性 [6] 技术演进的长远视角 - 马斯克提出长远来看AI模型输入和输出99%以上将是光子,这回应了关于DeepSeek-OCR等工作中降低计算量的潜力 [10] - VLA定义的最大公约数是输入为视觉或多模态,语言以某种形式参与,最终输出指向广义机器人动作的模型 [11] - 长远来看,可能不再使用text token来理解语言,而是采用更底层的表征方式 [10][11]
CVPR 2026倒计时Day21,冲这个方向简直降维打击!
自动驾驶之心· 2025-10-25 00:03
文章核心观点 - 文章预测CVPR2026会议投稿量已超2000篇,主旋律可能是“世界模型”,并以此作为论文辅导服务的核心方向 [1] - 公司提供论文辅导服务,旨在通过学术界/工业界大牛指导,帮助学员在关键节点发力,掌握技术脉络并产出论文,以冲击顶会和中稿 [2] - 公司拥有国内顶尖学术资源,300+专职老师来自全球QS前100高校,近3年辅导学员成果显著,涵盖CVPR、ICRA等顶会 [3] 公司服务与资源 - 公司作为国内最大AI类技术自媒体平台,拥有自动驾驶之心/具身智能之心/3D视觉之心等IP,深耕自动驾驶、具身智能、机器人方向 [3] - 公司拥有300+专职于自动驾驶/具身智能方向的老师,来自全球QS排名前100高校,发表过多篇顶会/子刊/A会/B会论文 [3] - 公司提供个性化论文指导服务,包括导师实时互动、录播无限次回看、免费课后答疑、24h无时差上课,覆盖选题至投稿一站式科研服务 [11] 服务流程与成果 - 公司辅导流程包括掌握技术脉络、复现模型、产出1篇论文初稿、投稿指导,助力学员冲击高区/顶会 [2] - 公司展示学员成果案例,如程同学(研二)4个月中稿CVPR顶会,张同学(博五)3个月中稿emnlp顶会 [4] - 公司服务帮助解决导师放养、科研体系不清晰等问题,协助学员建立科研思维、掌握算法、提升实践能力,并将baseline深化为论文 [5] 目标学员与方向 - 公司主要辅导方向包括三维重建、relighting、NVS、SLAM、点云处理、VLA、机器人导航、计算机视觉等 [8] - 目标学员为有科研需求、从事人工智能领域工作想升职加薪、考研申博留学提升简历含金量的人群 [9][10] - 学员要求自带简历,有一定pytorch基础,公司通过精准匹配系统从300+导师中筛出3-5位最契合人选 [8][15] 服务优势与附加价值 - 公司提供基础课程供零基础学员自主学习,承诺踏实地跟导师学习6个月能出一篇小论文 [14] - 优秀学员可获清北/MIT等名校推荐信,推荐到实验室实习,表现突出者直接内推阿里达摩院、华为诺亚方舟等企业研发岗 [16] - 公司承诺预收定金后可和名师meeting,不满意可免费更换老师/退款,收费根据分区目标和学员情况详细报价 [16]
自动驾驶之心合伙人招募!
自动驾驶之心· 2025-10-25 00:03
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司关注的前沿技术方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他重点方向涵盖具身交互、联合预测、SLAM、3D目标检测、世界模型 [3] - 同时关注闭环仿真3DGS、大模型部署与量化感知推理等关键技术 [3] 人才招聘要求 - 合伙人岗位要求应聘者毕业于QS200以内高校并拥有硕士及以上学历 [4] - 优先考虑在顶级学术会议上有研究成果的候选人 [4] 合伙人待遇与激励 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]