COSMOS

搜索文档
LeCun出手,造出视频世界模型,挑战英伟达COSMOS
机器之心· 2025-07-29 17:58
世界模型概念与发展 - 世界模型是一种神经网络,能够根据智能体过去的观察与动作预测环境的未来状态 [2] - 深度学习三巨头之一Yann LeCun将世界模型视为通向人类智能的核心路径 [3] - 训练有效世界模型面临数据获取成本高、任务复杂度高、算力消耗大等挑战 [4][5][6] DINO-world模型创新 - 采用冻结视觉编码器DINOv2在潜在空间预训练视频世界模型,显著降低计算成本 [9][19] - 模型参数量少于10亿,远低于生成式模型COSMOS的120亿参数规模 [19] - 引入残差预归一化交叉注意力块架构,提升预测效率 [20][21] 技术实现细节 - 使用旋转位置编码(RoPE)处理时空关系,支持可变帧率训练增强泛化能力 [23][24][28] - 通过动作条件微调模块将预测与智能体动作结合,缓解数据不足问题 [30][32][33] - 在6000万条未清洗网络视频数据集上训练,获得跨领域迁移能力 [11] 性能验证结果 - 在VSPW分割预测任务中,0.5秒预测mIoU提升6.3% [13] - 密集预测任务表现优于V-JEPA和COSMOS,Cityscapes mIoU达64.7 [37][38] - 直觉物理测试显示与V-JEPA ViT-H相当,验证大规模预训练价值 [40][41] 应用优势 - 解耦视频预训练与动作微调,减少90%标注数据需求 [12] - 潜在空间建模避免像素级计算,推理资源消耗降低80% [10][12] - 规划任务成功率比从头训练模型提高50%以上 [44]
隔夜美股全复盘(6.26) | 英伟达涨逾4%,股价创新高再度成为全球市值最高的公司,黄仁勋称机器人技术是英伟达下一个万亿美元级别的增长机会
搜狐财经· 2025-06-26 07:04
美股市场表现 - 道指跌0.25%,纳指涨0.31%,标普平收0%,恐慌指数VIX跌4.12%至16.76 [1] - 美元指数跌0.28%报97.7,美国十年国债收益率跌0.116%收报4.292%,两年期国债收益率差50.7个基点 [1] - 现货黄金涨0.27%报3332.02美元/盎司,布伦特原油跌0.61%至66.4 [1] 行业板块表现 - 半导体、科技和医疗分别收涨0.9%、0.85%和0.09%,标普其他7大板块悉数收跌 [2] - 房地产、日常消费、公用事业、原料、工业、能源和通讯分别收跌2.44%、1.34%、1.34%、0.96%、0.88%、0.44%和0.02% [2] 中概股表现 - 台积电涨1.2%,其海外子公司计划发行价值100亿美元新股 [2] - 阿里跌2.1%,拼多多跌0.02%,京东涨1.1%,理想跌1.47%,小鹏跌3.27%,富途涨5.99%,蔚来跌0.86% [2] - 小马智行跌1.81%,被纳入纳斯达克中国金龙指数 [2][10] 大型科技股表现 - 英伟达涨4.33%,股价创新高成为全球市值最高公司 [3] - 微软涨0.44%,OpenAI与微软举行高层会晤讨论战略合作 [3] - 苹果涨0.63%,谷歌涨2.24%,Meta跌0.49%,特斯拉跌3.79% [3] - 高盛称不应对Robotaxi过度乐观,5月特斯拉欧盟销量骤降40.5% [3][8][9] 公司动态 - QuantumScape在制造工艺取得重大进展,Cobra工艺热处理速度提高25倍 [4] - AeroVironment第四季度每股收益1.61美元高于预期1.38美元,营收创历史新高2.751亿美元 [5] - 英伟达CEO黄仁勋表示机器人技术是下一个万亿美元级别增长机会,自动驾驶汽车是主要商业应用 [6] - 英伟达汽车和机器人业务季度销售额5.67亿美元,同比增长72% [6] - 分析师预计英伟达今年销售额将接近2000亿美元 [7] 国防与政策 - 北约盟国承诺到2035年将年度国防开支增至GDP的5% [11] - 德国批准2025年预算,至2029年新增债务5000亿欧元 [12] - 英国将从洛克希德·马丁公司购买至少12架F-35A战斗机 [13] 经济与货币政策 - 摩根士丹利预计美联储2026年降息7次,最终利率降至2.5%至2.75% [14] - 美联储主席鲍威尔表示货币政策决策不考虑联邦债务问题,财政政策可能推高通胀 [15]