Workflow
Alpamayo - R1
icon
搜索文档
英伟达Alpamayo再进化!反事实推理VLA,安全性能提升很可观
自动驾驶之心· 2026-01-07 09:07
文章核心观点 - 英伟达、UCLA与斯坦福联合提出反事实视觉-语言-动作模型CF-VLA,该模型具备自反思与自适应推理能力,能够在执行驾驶动作前对规划进行反事实推理与修正,从而显著提升自动驾驶系统的轨迹准确性、安全性与可解释性 [2][3][10] - CF-VLA通过创新的“rollout-筛选-标注”数据流水线,从模型自身行为中自动挖掘高价值场景并生成反事实训练数据,形成自改进循环,是实现“三思而后行”自动驾驶智能体的重要一步 [3][11][15] 背景与现有挑战 - 现有增强推理能力的视觉-语言-动作模型主要生成描述性推理轨迹,缺乏对自身规划动作安全性或合理性的质疑与修正能力 [3][6] - 实现VLA模型内部的自反思式反事实推理面临两大挑战:一是缺乏动作到语言的映射机制,二是标准训练流程极少教导模型回答反事实问题 [7] CF-VLA模型框架与核心机制 - **自反思反事实推理循环**:模型首先生成时间分段的元动作概括驾驶意图,随后结合视觉环境进行反事实思维链推理,核心问题是“若我遵循该规划,会发生什么?”,并在最终轨迹生成前修正不安全或非最优规划,形成“元动作→反事实推理→更新后元动作→轨迹”的闭环 [10][19] - **自适应推理**:模型具备“按需思考”能力,通过统一指令隐式学习,仅在复杂、高风险场景中启用反事实推理,在简单场景中节省计算资源,从而平衡性能与测试时计算开销 [3][16][21] - **元动作设计**:元动作作为语言与动作之间的中间抽象,从纵向、横向和车道级三个正交维度,在6.4秒规划时域内以时间分段形式描述驾驶行为的预期演变,便于语言模型进行高层意图的推理与修正 [21][22] 数据流水线与训练方法 - **“Rollout-筛选-标注”流水线**:首先对基础VLA模型进行rollout生成候选元动作与轨迹;通过比较自由生成与预填充真实元动作下的轨迹质量差异,自动筛选出元动作为性能瓶颈的高价值数据点;最后利用高性能教师模型为筛选出的场景生成反事实推理轨迹 [11][12][24][26] - **混合数据训练**:训练结合了纯轨迹数据集(约1160万个20秒视频片段)、元动作标注数据集(训练集含43.3万个20秒片段和80.1万个8.4秒样本)以及反事实推理数据集(通常包含20万个样本),分阶段训练得到完整CF-VLA模型 [8][31] - **多轮训练与自改进飞轮**:训练后的CF-VLA可重新接入数据流水线生成新一轮反事实数据,进行多轮训练以持续提升性能并降低推理率,实现自改进循环 [14][32] 实验结果与性能提升 - **轨迹准确率提升**:相比纯轨迹模型,CF-VLA将轨迹准确率提升高达17.6%;相比非反思元动作基线模型,提升9% [3][14] - **安全指标显著改善**:CF-VLA将安全指标提升20.5%,碰撞率降低约25%-30%,偏离道路率降低约15%-20% [3][45] - **自适应推理有效性**:CF-VLA的推理率与场景难度强相关,在变道、转向、弱势道路使用者等高不确定性或高风险场景中推理频率显著增加,并在这些复杂场景中实现了更大的误差降低 [21][45] - **多轮训练优势**:进行第二轮反事实训练后,模型在保持或提升平均误差和元动作对齐度的同时,推理率降低近一半,输出长度缩短,实现了准确率-安全性-计算开销的更优权衡 [43][45] 消融实验关键发现 - **元动作的重要性**:引入元动作相比纯轨迹模型使最小平均位移误差和最小终点位移误差降低约9%,添加语言监督后可再提升约5% [41] - **自适应推理的必要性**:强制在所有场景进行推理的模型,其最小平均位移误差比自适应变体升高22%,且修正后元动作IOU下降;强制不推理则在复杂场景中表现不佳,证明推理应选择性使用 [49] - **数据筛选的关键作用**:使用筛选后数据集训练的CF-VLA,其核心规划指标优于使用全数据集并强制“全程思考”的变体,表明反事实监督必须具有针对性,简单增加标注会引入噪声损害性能 [50] 定性案例与行业意义 - **实际场景修正能力**:可视化案例显示,CF-VLA能在并道、转向、弱势道路使用者等多种场景中,识别初始规划与场景的不匹配,并生成针对性修正,如提前变道避障、果断转向、减速让行等,提升了安全性、交通效率与语义一致性 [52][55] - **行业进化趋势**:自适应推理与自反思能力是当前自动驾驶VLA模型研究的热点,也是自动驾驶未来进化的趋势 [2]
英伟达用千万Clip搞定了反事实推理VLA!安全指标提升了20%......
自动驾驶之心· 2026-01-05 11:33
文章核心观点 - 英伟达、UCLA和斯坦福的研究团队提出了一种名为反事实视觉-语言-动作模型的新型端到端自动驾驶框架,该框架通过引入自反思和反事实推理能力,使模型能够在执行动作前质疑并修正其规划,从而显著提升轨迹准确性、安全性和计算效率 [2][3][10] 技术背景与现有问题 - 现有增强推理能力的视觉-语言-动作模型主要通过生成中间语言轨迹来提升可解释性,但其推理是描述性的,仅描述观测内容和预期动作,缺乏在执行前验证自身规划安全性的自反思循环 [6] - 现有具身视觉-语言模型的自修正能力通常在动作失败后触发,或依赖外部世界模型进行评估,无法让模型在执行前主动推理自身动作的潜在后果 [7] - 实现VLA模型内部的自反思反事实推理面临两大挑战:缺乏动作到语言的映射机制,以及标准训练流程缺乏教导模型回答反事实问题的数据 [7] CF-VLA模型核心机制 - 模型采用“元动作→反事实推理→更新后元动作→轨迹”的自反思循环,首先生成时间分段的元动作概括驾驶意图,然后结合视觉环境进行反事实推理,模拟潜在结果并修正不安全规划,最后生成最终轨迹 [10][19] - 模型引入“时间分段元动作”作为中间表示,从纵向、横向和车道级三个正交维度描述驾驶行为,覆盖6.4秒规划时域,实现了动作与语言的对齐,便于语言骨干网络进行推理 [23][24] - 模型具备自适应推理能力,通过统一指令让模型隐式学习何时需要启动反事实推理,仅在复杂、高风险场景中进行深入思考,在简单场景中节省计算资源 [21][48] 数据流水线与训练方法 - 研究设计了“rollout-筛选-标注”数据流水线,用于自动构建高质量的反事实训练数据:首先对基础VLA模型进行rollout生成候选轨迹;然后通过比较自由生成与预填充真实元动作下的轨迹质量差异,自动筛选出元动作成为性能瓶颈的高价值场景;最后使用高性能教师模型为筛选出的场景生成反事实推理轨迹 [11][12][26] - 训练采用混合数据集分阶段进行:首先在纯轨迹数据集上训练基础模型;然后在元动作标注数据集上微调;最后在混合了纯轨迹、元动作和反事实推理数据的数据集上微调,得到完整的CF-VLA模型 [33] - 该流水线支持多轮训练,训练后的CF-VLA模型可重新接入流水线生成新一轮反事实数据,实现性能的持续自改进 [34] 实验设置与评估指标 - 实验在大规模内部数据集上进行,该数据集包含来自25个国家的80,000小时人类驾驶数据 [37] - 使用的训练数据量包括:纯轨迹数据集约1160万个20秒视频片段;元动作训练集包含43.3万个20秒片段和80.1万个8.4秒样本;反事实推理数据集通常包含20万个样本 [8][39] - 评估从三个维度进行:轨迹准确率、安全特性以及推理质量与计算开销 [39] 主要实验结果 - 在轨迹准确率上,CF-VLA相比纯轨迹模型提升高达17.6%,相比非反思的元动作基线模型提升9% [14][47] - 在安全指标上,CF-VLA将碰撞率降低20.5%,偏离道路率降低14.7% [3][14] - 模型展现出清晰性能阶梯:纯轨迹模型 < 元动作轨迹模型 < 语言-元动作轨迹模型 < CF-VLA [47] - 多轮训练能进一步提升性能并优化计算效率,例如第二轮训练后,有路线信息的CF-VLA模型推理率降低近一半,平均输出长度缩短,同时保持了性能提升 [45][47] 消融实验关键发现 - 元动作的引入至关重要,预填充真实元动作可使轨迹误差几乎减半,表明剩余误差主要来自元动作预测不准,这为直接对元动作进行反事实推理提供了依据 [50] - 自适应推理机制有效:强制全程推理的模型MinADE升高22%,修正后IOU下降;强制不推理的模型在复杂场景表现不佳;而自适应推理模型取得了最佳权衡 [51] - 数据筛选流水线是关键:仅为高价值场景生成反事实数据的模型,其性能优于为全数据集生成反事实数据的模型,后者输出长度更长、推理率更高但核心指标未提升甚至略有下降,表明反事实监督需有针对性 [52] 定性结果与案例 - 可视化案例表明,CF-VLA能识别初始规划与场景的不匹配并进行针对性修正,例如在并道场景提前变道避让拥堵、在转向场景生成更果断的动作、在行人场景减速等待,从而提升安全性、交通效率和语义一致性 [54][57] 行业意义与趋势 - 反事实推理和自反思能力是当前自动驾驶VLA模型研究的热点,也是行业未来进化的趋势 [2] - 该工作将推理从一次性描述升级为因果自修正信号,为实现“三思而后行”的自反思自动驾驶智能体迈出了重要一步 [3][56]
NVIDIA (NVDA) Expands AI Leadership with SchedMD Acquisition and Open-Source Focus
Yahoo Finance· 2026-01-02 22:10
公司战略与收购 - 英伟达公司于12月15日宣布收购AI软件公司SchedMD 旨在通过加大对开源技术的投入和增加对人工智能生态系统的投资来应对日益激烈的竞争 [1] - 被收购的SchedMD公司创建了Slurm 这是一个对高性能计算和大规模人工智能应用至关重要的开源工作负载管理器 [2] - 公司确认收购后Slurm将保持开源和供应商中立 因此该软件将继续适用于包含不同厂商硬件的多样化设置 [2] 产品与生态拓展 - 近几个月 公司寻求扩展其开源和开放AI产品 [3] - 12月初 公司推出了Alpamayo-R1 这是一个旨在用于自动驾驶研究的新型开放推理视觉语言模型 [4] - 公司同时表示 已为其Cosmos世界模型引入了新的工作流程和指南 这些模型根据宽松许可开源 有助于开发者更好地利用模型构建物理AI [4] 公司业务概览 - 英伟达公司设计并销售专用处理器 最初用于游戏 但现在也对人工智能 数据中心 专业可视化和汽车行业至关重要 [5]
为什么是这10个词,定义了2025年AI叙事
钛媒体APP· 2025-12-31 08:05
文章核心观点 - 2025年是AI技术从理论走向深度应用与产业爆发的关键一年,AI从聊天工具演变为具备深度推理能力的智能体,并驱动了从大模型竞争到算力军备竞赛的全面变革 [2] - 行业竞争格局被打破,以DeepSeek为代表的国产力量崛起,改变了OpenAI旗下ChatGPT独步全球的局面,将竞争焦点引向应用推理效率与算力估值 [2] - 每一个年度热词都标志着人类向通用人工智能(AGI)迈进的坚实步伐 [2] AI技术演进与能力突破 - **多模态能力爆发**:AI拥有了视听感官,从演示阶段走向成熟应用,例如Sora 2.0、Veo 3等模型生成的视频画质可媲美电影,并应用于视频游戏交互场景 [4] - **端侧多模态受青睐**:苹果与高通发布AI芯片,使AI能在手机端离线运行;植入AI眼镜的摄像头可借助多模态实时分析环境并提供语音服务 [4] - **推理能力质变**:“推理”指大模型通过强化学习和思维链获得慢思考与自我纠错能力,例如DeepSeek-R1、OpenAI o3/o4-mini模型在AIME等逻辑测试中逼近满分 [7] - **智能体(Agent)成为核心**:2025年被视为“智能体元年”,以Agent为核心的系统化AI被公认是释放生产力的关键,AI初创公司Manus凭借通用任务处理能力迅速实现1亿美元年度经常性收入 [12] 关键参与者与市场格局 - **OpenAI保持技术灯塔地位**:尽管面临竞争,其估值增长迅猛,3月完成软银领投的400亿美元融资后估值达3000亿美元,9月在迪士尼10亿美元股权投资后估值冲上5000亿美元,成为全球估值最高独角兽 [8] - **ChatGPT维持领先地位**:完成从聊天工具到全能交互中心的跨越,依旧是全球用户规模最大的AI应用,周活跃用户数突破8亿,付费用户数突破2000万 [5] - **DeepSeek成为最大黑马**:凭借DeepSeek-R1模型以不足30万美元的训练成本实现比肩国际顶尖模型的能力,其独特的MLA架构与FP8混合精度训练大幅拉低了大模型推理成本 [9] - **英伟达巩固算力霸主地位**:作为AI经济的核心与地缘政治杠杆,其Blackwell架构芯片(如GB200/GB300)大规模量产,占据高端GPU出货量的80%以上,并于10月成为全球首家市值突破5万亿美元的公司 [2][6] 算力基础设施与供应链 - **GPU成为硬指标**:几乎所有AI重大突破都建立在GPU供给之上,围绕GPU供应链安全、自研AI芯片和国产替代的讨论成为高频话题 [2] - **算力竞争白热化**:英伟达Blackwell执掌霸权,AMD凭借MI325X和MI350系列强化在推理市场的贡献 [10] - **国产算力崛起**:迎来上市元年,摩尔线程和沐曦股份已登陆科创板,壁仞科技即将冲击港股,标志着国产算力迈向商业化量产拐点 [10] 前沿应用与产业融合 - **机器人站上风口**:因“具身智能”而兴起,从年初宇树科技等人形机器人亮相春晚完成复杂歌舞,到年底英伟达发布开源VLA模型Alpamayo-R1,机器人已成为集成物理AI、具备多模态感知与自主决策能力的实体 [11] - **Agent验证商业前景**:Meta收购Manus,验证了Agent技术的巨大商业潜力,为年度AI热点画上句号 [12]
英伟达,宣布收购
半导体行业观察· 2025-12-16 09:22
收购事件概述 - NVIDIA宣布收购开源工作负载管理系统Slurm的领先开发商SchedMD [2] - 收购旨在加强开源软件生态系统并推动面向研究人员、开发人员及企业的AI创新 [2] - 交易条款未披露,NVIDIA除官方博客外拒绝发表更多评论 [6] 收购标的:Slurm/SchedMD - Slurm是一款用于高性能计算和人工智能的开源工作负载管理与作业调度系统 [2] - Slurm最初于2002年推出,SchedMD由其主要开发者于2010年创立 [6] - Slurm被TOP500超级计算机排行榜前10名以及前100名中超过一半的系统所使用 [2] - Slurm支持最新的NVIDIA硬件,是生成式AI所需的关键基础设施,用于管理模型训练和推理 [2] - SchedMD拥有数百家客户,涵盖云服务提供商、制造商、AI公司及研究实验室,涉及自动驾驶、医疗保健、能源、金融、制造和政府等行业 [3][4] NVIDIA的承诺与计划 - NVIDIA将继续开发和分发Slurm,使其保持为开源、厂商中立的软件 [2] - 公司计划继续投资Slurm的开发,确保其保持HPC和AI领域领先开源调度器的地位 [3] - NVIDIA将加速SchedMD对新系统的访问,帮助用户优化其整个NVIDIA加速计算平台上的工作负载,并支持多样化的软硬件生态系统以运行异构集群 [3] - NVIDIA将继续为SchedMD的现有客户提供开源软件支持、培训和开发服务 [3] 战略背景与公司其他动态 - 此次收购是NVIDIA与SchedMD超过十年合作的延续 [3][6] - 收购反映了NVIDIA从收购和发布新模型两方面扩大其在开源AI领域的影响力 [6] - 在同一天,NVIDIA还发布了一系列名为Nemotron 3的新开源AI模型,声称其是构建精准AI代理最高效的开源模型系列,包括Nano、Super和Ultra三种型号 [6][7] - 近期,NVIDIA持续加强其开源和开放AI产品,例如上周发布了专注于自动驾驶研究的开放式推理视觉语言模型Alpamayo-R1,并为其Cosmos世界模型添加了更多工作流程和指南 [7] - 这些举措反映了NVIDIA对物理AI将成为其GPU下一个前沿领域的押注,旨在成为机器人或自动驾驶汽车公司在开发核心技术时的首选供应商 [7]
Nvidia bulks up open source offerings with an acquisition and new open AI models
TechCrunch· 2025-12-16 06:00
英伟达在开源AI领域的战略扩张 - 公司通过收购与发布新模型,在开源AI领域进行双线扩张,旨在巩固其作为生成式AI和物理AI关键基础设施供应商的地位 [1][3][8] 收购SchedMD以强化高性能计算基础设施 - 公司收购了领先的开源工作负载管理系统Slurm的开发商SchedMD,交易条款未披露 [1][2] - Slurm系统专为高性能计算和AI设计,于2002年推出,公司计划将其作为开源、供应商中立的软件继续运营 [1] - 公司与SchedMD已有超过十年的合作历史,认为该技术是生成式AI的关键基础设施,并计划持续投资以加速其在不同系统中的接入 [3] 发布新一代开源AI模型Nemotron 3 - 公司发布了名为Nvidia Nemotron 3的新系列开源AI模型,声称其是构建精准AI智能体“最高效的开放模型家族” [3] - 该模型家族包括:用于特定任务的Nemotron 3 Nano、为多AI智能体应用构建的Nemotron 3 Super,以及为更复杂任务构建的Nemotron 3 Ultra [4] - 公司CEO黄仁勋表示,开源创新是AI进步的基石,Nemotron旨在将先进AI转化为开放平台,为开发者提供构建规模化智能体系统所需的透明度和效率 [6] 近期在开源AI领域的其他举措 - 上周,公司发布了一个专注于自动驾驶研究的新型开源推理视觉语言模型Alpamayo-R1 [7] - 公司同时为其在宽松许可下开源的Cosmos世界模型增加了更多工作流程和指南,以帮助开发者更好地利用模型开发物理AI [7] 战略背景与行业展望 - 上述活动反映了公司对物理AI将成为其GPU下一个前沿领域的押注 [8] - 公司旨在成为众多机器人或自动驾驶汽车公司在寻找AI与软件以开发技术“大脑”时的首选供应商 [8] - 近几个月来,公司持续推动加强其开源和开放AI产品供应 [6]
人形机器人上岗忙,大模型迭代不停:12.1-12.7 核心动态
搜狐财经· 2025-12-10 17:45
核心观点 - 全球AI与机器人行业在模型迭代、技术突破、政策支持与场景落地等多方面同步推进,产业化进程加速 [1][4] 模型迭代与技术突破 - **特斯拉Optimus**展示慢跑能力,速度达到每秒2至2.5米,稳定性显著提升,并展示多机充电场景,强化了2026年量产预期 [1] - **腾讯**发布混元2.0大模型,参数规模达4060亿,上下文长度256K,数学与代码能力国内领先,并与DeepSeek V3.2共同接入其AI生态 [1] - **Mistral AI**发布Mistral 3系列新一代开放模型,全线采用Apache 2.0许可证,旨在兼顾性能与开源生态,强化欧洲AI竞争力 [4] - **英伟达**开源自动驾驶核心模型Alpamayo - R1,并开放数据集,旨在提升AI推理效率与泛化能力,降低行业研发门槛 [4] 行业应用与场景落地 - **华为**联合粤港澳大湾区国家技术创新中心发布工业软件垂域大模型“智汇虚竹”,聚焦工业设计、仿真等场景,以提升研发效率与国产化替代能力 [1] - **曹操出行**与越疆科技合作,将越疆Atom人形机器人引入杭州“绿色智能通行岛”的Robotaxi场景,完成导览、无人运维等多场景验证 [1] - **优艾智合**发布全球首款双臂协作巡操机器人“钧仪”,已在南方电网220千伏变电站高压室执行高危巡检任务,提升电力运维自动化与安全性 [4] - **杭州**在滨江区滨盛路长河路口投入AI交警机器人“杭行1号”实习,执行交通疏导、信息交互等任务,助力智慧交通管理落地 [4] 政策支持与产业生态 - **北京**在奥林匹克中心区落地全球首个国家人形机器人赛训基地,将建设机器人创新公园,包含赛训基地与应用场景集聚基地,以支撑技术验证与标准建设 [1] - **中国企业在日本国际机器人展上成为主力**,展会中中国企业的人形机器人产品占比过半,其中宇树科技G1等产品获得关注,展现了国内技术实力与出海能力 [4]
阿里系 App 禁止豆包手机登录;库克被曝出现“不明原因手部颤抖”;众擎T800人形机器人一脚踹倒自家CEO | AI周报
AI前线· 2025-12-07 13:33
豆包AI手机助手引发行业生态冲突 - 豆包与中兴合作的首款“豆包助手”手机发售引发热议,阿里系多款应用(淘宝、闲鱼等)及农行、建行等手机银行App已拒绝该手机登录或触发安全提醒,游戏类App如《王者荣耀》也能监测并限制AI控制 [3] - 豆包手机助手发布声明否认可跳过认证读取用户信息,并计划对AI操作能力进行规范化调整,主要限制三类场景:App刷分刷激励、金融类应用代操作、涉及竞技排名的游戏场景 [4] - 该手机首批备货约3万台,售罄后未追加物料,二手平台售价从3699元至7999元不等,较3499元官方售价最高溢价4500元,租赁价格超600元/天,字节与中兴第二代产品已启动研发,预计2026年底出货 [5] - 360创始人周鸿祎评论称,豆包手机助手能接管手机操作,将冲垮互联网大厂基于传统流量逻辑的护城河,可能引发技术攻防战,各大App或调整页面结构限制AI,手机厂商也可能推出自家助手抗衡 [5] 人形机器人技术进展与商业化 - 众擎机器人发布T800人形机器人“大战”CEO的视频,展示其运动能力,机器人一脚将穿戴护具的CEO踹翻在地 [6][9] - 众擎T800售价18万元起,具备1.73米成人身高、75公斤自重,通过高爆发关节模组可实现450N·m峰值扭矩和瞬间关节14000W峰值功率,配备自研灵巧手,能完成重物抓握与精细操作 [9] - 特斯拉CEO马斯克转发擎天柱(Optimus)团队视频,展示人形机器人实验室跑步状态,动作流畅,团队称刷新个人纪录,特斯拉已启动试生产产线,规模更大的生产线将于2026年投产,规模化后每台成本预计控制在2万美元以内 [22] 极越汽车破产重整与资本变动 - 极越汽车(原集度汽车)启动预重整程序,CEO夏一平正主导引入新的投资方(主要来自中东),而主要发起方及投资方之一的百度寻求在此轮重整中完全退出 [10][11] - 极越破产重整面临庞大债务,据媒体报道可能高达70亿元,其两大股东吉利和百度联合解决了员工欠薪和裁员赔偿,但两者也是最大债权人,债权规模约占极越总债务的72% [11] - 百度已为极越(包括集度)投入约80亿元,最终换来总销量约1.4万辆,月均约1200辆,吉利持有集度45%股权 [11] 科技公司高层人事与治理动态 - 苹果CEO库克被曝出现不明原因手部颤抖,引发员工讨论,同时苹果近期经历高层人事震荡,人工智能主管、设计负责人、法务负责人、政府事务主管四位直接向库克汇报的高管接连离职,负责自研芯片的高级副总裁也正考虑离职 [12][13] - 新东方杭州员工发布内部信吐槽“996单休”加班文化,称每日工作时长从早9:30至晚21:30以上成为常态,该员工发布文章后账号被秒封并被移出公司架构,公司称其未按正确举报机制操作 [14] - 艾比森公司公告显示,创始人丁彦辉在董事长选举中投出唯一反对票,理由为“对董事长岗位薪酬不满意”,其2024年税前报酬总额为435.56万元,较2023年288.45万元增长约51%,公司回应称系董秘笔误,实际是董事长对公司激励机制不满 [17] 企业战略调整与业务表现 - Meta CEO扎克伯格被曝将改变元宇宙业务策略,计划明年将元宇宙团队预算削减高达30%,可能启动裁员,自2021年初重点发展元宇宙以来,其Reality Labs部门已累计亏损超700亿美元,部分资源将转向AI眼镜和可穿戴设备 [18][19] - 微软否认下调AI产品销售指标,驳斥了有关将Azure Foundry服务支出提升目标从50%下调至25%左右的报道,称其混淆了“增长目标”与“销售配额”,但报道同时披露企业客户如凯雷集团因技术问题减少了对Copilot Studio的使用 [20][21] - 佳能中山打印机工厂停产裁员,补偿方案包括“2.5N+1”经济补偿金及5个月工资的就业支援金,例如18年老员工总计可获约40万元,一名月薪5000元、工作3年的员工预计获8.25万元补偿,较法定标准翻四倍多,公司还主动为员工对接新工作并撰写推荐信 [16] 大模型与AI技术产品发布 - DeepSeek发布V3.2正式版及长思考增强版V3.2-Speciale,V3.2在公开推理基准测试中达到GPT-5水平,略低于Gemini-3.0-Pro,V3.2-Speciale在IMO、CMO、ICPC、IOI等竞赛中达到金牌水平,其中ICPC成绩达人类选手第二名 [25][26] - 英伟达发布业界首个专注于自动驾驶的开源视觉语言动作模型Alpamayo-R1,旨在构建“具身智能”基础,助力实现L4级自动驾驶 [28][29] - 理想汽车发布首款AI智能眼镜Livis,补贴后售价1699元起,整机重36克,标配蔡司镜片,典型续航18.8小时,可与理想汽车车机系统联动,实现百米内语音远程控车 [30][31][32] - 商汤科技发布并开源全新多模态模型架构NEO,推出基于该架构的2B与9B规格模型,旨在通过底层创新实现视觉与语言的统一处理 [35] - 米哈游联合创始人蔡浩宇创立的AI公司推出AI聊天软件AnuNeko,产品风格独特,旨在利用AI技术打造成类似“游戏引擎”的平台,用于生成可交互的NPC [33] - 阿里巴巴更新图片生成及编辑模型Qwen-Image,在多视角转换、多图像融合等方面取得进展,并已首发接入千问App供用户免费使用 [36][37] - 法国Mistral AI正式发布包含14B、8B、3B及Large 3版本的Mistral 3模型系列,均基于Apache 2.0协议开源 [39] - 可灵推出视频生成2.6模型,具备“音画同出”能力,可生成最长10秒带音效视频,并发布全新多模态创作工具“可灵O1” [40] 行业合作与产品动态 - 亚马逊AWS推出AI工具DevOps Agent,旨在帮助客户预测和恢复技术故障,客户可注册体验预览版,后续将收费 [38] - 埃森哲宣布与OpenAI合作,为数万名IT专业人员配备ChatGPT企业版 [40] - 汇丰银行与Mistral AI建立战略合作,以加速生成式AI在全行的应用,重点领域包括信贷流程和反洗钱检查 [40] - 代码显示,新版iPhone版ChatGPT应用可能未来接入苹果健康数据,Android测试版代码中则出现了广告功能相关引用 [40]
英伟达2025年技术图鉴,强的可怕......
自动驾驶之心· 2025-12-06 11:04
英伟达公司发展里程碑与战略定位 - 公司于1993年成立,已完成从图形芯片到AI巨头的演进,市值在2025年10月底达到5万亿美元,是3年前的11倍 [2] - 发展关键节点包括:1999年推出GeForce 256,2006年CUDA问世,2012年支持AlexNet,2020年开始发布高端计算GPU,2021年开始发布端侧芯片(ORIN/Thor)[2] - 公司是AI基础设施的第一巨头,但其野心不局限于硬件,2025年在自动驾驶、具身智能、大模型和世界模型等最热AI赛道上产出了多篇重量级工作 [2] Cosmos系列世界基础模型平台 - 该系列从2025年1月开始布局,是面向物理AI的世界基础模型平台,衍生出Cosmos-Transfer1、Cosmos-Reason1、Cosmos-Predict2.5等工作,为下游自动驾驶和具身智能奠定基座 [5] - **Cosmos-Predict2.5**:新一代物理AI视频世界基础模型,基于流匹配架构统一了文本、图像、视频到世界的生成能力,并引入物理AI专用VLM——Cosmos-Reason1进行文本嵌入与细粒度控制 [17] - Cosmos-Predict2.5构建了包含2亿精选视频片段的大规模训练数据集,并针对机器人、自动驾驶等五大领域进行专项数据整理 [17] - 其控制网络变体Cosmos-Transfer2.5支持多模态控制信号输入,模型规模减小3.5倍的同时实现更高生成质量,支持长达120秒的长视频连贯生成 [17] - 模型支持多摄像头同步视频生成(如自动驾驶7视角),并实现基于相机轨迹的视角重渲染 [17] - 采用基于VLM奖励模型的强化学习对生成质量进行对齐优化,并使用时步蒸馏技术将推理步数大幅减少至4步 [17] - 全面开源2B与14B规模的预训练与后训练模型,在PAI-Bench等物理AI基准测试中取得领先性能 [17] - **Cosmos-Transfer1**:基于扩散模型的多模态可控世界生成框架,通过自适应空间-时间控制权重机制,根据不同模态输入生成高质量世界仿真视频 [37] - Cosmos-Transfer1构建了面向自动驾驶的高质量数据集RDS-HQ,包含360小时的高清地图、3D检测框与LiDAR同步标注 [37] - 通过基于NVIDIA GB200 NVL72系统的并行推理策略,在64块GPU上实现5秒720p视频的实时生成 [37] - **Cosmos-Reason1**:旨在赋予多模态大语言模型“物理常识”与“具身推理”能力,通过定义层次化的物理常识本体与二维具身推理本体,采用“监督微调+强化学习”的两阶段训练范式 [32] - Cosmos-Reason1构建了包含约4M视频-文本对的训练数据集,以及包含604个问题的物理常识推理基准和涵盖6个数据集、610个问题的具身推理基准 [32] - 实验表明,经过物理AI SFT后,模型在物理常识和具身推理基准上的性能较基线VLM提升超过10%,进一步的物理AI RL训练能在多数任务上再带来超过5%的性能提升 [33] Nemotron系列AI智能体模型 - Nemotron系列是公司为代理式AI时代打造的“数字大脑”,通过提供开放、高效、精准的模型和工具,让企业能够快速构建专业AI智能体 [5] - **Nemotron Nano V2 VL**:一个高效的12B视觉语言模型,通过混合Mamba-Transformer架构、多阶段训练策略和高效推理优化,在文档理解、长视频推理等多模态任务中实现了SOTA性能 [12] - 该模型将上下文长度从16K扩展至128K,支持长视频、多页文档等复杂场景理解 [12] - 集成Efficient Video Sampling技术提升视频处理吞吐量,支持FP8与FP4量化,适用于资源受限环境 [12] - 在OCRBench v2、MMMU、ChartQA、Video-MME等45个多模态基准测试中表现优异 [12] - 公开发布包含超过800万样本的Nemotron VLM Dataset V2,以及NVPDFTex等标注工具 [12] - **Nemotron Nano 2**:面向推理任务的高效混合架构语言模型,结合Mamba-2层与自注意力层,在保持高精度的同时,实现了最高达6倍的推理吞吐量提升,并支持128k长上下文推理 [26] - 采用FP8混合精度训练配方与分阶段课程学习策略,在20T token上完成预训练 [26] - 通过基于Minitron的轻量级剪枝与蒸馏策略,将12B模型压缩至9B,使其能够在单张NVIDIA A10G GPU(22GB显存)上以128k上下文进行推理 [26] - **Nemotron-H系列**:采用创新的混合Mamba-Transformer架构,用计算和内存需求恒定的Mamba层替代绝大部分自注意力层,在保证高精度的前提下,实现了高达3倍的推理速度提升 [27][28] - 在65k输入、1k输出场景下,吞吐量达同类Transformer的2-3倍 [29] - 提出模型压缩范式MiniPuzzle,将56B模型压缩为47B模型,仅用极少量(63B)token进行蒸馏便恢复精度,并在长上下文推理中实现额外20%的加速 [31] - 为56B大模型成功实施了以FP8精度为主的层wise混合精度预训练方案,在长达20万亿token的训练中稳定 [31] - 基于该骨干网络构建的VLM模型在多项视觉语言基准(如MMMU, MathVista)上达到SOTA水平 [31] 具身智能与机器人系列 - 公司正在深入布局具身智能,主要工作包括GR00T N1和Isaac Lab,一手具身VLA,一手仿真平台 [5] - **GR00T N1**:一个面向通用人形机器人的开放式视觉-语言-动作基础模型,采用双系统架构,通过构建“数据金字塔”进行大规模预训练 [35] - 双系统VLA架构将视觉语言模型作为慢速推理模块,与基于扩散Transformer的快速动作生成模块端到端联合训练 [35] - 数据金字塔训练策略构建了从海量人类视频、仿真与神经生成数据到真实机器人轨迹的异构数据体系 [35] - 使用单一模型权重支持从单臂机械臂到双手机巧人形机器人等多种机器人形态,在低数据场景下表现出卓越的样本效率 [35] - 公开发布了GROOT-N1-2B模型检查点、训练数据集及仿真基准 [35] - **Isaac Lab**:一个GPU加速的多模态机器人学习仿真框架,集高保真物理、照片级渲染与模块化环境设计于一体 [6] - 提出了统一且可扩展的仿真范式,将GPU并行物理、实时射线追踪渲染与通用场景描述深度集成 [6] - 设计了全面的多模态传感器仿真套件,涵盖基于物理的传感器、基于渲染的相机以及基于Warp的几何传感器 [6] - 实现了从数据生成到策略部署的端到端学习工作流支持,内置了强化学习、模仿学习等多种学习范式 [6] - 通过模块化的“管理器”架构与底层Tensor API,在保持高性能GPU原生计算的同时,为研究者提供了灵活控制 [6] 自动驾驶系列 - 2025年11月发布的Alpamayo-R1在自驾行业引起轰动,是公司在自驾VLA上的重要尝试 [5] - **Alpamayo-R1**:一种融合因果推理与轨迹规划的视觉-语言-动作模型,旨在解决端到端自动驾驶在长尾安全关键场景中的性能瓶颈 [13] - 提出了Chain of Causation数据集,通过人机协同标注流程构建具有因果关联的结构化推理轨迹 [13] - 设计了模块化推理VLA架构,以物理AI预训练的Cosmos-Reason为骨干,结合基于流匹配的轨迹解码器,实现99ms延迟的实时轨迹生成 [16] - 提出了多阶段训练策略,包括动作模态注入、基于CoC的监督微调以及基于大推理模型反馈的强化学习后训练 [16] - 在闭环仿真与实车测试中,相比仅预测轨迹的基线模型,Alpamayo-R1在挑战性场景中规划准确率提升最高达12%,脱轨率降低35%,近距离接触率降低25%,推理质量与推理-动作一致性分别提升45%与37% [16] 高效训练与底层技术 - **NVFP4**:一种新型4位浮点格式的高效训练方法,通过混合精度、随机哈达玛变换、二维权重缩放与随机舍入等关键技术,成功在120亿参数模型上进行了长达10万亿token的稳定训练 [19] - 在120亿参数的混合Mamba-Transformer模型上,使用NVFP4格式完成10万亿token预训练,其验证损失与FP8基线全程紧密吻合(相对误差<1.5%),下游任务准确率可比拟 [19] - 对比实验证明,NVFP4在达到相同训练损失时,所需的训练token数比MXFP4少约36% [19] - 相关工作已在NVIDIA Blackwell GPU上通过Transformer Engine获得全面支持 [19] 数字人与动画生成 - **Audio2Face-3D**:一个基于深度学习的端到端音频驱动三维面部动画系统,能够从单一语音输入实时生成高保真、口型同步且带情感表达的全脸动画 [21] - 提出了双网络架构设计:基于回归的轻量级网络支持低延迟单帧推理;基于扩散模型的高质量网络以流式方式生成连续30帧动画,支持多身份条件生成 [21] - 构建了基于专业演员多情感语音捕获的4D面部数据集,并采用语音转换、文本转语音对齐与静默数据插入三种增强方法提升数据多样性 [21] - 开发了可重定向的混合形状求解器,可将生成的面部顶点运动转化为标准的ARKit混合形状权重,支持将动画无缝重定向至不同角色模型 [21] - 系统支持在线流式音频输入并实时生成动画,推理延迟低,并提供丰富的后处理参数面板 [21]
英伟达开源自动驾驶软件,中国车企要接吗?
汽车商业评论· 2025-12-04 07:07
英伟达Alpamayo-R1开源模型的技术特点 - 英伟达首次开源针对自动驾驶场景设计的视觉-语言-动作大模型,其数据集总大小约100TB,并明确可用于商业和非商业用途 [5] - 该模型采用“链式推理”机制,先将传感器数据转化为自然语言描述,再进行逐步场景分析和路径推理,模仿人类分步思考的决策过程 [5] - 模型通过逻辑推理预判风险,在长尾复杂场景中鲁棒性显著提升,例如能处理繁忙十字路口的杂乱施工路障、无保护左转或雨夜道路损毁等情况 [5][8] - 在极端长尾场景测试中,该模型较传统模型规划准确率提升12%,事故率降低35%,近碰率降低25%,并实现99毫秒的低延迟响应 [10] - 开源套件包含Alpamayo-R1模型、部分训练数据集、配套工具、AlpaSim仿真评估框架以及“物理AI开放数据集”中的部分数据 [10] - 配套的Cosmos开发者工具链提供了高质量数据构建规范、合成场景生成流程及模型评估基准等资源,方便研究人员微调与部署 [12] 英伟达的战略布局与行业影响 - 通过开放核心算法,英伟达旨在巩固并扩张自身生态影响力,使汽车厂商能像组装手机一样快速构建自动驾驶系统,即购买其芯片平台并微调算法即可 [14] - 此举被业内评论为标志着Robotaxi产业进入“安卓时刻”,制造商可采用通用开放的硬件加软件方案 [15] - 开源策略与英伟达硬件销售目标相辅相成,更多开发者和整车厂采用其软件生态,将带动对Orin/Thor等车规级计算芯片的需求 [16] - 英伟达明确表示,借助开源有助于行业形成统一的评测和安全标准,加速错误发现和修复,并迎合监管对可解释性的要求 [16][19] - 公司希望通过Cosmos大模型平台确立技术话语权,并加速整个生态向“理解型自动驾驶”演进 [19] 对自动驾驶产业链的冲击 - 英伟达的开放动作加剧了开源与封闭阵营间的竞争,打破了传统如特斯拉Autopilot、Waymo或Mobileye等厂商的闭源“黑盒”惯例 [21] - 此次将高阶推理模型全面开源,标志着封闭高端自动驾驶技术的壁垒被进一步撕裂,可能引发新一轮开源热潮 [23][24] - 随着自动驾驶硬件趋于同质化,决策层面的算法和软件生态将成为关键竞争点 [24] 中国市场的机遇与挑战 - 中国智能驾驶域控制芯片装机量中,英伟达Orin-X占33.5%,绝大多数国内车企的L2/L3乃至L4系统依赖英伟达方案 [26] - 对于依托英伟达平台的中国车企,开源软件和工具能够直接用于本地算法开发和场景调优,加速软件化转型 [27] - 中国行业面临智能驾驶工程师严重短缺的挑战,到2025年相关人才缺口将超百万,智能驾驶工程师供需比仅为0.38 [29] - 消化和应用复杂大模型需要大量复合型人才,而中国绝大多数测试场景仍集中在有限路段,大规模L4落地试运营仍需时间 [30][31] - 中国车企和供应商需评估是否拥有足够的高精度地图、长尾场景数据和模拟环境,来验证开源模型的安全性与合规性 [31]