端到端学习
搜索文档
黄仁勋点赞三款中国大模型,英伟达押宝物理AI
观察者网· 2026-01-06 19:22
英伟达CES 2026战略发布核心观点 - 公司战略重心从消费级GPU转向新一代AI计算平台与物理AI应用 公司五年来首次未在CES发布新款GPU 将重点放在新一代计算平台和物理AI领域的进展 包括自动驾驶和机器人 [2] - 公司高度评价并积极融入全球开源模型生态 特别点名肯定中国开源模型的领先地位与突破性贡献 [2][3] - 公司发布全新Vera Rubin一体化AI超算平台 通过协同设计实现性能的指数级提升与成本的大幅降低 旨在加速下一代AI模型的到来 [7][8][10] - 公司宣布物理AI的“ChatGPT时刻”已到来 在自动驾驶和机器人领域推出系列开源模型、工具及计算框架 并已获得多家行业领先企业的合作与应用 [10][11][12][13] 对开源生态的评价与布局 - 公司CEO黄仁勋对2025年开源社区给予高度评价 指出DeepSeek作为第一个开源推理系统 激发了整个行业的发展浪潮 [3] - 在展示的开源生态第一梯队中 包含三家中国模型:月之暗面的Kimi K2、深度求索的DeepSeek V3.2和阿里的Qwen模型 与OpenAI的GPT-OSS并列 其中Kimi K2和DeepSeek V3.2分别是开源第一和第二 [5] - 公司认为开源模型虽可能落后顶尖模型约六个月 但每隔六个月的快速迭代让包括公司在内的所有参与者都不愿错过 [5] - 公司公布了自身的开源模型生态系统 涵盖生物医药、物理AI、智能体模型、机器人及自动驾驶 通过价值数十亿美元的DGX Cloud超级计算机开发了如LaProteina和OpenFold3等前沿模型 [6] 新一代Vera Rubin计算平台发布 - 平台以天文学家Vera Rubin命名 寓意加快AI训练速度 让下一代模型提前到来 [7] - 平台为协同设计的一体化AI超算 重新设计了6款芯片:Vera CPU、Rubin GPU、NVLink 6交换机、ConnectX-9超级网卡、BlueField-4 DPU及Spectrum-6以太网交换机 [7] - Rubin GPU搭载第三代Transformer引擎 NVFP4推理算力达50 PFLOPS 是Blackwell的5倍 目前已进入量产 [7] - 工程设计实现重大突破 超算节点从需接43根线缆、组装2小时 变为采用0根线缆、仅6根液冷管线、5分钟完成组装 [8] - 现场使用中国模型展示平台效能:在Rubin架构下 DeepSeek模型训练时间压缩至原来的1/4 Kimi K2 Thinking推理吞吐量提升10倍 Token成本削减至原来的1/10 [10] 在自动驾驶领域的进展 - 公司认为物理AI的ChatGPT时刻已到来 无人驾驶出租车将是最早受益的应用之一 [10] - 公司推出名为Alpamayo的开源AI模型、仿真工具及数据集 旨在推动推理型辅助驾驶汽车开发 其核心是加入了基于“思维链”的VLA推理模型 以处理复杂“长尾场景”并使决策过程可解释 [10][11] - 整套技术的安全核心由公司的Halos安全系统提供支持 [11] - 首款搭载公司技术的汽车将于2026年第一季度在美国上路 第二季度在欧洲上路 下半年在亚洲上路 [11] - 目前捷豹路虎、Uber、Lucid等企业均对该技术方案表达兴趣 希望基于此实现L4级自动驾驶 [11] 在机器人领域的进展 - 公司认为机器人开发的ChatGPT时刻已然到来 物理AI模型具备理解现实世界、推理和行动规划的能力 [12] - 公司发布两款用于机器人学习和推理的开源模型及配套数据:NVIDIA Cosmos和GR00T 同时推出用于机器人性能评估的Isaac Lab-Arena 以及从边缘到云的计算框架OSMO 以简化机器人训练流程 [12] - 公司与Hugging Face合作 将Isaac开源模型和相关库整合到LeRobot项目中 以加速开源机器人开发社区发展 [12] - 由公司Blackwell架构驱动的Jetson T4000模组已发售 能将设备能效和AI算力提升至原来的4倍 [12] - 波士顿动力、卡特彼勒、Franka Robots、Humanoid、LG电子和NEURA Robotics等企业 均已推出基于公司技术打造的新型机器人和自主运行设备 [13]
2025新汽车年度盛典:中国汽车如何破局存量市场
21世纪经济报道· 2025-11-21 12:10
行业现状与核心挑战 - 中国汽车产业处于关键十字路口,中国品牌市场份额超过60%,但行业利润持续探底,价格战触及生存底线[3] - 行业面临从增量市场向存量市场转变,参与者需寻找新生存方式[3] - 破旧立新成为行业突围必由之路,需打破传统路径依赖、技术路线孤岛和市场边界禁锢,建立用户价值新范式、多元技术共生新生态和全球市场新格局[5] 设计价值提升 - 汽车从出行工具升华为自我表达与情绪价值载体,设计成为红海竞争破局关键支点[8] - 小鹏汽车设计法则强调感性与理性结合,科技提供强大支持,柔性曲面和动感光影带来温暖情绪价值[8] 智能驾驶技术突破 - 部分企业选择软硬双修并行赛道,中国算力在大规模城区NOA战场正面竞争特斯拉FSD[10] - 端到端学习人类老司机数据,使控车更丝滑,避免点刹和重刹等不连贯性[10] - 理想汽车AEB功能截至10月底累计避免潜在碰撞事故241.8万次,避免夜间事故近200万次,避免极端烈性事故1.2万次[12] - 企业坚持安全第一原则,端到端和VLA上线初期先保证安全性,再逐步提高上限[12] 用户体验创新 - 问界M9上市21个月累计交付超过25万辆,稳居中国市场50万销量冠军,用户净推荐值和保值率领先[15] - 广汽昊铂建立用户线下听劝会机制,三大自主品牌车主提供产品进化、服务提升和营销创新意见[20] - 岚图建立用户共创委员会,对用户建议采纳率形成KPI,实现建议闭环管理,将听劝文化转化为企业竞争力[22] 技术融合与充电生态 - 瑞声科技通过软硬结合突破扬声器铁三角定律制约,软件算法提升低音响应和低频下潜[24] - 充电行业从传统家庭和公共场景向智慧家庭场景和大功率超充场景演进,算法逐步替代司机工作[27] - 滴滴自动驾驶自2016年投入研发,坚持负责任科技创新,在AI、量产和运营三方向持续投入[28] 动力技术路线 - 零跑汽车认为纯电是未来方向,因体验更好、使用成本更低且环境排放污染更少[30] - 广汽集团指出国家能源结构快速向以电为主演化,纯电将成为主流,插电和增程作为补充形式[30] - 东风公司提出汽车是具身智能体,需推进动力总成与智能深度融合[30] 智能制造效率 - 广汽埃安全球首个新能源灯塔工厂实现53秒下线一台车,生产效率提高50%,生产成本下降58%[32] 海外市场拓展 - 新能源汽车出海面临政策多变、法规壁垒、真实场景严苛和用车文化差异四大挑战[34] - 禾赛科技拿下欧洲顶级主机厂海外最大前装量产激光雷达订单,覆盖燃油车和新能源车[37] 企业战略调整 - 轻舟智航使用同一套技术栈支撑L2和L4业务,L4运营经验和安全冗余机制用于L2,实现互相促进[39] - 东风日产坚持发扬长项加快补齐智能化短板,继爆款N7后推出鸿蒙座舱版天籁[41] - 上汽通用在行业內卷中坚守28年安全和品质准则[43] - 蔚来乐道L90解决用户出行空间焦虑和续航能耗顾虑,上市后月销1万台以上[45]
著名机器人专家:人型机器人的未来是不像人
36氪· 2025-09-30 16:43
人形机器人发展现状与核心理念 - 人形机器人的设计理念是采用与人类相同的身体结构,在人类环境中像人类一样工作,旨在打造一种通用机器人以替代数百万种执行特定任务的不同类型机器人 [5] - 行业参与者对人形机器人的经济潜力抱有极高预期,例如特斯拉首席执行官预测其Optimus机器人可能创造30万亿美元的收入,并将其称为"或许是全球最大的产品" [6] - 尽管存在狂热宣传,但人形机器人目前仍处于发展初期,远未达到宣传热度的峰值,其核心价值主张的实现依赖于达到人类水平的灵巧操控能力 [3][6][7] 灵巧性挑战与技术瓶颈 - 机器人灵巧操控的研究已持续65年以上,但至今尚无任何一款多关节手指机器人手部能达到足够的耐用性、力度和使用寿命以满足实际工业应用需求 [2][13][16] - 工业环境中主流的机器人末端执行器仍是平行夹爪抓取器和吸盘式抓取器,而非模仿人类手部的复杂设计 [13][16] - 当前主流的研究方法是通过让机器人"观看"人类完成任务的第一视角视频来进行端到端学习,但这种方法完全忽略了触觉和力反馈等对人类灵巧性至关重要的数据 [22][25][26] 端到端学习的成功案例与局限性 - 端到端学习在语音转文字、图像标注和大型语言模型三个领域取得革命性突破的关键,不仅依赖于大规模数据集,更依赖于针对特定领域精心设计的前端数据预处理工程 [27][31][34][39] - 这些成功案例的前端预处理技术最初都是为了实现人类感官信息的远程或异步传输而研发的,例如语音压缩技术是为了电话通信,图像序列化是为了图像传输 [32][34][38] - 在触觉领域,目前尚无类似的技术积累来捕捉、存储和回放触觉信号,这使得单纯依靠视觉数据来训练灵巧性面临根本性挑战 [43] 实现灵巧性的关键要素 - 人类的灵巧性极度依赖于丰富复杂的触觉感知系统,例如人类手部无毛皮肤中约有1.7万个低阈值机械感受器,仅每个指尖就有约1000个,目前已发现15种不同类型的神经元参与人类手部的触觉感知 [45][48][49] - 学术界的探索性研究显示,更先进的数据收集方法需将人类的手指动作与人类在控制机器人手时所感知的触觉信号关联起来,这超越了仅收集视觉数据的局限 [52][55] - 实现真正的灵巧性不仅需要学习动作策略,更需要学习如何根据触觉层面的感知来调整任务目标规划,这仍需要大量研究 [56] 人形机器人行走的安全性问题 - 当前与人类等大的双足行走人形机器人对人类而言并不安全,其行走主要依靠基于零力矩点算法和大功率电机来维持平衡,一旦摔倒,其刚性结构和高能量腿部会对附近人类造成严重伤害 [57][59][61] - 物理系统的缩放定律使得安全性问题随尺寸放大而急剧恶化,将机器人放大到人类尺寸(比例系数2)时,其能量需求会变为8倍,潜在伤害级别完全不同 [62][63] - 要实现与人类安全共享空间的大规模部署,必须研发出更安全、可近距离接触的双足行走机器人,但目前尚未解决此问题 [57][63] 人形机器人未来形态演变 - "人形机器人"的定义将随时间演变,未来其"脚"可能被轮子取代,出现"单臂、双臂、三臂"等不同版本,并配备非被动摄像头传感器,但仍会被称为"人形机器人" [64][65] - 未来将出现大量为特定人类任务设计的专用机器人,形态各异,但都会被称为"人形机器人",而当前为榨取现有设计性能投入的巨额资金可能付诸东流 [66] - 行业预测在未来15年,虽然会拥有大量人形机器人,但它们的外观既不会像如今的人形机器人,也不会像人类 [2][66]
著名机器人专家:人型机器人的未来是不像人
阿尔法工场研究院· 2025-09-30 15:18
人形机器人行业现状与宣传热度 - 人形机器人行业正处于技术成熟度曲线的起点,远未达到宣传热度的峰值,而生成式人工智能已过峰值[4] - 行业核心理念是研发能完成人类所有工作的通用人形机器人,无需制造不同类型的专用机器人[7] - 部分公司预测人形机器人将在两年内产生显著经济影响,更保守的预测则认为需要五年时间[9] - 特斯拉首席执行官预测其Optimus人形机器人可能创造30万亿美元收入,并称之为"或许是全球最大的产品"[9] 人形机器人发展历史 - 人形机器人研发历史可追溯至20世纪60年代中期日本早稻田大学的研究,该校于70年代初研制出首台人形机器人WABOT-1[11] - 本田公司在80年代末开始研发双足行走机器人,最终于2000年推出ASIMO人形机器人[11] - 波士顿动力公司在2013年推出了人形机器人ATLAS,该公司35年前从麻省理工学院拆分出来[11] - 麻省理工学院研究团队于1992年开始研发人形机器人Cog,先后开发了七个不同版本的平台[12] 灵巧性挑战与技术瓶颈 - 实现类人操控能力是人形机器人存在的根本原因,但目前尚无多关节手指机器人手部能满足实际工业应用需求[16] - 工业机器人主要使用平行夹爪抓取器和吸盘式末端执行器,德国公司雄克生产销售1000多种平行夹爪抓取器[18] - 人类手部无毛皮肤中约有1.7万个低阈值机械感受器,仅每个指尖就有约1000个,目前已发现15种不同类型神经元参与触觉感知[56][58] - 人类灵巧性依赖于丰富的触觉感知系统,包括默克尔小体、迈斯纳小体、帕西尼小体和鲁菲尼小体等特殊结构[58] 当前训练方法的局限性 - Figure和特斯拉等公司采用"从演示中学习"方法,通过人类完成任务的第一视角视频训练机器人[28][29] - 当前数据收集方法存在局限性,包括无手腕力反馈、手指控制精度有限、无触觉感知以及精度仅为1-3厘米[27] - 麻省理工学院研究团队开发的新型数据收集方法能将人类手指动作与触觉信号关联起来,超越了仅收集视觉数据的局限[62] - 人类在进行灵巧动作时往往会先制定任务目标规划,而非直接将传感器信息映射为动作[64] 行走安全性问题 - 当前人形机器人主要依靠大功率电机维持平衡,使用基于零力矩点算法的改进版,该算法已有约56年历史[70] - 双足行走人形机器人对人类而言存在安全隐患,其腿部会携带大量自由动能,在空间中快速加速,可能造成严重伤害[71] - 根据物理缩放定律,将机器人尺寸放大到人类尺寸(比例系数2)时,能量需求会变为8倍,潜在伤害级别完全不同[72] - 研发行走机器人的公司在其发布的视频中不会出现人类靠近行走中人形机器人的场景,除非有隔离物[73] 行业未来发展趋势 - 未来人形机器人的定义将发生变化,"脚"可能被轮子取代,腿部形态不再与人类相似[75] - 将出现单臂、双臂、三臂等不同版本,部分配备五指手,但更多会采用两指平行夹爪抓取器或吸盘[75] - 未来会出现大量为特定人类任务设计的专用机器人,形态各异,但都会被称为"人形机器人"[76] - 目前为提升当前人形机器人性能投入的巨额资金可能付诸东流,这些机器人将被淘汰[76]
叫板FSD?日产新智驾上街了
汽车商业评论· 2025-09-24 01:37
合作与技术路线 - 日产于2025年9月22日在东京开始测试新一代ProPILOT辅助驾驶系统,核心软件来自英国自动驾驶公司Wayve,测试车型为Ariya纯电车型 [4] - 新一代系统基于Wayve的端到端人工智能软件,旨在应对复杂城市路况,所需摄像头和传感器数量更少,计划在2027财年首先在日本搭载到量产车 [4][7] - Wayve获得软银、英伟达等出资,其技术路线强调对真实道路数据的吸收与迁移能力,以实现较高的跨城市“即插即用” [7] - 为支撑日本本地化开发,Wayve于2024年4月22日在横滨设立测试与开发中心,形成覆盖日本、英国、美国、加拿大、德国的五地布局 [7][9] 系统能力与迭代 - 新一代ProPILOT系统属于L2级自动驾驶,驾驶员需始终监控路况并随时接管,并非在所有条件下均可用 [4][9] - 与2016年首发和2019年实现高速公路“短时脱手”的版本相比,新一代系统核心变化在于引入下一代激光雷达与Wayve的AI Driver,重点验证城市道路场景能力 [7][9] - 日产原型车采用11摄像头、5雷达和1激光雷达的组合,保留雷达与激光雷达以增强夜间与高速场景的探测冗余 [15] 战略目标与行业对标 - 日产明确表示其最新一代辅助驾驶技术将达到与特斯拉FSD同等的技术水平,并认为其系统比特斯拉FSD更智能,但产品打磨程度尚未达到其水平 [4][14] - 公司计划在2027财年前后在日本启动小规模无驾驶员L4出行服务,当前与Wayve的合作重点在于量产前的城市感知与决策能力打磨 [10] - 日产“L2先行、城市优先”的路线被视为在日本法规与用户接受度下的折中策略,是量产路径的加速与重心转移,而非直接通向L4 [16]
港科&理想最新!OmniReason: 时序引导的VLA决策新框架
自动驾驶之心· 2025-09-11 07:33
核心观点 - 香港科技大学(广州)与理想汽车团队提出OmniReason框架 一种新型视觉-语言-动作(VLA)框架 通过联合建模动态3D环境及决策过程构建时空推理能力 解决现有自动驾驶视觉语言模型忽略时间维度的问题 [2][6][7] - 框架包含大规模数据集OmniReason-Data(含OmniReason-nuScenes和OmniReason-Bench2Drive)和OmniReason-Agent架构 通过幻觉抑制自动标注流程提供密集时空标注和自然语言解释 确保物理合理性和时间连贯性 [2][6][8] - 在开环规划和视觉问答基准实验中达到最先进性能 平均L2误差0.34米 碰撞率0.40% 违规率3.18% 在CIDEr指标实现37.6%提升 BLEU-1提升100.1% 显著缩小自动驾驶系统与人类驾驶员差距 [3][25][26] 数据集构建 - OmniReason-Data基于nuScenes和Bench2Drive框架 包含高质量视觉问答对 涵盖静态与动态描述及四维域内因果推理和动作信息 通过多模态大语言模型理解时空信息和因果推理 [6][13] - 采用统一场景感知标注流程 结合人类先验知识、任务分解和大语言模型推理 从多视角视频流和目标级空间标注生成语言-动作对 通过Qwen2.5VL 72B模型生成多步因果链 阐释代理行为、环境上下文和交通规则相互作用 [14][15] - 标注框架基于结构化场景分析 自动生成高质量可解释语言-动作对 减少幻觉现象 提供丰富多模态推理信息 确保数据集捕捉时间动态和因果关系 严格对齐现实驾驶场景 [8][15] 架构设计 - OmniReason-Agent为端到端VLA架构 集成稀疏时间记忆模块和解释生成器 通过知识蒸馏将专家决策模式和自然语言推理注入模型 实现上下文感知且高度可解释的自动驾驶行为 [2][7][8] - 稀疏时间记忆模块通过运动补偿、记忆感知特征传播和多模态融合实现时序一致感知 几何对齐补偿自车运动 记忆条件归一化传播对象状态 查询传播保持跨帧身份一致 在复杂场景下保持目标轨迹稳定 [18][20] - 采用复合损失函数对3D目标检测与结构化场景理解联合优化 包含目标类别识别、空间定位、车道及道路结构分析 通过加权损失平衡不同任务 [21][22] 性能表现 - 开环轨迹规划任务中平均L2误差0.34米 与ORION持平 优于BEV-Planner的0.55米和DriveVLM的0.40米 碰撞率0.40% 违规率3.18% 创最优纪录 优于BEV-Planner的4.26%和VAD-Base的3.82% [25] - 驾驶视觉问答任务在OmniReason-nuScenes基准上CIDEr指标提升37.6% BLEU-1提升100.1% BLEU-4提升224.0% 在OmniReason-Bench2Drive基准上CIDEr提升9.0% BLEU-1提升53.6% BLEU-4提升210.8% ROUGE-L指标持续领先 [26] - 消融研究显示环境描述使BLEU-1得分提升7.6% 动态对象描述将碰撞率降至0.37% 时序记忆模块使L2距离从0.38降至0.34 碰撞率从0.44降至0.40 交互率从3.65降至3.18 [27][28][29] 技术优势 - 框架独特支持零样本端到端规划能力 突破刺激-响应映射局限 实现对因果-时间推理原则显式落地 填补现有系统在建模动态环境刺激与车辆响应间因果关系的空白 [12] - 通过多模态监督和自然语言推理提升自动驾驶基准真实性、可解释性和覆盖度 为场景理解和动作生成研究奠定坚实基础 树立可解释性与真实性新标杆 [6][8] - 在安全性、舒适性和可解释性指标达到最先进水平 决策质量和解释能力显著提升 增强真实场景下自动驾驶可靠性和理解能力 [7][8]
Figure自曝完整技术:60分钟不间断打工,我们的机器人如何做到?
量子位· 2025-06-13 13:07
机器人技术进展 - Figure 02机器人展示60分钟未剪辑的物流分拣视频,显示其在实际工作场景中的表现[1] - 机器人能够灵活处理多种形态包裹,包括硬纸盒、聚乙烯袋、信封等可折叠或弯曲物品[10] - 通过即时调整抓取策略,机器人可对不同形态包裹采取不同处理方式,如双手翻转纸盒或单手轻捏信封边缘[13] 技术性能提升 - 通过扩展高质量演示数据集和改进Helix神经网络架构,机器人工作稳定性和性能显著提升[7] - 包裹平均处理速度达到4.05秒,吞吐量提高58%,条形码识别成功率从88.2%升至94.4%[17] - 引入视觉记忆、状态历史和力反馈模块,使机器人具备时间背景感和环境适应能力[20][22][28] 系统功能特点 - 机器人具备自主学习能力,能够从演示中学习自适应行为如拍打塑料包装抚平条形码[15] - 采用端到端学习模型,可实现人机自然交互,无需单独程序即可识别人类交接物品的意图[31] - 新策略使条形码识别成功率提升至94%,处理时间降至4.05秒,精度保持在92%以上[30] 行业应用前景 - 技术改进使机器人系统更加灵巧可靠,接近人类水平的工作速度和准确性[19] - 机器人参与物流工作引发行业对效率和成本优势的关注[37] - 仿人型机器人在物流领域的应用引发关于外形设计与效率关系的讨论[39]
Figure自曝完整技术:60分钟不间断打工,我们的机器人如何做到?
量子位· 2025-06-13 13:07
机器人技术进展 - Figure 02机器人展示60分钟未剪辑物流分拣视频,处理能力接近人类水平[1][2] - 机器人可灵活处理多种形态包裹(硬纸盒、聚乙烯袋、信封等),并能同时进行多包裹操作[4][10] - 通过实时数据观察学习,机器人具备自适应行为如拍打塑料包装抚平条形码[15] 技术性能提升 - 平均处理速度达4.05秒/包裹,吞吐量提升58%,条形码识别成功率从88.2%升至94.4%[17] - Helix神经网络架构改进包括视觉记忆、状态历史、力反馈三大模块[20][22][26][28] - 新策略使条形码朝下识别成功率提升至94%,处理时间降至4.05秒,精度保持92%以上[30] 系统功能特性 - 端到端学习模型支持人机自然交互,无需程序切换即可响应人类手势传递物品[31][33] - 视觉记忆模块使机器人具备时间背景感,能调用历史图像帧辅助定位标签[23][25] - 力反馈系统形成闭合控制回路,实现精准运动调整以适应不同包裹特性[28] 行业应用反馈 - 技术宅讨论物流机器人仿生外型设计是否最优,提出三头六臂可能更高效[39] - 网友关注机器人参与物流工作带来的效率提升和成本优化潜力[37] - 行业观察者注意到机器人自主学习的条形码处理技巧(如拍打抚平)[15]