文章核心观点 - 清华大学智能产业研究院(AIR)团队开发了一项名为E³AD的创新技术,首次尝试利用人类驾驶员的脑电波(EEG)信号来增强端到端自动驾驶模型的规划能力,旨在将人类“老司机”基于经验的、潜意识的风险预判“直觉”赋予人工智能,以解决自动驾驶在罕见但关键的复杂场景中缺乏预判能力的痛点 [3][4][36][38] 研究背景与动机 - 当前自动驾驶系统虽能识别多种物体和规则,但缺乏人类驾驶员基于经验形成的、能预判潜在风险的“驾驶直觉”或“车感”,在遇到未见过或视线受阻的复杂情况时容易不知所措 [2][3] - 人类驾驶员事故率低的关键在于“提前预判”和风险规避,而非事后补救,但这类隐性的认知过程难以用语言描述和标注 [35][38] - 研究团队旨在通过采集人类在风险发生前的隐式认知信号(如脑电波),将其作为监督信息,教会自动驾驶模型识别风险苗头并提前调整策略 [35][38] 技术方案:E³AD - 核心方法:同步采集驾驶员在模拟复杂路况下的脑电信号,发现其在驾驶员尚未意识到或无法言说时,已能更早地“暴露”大脑对潜在风险的预警,团队将此隐式预警信号转化为对自动驾驶规划有用的监督信息 [38] - 技术选择:采用非侵入式脑电技术进行信号采集 [41] - 系统架构:选择端到端自动驾驶(E2E-AD)范式进行融合,而非传统模块化方案,原因在于端到端能更充分利用原始信息,减少因信息压缩和传递导致的误差放大,且更符合大脑执行任务时全脑协同、感知与决策高度整合的工作方式 [43] - 融合策略:实验表明,将人类认知信号与自动驾驶系统在任务层(即最终的规划与决策层)进行对齐和融合,效果最好,收益最稳定,这为未来模型设计提供了启示 [44][45] - 底层模型支持:研究引入了上海交通大学的Large Brain Model(大脑大模型,LaBraM),该模型有助于处理脑电信号信噪比低、个体差异大的难点,提升从脑信号中提炼共性规律的能力,从而增强模型的泛化性能 [53][54][61] 成果与价值 - 解决痛点:该方法为解决传统自动驾驶模型在训练数据中极端事件样本少、难以学习可靠安全行为的难题提供了新思路 [35][36] - 泛化能力:在训练阶段利用脑信号教会模型识别风险线索后,在推理阶段仅使用视觉等常规输入,模型仍能保持“类脑认知”的风险预判能力,实现了能力的迁移 [54] - 开源计划:作为高校科研团队,该项工作的代码、模型、权重及数据将尽可能完全开源,但涉及道路与影像的敏感数据会设置合规访问门槛 [75] 行业趋势与跨学科融合 - 领域融合:人工智能研究正从数字世界(如大模型)与物理世界(如机器人)泾渭分明的状态走向“汇流”,具身智能(让AI在物理世界中行动)成为关键方向,但面临物理世界复杂度高和安全可靠性要求高等硬挑战 [33][34] - 范式创新:该研究代表了一种范式转变,即绕过传统的“概念翻译”,尝试在原始数据层面直接建立脑科学与AI的连接,利用人类隐式认知信号作为新型监督信息源,这可能是构建更通用、更安全智能系统的关键路径 [46][49][56][73] - 信号扩展:除了脑电,其他生理信号如眼动信号(反映注意力分配) 也被证明融合后能带来稳定提升,表明利用人类隐式认知线索是提升AI系统性能的重要方向 [73] 未来展望 - 发展愿景:未来的具身智能或AGI更可能被理解为人类的“认知伙伴”,其核心在于更好地理解人类并与人类协同,为此需要在机制上与人类共享某些“可对齐”的逻辑框架,以降低社会协作成本 [60][61] - 技术终局:让系统更接近“所想即所得”、更自然地读懂人的意图是一个长期演进方向,但需考虑相关的风险与伦理约束 [58][59] - 当前瓶颈:该技术路径的核心瓶颈在于数据,包括多模态生理信号的采集难、对齐难、建库难和分析难,软件工程层面相对成熟 [70][74] 研究者背景与启示 - 研究风格:主导该研究的龚江涛博士拥有从计算机科学到人机交互、再到脑科学和产业研究的交叉背景,其研究风格深受博士导师影响,强调从问题的“根”出发,先理解底层机制(如生物智能如何工作),再进行创新设计 [8][19][21] - 产业结合:在联想研究院的产业经历使其深刻理解如何将研究想法在产业中孵化,并认识到研究与产业更好连接有助于研究者找准社会定位,避免迷茫 [23][24][28][29] - 对开发者的建议:在AI时代,编程能力和计算机基础方法论(数据结构、算法、系统思维)是重要根基,而真正的差异化优势在于跨学科能力,即深入理解目标领域的问题语境,并与领域专家深度协同,将技术落到真实场景中 [75][76]
用人类脑电波教 AI 开车,这位清华 90 后学者直言隐式信号里藏着 AGI 的关键 | 万有引力
AI科技大本营·2026-01-26 18:03