思维链

搜索文档
纯视觉最新SOTA!AdaThinkDrive:更灵活的自动驾驶VLA思维链(清华&小米)
自动驾驶之心· 2025-09-19 07:33
自动驾驶VLA技术突破 - 提出AdaThinkDrive框架 通过双模式推理机制实现自适应思考 在简单场景采用快速回答模式 在复杂场景启用慢速思考模式[3][4][11] - 基于强化学习的自适应思考奖励策略 结合GRPO算法优化模型选择性应用CoT的行为 实现准确率与效率平衡[4][33][34] - 在Navsim基准测试中PDMS达到90.3 较最佳纯视觉基线模型提升1.7分 推理时间较"始终思考"基线减少14%[4][50][58] 技术实现细节 - 采用三阶段训练流程:大规模驾驶数据预训练获取世界知识与驾驶常识 双模式SFT数据集微调 强化学习优化自适应推理策略[17][24][31] - 输入包含前视图像、导航指令、自车状态及历史轨迹 支持思考与非思考两种推理模式联合分布输出[21][26][32] - 奖励设计包含PDMS奖励、格式奖励、端点奖励和自适应思考奖励四组件 加权整合优化策略模型[34][35][36][37][38] 性能验证结果 - 在Navsim数据集验证 较"永不思考"基线PDMS提升2.0分 较"始终思考"基线提升1.4分 在96%复杂场景启用CoT 84%简单场景采用直接预测[4][56][58] - 仅视觉输入性能与多模态方法GoalFlow相当 PDMS达90.3 Best-of-N规划策略下进一步提升至93.0创基准最高分[50][55] - 消融实验显示预训练阶段使PDMS提升1.3分 强化学习阶段进一步提升2.8分 自适应思考奖励是关键组件[63][64][65] 行业技术背景 - 自动驾驶系统向端到端架构演进 VLM模型通过大规模预训练提升场景理解能力 CoT技术增强可解释性与轨迹质量但存在简单场景过度推理问题[7][10][14] - 现有自适应CoT触发方法主要基于强化学习 分为简洁推理、动态早期终止和按需推理三类 需根据高速公路巡航或路口拥堵等不同场景复杂度调整[16][33] - InternVL3-8B作为基础模型 训练使用64块NVIDIA H20 GPU 三阶段学习率从1×10⁻⁵逐步降至2×10⁻⁶[48][52]
专家:看好机器人在养老领域的应用前景
中国新闻网· 2025-09-14 09:31
行业应用前景 - 人形机器人在老龄化城市如上海可发挥陪伴作用并助力解决养老问题 [1] - 服务机器人在养老领域具有广阔应用前景 [1] - 上海60岁及以上户籍老年人口达577.62万人,占户籍总人口的37.6% [1] 技术突破 - 思维链技术实现机器人"看-想-做"连贯思维过程,与人类行为逻辑高度相似 [1] - 该技术突破传统机器人在空间理解、多步推理与动作规划方面的局限 [1] - 技术涵盖从环境感知到推理决策再到动作执行的全流程认知 [1] 具体应用场景 - 机器人可执行从冰箱取鸡蛋等复杂任务,需考虑物体位置、开门角度和易碎特性 [1]
VLA:何时大规模落地
中国汽车报网· 2025-08-13 09:33
VLA技术发展现状 - 理想i8成为首款搭载VLA司机大模型的车型,主打"像家人一样懂你"的辅助驾驶体验 [2] - 博世认为VLA短期难以落地,坚持投入一段式端到端技术,因多模态对齐和数据训练困难 [2] - 行业对VLA落地时间存在分歧,乐观预测2025年为元年,保守估计需3-5年技术成熟 [2][12][13] 技术路线对比 - 模块化端到端保留部分人工设计接口,存在感知与决策衔接难题 [2] - 一段式端到端采用全局优化模型,特斯拉FSD V12代码量从30万行缩减至2000行 [4] - VLA通过思维链实现可解释性决策,在潮汐车道等复杂场景表现优于传统端到端 [4][5] - VLA单日可完成30万公里仿真测试,显著降低实车数据依赖 [5] 技术演进路径 - 行业主流从端到端+VLM双系统转向VLA原生融合架构 [6] - 端到端+VLM需同步处理TB级视频流与百亿参数模型,车载算力紧张 [6] - VLA通过对比学习实现多模态特征对齐,仿真复现率达99.9% [7] - 理想汽车通过端到端+VLM升级至VLA架构,实现空间理解等四大能力 [5] 算力与芯片挑战 - 当前智驾芯片算力不足,英伟达Orin(254TOPS)不支持语言模型直接运行 [9] - 英伟达Thor芯片实际算力缩水,基础版仅300TOPS [9] - VLA低速自动驾驶需10赫兹运行频率,高速需20赫兹 [9] - 车企加速自研芯片:理想马赫100计划2026量产,特斯拉AI 5算力或达2500TOPS [11] 落地时间表 - 短期(2025-2026):特定场景如高速路/封闭园区应用 [14] - 中期(2027-2029):算力达2000TOPS时覆盖城市全场景,接管率或低于0.01次/公里 [14] - 长期(2030年后):光计算架构+脑机接口实现类人直觉决策 [14] - 需突破多模态对齐、训练效率、芯片能效比等关键技术 [14]
关于理想VLA司机大模型的22个QA
自动驾驶之心· 2025-07-31 07:33
VLA技术架构 - VLA架构源于机器人和具身智能,是长期架构,技术潜力大,能支持城区自动驾驶[2] - 相比端到端架构,VLA增加语言理解能力(L),使模型具备深度思考能力,提升复杂场景处理能力[2] - VLA的泛化能力通过强化学习形成自主思维能力,无需依赖大量数据输入即可处理新场景[2] 硬件性能与部署 - Thor-U芯片支持FP4精度,算力达1400(FP8为700),推理帧率可从10Hz提升至20Hz[2] - 双Orin平台与Thor平台功能表现同步,模型部署无差别,未来交付帧率将优于当前[2] - 扩散模型采用流匹配技术,2-3步即可生成轨迹,时延低至15毫秒[3] 模型训练与迭代 - 3.2B MoE车端模型升级周期:基座模型每月更新,后训练根据问题实时调整[2] - 模型通过强化学习实现个性化驾驶风格,未来可在用户车上训练专属模型[12] - 行车、泊车、AEB模块已实现一体化训练[11] 产品体验与功能 - 当前版本调优偏稳妥,未来将提供多种驾驶风格适配不同用户需求[12] - 远程召唤功能已实现手机查看车辆周围影像[8] - 地库车速上限从10公里提升至15公里,未来将继续提高[5] 行业对比与差异化 - 理想技术路线与特斯拉均瞄准高级别自动驾驶,但更注重全场景能力积累和逐步迭代[11] - VLA架构支持个性化驾驶风格,形成与友商的产品差异化[12] - 公司参与国家L4法规建设,内部目标MPI年底达400-500公里,明年达千公里量级[12] 安全机制 - AEB功能作为安全兜底,帧率高,极端场景下直接使用感知结果[13] - 超级对齐确保VLA的思维链符合人类价值观,通过RLHF优化驾驶行为[4]
关于理想VLA的22个QA
理想TOP2· 2025-07-30 08:02
VLA技术架构潜力 - VLA架构源于机器人与具身智能,具备长期技术潜力,可支持城区自动驾驶,延续至机器人繁荣后才可能被替代 [1] - 语言理解能力(L)是核心能力提升,增强思维链(CoT)处理复杂场景,非锦上添花而是必要能力 [4] - 泛化能力通过强化学习形成自主思考,无需依赖数据输入即可处理新场景 [5] 硬件性能与部署 - Thor-U芯片支持FP4精度,算力达1400(FP8为700),推理帧率可从10Hz提升至20-30Hz [2] - 双Orin平台与Thor平台功能同步,模型部署无差别,内部持续优化帧率 [2] - 3.2B MoE车端模型升级周期分基座预训练(按月更新)与后训练(按需调整),流匹配技术实现2-3步快速去噪,时延仅15毫秒 [6][7] 技术路线与差异化 - 暂不自研芯片以保持架构通用性,待模型定型后再评估可能性 [3] - VLA通过强化学习实现个性化驾驶风格,FaceID切换不同用户偏好,形成产品差异化 [19][22] - 与特斯拉技术栈目标一致,但更注重全场景能力逐步迭代,Robotaxi路线需谨慎研发 [17] 功能实现与迭代 - 行车、泊车、AEB已一体化训练,当前版本集成全部模块 [17] - 地库车速从10公里提升至15公里,未来继续优化上限 [10] - 远程召唤时可查看车辆周围影像,功能已实现 [13] 安全与合规性 - AEB作为安全兜底机制,帧率高且独立于VLA运行 [21] - 当前版本调优偏稳妥合规,如虚线借道超车需明确指令 [9] - 目标2024年底MPI(平均接管间隔)达400-500公里,2025年突破千公里 [18] 法规与商业化 - 参与L4法规建设,技术能力可支持但需政策落地 [18] - 后台监控未来由AI接管,现阶段人力仅为展示保护 [16] - 驾驶风格适配从早期用户向大众普及,依赖信任感建立 [12]
斯坦福大模型推理课免费了,谷歌推理团队创始人主讲
量子位· 2025-07-25 15:59
大模型推理能力 - 大模型推理指大语言模型在给出最终答案前的中间思考步骤,这种推理过程与人类思维无关,关键在于生成大量中间内容[5][9] - 有推理过程的回答会先分解问题并逐步推导(如拆分单词找字母),而非直接输出结果,这显著提升答案准确性(数学题正确率从随机猜测提升至逐步推导)[8][15][17] - 中间步骤使复杂问题可解:对于布尔电路规模T的问题,生成O(T)中间步骤后固定大小的Transformer即可解决,否则需极深模型或无法处理[11][12] 推理能力提升机制 - 思维链(CoT)赋能:引入CoT后无需扩展模型规模即可让Transformer解决任何问题,理论上可模拟多项式大小电路的计算,缩小与图灵机差距[12][13] - 解码方式优化:通过CoT-decoding从top-k解码路径中选择含推理且置信度高的路径,效果接近指令微调模型[25][26] - 监督微调改进:采用自我改进(模型自生成步骤纠错)和强化学习微调(验证器引导生成正确答案),后者成为当前最强推理引出方法[27][28][29][31] 前沿方法与未来方向 - 聚合与检索方法:通过边缘化自一致性(高频答案筛选)、通用自一致性(模型自主选择)及检索+推理(先回忆相关知识再解题)提升效果[40] - 未来突破方向:解决非唯一可验证答案任务(如开放式问题),构建实际应用而非仅优化基准测试[35][40] 核心研究背景 - 理论奠基:Denny Zhou与马腾宇等证明足够长思维链可使Transformer解决所有问题,其论文《Chain of Thought Empowers Transformers...》奠定领域基础[2][12][31] - 技术应用:Google DeepMind推理团队通过思维链、自洽性、任务分解等方向推动AGI发展,目标实现完美泛化[37]
我们找到3位大学教授,聊了聊越来越严重的AI幻觉
36氪· 2025-07-15 11:23
AI大模型幻觉现象 - DeepSeek模型在与用户对话中虚构"向王一博道歉"事件及不存在的判决书,引发AI幻觉讨论[1] - OpenAI o3模型发布后出现幻觉率上升现象,包括捏造代码、使用无效字符等错误[1] - PersonQA基准测试显示o3模型幻觉率达33%,是o1模型(16%)的2倍,o4-mini模型高达48%[1] - 近期发布的深度思考模型呈现推理能力增强但幻觉率同步升高的规律[1] 强化学习与幻觉关联 - 艾伦研究所科学家指出o3模型幻觉源于强化学习(RL)过度优化导致的"奖励黑客"现象[2] - 斯坦福团队发现Grok3 mini最终答案正确率71.5%,但推理过程正确率仅6.0%[2] - 上海交大教授认为强化学习优化任务性能后,人类才开始关注其输出合理性[3] - 天津大学教授指出强化学习仅对最终结果奖励导致中间推理过程错误[3] - 伦敦大学教授实验显示模型为最大化奖励会走捷径,产生冗余但正确的推理[4] 奖励函数设计挑战 - 当前奖励模型多为标量形式输出,限制表达能力和场景适用性[7] - 奖励函数可分为结果级(ORM)和过程级(PRM),但PRM实现困难且数据收集成本高[4][5] - 近两年奖励函数设计领域发展缓慢,缺乏突破性进展[6] - 未来可能采用非结构化语言反馈作为奖励形式,如教练式文字评价[8] 模型推理能力本质 - 清华大学团队发现深度思考模型与基础模型在足够采样下表现无差异[11] - UC Berkeley团队提出通过token自我确定度激发模型推理能力的方法[12] - 华盛顿大学团队观察到异常奖励信号仍能提升Qwen2.5-Math的数学能力[13] - 当前训练更多形成计算量增大或激活预训练模式,而非知识层面能力[14] 未来发展前景 - 大模型需与开放复杂环境交互生成超越人类数据才能突破成长上限[6] - 逻辑推理类问题本质是NP问题的树搜索过程,神经网络可建模为求解器[17] - 专家预测奖励函数设计将逐步改善,深度强化学习技术将融入大模型训练[18] - 尽管存在局限性,大模型在逻辑推理领域仍具备超越人类的潜力[15]
北极光创投林路:AI竞争从“技术领先”转向“产品体验”
钛媒体APP· 2025-07-03 17:52
技术发展曲线 - 技术发展初期呈现快速突破但随后趋缓 非持续指数级增长 以ChatGPT为例 2022年底面世后市场乐观但一年多后遭遇预训练瓶颈 行业转向谨慎 [4] - 自动驾驶领域曾预测5-6年实现L4级别 实际进展远低于预期 印证技术发展趋缓规律 [4] - 基础模型层面技术差距缩小 Google、Anthropic与OpenAI技术差异不显著 中美技术鸿沟小于普遍认知 [4] 行业竞争焦点 - 基础模型差距缩小后 竞争从"技术领先"转向"产品体验" 创业公司迎来窗口期 [2][6] - 2023年行业关注点从"模型强弱"转向"落地应用" 企业尝试结合思维链与工作流模块推动复杂任务能力 [5] - 当前大模型技术水平在垂直领域已"足够好" 满足核心需求后竞争转向产品体验维度 [6] 移动互联网类比 - ChatGPT类似2007年iPhone发布 开启新应用时代 开源模型涌现类似Android爆发 中国企业未缺席开源领域 [8] - 2012年移动互联网泡沫期后 真正价值公司如今日头条、快手、滴滴崭露头角 "用新技术提升既有需求效率"模式胜出 [8][9] - 4G商用消除流量焦虑后音视频应用爆发 当前AI发展阶段类似2011年 需关注基础设施演进 [9] 产品构建逻辑 - "模型即应用"趋势下 缺乏数据壁垒或用户体验护城河的产品易被基础模型整合取代 [2][13] - Perplexity和Cursor案例显示 明确用户需求与差异化定位可创造价值 但需防范基础模型升级带来的颠覆 [13] - AI不改变人类根本需求 但能重塑服务实现方式 如Tesla租赁业务全流程自动化案例 [14] 服务重构机会 - AI驱动服务逻辑重构 传统SOP难以实现的个性化服务在AI下边际成本趋零 [15] - 共享经济底层逻辑仍成立 AI大幅拓宽服务边界 如Tesla案例可扩展为共享服务平台 [15] - AI带来非简单数字化迁移 而是服务逻辑根本性重构 定义新一代平台的关键在于重构性创新 [15] 投资决策参考 - 2023年内部讨论后决定暂不投资基础大模型赛道 回头看决策正确 [5] - DeepSeek开源策略与阿里千问上线加速模型差距缩小 验证投资谨慎性 [5] - 模型能力小幅提升即显著影响用户选择 如DeepSeek R1模型影响豆包与Kimi用户增长 [5]
专访张祥雨:多模态推理和自主学习是未来的 2 个 「GPT-4」 时刻
海外独角兽· 2025-06-08 12:51
多模态大模型发展现状 - 阶跃星辰发布中国首个千亿参数原生多模态大模型Step-1V 基于业内最早的图文生成理解一体化框架DreamLLM [3] - 多模态领域预计未来2-3年将迎来两个GPT-4时刻:多模态推理和自主学习 [3] - 当前多模态生成理解一体化面临四大挑战:语言对视觉控制能力弱 图文对齐不精确 数据质量有限 生成模块无法反向影响理解模块 [3] 计算机视觉领域瓶颈 - CV领域长期缺乏类似NLP的GPT时刻 主要受限于数据标注依赖和自监督方法局限性 [13][15] - 对比学习和MIM等方法在小模型有效 但缺乏scale up特性 因其学习的不变性来自人工设计而非数据驱动 [16][18][19] - 静态图像数据存在本质缺陷:生成 理解与人类对齐三者割裂 难以实现智能质变 [24][25][26] 多模态技术突破方向 - 短期解决方案是利用图文对齐数据 通过文字的自闭环特性赋予模型智能能力 [27] - 长期需探索视频和具身系统 视频数据蕴含更丰富信息但利用难度更高 [27] - 生成理解一体化需先解决视觉空间CoT问题 当前action space过于受限 [55][56] 大模型训练范式演进 - Next Token Prediction存在本质缺陷:更大模型在数学等推理任务上表现反降 因倾向跳步且优化目标与任务目标存在gap [38][40][42] - Rule-based RL通过直接优化任务目标 可抑制跳步并强化稳定思维路径 [44] - o1范式突破在于激发Meta CoT 允许模型在关键节点反悔重试 使推理从单线变为图状结构 [44][53] 多模态数据影响 - 图文混排训练中生成模块产生的gradient噪声大且信息量低 可能破坏语义理解 [62] - 高质量多模态数据应确保图文强相关 避免无关数据导致模型confuse [63][64] - 视频数据蕴含丰富思维过程但清洗难度大 是扩展action space的重要方向 [65][66] 未来技术趋势 - 多模态GPT时刻预计1年内到来 需解决生成可控性和视觉空间推理问题 [68][69] - 当前long context方案存在注意力涣散问题 未来可能采用multi-agent分层记忆架构 [69][73][74] - 模型自主学习是ASI关键路径 需解决环境scaling和自然语言反馈利用问题 [78][80][82]
与Gemini Diffusion共振!首个扩散式「发散思维链」来了
机器之心· 2025-05-26 17:40
扩散式发散思维链技术突破 - 首次提出将反向扩散过程的每一步中间结果视为大模型的非线性思考步骤,通过基于结果的强化学习优化生成轨迹,最大化最终答案正确率[1] - 突破传统思维链(CoT)的线性生成限制,允许任意顺序生成且无需严格遵循语法结构,激发模型创造性推理[1] - 在连续时间扩散模型中直接优化得分函数策略分布,在离散时间模型中设计Plackett-Luce去掩码策略[2] - 成功训练有序掩码生成扩散语言模型LLaDOU,仅用16张H800显卡即超越现有扩散模型在数学推理和代码生成任务的表现[2] 技术实现原理 - 通过离散扩散过程建模文本分布,反向去噪时生成的中间结果序列构成发散思维链(DCoLT)[11] - 采用基于最终答案正确性的强化学习,对多步动作序列整体优化而不干预中间步骤[13] - 连续时间模型SEDD通过转移概率矩阵迭代计算,离散时间模型LLaDOU引入去掩码策略模块(UPM)实现有序生成[16][21] - UPM模块通过transformer层预测掩码得分,结合Plackett-Luce模型采样生成策略,计算量增幅小于1%[22][23] 性能验证数据 - SEDD模型在GSM8K-Aug数据集达到57%准确率,超越带CoT标注的DoT方法[30] - LLaDOU 8B在数学推理任务GSM8K和MATH分别取得88.1%和44.6%准确率,代码生成任务HumanEval和MBPP通过率59.1%和51.6%[32] - 性能超越Dream 7B、LLaDA 8B等扩散模型基线,接近DeepseekMath-RL 7B等微调后的自回归模型水平[32] 行业影响 - 证明自回归模型的线性token预测并非唯一范式,开辟非线性语言生成新路径[2] - 技术框架可应用于Gemini Diffusion等主流扩散语言模型,有望成为标准训练流程[3] - 实现从早期概念要素到完整回答的渐进式构建,更贴近人类发散思维特征[7][34]