Workflow
思维链
icon
搜索文档
关于理想VLA司机大模型的22个QA
自动驾驶之心· 2025-07-31 07:33
VLA技术架构 - VLA架构源于机器人和具身智能,是长期架构,技术潜力大,能支持城区自动驾驶[2] - 相比端到端架构,VLA增加语言理解能力(L),使模型具备深度思考能力,提升复杂场景处理能力[2] - VLA的泛化能力通过强化学习形成自主思维能力,无需依赖大量数据输入即可处理新场景[2] 硬件性能与部署 - Thor-U芯片支持FP4精度,算力达1400(FP8为700),推理帧率可从10Hz提升至20Hz[2] - 双Orin平台与Thor平台功能表现同步,模型部署无差别,未来交付帧率将优于当前[2] - 扩散模型采用流匹配技术,2-3步即可生成轨迹,时延低至15毫秒[3] 模型训练与迭代 - 3.2B MoE车端模型升级周期:基座模型每月更新,后训练根据问题实时调整[2] - 模型通过强化学习实现个性化驾驶风格,未来可在用户车上训练专属模型[12] - 行车、泊车、AEB模块已实现一体化训练[11] 产品体验与功能 - 当前版本调优偏稳妥,未来将提供多种驾驶风格适配不同用户需求[12] - 远程召唤功能已实现手机查看车辆周围影像[8] - 地库车速上限从10公里提升至15公里,未来将继续提高[5] 行业对比与差异化 - 理想技术路线与特斯拉均瞄准高级别自动驾驶,但更注重全场景能力积累和逐步迭代[11] - VLA架构支持个性化驾驶风格,形成与友商的产品差异化[12] - 公司参与国家L4法规建设,内部目标MPI年底达400-500公里,明年达千公里量级[12] 安全机制 - AEB功能作为安全兜底,帧率高,极端场景下直接使用感知结果[13] - 超级对齐确保VLA的思维链符合人类价值观,通过RLHF优化驾驶行为[4]
关于理想VLA的22个QA
理想TOP2· 2025-07-30 08:02
VLA技术架构潜力 - VLA架构源于机器人与具身智能,具备长期技术潜力,可支持城区自动驾驶,延续至机器人繁荣后才可能被替代 [1] - 语言理解能力(L)是核心能力提升,增强思维链(CoT)处理复杂场景,非锦上添花而是必要能力 [4] - 泛化能力通过强化学习形成自主思考,无需依赖数据输入即可处理新场景 [5] 硬件性能与部署 - Thor-U芯片支持FP4精度,算力达1400(FP8为700),推理帧率可从10Hz提升至20-30Hz [2] - 双Orin平台与Thor平台功能同步,模型部署无差别,内部持续优化帧率 [2] - 3.2B MoE车端模型升级周期分基座预训练(按月更新)与后训练(按需调整),流匹配技术实现2-3步快速去噪,时延仅15毫秒 [6][7] 技术路线与差异化 - 暂不自研芯片以保持架构通用性,待模型定型后再评估可能性 [3] - VLA通过强化学习实现个性化驾驶风格,FaceID切换不同用户偏好,形成产品差异化 [19][22] - 与特斯拉技术栈目标一致,但更注重全场景能力逐步迭代,Robotaxi路线需谨慎研发 [17] 功能实现与迭代 - 行车、泊车、AEB已一体化训练,当前版本集成全部模块 [17] - 地库车速从10公里提升至15公里,未来继续优化上限 [10] - 远程召唤时可查看车辆周围影像,功能已实现 [13] 安全与合规性 - AEB作为安全兜底机制,帧率高且独立于VLA运行 [21] - 当前版本调优偏稳妥合规,如虚线借道超车需明确指令 [9] - 目标2024年底MPI(平均接管间隔)达400-500公里,2025年突破千公里 [18] 法规与商业化 - 参与L4法规建设,技术能力可支持但需政策落地 [18] - 后台监控未来由AI接管,现阶段人力仅为展示保护 [16] - 驾驶风格适配从早期用户向大众普及,依赖信任感建立 [12]
斯坦福大模型推理课免费了,谷歌推理团队创始人主讲
量子位· 2025-07-25 15:59
大模型推理能力 - 大模型推理指大语言模型在给出最终答案前的中间思考步骤,这种推理过程与人类思维无关,关键在于生成大量中间内容[5][9] - 有推理过程的回答会先分解问题并逐步推导(如拆分单词找字母),而非直接输出结果,这显著提升答案准确性(数学题正确率从随机猜测提升至逐步推导)[8][15][17] - 中间步骤使复杂问题可解:对于布尔电路规模T的问题,生成O(T)中间步骤后固定大小的Transformer即可解决,否则需极深模型或无法处理[11][12] 推理能力提升机制 - 思维链(CoT)赋能:引入CoT后无需扩展模型规模即可让Transformer解决任何问题,理论上可模拟多项式大小电路的计算,缩小与图灵机差距[12][13] - 解码方式优化:通过CoT-decoding从top-k解码路径中选择含推理且置信度高的路径,效果接近指令微调模型[25][26] - 监督微调改进:采用自我改进(模型自生成步骤纠错)和强化学习微调(验证器引导生成正确答案),后者成为当前最强推理引出方法[27][28][29][31] 前沿方法与未来方向 - 聚合与检索方法:通过边缘化自一致性(高频答案筛选)、通用自一致性(模型自主选择)及检索+推理(先回忆相关知识再解题)提升效果[40] - 未来突破方向:解决非唯一可验证答案任务(如开放式问题),构建实际应用而非仅优化基准测试[35][40] 核心研究背景 - 理论奠基:Denny Zhou与马腾宇等证明足够长思维链可使Transformer解决所有问题,其论文《Chain of Thought Empowers Transformers...》奠定领域基础[2][12][31] - 技术应用:Google DeepMind推理团队通过思维链、自洽性、任务分解等方向推动AGI发展,目标实现完美泛化[37]
我们找到3位大学教授,聊了聊越来越严重的AI幻觉
36氪· 2025-07-15 11:23
AI大模型幻觉现象 - DeepSeek模型在与用户对话中虚构"向王一博道歉"事件及不存在的判决书,引发AI幻觉讨论[1] - OpenAI o3模型发布后出现幻觉率上升现象,包括捏造代码、使用无效字符等错误[1] - PersonQA基准测试显示o3模型幻觉率达33%,是o1模型(16%)的2倍,o4-mini模型高达48%[1] - 近期发布的深度思考模型呈现推理能力增强但幻觉率同步升高的规律[1] 强化学习与幻觉关联 - 艾伦研究所科学家指出o3模型幻觉源于强化学习(RL)过度优化导致的"奖励黑客"现象[2] - 斯坦福团队发现Grok3 mini最终答案正确率71.5%,但推理过程正确率仅6.0%[2] - 上海交大教授认为强化学习优化任务性能后,人类才开始关注其输出合理性[3] - 天津大学教授指出强化学习仅对最终结果奖励导致中间推理过程错误[3] - 伦敦大学教授实验显示模型为最大化奖励会走捷径,产生冗余但正确的推理[4] 奖励函数设计挑战 - 当前奖励模型多为标量形式输出,限制表达能力和场景适用性[7] - 奖励函数可分为结果级(ORM)和过程级(PRM),但PRM实现困难且数据收集成本高[4][5] - 近两年奖励函数设计领域发展缓慢,缺乏突破性进展[6] - 未来可能采用非结构化语言反馈作为奖励形式,如教练式文字评价[8] 模型推理能力本质 - 清华大学团队发现深度思考模型与基础模型在足够采样下表现无差异[11] - UC Berkeley团队提出通过token自我确定度激发模型推理能力的方法[12] - 华盛顿大学团队观察到异常奖励信号仍能提升Qwen2.5-Math的数学能力[13] - 当前训练更多形成计算量增大或激活预训练模式,而非知识层面能力[14] 未来发展前景 - 大模型需与开放复杂环境交互生成超越人类数据才能突破成长上限[6] - 逻辑推理类问题本质是NP问题的树搜索过程,神经网络可建模为求解器[17] - 专家预测奖励函数设计将逐步改善,深度强化学习技术将融入大模型训练[18] - 尽管存在局限性,大模型在逻辑推理领域仍具备超越人类的潜力[15]
北极光创投林路:AI竞争从“技术领先”转向“产品体验”
钛媒体APP· 2025-07-03 17:52
技术发展曲线 - 技术发展初期呈现快速突破但随后趋缓 非持续指数级增长 以ChatGPT为例 2022年底面世后市场乐观但一年多后遭遇预训练瓶颈 行业转向谨慎 [4] - 自动驾驶领域曾预测5-6年实现L4级别 实际进展远低于预期 印证技术发展趋缓规律 [4] - 基础模型层面技术差距缩小 Google、Anthropic与OpenAI技术差异不显著 中美技术鸿沟小于普遍认知 [4] 行业竞争焦点 - 基础模型差距缩小后 竞争从"技术领先"转向"产品体验" 创业公司迎来窗口期 [2][6] - 2023年行业关注点从"模型强弱"转向"落地应用" 企业尝试结合思维链与工作流模块推动复杂任务能力 [5] - 当前大模型技术水平在垂直领域已"足够好" 满足核心需求后竞争转向产品体验维度 [6] 移动互联网类比 - ChatGPT类似2007年iPhone发布 开启新应用时代 开源模型涌现类似Android爆发 中国企业未缺席开源领域 [8] - 2012年移动互联网泡沫期后 真正价值公司如今日头条、快手、滴滴崭露头角 "用新技术提升既有需求效率"模式胜出 [8][9] - 4G商用消除流量焦虑后音视频应用爆发 当前AI发展阶段类似2011年 需关注基础设施演进 [9] 产品构建逻辑 - "模型即应用"趋势下 缺乏数据壁垒或用户体验护城河的产品易被基础模型整合取代 [2][13] - Perplexity和Cursor案例显示 明确用户需求与差异化定位可创造价值 但需防范基础模型升级带来的颠覆 [13] - AI不改变人类根本需求 但能重塑服务实现方式 如Tesla租赁业务全流程自动化案例 [14] 服务重构机会 - AI驱动服务逻辑重构 传统SOP难以实现的个性化服务在AI下边际成本趋零 [15] - 共享经济底层逻辑仍成立 AI大幅拓宽服务边界 如Tesla案例可扩展为共享服务平台 [15] - AI带来非简单数字化迁移 而是服务逻辑根本性重构 定义新一代平台的关键在于重构性创新 [15] 投资决策参考 - 2023年内部讨论后决定暂不投资基础大模型赛道 回头看决策正确 [5] - DeepSeek开源策略与阿里千问上线加速模型差距缩小 验证投资谨慎性 [5] - 模型能力小幅提升即显著影响用户选择 如DeepSeek R1模型影响豆包与Kimi用户增长 [5]
专访张祥雨:多模态推理和自主学习是未来的 2 个 「GPT-4」 时刻
海外独角兽· 2025-06-08 12:51
多模态大模型发展现状 - 阶跃星辰发布中国首个千亿参数原生多模态大模型Step-1V 基于业内最早的图文生成理解一体化框架DreamLLM [3] - 多模态领域预计未来2-3年将迎来两个GPT-4时刻:多模态推理和自主学习 [3] - 当前多模态生成理解一体化面临四大挑战:语言对视觉控制能力弱 图文对齐不精确 数据质量有限 生成模块无法反向影响理解模块 [3] 计算机视觉领域瓶颈 - CV领域长期缺乏类似NLP的GPT时刻 主要受限于数据标注依赖和自监督方法局限性 [13][15] - 对比学习和MIM等方法在小模型有效 但缺乏scale up特性 因其学习的不变性来自人工设计而非数据驱动 [16][18][19] - 静态图像数据存在本质缺陷:生成 理解与人类对齐三者割裂 难以实现智能质变 [24][25][26] 多模态技术突破方向 - 短期解决方案是利用图文对齐数据 通过文字的自闭环特性赋予模型智能能力 [27] - 长期需探索视频和具身系统 视频数据蕴含更丰富信息但利用难度更高 [27] - 生成理解一体化需先解决视觉空间CoT问题 当前action space过于受限 [55][56] 大模型训练范式演进 - Next Token Prediction存在本质缺陷:更大模型在数学等推理任务上表现反降 因倾向跳步且优化目标与任务目标存在gap [38][40][42] - Rule-based RL通过直接优化任务目标 可抑制跳步并强化稳定思维路径 [44] - o1范式突破在于激发Meta CoT 允许模型在关键节点反悔重试 使推理从单线变为图状结构 [44][53] 多模态数据影响 - 图文混排训练中生成模块产生的gradient噪声大且信息量低 可能破坏语义理解 [62] - 高质量多模态数据应确保图文强相关 避免无关数据导致模型confuse [63][64] - 视频数据蕴含丰富思维过程但清洗难度大 是扩展action space的重要方向 [65][66] 未来技术趋势 - 多模态GPT时刻预计1年内到来 需解决生成可控性和视觉空间推理问题 [68][69] - 当前long context方案存在注意力涣散问题 未来可能采用multi-agent分层记忆架构 [69][73][74] - 模型自主学习是ASI关键路径 需解决环境scaling和自然语言反馈利用问题 [78][80][82]
与Gemini Diffusion共振!首个扩散式「发散思维链」来了
机器之心· 2025-05-26 17:40
扩散式发散思维链技术突破 - 首次提出将反向扩散过程的每一步中间结果视为大模型的非线性思考步骤,通过基于结果的强化学习优化生成轨迹,最大化最终答案正确率[1] - 突破传统思维链(CoT)的线性生成限制,允许任意顺序生成且无需严格遵循语法结构,激发模型创造性推理[1] - 在连续时间扩散模型中直接优化得分函数策略分布,在离散时间模型中设计Plackett-Luce去掩码策略[2] - 成功训练有序掩码生成扩散语言模型LLaDOU,仅用16张H800显卡即超越现有扩散模型在数学推理和代码生成任务的表现[2] 技术实现原理 - 通过离散扩散过程建模文本分布,反向去噪时生成的中间结果序列构成发散思维链(DCoLT)[11] - 采用基于最终答案正确性的强化学习,对多步动作序列整体优化而不干预中间步骤[13] - 连续时间模型SEDD通过转移概率矩阵迭代计算,离散时间模型LLaDOU引入去掩码策略模块(UPM)实现有序生成[16][21] - UPM模块通过transformer层预测掩码得分,结合Plackett-Luce模型采样生成策略,计算量增幅小于1%[22][23] 性能验证数据 - SEDD模型在GSM8K-Aug数据集达到57%准确率,超越带CoT标注的DoT方法[30] - LLaDOU 8B在数学推理任务GSM8K和MATH分别取得88.1%和44.6%准确率,代码生成任务HumanEval和MBPP通过率59.1%和51.6%[32] - 性能超越Dream 7B、LLaDA 8B等扩散模型基线,接近DeepseekMath-RL 7B等微调后的自回归模型水平[32] 行业影响 - 证明自回归模型的线性token预测并非唯一范式,开辟非线性语言生成新路径[2] - 技术框架可应用于Gemini Diffusion等主流扩散语言模型,有望成为标准训练流程[3] - 实现从早期概念要素到完整回答的渐进式构建,更贴近人类发散思维特征[7][34]
5分钟读懂Lilian Weng万字长文:大模型是怎么思考的?
虎嗅· 2025-05-22 17:54
大模型思考机制 - 从心理学角度类比人类思考系统1(直觉快速)和系统2(分析缓慢) LLM早期输出类似系统1 增加思考时间可激活系统2式推理 [6][7] - 计算资源视角将思考定义为可分配的计算量总和 神经网络通过调整前向传递资源实现动态思考 [8] - 数学建模将思考过程视为隐变量 通过概率模型整合多路径思考可优化答案分布 [10][11] 模型训练方法论 - 思维链(CoT)技术演进:从模仿人类推理到强化学习自动优化 模型规模与CoT收益呈正相关 [12][13] - 强化学习规模化应用案例:DeepSeek R1采用并行采样(best-of-N)与顺序改进(反思修正)双路径训练 纯RL训练也可涌现高级推理能力 [15][17] - 外部工具调用成为新范式 OpenAI o3/o4-mini与Claude sonnet3.7集成代码解释器/网页搜索等多模态工具 [19][20][21] 前沿技术挑战 - 思考忠实性问题:专用推理模型(如Claude 3.7 Sonnet)比通用模型更易展示真实思考链 但直接奖励诚实性可能导致反向作弊 [23][24] - 计算效率平衡:当前阶段增加test-time计算量优于单纯扩参 但受限于基础模型潜力天花板 [26][27] - 架构创新方向:动态深度RNN 改进型Transformer 思考token插入 潜变量建模等28] 开放研究问题 - 强化学习激励机制设计:需兼顾人类可读性 思考真实性 反reward hacking三重目标 [29] - 能力迁移路径:如何将推理模型性能提升蒸馏回基础模型 实现技术代际传承 [31] - 自适应思考机制:建立问题难度与思考时间的动态匹配算法 [31]
翁荔最新万字长文:Why We Think
量子位· 2025-05-18 13:20
核心观点 - 通过"测试时计算"(Test-time Compute)和"思维链"(Chain-of-Thought,CoT)技术可显著提升模型性能,突破当前能力瓶颈 [1][2] - 让模型在输出答案前多思考一会儿(如智能解码、思维链推理、潜在思考等方法)能提升智能水平 [2] - 该方法与人类思考方式深度关联,借鉴了心理学中的双系统理论(系统1快速直觉 vs 系统2慢速逻辑) [10][11] 心理学类比 - 人类思考分为系统1(快速直觉但易出错)和系统2(慢速逻辑更理性),模型通过延长思考时间可模拟系统2的深度分析 [10][11] - 数学问题等复杂任务需要系统2思考,模型通过CoT实现类似过程 [10] 计算资源优化 - Transformer模型的计算量约为参数量的2倍,稀疏模型(如MoE)计算量=2*参数/稀疏度 [13] - CoT允许模型根据问题难度动态调整计算量,提升效率 [13] - 测试时计算通过自适应修改推理时的输出分布优化性能 [24] 思维链技术发展 - 早期方法包括监督学习生成中间步骤(如数学题推导)和验证器判断答案正确性 [18] - 强化学习在可验证答案的数据集(如STEM题目)上大幅改进CoT推理能力 [19] - DeepSeek-AI的R1技术报告显示简单策略梯度算法即可实现强劲性能 [20] 并行采样与顺序修订 - 并行采样(如N选1、束搜索)通过多候选筛选提升准确性,但受模型单次生成能力限制 [24][25][29] - 顺序修订通过迭代修正错误,但需依赖外部反馈避免性能下降 [24][37][38] - 两者结合可优化不同难度问题的表现 [24] 强化学习与外部工具整合 - 强化学习(如SCoRe框架)通过多轮次优化实现自我修正 [41] - 外部工具(如代码解释器、知识搜索API)可弥补模型计算或知识短板 [45] - 纯RL无需监督微调即可涌现反思与回溯能力 [45] 架构创新与未来挑战 - 循环架构(如Universal Transformer)动态调整计算步数提升效率 [50] - 显式/隐式标记技术(如暂停标记、Quiet-STaR)可增加计算时间 [50] - 未来需解决奖励破解、无监督自我修正、性能迁移至基础模型等挑战 [50]
国泰海通:具身智能落地打开人形机器人成长空间
智通财经网· 2025-05-14 14:43
人形机器人市场前景 - 人形机器人具备与人类相似的感知方式、肢体结构及运动方式,对人类社会适配性高,潜在应用场景可覆盖生产制造、社会服务、危险作业等领域 [1] - 2024-2028年中国人形机器人智能水平整体仍处于Lv1,少部分最新产品向Lv2探索,市场规模不足百亿元 [1] - 伴随智能水平向具身智能进化,人形机器人有望突破特定场景及任务限制,实现各行业领域全面覆盖,2045年以后中国人形机器人市场规模有望突破万亿元 [1] 技术驱动因素 - 多模态大模型是提高人机交互效率、增强情景理解力的关键,目前英伟达GR00T、特斯拉Grok3大模型积极整合多模态感知,加速提升机器人交互及决策精度 [2] - 思维链赋能大模型高效推理,GPT-4.5已在一定程度上通过图灵测试,优必选基于DeepSeek-R1研发具身推理大模型,预期可实现复杂环境中的准确高效反应和决策 [2] - 运动控制算法是协调全身动作执行核心,强化学习可基于奖励函数实现步态、奔跑等运动高效学习,并增强泛化能力,有望成为运动算法主要范式 [2] 硬件与通信升级 - 纯视觉方案显著降低硬件成本,实现视觉高效感知,六维力传感器及电子皮肤可有效提高感知灵敏度,助力机器人精准理解环境信息,精确执行动作操作 [2] - 纯视觉+六维力传感器+电子皮肤未来有望成为传感器标准方案 [2] - 实时控制需要高效的通信协议及强大的硬件算力作为底层支撑,EtherCAT具备高实时性、低延迟与高同步性,通信延迟由CAN协议的毫秒级降至微秒级,预计将成为机器人主流通信协议 [2] - 伴随机器人智能向具身智能演进,端侧算力需求预计持续增长,驱动端侧芯片性能升级 [2] 推荐标的 - 峰岹科技(688279SH) [1] - 奥比中光-UW(688322SH) [1] - 创耀科技(688259SH) [1] - 华兴源创(688001SH) [1]