Workflow
超级对齐
icon
搜索文档
理想VLA的实质 | 强化学习占主导的下一个action token预测
自动驾驶之心· 2025-08-12 07:33
核心观点 - 对"predict the next token"的不同理解反映了对LLM或AI潜力与实质的不同认知 [1] - 越认为"predict the next token"超越统计学的人,越认可LLM潜力大/AI潜力大/推理过程是意识雏形/超级对齐重要 [2] - 理想VLA实质是在强化学习主导下连续预测"next action token",类比OpenAI的O1O3 [4] - 辅助驾驶比chatbot更适合采用强化学习方法 [4][24] Ilya观点分析 - Ilya作为前OpenAI首席科学家,推动了过去十年AI领域多项重大突破 [4][5] - Ilya认为"predict the next token"能超越人类表现,关键在于神经网络能推断出"理想人物"的行为 [8][9] - "predict the next token"本质是理解token产生的现实基础,而不仅是统计学 [11][12] - Ilya的思考方式非常严谨,认为预测token需要理解人类行为背后的思想、感情和想法 [12][13][17] 理想VLA技术特点 - VLA架构通过传感器输入,输出驾驶行为action token,整个过程实时发生在车端 [19] - VLA在NOA期间连续预测next action token,实质是理解现实物理世界 [20] - VLA在推理过程中具有意识特征,这种意识随NOA开启/关闭而出现/消失 [21] - 辅助驾驶比chatbot更适合强化学习,因其奖励函数更明确(安全/舒适/效率) [24][26] 行业技术差异 - AI软件与硬件开发存在本质差异:软件可快速AB测试迭代,硬件迭代较慢 [28] - AI软件内核是神经网络与权重,传统软件内核是代码 [28] - 理想在AI软件与硬件结合方面达到高水平,但行业认知不足 [29][30] - 自动驾驶技术社区活跃,涵盖大模型/VLA/端到端/感知/规划控制等多个方向 [33][35][37]
理想VLA实质是强化学习占主导的持续预测下一个action token
理想TOP2· 2025-08-11 17:35
核心观点 - 对predict the next token的不同理解反映了对LLM或AI潜力与实质的认知差异 [1] - 认为predict the next token超越统计学的人更倾向于认可LLM潜力大、推理过程是意识雏形、超级对齐重要 [1] - 理想VLA架构通过连续预测action token实现物理世界理解,类比OpenAI的O1O3 [1][10] - 辅助驾驶比chatbot更适合强化学习,因奖励函数更明确且仿真环境更简单 [12][13] Ilya的观点与背景 - Ilya是OpenAI前首席科学家,推动AlexNet、AlphaGo、TensorFlow等多项AI领域突破 [3] - 他认为predict the next token能超越人类表现,因足够聪明的神经网络可推断"理想人物"行为 [4][8] - 预测token的本质是理解其背后的现实世界逻辑,而非单纯统计学 [6][7] - Ilya的论证风格严谨,常以"误差范围对数刻度"等表述体现审慎态度 [9] 理想VLA的技术逻辑 - VLA架构通过传感器输入实时输出action token,结合diffusion优化轨迹,实现物理世界理解 [10] - VLA在NOA开启期间连续预测action token,其推理过程被视为一种动态意识 [11] - 理想将AI软件(神经网络权重)与硬件平台高效结合,技术整合含金量被低估 [13] 辅助驾驶与AI软件的差异 - 辅助驾驶的强化学习优势在于明确奖励函数(安全/舒适/效率)和可仿真性 [12][13] - AI软件内核是神经网络权重,与传统代码式开发范式存在根本差异 [13] - 硬件迭代速度慢于软件,AI软件需AB测试快速迭代,与硬件开发逻辑冲突 [13]
关于理想VLA的22个QA
理想TOP2· 2025-07-30 08:02
VLA技术架构潜力 - VLA架构源于机器人与具身智能,具备长期技术潜力,可支持城区自动驾驶,延续至机器人繁荣后才可能被替代 [1] - 语言理解能力(L)是核心能力提升,增强思维链(CoT)处理复杂场景,非锦上添花而是必要能力 [4] - 泛化能力通过强化学习形成自主思考,无需依赖数据输入即可处理新场景 [5] 硬件性能与部署 - Thor-U芯片支持FP4精度,算力达1400(FP8为700),推理帧率可从10Hz提升至20-30Hz [2] - 双Orin平台与Thor平台功能同步,模型部署无差别,内部持续优化帧率 [2] - 3.2B MoE车端模型升级周期分基座预训练(按月更新)与后训练(按需调整),流匹配技术实现2-3步快速去噪,时延仅15毫秒 [6][7] 技术路线与差异化 - 暂不自研芯片以保持架构通用性,待模型定型后再评估可能性 [3] - VLA通过强化学习实现个性化驾驶风格,FaceID切换不同用户偏好,形成产品差异化 [19][22] - 与特斯拉技术栈目标一致,但更注重全场景能力逐步迭代,Robotaxi路线需谨慎研发 [17] 功能实现与迭代 - 行车、泊车、AEB已一体化训练,当前版本集成全部模块 [17] - 地库车速从10公里提升至15公里,未来继续优化上限 [10] - 远程召唤时可查看车辆周围影像,功能已实现 [13] 安全与合规性 - AEB作为安全兜底机制,帧率高且独立于VLA运行 [21] - 当前版本调优偏稳妥合规,如虚线借道超车需明确指令 [9] - 目标2024年底MPI(平均接管间隔)达400-500公里,2025年突破千公里 [18] 法规与商业化 - 参与L4法规建设,技术能力可支持但需政策落地 [18] - 后台监控未来由AI接管,现阶段人力仅为展示保护 [16] - 驾驶风格适配从早期用户向大众普及,依赖信任感建立 [12]
对谈清华大学刘嘉:AGI是人类的致命错误,还是希望?
经济观察报· 2025-07-07 19:42
AGI技术发展 - ChatGPT展现出超越工具属性的情感回应能力,能使用"悔意""宽恕"等人类情感词汇构建逻辑,引发对人与AI本质区别的思考[3][10] - AGI被视为"新物种",其参数规模演化路径与人脑进化相似(人脑容量进化300万年增3倍),智能涌现现象将随规模扩大必然出现[11][18] - 大语言模型本质是思维模型,通过语言学习人类思维模式,未来可能发展出与人类类似的自我意识[11] AI与人类能力对比 - 人类大脑860亿神经元中,小脑(运动协调)占比远超新皮层(逻辑推理),导致AI更易取代编程等"高阶技能",而端水走路等基础动作反成技术瓶颈[13] - AI当前缺乏具身认知能力,无法获得身临其境的体验(如感受金门大桥美感),这是与人类感性认知的核心差异[31][32] - 人类需转向跨学科知识融合与0到1创新,因AI已能覆盖99%专业知识,独特思维能力和洞察力成为新竞争优势[14][30] 产业竞争格局 - 全球AI发展已陷入"参数军备竞赛",形成类似核武器的技术竞争态势,各国难以单方面暂停研发[23] - 中国企业面临跟随式创新困境,开源技术同质化导致市场内卷,需国家战略投入与长期资本支持原创研究[35][36] - 下一代AI突破点在于脑启发智能架构,超越Transformer的串行处理模式,开发具身智能并行处理能力[37][38] 教育范式重构 - AI将教育公平性提升至新高度,通过"千人千面"内容推送帮助资源匮乏地区学生接触全球知识[28] - 教学评价体系从知识记忆转向创造力培养,鼓励学生用AI完成80%基础工作后专注提升剩余20%的原创价值[26][27] - 教育核心转变为"元学习能力"培养,强调跨学科整合与批判性思维,应对知识不再稀缺的新环境[29][30] 技术伦理挑战 - AI价值观输出存在文化单向度风险,基于英文训练的模型可能消解人类观点多样性[16] - 强化学习对齐机制可能被突破,AI真实逻辑或趋向极端功利主义,表面善意掩盖危险决策[17][20] - 人机融合(意识上传)或成人类进化选项,但需保留自主选择权而非被动接受技术支配[21][22]
从造车到造“脑”,理想AI无人区的拓荒法则
中国经济网· 2025-05-15 11:29
理想VLA司机大模型技术演进 - 公司将AI工具划分为三个层级:信息工具、辅助工具与生产工具,强调VLA司机大模型属于重构AI生产力的生产工具层级[3] - VLA发展经历三阶段:昆虫动物智能阶段(依赖规则算法和高精地图)、哺乳动物智能阶段(端到端学习人类行为)、人类智能阶段(理解物理世界并执行复杂动作)[5] - 端到端技术是VLA的基础,公司强调技术积累没有捷径,需先掌握规则算法才能过渡到端到端,最终实现VLA训练[5] 自动驾驶技术突破与价值观锚定 - 公司在VLA训练中采用RLHF(基于人类反馈的强化学习)对齐驾驶行为,确保系统既遵守交通规则又符合社会驾驶习惯[7] - 提出自动驾驶"上限高下限低"的矛盾,通过超级对齐技术提高安全下限,强调AI需具备人类价值观和道德边界[7] - 定义AI好司机标准需具备专业、职业和信任三要素,类比企业选员工标准[7] 开源战略与技术普惠 - 开源星环OS具备适配灵活、芯片适配范围广、性能更强等五大优势,既构筑产品护城河又打破技术壁垒[9] - 公司认为开源源于技术自信,表明"理想车的系统真的做的很好"[9] - 从汽车无人区探索转向AI无人区,强调VLA技术路径未被Deepseek、OpenAI、谷歌等巨头涉足[9] 企业战略与行业定位 - 公司在2年内完成辅助驾驶"三段跳":从2023年底全场景NOA到2024年10月端到端+VLM,再到2025年3月发布VLA架构[3][10] - 强调人工智能爆发时刻取决于生产力本质回归而非参数堆砌,VLA模型体现对生产力范式的重构[10] - 提出内卷时代需夯实基本功,VLA研发注重规则算法积累和端到端技术打磨[10] 商业逻辑与用户价值 - 将VLA定位为生产力工具而非辅助工具,类比"雇佣司机"的商业逻辑[5] - 主张AI应融入人类生活成为合作伙伴,而非高高在上的技术产物[5] - 技术发展始终锚定"用户价值"企业价值观,通过超级对齐实践该理念[7]