Workflow
MindGPT
icon
搜索文档
李想:特斯拉V14也用了VLA相同的技术
自动驾驶之心· 2025-10-20 07:32
OpenAI人工智能五阶段定义 - 聊天机器人阶段的核心是基座模型,功能为压缩人类已知数字知识,类比人类从小学到大学的知识积累过程[19] - 推理者阶段具备思维链和连续性任务能力,依赖SFT和RLHF训练,类比人类读研或师傅带徒弟的经验传授[20][21] - 智能体阶段AI开始实际工作,能使用工具完成长任务,对专业性和可靠性要求极高,需达到80-90分合格标准,类比人类胜任专业岗位[22][23] - 创新者阶段通过出题解题进行强化训练,需要世界模型和RLAIF模拟真实环境,类比职业选手通过上万小时实战成为专家[25][26] - 组织者阶段负责管理大量智能体和创新,防止失控,类比企业管理者的角色[27] 算力需求与技术布局 - 未来5年推理算力需求可能扩大100倍,训练算力需求扩大10倍[29] - 不同阶段需要不同类型算力:智能体阶段主要需要推理算力,机器人设备需要端侧推理,世界模型阶段需要海量云端推理[28][29] - 公司自研技术包括推理模型(MindVLA/MindGPT)、智能体(司机Agent/理想同学Agent)和世界模型[31] - 2026年将为自动驾驶配备自研端侧芯片,实现车与AI深度融合[33] 机器人发展路径与训练方法论 - 机器人发展有两条路径:将现有工具改造为机器人(如自动驾驶车辆),或开发人形机器人操作万物[34][35] - 训练的核心目标是提高成功率,参考人类"一万小时"专业训练理念[36][38] - 专业训练聚焦三大能力:信息处理能力(筛选有效信息)、出题解题能力(定义和解决问题)、资源分配能力(优化有限资源使用)[39][40][41] 行业技术观察与应用实践 - 特斯拉FSD V14证明其采用与VLA相同技术,具备空间完整理解能力和长任务多任务处理能力[44] - 公司内部已实现全面AI化,特别是在VLA技术应用后[45] - 行业领先的AI工具应具备简洁干脆的对话风格,避免过多铺垫性内容[46] - AI资讯获取渠道包括关键账号订阅、B站UP主内容跟踪以及内部多领域研究团队每周同步会议[48]
李想: 特斯拉V14也用了VLA相同技术|25年10月18日B站图文版压缩版
理想TOP2· 2025-10-19 00:03
OpenAI人工智能五阶段定义 - 聊天机器人阶段的核心是基座模型,功能为压缩人类已知数字知识,类比人类从小学到大学的教育过程[13][14] - 推理者阶段具备思维链和连续性任务能力,依赖SFT和RLHF训练,类比人类读研或师傅带教的经验传授[15][16] - 智能体阶段AI开始实际工作并使用工具完成长任务,对专业性和可靠性要求极高,需达到80-90分合格标准[17][18] - 创新者阶段通过出题解题进行强化训练,需要世界模型和RLAIF模拟真实环境,类比职业选手上万小时实战训练[19][20] - 组织者阶段负责管理大量智能体和创新者,防止失控风险,类比企业管理者职能[21] 人工智能发展路径与算力需求 - 预训练基座模型不需要每家企业自研,类比不需要每家企业都开办大学[5][21] - 智能体阶段需要推理能力,机器人设备需要端侧推理,世界模型阶段需要海量云端推理建立数字孪生[6][22] - 未来5年推理算力需求可能扩大100倍,训练算力需求扩大10倍,端侧和云端算力需求都将显著增长[7][23] 理想汽车AI技术布局 - 公司自研技术包括推理模型(MindVLA/MindGPT)、智能体(司机Agent/理想同学Agent)和世界模型[8][24] - 2026年将为自动驾驶配备自研端侧芯片,实现车与AI深度融合[9][26] - V14证明特斯拉使用VLA相同技术,具备空间完整理解能力和长任务多任务处理能力[39] 机器人发展路径 - 机器人发展存在两条路径:将现有工具改造为机器人,或开发人形机器人操作万物[27][28] - 工具改造路径效率更高,如将炒菜工具直接机器人化而非使用人形机器人炒菜[27][28] 人类与AI的协同发展 - 训练目的为提高成功率,可参考一万小时训练理论,核心训练信息处理能力、出题解题能力和资源分配能力[9][32] - 人类需在AI遵循最佳实践训练背景下,要么理解并管理AI,要么与AI协同工作,否则面临被替代风险[30][37] - 信息处理能力训练重点在于识别关键信息并过滤无效信息,不同专业领域信息处理方式各异[33] - 资源分配能力训练关键在于有限资源的高效分配,人类大脑通过高效资源分配实现低功耗高效益[35][36] AI工具应用偏好 - 公司偏好使用Grok的对话方式,因其回答简单干脆,相较国内模型更直接利索[41] - 支持上班族使用AI撰写汇报,认为使用先进工具是人类与其他生物的最大区别[42]
理想基座模型负责人近期很满意的工作: RuscaRL
理想TOP2· 2025-10-03 17:55
文章核心观点 - 理想基座模型团队提出RuscaRL框架,旨在通过结合教育心理学的脚手架理论和量规学习,解决大语言模型在强化学习中面临的探索瓶颈问题,以提升模型的推理能力和智能上限 [1][2][8][12] - 该技术被视为一个体系性创新,其价值在于算法与基础设施的融合,而非单一算法的突破,有望同时受益于面向数字世界的MindGPT和物理世界的MindVLA [2][9] - 团队认为强化学习是大模型智能提升的关键,而当前的关键问题是如何让模型在更广泛的问题上实现能力泛化,其核心挑战在于奖励函数在非客观且结果难以准确量化的场景中的应用 [1][8] RuscaRL框架的技术原理 - 框架核心是引入“显性脚手架”机制,通过为每个任务提供包含不同评价标准的量规来指导模型生成响应,并采用组内差异化和跨步退化策略,逐步减少外部支持以促进模型独立推理 [12][14] - 框架采用“可验证奖励”机制,利用量规设计多维度评分标准,并借助大语言模型作为评判器来生成稳定可靠的奖励信号,以增强探索的多样性和训练稳定性 [13][15] - 该框架被类比为英伟达Eureka水准的工作,同属创建元框架来解决强化学习中的关键难题,但不同于DPO那种基础理论层面的突破,其贡献更偏向框架创新和应用成效 [6] 技术价值与行业定位 - 该工作被定位为探索前景广阔但不成熟领域的高水平工作,其价值体现在明确了强化学习领域的关键问题,并提供了创新且可应用的解决方案 [8][9] - 技术潜在瓶颈包括对人工设计的高质量量规依赖较高,以及因多次采样和复杂评估导致的较大训练量和计算开销 [16] - 创新被认为源于体系能力建设,智能体强化学习的关键问题已从单点算法突破转向算法与基础设施融合的体系性问题解决 [2][9]
理想汽车MoE+Sparse Attention高效结构解析
自动驾驶之心· 2025-08-27 07:32
理想汽车智驾技术架构 - 公司采用"MoE + Sparse Attention"高效结构解决大模型部署时的推理效率问题,通过混合专家架构实现模型容量扩容而不显著增加推理负担[3] - MindGPT大语言模型经过重新设计与预训练,具备3D空间理解和推理能力,但参数量增加导致端侧部署可能出现效率低下问题[3] - 该技术方案针对英伟达Thor-U智驾芯片优化,确保在车载计算平台上的实际应用性能[3] 稀疏注意力机制技术细节 - 采用局部窗口(Local Attention)与跳跃连接(Strided Attention)组合结构,每个token关注附近窗口内token(如前后2个位置)以及步长为s的远端token[9][10] - 注意力矩阵呈现对角线局部连接与分布条纹状跳跃连接相结合的模式,保证token能快速传播到远端同时保留局部建模能力[10][15][16] - 通过构建稀疏注意力mask实现计算优化,在不修改Transformer主体结构前提下限制注意力机制复杂度,仅关注关键输入部分[6][12][14] 混合专家架构实现方案 - 使用8个专家网络(E1-E8),由Router动态选择激活部分专家而非全部,仅在需要时调用相关子模型[6][22] - 采用Top-k路由策略(通常k=2),通过Gate模块计算输入样本对各个专家的偏好程度并选择最优专家[24][32] - 支持分布式部署模式,通过all_to_all通信机制实现跨GPU的专家网络数据交换与负载均衡[34][37] 计算复杂度优化 - 稀疏注意力机制显著降低计算复杂度,相比标准全连接Self-Attention大幅减少计算量[17] - MoE架构通过激活部分专家网络实现计算资源动态分配,在不增加推理成本前提下扩大模型容量[22][25] - 采用专家并行(Expert Parallelism)技术,支持多GPU分布式训练与推理,提升系统整体效率[28][31]